• 제목/요약/키워드: 데이타마이닝

검색결과 106건 처리시간 0.024초

서열 데이타마이닝을 통한 단백질 서열 예측기법 (A Protein Sequence Prediction Method by Mining Sequence Data)

  • 조순이;이도헌;조광휘;원용관;김병기
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.261-266
    • /
    • 2003
  • 단백질은 아미노산의 선형 중합체(linear polymer)로서 생체의 조직을 구성하고 각종 생화학 반응을 조절하는 역할을 하는 가장 중요한 생체 분자에 속한다. 이러한 단백질의 특성과 기능은 해당 단백질을 구성하는 아미노산의 서열에 의해 결정되기 때문에, 주어진 단백질의 서열을 알아내는 것은 단백질 기능 연구의 출발점이다. 본 논문은 기존의 생화학적 단백질 서열 결정 방법의 단점을 극복할 수 있는 데이터 마이닝 기반 단백질 서열 예측 기법을 제안한다. 복수개의 단백질 절단효소(protease)를 적용함으로써, 서로 중첩된 단백질 조각을 얻어내고, 각 조각의 질량 정보와 단백질 데이타베이스를 이용하여 후보 서열을 식별한다. 얻어진 후보 서열의 조립을 통해 전체 서열을 결정하기 위한, 다중 분할 그래프(multi-partite graph) 구축 및 경로 탐색 기법을 제안한다. 아울러, 대표적인 단백질 서열 데이타베이스인 SWISS-PROT을 이용한 실험을 통해 제안한 방법의 성능을 평가한다.

SuffixSpan: 순차패턴 마이닝을 위한 형식적 접근방법 (SuffixSpan: A Formal Approach For Mining Sequential Patterns)

  • 조동영
    • 컴퓨터교육학회논문지
    • /
    • 제5권4호
    • /
    • pp.53-60
    • /
    • 2002
  • GSP와 같은 Apriori-like 순차패턴 마이닝 방법들은 마이닝 과정에서 많은 후보패턴들을 생성하고, 대용량 데이타베이스의 반복적인 탐색을 필요로 하는 문제점이 있다. 그리고 후보패턴들의 탐색공간을 줄이기 위해 단계별로 프레픽스-프로젝티드 (prefix-projected) 데이터베이스를 구성하는 PrefixSpan 방법은 탐색공간을 줄이지만 프로젝티드 데이터베이스의 구성비용이 문제가 된다. 효율적인 순차패턴 마이닝을 위해서는 후보패턴의 생성비용과 탐색공간을 모두 줄여야 한다. 본 논문에서는 이를 위한 새로운 순차패턴 마이닝 방법인 SuffixSpan(Suffix checked Sequential Pattern mining)을 설명하고, 이에 대한 형식적 접근을 보인다.

  • PDF

다양한 공간객체의 데이터 마이닝을 위한 공간 클러스터링 기법의 설계 (Design of Spatial Clustering Method for Data Mining of Various Spatial Objects)

  • 문상호;최진오;김진덕
    • 한국정보통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.955-959
    • /
    • 2004
  • 공간 데이터 마이닝을 위한 기존의 클러스터링 기법들은 점 객체만을 대상으로 한다. 즉, 선이나 면 같은 다양한 공간 객체들을 지원하지 못한다. 이것은 클러스터링 과정에서 객체들 간의 거리 계산에 있어서, 점 객체는 용이하지만 선과 면인 경우에는 어렵기 때문이다. 본 논문에서는 이러한 문제점을 해결하기 위하여 균등 격자를 이용한 클러스터링 기법을 설계한다. 세부적으로 이 기법에서는 다각형 객체들 간의 거리 계산을 균등 격자를 이용하여 단순화시킴으로서 거리 계산에 따른 시간과 비용을 줄일 수 있다.

퀀터티가 있는 순차 패턴을 찾는 깊이 우선 탐색 알고리즘 (An Efficient Depth First Algorithm for Mining Sequential Patterns with Quantities)

  • 김철연;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.13-15
    • /
    • 2004
  • 순차 패턴을 찾는 것은 데이타 마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 Apriori-QSP에서는 새롭게 퀀터티 정보에 대한 처리의 개념을 도입하였다. 전채 순차 패턴을 찾는 알고리즘들은 너비 우선 탐색과 깊이 우선 탐색 기법으로 분류할 수 있는데, 이러한 분류에서 Apriori-QSP알고리즘은 너비 우선 탐색 기법으로 분류할 수 있다. 본 논문에서는 퀀터티 정보를 처리하는 깊이 우선 탐색 기법을 제안하였다. Apriori-QSP에서 제안되었던 후보패턴 생성에 대한 필터링파 샘플링 기법을 깊이 우선 탐색의 탐색 기법으로 적용하였으며, 다양한 실험 결과들이 깊이 우선 탐색에서도 이러한 기법이 효율적임을 보여 주고 있다. 또한 길이가 긴 순차 패턴 마이닝의 경우 너비우선 탐색에 비해 향상된 성능을 보임을 확인하였다.

  • PDF

Analytical CRM에서의 Data Mining (자동차 산업 사례중심으로)

  • 이혜청
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.172-182
    • /
    • 2001
  • 재구매 가능성이 많은 고객을 세분화 하여 재구매 가능성이 많은 고객과, 그 고객의 정보를 제공함으로써 영업의 효율성을 도모하고자 함. 차종별 가망고객을 분석하여 New Car가 개발 되었을 때 차별적인 마케팅 활동을 수행하고자 함. 기존과 차별화 된 마케팅 전략을 적용하기 위해 대상자 선정하는 작업을 데이터 마이닝 기법을 적용함. (중략)

  • PDF

균등 격자를 이용한 공간 클러스터링 기법의 성능 평가 (Performance Evaluation of Spatial Clustering Method using Regular Grid)

  • 문상호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.468-471
    • /
    • 2003
  • 본 논문에서는 기존 연구에서 제시된 균등 격자를 이용한 공간 클러스터링 기법의 효율성을 검증하기 위한 성능 평가를 수행한다. 세부적으로 다양한 분포 형태를 가지는 실험데이타들을 대상으로 먼저 객체 수의 변화에 따른 수행 시간을 비교한다. 그리고 동일한 실험데이타를 대상으로 임계값의 변화에 따른 실험 평가를 수행한다. 또한, 각 실험 결과에 대하여 전체 수행 시간을 기준으로 클러스터 생성 알고리즘과 클러스터 합병 알고리즘에 대한 상대적인 비교를 평가한다.

  • PDF

그래프 이론 기반의 단백질-단백질 상호작용 데이타 분석을 위한 시스템 (An Analysis System for Protein-Protein Interaction Data Based on Graph Theory)

  • 진희정;윤지현;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권5호
    • /
    • pp.267-281
    • /
    • 2006
  • 단백질-단백질 상호작용(PPI : Protein-Protein Interaction) 데이타는 생물체가 어떠한 메커니즘으로 생명을 유지하는지에 대한 정보를 담고 있다. 질병 연구나 신약 연구를 위해서 PPI 데이타를 이용한 많은 연구들이 이루어지고 있다. 이러한 PPI 데이타의 크기는 Yeast-two-hybrid, Mass spectrometry과 Correlated mRNh expression과 같은 방법들로 인하여 점차 그 증가량이 커지고 있다. 따라서 단백질-단백질 상호작용 데이타의 방대한 양과 복잡한 구조로 인하여 사람이 직접 분석하는 것은 불가능하다. 다행히도 PPI 데이타는 단백질은 노드로, 상호작용은 에지로 표현함으로써 전산학의 그래프 구조로 추상화될 수 있다. 본 논문에서는 방대한 단백질-단백질 상호작용 데이타를 연구자가 다양한 방법으로 손쉽게 분석할 수 있는 워크벤치(workbench) 시스템인 Proteinca (PROTEin INteraction CAbaret)에 대하여 소개한다. Proteinca는 다앙한 데이타베이스의 PPI 데이타를 그래프이론 기반의 분석 기능들을 제공하며, 그래프로 가시화하여 사용자가 직관적으로 이해할 수 있도록 도와준다. 또한, 중력 모델 기반의 간략화 방법을 제공하여 사용자에게 중요 단백질 중심의 가시화를 제공한다.

Prefix-Tree를 이용한 높은 유틸리티 패턴 마이닝 기법 (High Utility Pattern Mining using a Prefix-Tree)

  • 정병수;아메드 파한;이인기;용환승
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권5호
    • /
    • pp.341-351
    • /
    • 2009
  • 유틸리티 패턴 마이닝은 데이터 항목에 대한 다른 가중치를 고려할 수 있는 장점으로 인하여 비즈니스 데이터를 분석하는 환경에서 효율적으로 이용되고 있다. 그러나 기존의 빈발 패턴(Frequent Pattern) 마이닝에서의 Apriori 규칙을 그대로 적용하기 어려운 문제점으로 인하여 패턴 마이닝의 성능이 현저하게 떨어지고 있다. 본 연구는 Prefix-tree를 이용하여 지속적으로 증가하는 비즈니스 트랜잭션 데이터베이스에 대한 유틸리티 패턴 마이닝을 효과적으로 수행하기 위한 기법을 제안한다. 제안하는 기법은 Prefix-tree의 각 항목 노드에 유틸리티 값을 저장하여 FP-Growth 알고리즘에서와 같이 트리의 상향 탐색을 통하여 높은 유틸리티 패턴을 빠르게 찾아낸다. 여러 형태의 실험을 통하여 이용할 수 있는 세가지 다른 Prefix-tree 구조들 간의 성능적 특징과 패턴 탐색의 방법들을 비교하였으며 실험 결과에 따라 제안하는 기법이 기존의 기법들에 비해 많은 성능 향상을 가져올 수 있는 것을 입증하였다.

협동적 여과에서의 희소성 문제 해결을 위한 데이타 블러링 기법 (Data BILuring Method for Solving Sparseness Problem in Collaborative Filtering)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권6호
    • /
    • pp.542-553
    • /
    • 2005
  • 추천 시스템은 사용자의 선호도를 분석하고, 아이템에 대한 사용자의 선호도를 예측하여 아이템을 추천하는 시스템이다. 다양한 추천 기법 중에 협동적 여과(collaborative filtering)는 상용화된 시스템에성공적인 적용이 이루어진 기법이다. 그러나 협동적 여과는 데이타의 희소성 문제(sparseness problem)와초기 추천 문제(cold-start problem)에 대해 취약점을 가 고 있다. 만약 매우 적은 양외 선호도 데이타가존재하면 많은 유사 사용자를 찾기 어려우며, 이것은 추천 성능을 저하시키는 요인으로 작용한다. 또한 선호도 정보가 없는 새로운 사용자에게는 아이템을 전혀 추천할 수 없는 문제가 발생한다. 본 논문에서는 사용자와 아이템에 대한 추가 속성 정보를 통합하여 협동적 여과의 희소성 문제와 초기 추천 문제를 해결하 고 추천 성능을 향상시키는 기법을 제안한다. 본 논문에서 제안하는 기법은 추가 속성 정보의 확률분포를 이용하여 알려지지 않은 선호도 값을 예측함으로써 선호도 데이타를 변경 고, 변경된 선호도 데이타에 협동적 여과를 적용하여 top-N 추천을 생성하는 것이다. 이와 같은 선호도 데이타 변경 기법을 데이타 블러링(data blurring)이라 한다. 몇 가지 실험 결과를 통해 제안된 기법의 효과를 확인하였다.

다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 마이닝 (Web Mining Using Fuzzy Integration of Multiple Structure Adaptive Self-Organizing Maps)

  • 김경중;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권1호
    • /
    • pp.61-70
    • /
    • 2004
  • 폭발적으로 성장하고 있는 웹은 수백만 개의 웹 문서를 포함하고 있기 때문에, 적절한 웹사이트를 찾기 어렵다. 사용자 프로파일을 사용하여 적절한 웹사이트를 추천함으로써 웹의 탐색을 개인화 할 수도 있지만 웹 컨텐츠에 대한 사용자의 평가는 사용자의 성격에 관한 다양한 측면을 표현하므로 사용자의 선호도를 예측하기 위해서는 보다 효과적인 방법이 필요하다. 사용자 프로파일은 비선형적인 특성을 가지고 있으므로 분류기를 사용하여 예측하여야 하며 다양한 특성을 예측하기 위해 분류기의 결합이 필요하다. 패턴분류와 시각화에 유용한 구조적응 자기구성지도(SASOM)는 개선된 SOM 모델로서 웹 마이닝에 적절하다. 퍼지 적분은 주관적으로 정의된 분류기의 중요도를 이용하여 결합하는 방법이다. 본 논문에서는 독립적으로 학습된 SASOM의 퍼지적분(fuzzy integral)기반 결합을 이용하여 사용자의 프로파일을 예측하고 UCI 벤치마크 데이타인 Syskill & Webert 데이타를 사용하여 그 성능을 평가한다. 실험결과 제안한 방법이 기존의 naive Bayes 분류기뿐만 아니라 SASOM의 투표결합보다 우수한 성능을 보였다.