• 제목/요약/키워드: 속성기반 연관규칙

검색결과 32건 처리시간 0.023초

Neural Feature Association Rule을 이용한 효모 단백질-단백질 상호작용의 예측 (Prediction of Yeast Protein-Protein Interactions by Neural Feature Association Rule)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.277-279
    • /
    • 2005
  • 단백질들은 서로 다른 단백질들과 상호작용하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질들 간의 상호작용 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이터가 산출된 후게놈시대(post-genomic era)에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터들에서 속성들 간의 연관규칙 학습을 통해 잠재적 단백질 상호작용들을 예측하기 위한 연관규칙 기반의 상호작용 예측 방법을 제시한다. 단백질들 간의 상호작용 예측을 위해 고려되는 각 단백질의 다수의 속성차원은 정보이론 기반의 속성선택 알고리즘을 이용하여 효율적으로 줄이며 상호작용의 속성집합을 이용하여 신경망을 훈련시키고 이렇게 훈련된 신경망에서 속성들 간의 연관규칙을 디코딩하여 연관규칙 기반의 상호작용 예측에 활용한다. 연관속성 발굴을 통한 상호작용 예측을 위한 마이닝 방법으로는 연관규칙 발견 알고리즘을 사용하였으며 예측 정확도를 높이기 위하여 신경망 예측 모델의 학습 결과를 디코딩한 규칙들이 추가적으로 사용하였다. 논문에서 제안한 방법을 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 평균 약 $94.5\%$의 예측 정확도를 보였다.

  • PDF

상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝 (Mining Quantitative Association Rules using Commercial Data Mining Tools)

  • 강공미;문양세;최훈영;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.97-111
    • /
    • 2008
  • 상용 데이타 마이닝 도구에서는 기본적으로 이진 속성에 대한 연관규칙 마이닝만을 지원한다. 그러나, 일반적인 트랜잭션 데이타베이스는 이진 속성 뿐 아니라 정량적 속성을 포함한다. 이에 따라, 본 논문에서는 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 마이닝하는 체계적인 접근법을 제안한다. 이를 위해, 우선 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 찾아내기 위한 전체적인 프레임워크를 제안한다. 제안한 프레임워크는 정량적 속성을 이진 속성으로 변환하는 전처리 과정과 마이닝된 이진 연관규칙을 다시 정량적 연관규칙으로 변환하는 후처리 과정으로 구성된다. 다음으로, 전처리 과정을 위한 구간 분할의 개념을 제시하고, 기존의 평균 및 중앙치 기반 양분할 기법과 동일 너비 및 동일 깊이 기반 다분할 기법을 구간 분할의 개념으로 정형적으로 재정의한다. 그런데, 이들 기존 분할 기법은 속성 값의 분포를 고려하지 않은 문제점이 있다. 본 논문에서는 이를 해결하기 위하여 표준편차 최소화 기법을 제안한다. 표준편차 최소화 기법은 이웃한 속성 값의 표준편차 변화가 작다면 동일한 구간에 포함시키고, 표준편차 변화가 크다면 다른 구간으로 분할하는 매우 직관적인 분할 기법이다. 또한, 후처리 과정으로는 이진 연관규칙들을 통합하고 이를 다시 정량적 연관규칙으로 변환하는 방법을 제안한다. 마지막으로, 다양한 실험을 통하여 제안한 프레임워크가 바르게 동작함을 보이고, 표준편차 최소화 기법이 다른 기법에 비하여 우수함을 입증한다. 이 같은 결과를 볼 때, 제안한 프레임워크는 일반 사용자가 상용 데이타 마아닝 도구를 사용하여 정량적 연간규칙을 쉽게 마이닝 할 수 있는 매우 실용적인 접근법이라 생각한다.

과실 생산량과 기상요소간의 연관분석 마이닝 (Association rule Mining between Climate factors and Fruits yields)

  • 우종선;;류근호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.23-25
    • /
    • 2016
  • 이 논문에서는 기후조건과 농업 생산량을 포함하는 농업/기상 데이터에 데이터 마이닝의 연관규칙 기법을 적용하여 농업 생산의 기반이 되는 기후요인들과 생산량 간의 연관성을 분석하고자 한다. 기후 속성들의 값을 포함하고 있는 기상청 기후 데이터와 농업 생산량을 포함하는 통계청의 데이터를 통합 한 후 기후 속성들의 값을 이산화 하여 연관규칙 기법을 적용한다. 실험 결과 각 기후요소들과 생산량 간의 연관 규칙을 표현 할 수 있었다. 이를 통해 기후조건 변화에 따른 농업생산기반 취약성을 예방하는 지표를 마련하고 농업 생산성 향상에 기여 할 수 있을 것으로 기대한다.

  • PDF

최적 연관 속성 규칙을 이용한 비명시적 단백질 상호작용의 예측 (Prediction of Implicit Protein - Protein Interaction Using Optimal Associative Feature Rule)

  • 엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2006
  • 단백질들은 서로 다른 단백질들과 상호작용 하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질 상호작용의 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이타가 산출되고 있는 현(現) 게놈시대에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모(Saccharomyces cerevisiae)에 대해 공개되어있는 단백질 상호작용 데이타들에서 속성들 간의 연관을 통해 유추 가능한 잠재적 단백질 상호작용들을 예측하기 위한 연관속성 마이닝 방법을 제시한다. 단백질의 속성들 중 연속값을 가지는 속성값들은 최대상호 의존성에 기반을 두어 이산화 하였으며, 정보이론기반 속성선택 알고리즘을 사용하여 단백질들 간의 상호작용 예측을 위해 고려되는 단백질의 속성(attribute) 수 증가에 따른 속성차원문제를 극복하도록 하였다. 속성들 간의 연관성 발견은 데이타마이닝 분야에서 사용되는 연관규칙 발견(association rule discovery) 방법을 사용하였다 논문에서 제안한 방법은 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 최대 약 96.5%의 예측 정확도를 보였으며 속성필터링을 통하여 속성필터링을 하지 않는 기존의 방법에 비해 최대 약 29.4% 연관규칙 발견속도 향상을 보였다.

캘린더 패턴 기반의 시간 연관적 분류 기법 (Temporal Associative Classification based on Calendar Patterns)

  • 이헌규;노기용;서성보;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.567-584
    • /
    • 2005
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 시간 속성을 가진 데이타로부터 이전에 잘 알려지지는 않았지만 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술이다. 대표적 데이타마이닝 기법인 연관규칙과 분류기법은 실세계의 여러 응용분야에서 사용된다. 그러나 대부분의 데이타가 시간 속성을 포함함에도 불구하고 기존의 기법들은 시간 속성을 고려하지 않고 주로 정적인 데이타에 대한 지식 탐사만이 진행되었다. 그리고 시간 데이타에 대한 데이타마이닝 연구들은 데이타의 발생시점과 시간 제약조건을 추가한 지식 탐사에 중점을 두고 있어 데이타가 포함한 시간 의미나 시간 관계를 탐사하는데 부족하였다. 이 논문에서는 시간 클래스 연관규칙에 기반한 시간 연관적 분류기법을 제안한다. 이 기법은 분류규칙 생성을 위해서 연관적 분류에 시간 차원을 포함하여 확장한 시간 클래스 연관규칙에 의해 탐사된 규칙들을 적용하는 것이다. 그러므로 이 기법은 기존의 분류 기법들에 비해 더 유용한 지식탐사가 가능하다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

PHR 기반 개인 맞춤형 건강정보 탐사 알고리즘 설계 (Design of knowledge search algorithm for PHR based personalized health information system)

  • 신문선
    • 디지털융복합연구
    • /
    • 제15권4호
    • /
    • pp.191-198
    • /
    • 2017
  • PHR(Personal Health Record)기반 헬스케어 서비스 플랫폼 지능화를 위해서는 사용자 맞춤형 건강정보 제공서비스가 필요하다. 본 논문에서는 개인 맞춤형 건강정보 추천을 위해서 온톨로지 기반 건강 정보 모델을 제안하였다. 또한 기계학습과 데이터마이닝 기법을 적용한 유사 건강정보 탐사 알고리즘을 설계하였다. 기존의 데이터마이닝 기법중 연관규칙 알고리즘을 확장하여 속성을 기반으로 연관규칙 탐사를 수행하여 지식탐사의 연관성을 높이고 효율적인 탐사시간을 제공할 수 있도록 하였다. 머신러닝의 한 기법인 K근접이웃 알고리즘을 적용하여 사용자 프로파일별 그룹화를 수행하고 유사패턴의 사용자 프로파일을 검색할 수 있도록 하였다. 이는 사용자의 질환과 건강상태에 따른 맞춤형 건강정보 탐사 수행의 효율성을 높인다. 제안된 알고리즘은 개인 맞춤형 헬스케어 서비스 플랫폼에서 추론과정에 적용되어 사용자에게 개인맞춤형건강정보를 추천하는 것을 가능하게 한다. 이는 고령화사회에서 스마트한 자가 건강관리에 활용될 수 있다.

GML 데이터에서 연관규칙 추출 (Association Rules Extraction from GML Data)

  • 김의찬;황병연
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2005년도 추계학술대회
    • /
    • pp.55-60
    • /
    • 2005
  • 지리 공간 정보에 대한 관심 증가와 더불어 활용 분야도 다양해지고 있다. OGC(Open GIS Consortium)에서는 XML(extensible Markup Language)을 GIS 분야에 도입한 GML(Geography Markup Language)을 개발하였으며 여러 활용 분야에서 GML을 사용하고 계속적으로 연구되고 있다. 본 연구에서는 기존의 XML 문서를 기반으로 연구되었던 데이터 마이닝 방법 중 하나인 연관규칙을 GML 데이터에 사용하여 의미 있는 규칙을 찾아내려 한다. 규칙을 찾는 방법에는 2가지가 있을 수 있는데 하나는 GML 데이터의 내용만을 뽑아내어 그에 따른 규칙을 찾아내는 방법이고, 다른 하나는 사용된 태그와 속성을 기반으로 규칙을 찾아내는 방법이다. 본 연구에서는 2가지 방법을 통해 규칙을 찾는 것에 대하여 기술할 것이다. 본 연구를 바탕으로 GML문서를 사용하는 여러 분야에서 기본 정보뿐만 아니라 함축적이고 의미 있는 정보도 얻어 낼 수 있을 것으로 기대한다.

  • PDF

내용 기반의 멀티미디어 데이터 연관규칙 마이닝에 대한 연구 (A Study on Data Association-Rules Mining of Content-Based Multimedia)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.57-64
    • /
    • 2002
  • 컴퓨터 처리기술과 저장기술 그리고 인터넷 등의 영향으로 멀티미디어 데이터의 양은 급속하게 증가하지만 체계적인 멀티미디어 데이터간의 연관규칙을 마이닝하는 연구는 초기 단계이다. 본 논문은 이미지 프로세싱 분야 및 내용기반 이미지 검색에 대한 기존 연구를 바탕으로 대형 영상 데이터 저장소에 저장된 이미지 데이터에서 재생성되는 항목간의 연관규칙을 찾으며 공간적 관계로 내용기반의 연관규칙을 마이닝하는 알고리즘을 제안한다. 제안된 연관규칙 탐색 알고리즘은 이미지의 색상, 질감, 모양 등 내용기반의 영상속성을 오브젝트 항목으로 하고 오브젝트가 이미지에서 재생성될 때를 이용하여 이미지간의 연관규칙을 찾고 오브젝트들이 이미지에서 차지하고 있는 공간적 위치관계를 통해 드러나지 않는 이미지간의 연관규칙을 마이닝한다. 본 논문의 재생성 항목을 고려한 연관규칙 알고리즘은 Apriori 알고리즘보다 빈번한 항목 집합을 찾아내는데 더 높은 성능을 갖는다는 것을 실험을 통하여 보여준다. 제안된 알고리즘은 동일한 정보원으로부터 받은 멀티미디어 데이터간의 연관성을 탐색하는데 특히 효과적이며 다양한 관련 응용분야에 적용할 수 있다.

시간 속성을 갖는 이벤트 집합에서 인터벌 연관 규칙 마이닝 기법 (A Method for Mining Interval Event Association Rules from a Set of Events Having Time Property)

  • 한대영;김대인;김재인;나철수;황부현
    • 정보처리학회논문지D
    • /
    • 제16D권2호
    • /
    • pp.185-190
    • /
    • 2009
  • 시간 속성을 갖는 이벤트 집합에서 동일한 이벤트 타입에 대한 이벤트 시퀀스는 하나의 이벤트로 요약될 수 있다. 그러나 정의된 시간 간격이 경과된 후 발생된 이벤트 타입은 하나 이상의 독립된 서브 이벤트 시퀀스로 요약하는 것이 바람직하다. 본 논문은 Allen의 시간 관계 대수에 기반하여 인터벌 이벤트를 요약하고, 요약된 인터벌 이벤트들로부터 인터벌 연관 규칙을 찾아내는 새로운 시간 데이터 마이닝 기법을 제안한다. 제안하는 기법은 독립적인 서브 시퀀스 개념을 도입하고 인터벌 이벤트 사이의 연관 규칙을 탐사함으로써 질적으로 우수한 정보를 제공한다.