• 제목/요약/키워드: 출현 패턴 마이닝

검색결과 18건 처리시간 0.033초

Safe와 Non-safe 전력 부하 라인 분석을 위한 TFP트리 기반의 점진적 출현패턴 마이닝 (TFP tree-based Incremental Emerging Patterns Mining for Analysis of Safe and Non-safe Power Load Lines)

  • 이종범;박명호;류근호
    • Spatial Information Research
    • /
    • 제19권2호
    • /
    • pp.71-76
    • /
    • 2011
  • 본 논문에서는 특정 지역의 전력 소비 데이터를 이용하여 safe와 non-safe 전력 부하 라인의 차이를 분석하여 정의하고, 출현패턴을 사용하여 잠재되어 있는 non-safe라인을 식별하기 위하여 제한된 메모리에서 효율적으로 패턴을 찾을 수 있는 TFP-tree 기반의 점진적 출현패턴 마이닝 알고리즘을 제안한다. 특히, 두 개의 다른 최소 지지도 값을 사용하여 전력 소비 데이터와 같은 대용량 데이터에서의 마이닝 문제를 해결한다.

심근허혈 심전도 신호의 자동화된 예측을 위한 출현 패턴 마이닝 기반의 분류 방법 (An Emerging Pattern Mining based Classification Method for Automated Prediction of Myocardial Ischemia ECG Signals)

  • 이헌규;박명호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.19-22
    • /
    • 2008
  • 최근 서구화된 식생활 패턴과 흡연, 비만 등의 원인으로 인해 심근경색, 협심증과 같은 심근허혈(myocardial ischemia) 질환이 급증하고 있다. 이 논문에서는 심전도 신호로부터 허혈성 심장 질환 진단을 위해 출현 패턴 마이닝을 이용하여 심근경색 및 협심증의 진단 신호인 ischemia beat를 분류 하였다. 또한 기존의 출현 패턴 마이닝에 빠른 패턴 탐사와 저장 공간의 효율성을 고려하여 Apriori-T 빈발 패턴 탐사 알고리즘을 출현 패턴 생성이 가능하도록 확장하였다. PhysioNet의 ST-T 데이터베이스로부터 138개의 대조군(정상)과 ischemia beat 데이터에 제안된 분류 알고리즘을 실험한 결과 최소 75% 및 최대 95%의 예측 정확도를 보였다.

EPs-TFP 마이닝 기법을 이용한 단백질 Disorder/Order 지역 분류 (Protein Disorder/Order Region Classification Using EPs-TFP Mining Method)

  • 이헌규;신용호
    • 한국산업정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.59-72
    • /
    • 2012
  • 단백질은 서열의 disorder 구역이 생물학적 반응을 일으켜 order로 변하는 과정에서 그 기능을 하게 되므로 서열 데이터에서 disorder 구역과 order 구역을 분리하는 것은 단백질의 3차 구조 및 특성을 예측하는데 반드시 필요하다. 따라서 이 논문에서는 효율적인 disorder와 order 구역 분류를 위해서 단백질의 특정 특징에 치우치지 않는 분류 결과를 얻으면서, 분류 속도를 향상 시킬 수 있도록 서열 데이터를 이용한 분류/예측 기법을 제안한다. 출현패턴 기반의 EPs-TFP 기법은 중복 출현패턴이 제거된 필수 출현패턴만을 이용하는 분류/예측 기법이다. 이 분류 기법은 disorder 구역의 서열 출현패턴들을 발견하며, 이러한 서열 출현패턴은 disorder 구역에서는 빈발하지만 order 구역에서는 상대적으로 빈발하지 않는 패턴들이다. 또한 제안 알고리즘의 성능 향상을 위해서 기존의 P-tree, T-tree 개념의 TFP 기법을 확장하여 분류/예측 기법으로 적용하였다. EPs-TFP 기법의 성능평가를 위해서 Disprot 4.9와 CASP 7 데이터를 활용하였고, disorder/order 구역을 분류한 결과, 민감도 73.6, 특이도 69.5, 정확도 74.2를 보였다.

기대치-최대화 군집 알고리즘과 출현 패턴 마이닝을 이용한 전력 소비 패턴 분석 (Power Consumption Patterns Analysis Using Expectation-Maximization Clustering Algorithm and Emerging Pattern Mining)

  • 박진형;이헌규;신진호;류근호;김희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.261-264
    • /
    • 2008
  • 전력 회사의 효율적인 운용과 전력 시장에서의 경쟁을 위하여 고객의 전력 소비 패턴 분석 및 정확한 예측이 이루어져야 한다. 이를 위해서 이 논문에서는 원격 검침 시스템에 의한 전국의 고압 고객 데이터를 대상으로 고객의 전력 소비 패턴을 정확히 예측할 수 있는 마이닝 기법을 제안하였다. 먼저, 국내 계약종별 고객 특성에 맞는 부하 패턴의 정확한 구별을 위한 9가지의 특징 벡터를 추출하였고, 기대치-최대화 군집화 알고리즘을 사용하여 고객의 34개 대표 부하프로파일을 생성하였다. 마지막으로 추출된 특징 벡터로부터 각 대표 프로파일에 대한 출현 패턴 기반의 분류 모델을 구성하여 고객의 전력 소비 패턴을 분류하였다. 국내 원격 검침 시스템에 의해 측정된 총 3,895명의 고압 고객 데이터에 대한 실험 결과 약 91%의 분류 정확성을 보였다.

심혈관계 질환 진단을 위한 복합 진단 지표와 출현 패턴 기반의 분류 기법 (Multi-parametric Diagnosis Indexes and Emerging Pattern based Classification Technique for Diagnosing Cardiovascular Disease)

  • 이헌규;노기용;류근호;정두영
    • 정보처리학회논문지D
    • /
    • 제16D권1호
    • /
    • pp.11-26
    • /
    • 2009
  • 심혈관계 질환의 진단 위해서 복합 진단 지표를 이용한 출현 패턴 기반의 분류 기법을 제안하였다. 복합 진단 지표 적용을 위해서 심박동변이도의 선형/비선형적 특징들을 세 가지 누운 자세에 대해 분석하였고 ST-segments로부터 4개의 진단 지표를 추출하였다. 이 논문에서는 질환진단을 위해서 필수 출현 패턴을 이용한 분류 모델을 제안하였다. 이 분류 기법은 환자 그룹의 질환 패턴들을 발견하며, 이러한 출현 패턴은 심혈관계 질환 환자들에서는 빈발하지만 정상인 그룹에서는 빈발하지 않는 패턴들이다. 제안된 분류 알고리즘의 평가를 위해서 120명의 협심증(AP: angina pectrois) 환자, 13명의 급성관상동맥증후군(ACS: acute coronary syndrome) 환자 그리고 128명의 정상인 데이터를 사용하였다. 실험 결과 복합 지표를 사용하였을 때, 세 그룹의 분류에 대한 정확도는 약 88.3%였다.

EP-tree 마이닝을 이용한 단백질 DISORDER/ORDER 지역 분류 (Classification of Protein DISORDER/ORDER Region Using EP-tree Mining)

  • 박홍규;이헌규;이미정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1274-1277
    • /
    • 2011
  • 단백질 1차 서열로부터 DISORDER와 ORDER지역을 예측하기 위해서 이 논문에서는 EP-tree에 기반한 출현패턴 발견 알고리즘을 제안하였다. EP-tree 알고리즘을 적용함으로서 기존의 단백질 특징 추출을 통한 방법과 달리 서열 자체에서 발견되는 출현패턴만을 이용하여 분류 모델을 생성하므로 기존의 신경망이나 SVM 보다 분류모델 생성 및 예측 속도가 빠르다. 또한 Disprot 4.9과 CASP7 테스트 데이터로 DISORDER/ORDER 지역을 예측한 결과, 73.4%의 높은 정확성을 보였다.

한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법 (Finding Frequent Itemsets Over Data Streams in Confined Memory Space)

  • 김민정;신세정;이원석
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.741-754
    • /
    • 2008
  • 지속적으로 확장되는 데이터 스트림에 대한 데이터 마이닝 수행과정에서는 메모리 사용량을 가용한 범위 내로 제한하는 것이 중요한 요소이다. 본 논문에서는 데이터 스트림 환경에서 한정된 메모리 공간을 이용하여 빈발 항목집합을 탐색하는데 효과적인 프라임 패턴 트리(Prime pattern tree: PPT)구조를 제안한다. 프라임 패턴 트리는 기존의 전위 트리 구조와 비교하여 항목집합들을 하나의 노드로 관리함으로써 트리의 크기를 크게 줄일 수 있는 장점이 있다. 또한, 전지 임계값 $S_{\delta}$에 따라 노드를 병합하거나 분리하여 동적으로 트리의 크기와 결과 집합의 정확도를 마이닝 수행 중에 조절 할 수 있다. $S_{\delta}$값이 크면 한 노드에서 관리되는 항목집합의 수가 증가하게 되고, 출현 빈도수를 추정해야 하기 때문에, $S_{\delta}$값이 작을수록 결과집합의 정확도가 높다. 이처럼 PPT에는 트리의 크기와 정확도의 trade-off 가 존재한다. PPT의 이러한 특성에 기반하여, 데이터 스트림에서 갑자기 데이터 집합에 변화가 생겨 빈발항목이 될 가능성이 높은 항목들이 많이 출현하는 경우에도 마이닝을 지속적으로 수행할 수 있도록 지원한다. 본 논문에서는 프라임 패턴 트리를 이전 연구에서 제안한 데이터 스트림에서 최근 빈발 항목 탐색 방법인 estDec 방법에 적용하여 한정된 작은 양의 메모리 공간을 이용하여 온라인 데이터 스트림에서 빈발항목을 탐색하는 방법을 제시한다. 또한, 가용 메모리 범위에서 최적의 메모리를 사용하여 최적의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량에 대한 적응적 방법을 제시한다. 끝으로, 여러 실험을 통한 효율성 검증을 통해 제안된 방법의 여러 특성을 확인한다.

심근허혈 질환 진단을 위한 스트림 데이터 처리 (Stream Data Processing Prototype Development for Automated Prediction of Myocardial Ischemia)

  • 박진형;;이종범;이헌규;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.360-363
    • /
    • 2009
  • 실시간으로 심장 질환의 진단을 위하여 심전도 신호의 스트림 처리 및 데이터 마이닝 프로토타입을 구현하였다. 신체부착형 센서로부터 전송되는 심전도를 전처리하여 심장질환의 진단 지표를 추출하였고 실시간 진단을 위한 출현 패턴 마이닝 알고리즘을 구현 및 적용하였다. 이를 기반으로 심혈관계 질환에 대하여 실시간 자동 진단 및 예측이 가능한 생체 신호 스트림 데이터 처리 분석 프로토타입을 구현하였다.

소스 코드에 포함된 코딩 패턴의 특성과 출현 위치 관련성에 대한 분석 (Analysis of characteristics and location of the appearance for codding pattern in the source code)

  • 김영태;공헌택;김치수
    • 디지털융복합연구
    • /
    • 제11권7호
    • /
    • pp.165-171
    • /
    • 2013
  • 코딩 패턴이란 소스 코드에 자주 나타나는 전형적인 코드 조각이다. 소프트웨어에서 로깅이나 동기화 처리 등 모듈화가 곤란한 기능과 프로그래밍의 상용구 등이 코딩 패턴으로 추출된다. 기존에 소스 코드에 대한 패턴 마이닝을 이용한 코딩 패턴 감지 방법이 제안되었지만, 수동으로 조사 가능한 코딩 패턴의 수는 한정되어 있기 때문에 대규모 소프트웨어 등에 대한 충분한 분석은 할 수 없다. 본 논문에서는 개발자가 분석하고자 하는 코딩 패턴만을 추출하는 것을 목표로 코딩 패턴의 특성 평가 척도로 6개의 지표를 선정하여 4개의 오픈 소스에 대한 분석을 실시했다. 매트릭스 사이의 값의 관계와 실제 패턴의 특징을 분석한 결과, 패턴의 인스턴스 수, 인스턴스의 분포의 넓이, 패턴의 요소에 포함되는 반복 구조 비율 등의 지표 등을 분석해야 패턴 선택에 도움이 되는 것을 확인했다.

텍스트마이닝을 활용한 Covid-19 기간 동안의 항공산업 관련 키워드 트렌드 분석 (Keyword trends analysis related to the aviation industry during the Covid-19 period using text mining)

  • 최동현;송보미;박다현;이성우
    • 한국산업정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.115-128
    • /
    • 2022
  • 본 연구는 Covid-19 팬데믹이 항공산업에 미친 영향과 동향을 살펴보고자 국내 뉴스 기사 데이터를 활용하여 키워드 트렌드 분석을 진행하였다. 데이터 수집을 위하여 Covid-19 발생 기준으로 전, 후 각 6개월의 기간을 나누어 '항공사' 키워드를 중심으로 관련 기사들을 추출하였다. 이후 기간별 동시 출현 빈도를 파악한 후 LDA 기법을 이용하여 토픽 모델링을 진행하였으며, Covid-19의 진행 동향과 토픽 패턴과의 관계 분석을 통해 상황에 따른 주요 토픽을 도출하였다. 이러한 결과를 활용하여 Covid-19와 같이 범세계적으로 영향을 주는 전염병이 발생할 경우 그 추이에 따라 항공산업에 미치는 영향을 예측할 수 있는 기초자료로 활용될 수 있을 것으로 기대된다.