• 제목/요약/키워드: 빈발패턴 마이닝

검색결과 94건 처리시간 0.026초

데이터 마이닝 기법을 이용한 XML 문서의 온톨로지 반자동 생성 (Semi-Automatic Ontology Generation about XML Documents using Data Mining Method)

  • 구미숙;황정희;류근호;홍장의
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.299-308
    • /
    • 2006
  • 최근 웹 문서를 비롯한 공공 문서 등에 대한 문서 교환을 위해 XML 데이터를 이용한 표준화 작업이 진행 중이므로 XML 문서가 증가하고 있다. 이와 같은 XML 문서에 대한 정보 검색의 효율을 높이기 위해 의미적 요소를 추가한 온톨로지를 기반으로 하는 시맨틱 웹이 등장하였다. 그러나 기존의 수동적인 온톨로지 구축 방식은 비용과 시간이 많이 소모되는 단점이 있으므로 이 논문에서는 유사한 도메인의 XML문서 집합으로부터 데이터 마이닝 기법의 연관규칙 알고리즘을 이용하여 반자동으로 온톨로지를 구축하는 방법을 제안한다. 제안한 방법은 특정한 도메인에 대한 온톨로지를 구축하기 위해서 필요한 데이터의 형태 및 개념 레벨, 그리고 얼마나 많은 개념을 사용할 것인가 하는 도메인 범위의 자동 설정을 온톨로지 자동 생성을 위한 온톨로지 도메인 레벨을 결정하기 위해서 데이터 마이닝 알고리즘을 이용한다. XML 문서의 태그에 대해 연관규칙을 적용하여 빈발하게 발생하는 빈발 패턴을 찾아내고, 서로 관련 있는 개념의 쌍을 추출하여 온톨로지 자동 생성을 위한 도메인 범위를 설정한다. 온톨로지 구축은 온톨로지 언어중의 하나인 XML Topic Maps와 공개 소스인 토픽법 엔진인 TM4J를 이용하여 온톨로지 기반의 시맨틱 웹 엔진을 구현하였다.

시간을 고려한 모바일 사용자의 유용한 행동패턴 추출 (Efficient Mining of User Behavior Patterns by Temporal Access)

  • 이승철;김응모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.60-65
    • /
    • 2007
  • 유비쿼터스 컴퓨팅은 일상생활 속에 편재해 있는 PDA 또는 모바일 폰 등의 무선 단말기를 이용하여 사용자가 언제, 어디서나 유용한 서비스를 받을 수 있는 환경을 제공한다. 이는 대용량 데이터베이스에 저장된 지능형 멀티 모바일 에이전트의 통신 데이터를 분석하여 모바일 유저의 위치에 따른 요청된 유용한 서비스정보를 추출할 수 있게 되었으며, 이를 통한 효율적인 사용자 서비스는 물론 광고 등의 새로운 이익 창출로 이어져왔다. 그러나 기존 위치 정보만을 이용한 서비스정보의 추론은 단순히 통계적인 빈발 행동패턴만을 추출하여 시간에 따른 사용자의 서비스 요청에 능동적으로 대처할 수 없을 뿐만 아니라 원치 않는 서비스정보를 제공하는 문제점을 야기 시켰다. 이 논문에서는 시간을 고려한 모바일 사용자의 유용한 행동패턴 추출을 위한 효율적인 마이닝 기법인 시간대별 모바일 사용자 행동패턴 및 메모리 적재에 용이한 새로운 콤팩트한 데이터 구조를 제안한다. 이는 사용자의 동적인 움직임에 따른 실시간적 서비스를 가능하게 하며, 더 나아가 유비쿼터스 컴퓨팅 환경에서 중요한 이슈인 데이터의 메모리 적재가 용이 할 뿐만 아니라 접근속도의 향상 및 메모리 사용이 적다는 이점이 있다.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.645-648
    • /
    • 2006
  • 생물학적 데이터 서열에는 크게 DNA 서열과 단백질 서열이 있다. 이들 서열 데이터들은 여러 데이터베이스에 걸쳐 매우 방대한 양을 가지고 있으며, 각각의 서열은 수백 또는 수천 개의 항목들을 가지고 있어 길이가 매우 길다. 일반적으로 유전적인 변형, 또는 변이로부터 보존된 영역이나 특정 패턴들을 서열 안에 포함하고 있는데 생물학적 서열 데이터에서 보존된 영역이나 패턴들은 계통발생학적 근거로 활용 될 수도 있으며 기능과 밀접한 관계를 가지기도 한다. 따라서 서열들로부터 빈번하게 발생하는 패턴을 발견하고자 하는 알고리즘 개발이 요구되고 있다. 초창기 Apriori 알고리즘을 변형하여 빈발 패턴을 발견하고자 하는 노력들로부터 근래에는 PrefixSpan 트리를 이용하여 효과적으로 성능을 개선하고 있지만 아직까지는 여러 번의 데이터베이스 접근이 요구되고 있어 성능저하가 발생한다. 이에 본 논문에서는 접미사 트리를 변형하여 데이터베이스 접근을 획기적으로 줄이고 많은 서열들로부터 빈번하게 발생하는 연속적인 서열을 효과적으로 발견하는 방법을 제안한다.

  • PDF

심혈관계 질환 진단을 위한 복합 진단 지표와 출현 패턴 기반의 분류 기법 (Multi-parametric Diagnosis Indexes and Emerging Pattern based Classification Technique for Diagnosing Cardiovascular Disease)

  • 이헌규;노기용;류근호;정두영
    • 정보처리학회논문지D
    • /
    • 제16D권1호
    • /
    • pp.11-26
    • /
    • 2009
  • 심혈관계 질환의 진단 위해서 복합 진단 지표를 이용한 출현 패턴 기반의 분류 기법을 제안하였다. 복합 진단 지표 적용을 위해서 심박동변이도의 선형/비선형적 특징들을 세 가지 누운 자세에 대해 분석하였고 ST-segments로부터 4개의 진단 지표를 추출하였다. 이 논문에서는 질환진단을 위해서 필수 출현 패턴을 이용한 분류 모델을 제안하였다. 이 분류 기법은 환자 그룹의 질환 패턴들을 발견하며, 이러한 출현 패턴은 심혈관계 질환 환자들에서는 빈발하지만 정상인 그룹에서는 빈발하지 않는 패턴들이다. 제안된 분류 알고리즘의 평가를 위해서 120명의 협심증(AP: angina pectrois) 환자, 13명의 급성관상동맥증후군(ACS: acute coronary syndrome) 환자 그리고 128명의 정상인 데이터를 사용하였다. 실험 결과 복합 지표를 사용하였을 때, 세 그룹의 분류에 대한 정확도는 약 88.3%였다.

$R^*$-Tree와 Grid를 이용한 이동 객체의 위치 일반화 기법 (Location Generalization Method of Moving Object using $R^*$-Tree and Grid)

  • 고현;김광종;이연식
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.231-242
    • /
    • 2007
  • 패턴 탐사에 관한 기존의 연구들[1,2,3,4,5,6,11,12,13]은 이동 객체의 위치 이력 데이터 집합에 대한 위치 일반화 접근법을 사용하지 않거나 사용해도 특정 공간상의 이동 패턴들 중 단순히 시공간 제약이 없는 빈발 패턴만을 추출하므로, 특정 지점들 간의 최적 이동 경로나 스케줄링 경로와 같은 시공간 제약을 갖는 빈발 패턴 탐사에는 적용하기 어렵다. 또한 패턴 탐사의 수행에 있어 기존의 기법들은 데이터베이스에 대한 반복 접근을 줄이기 위해 메모리 상에 패턴 트리를 생성하여 사용하므로 보다 많은 메모리 공간을 소요하게 된다. 따라서 이러한 기존 탐사 기법들의 문제점들을 해결하기 위한 보다 효율적인 패턴 탐사 기법이 필요한 실정이다. 효율적 탐사 기법을 개발하기 위하여 본 논문에서는 방대한 이동 객체의 이력 데이터 집합에 대한 탐사 수행 시간 및 탐사에 필요한 메모리 공간을 최소화하기 위해서 상세 수준의 데이터들을 의미있는 공간영역 정보로 변환하는 새로운 위치 일반화 방법을 제안한다. 제안된 방법은 패턴 탐사의 전처리 과정에서 $R^*$-Tree와 영역 Grid 해쉬 테이블(AGHT:Area Grid Hash Table)을 기반으로 이동 객체의 위치 속성들을 2차원 공간영역으로 일반화하여 이동 시퀀스를 생성함으로써 효율적인 이동 객체의 공간 이동 패턴 마이닝을 유도할 수 있다.

  • PDF

이동 시퀀스의 빈발도를 이용한 최적 이동 패턴 탐사 기법 (A Method for Optimal Moving Pattern Mining using Frequency of Moving Sequence)

  • 이연식;고현
    • 정보처리학회논문지D
    • /
    • 제16D권1호
    • /
    • pp.113-122
    • /
    • 2009
  • 기존의 패턴 탐사 기법들은 제한된 시간 및 공간영역에서 발생하는 다양한 이동 패턴들 중 단순히 사용자 요구에 적합할 것으로 추정되는 불특정한 빈발 이동 패턴만을 탐사하기 때문에 특정지점들 간의 최적 이동 경로나 정해진 시간 내의 스케줄링 경로 탐색과 같은 복합적인 시간 및 공간 제약 조건을 갖는 최적 이동 패턴을 탐사하는 문제에는 적용하기 어렵다. 이에 본 논문에서는 방대한 이동 객체의 이력 데이터 집합으로부터 복합적인 시간 및 공간 제약을 갖는 최적 이동 패턴을 탐사하는 문제를 보이고, 적용 가능한 위치 기반 서비스로서 최적 이동 경로에 해당하는 패턴을 탐색하기 위한 새로운 패턴 탐사 기법인 STOMP-F를 제안한다. 제안된 기법은 특정한 지점들 사이를 이동한 객체의 패턴들 중 객체가 가장 빈번하게 이동한 경로를 탐색하여 최적 경로로 결정하는 패턴 빈발도를 이용한 탐색 방법으로, 최적 이동 패턴 탐사 과정의 이동 시퀀스 생성 단계에서 객체의 위치 값과 공간영역 간의 위상 관계를 고려하여 이동 객체의 위치 속성에 대한 최하위 수준에서의 공간 일반화를 통해 보다 효율적으로 패턴 탐사를 수행할 수 있다. 제안 방법을 Dijkstra 알고리즘과 $A^*$ 알고리즘을 대상으로 실험 평가한 결과 $A^*$ 알고리즘의 휴리스틱 가중치에 따라 차이는 있으나 연산 처리 시간을 기준으로 타 알고리즘들 보다 효과적임을 알 수 있다.

적응형 웹 사이트를 위한 웹 로그 마이닝 (Web Log Mining for Adaptive Web Sites)

  • 고경자;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.325-328
    • /
    • 2001
  • 본 논문에서는 웹 사이트에 접근하는 이용자의 패턴을 분석하여 정보 제공이 보다 용이한 구조로 자동 개선시켜 나가는 적응형 웹 사이트의 구현 방안을 제시한다. 특히, 본 연구에서는 기존 웹 사이트의 구조를 가능한 파괴하지 않는 범위 내에서 웹 사이트론 변경하고자 이용자의 접근 패턴상 연관성은 높으나 접근 경로가 긴 문서들을 추출하여 색인 페이지를 추가 생성한다. 이를 위하여, 먼저 대용량의 웹 서버 로그 데이터를 대상으로 하이퍼 링크 구조에 따라 필터링된 최후 전진 문서만을 가지고 데이터 시퀀스를 구성한다. 이러한 데이터 시퀀스에 새로운 순차 접근 패턴 탐색 알고리즘인 TPA를 적용함으로써 웹 문서간 충분한 지지도를 갖는 연관성 있는 문서들의 시퀀스를 구한다. 이와같은 빈발 시퀀스들에 대한 색인 페이지를 추가로 생성시켜주는 서비스를 통하여 이용자들의 효과적인 정보 접근을 지원할 수 있는 웹 사이트로의 변경이 가능하다.

  • PDF

FP-growth 마이닝을 이용한 효율적인 여행경로 수립 기법 (A Technique for Making Efficient Travel Routes using the Mining Method of Frequent Patterns-growth)

  • 유기범;조경수;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.10-13
    • /
    • 2010
  • 컴퓨터의 활용이 다양해 지면서 예전과 다르게 다양한 이유로 많은 사람들이 여행을 하고 나서 여행에 대한 정보 블로그나 웹 상에 저장하고 공개한다. 이렇게 웹 상에 많은 양의 여행 관련 데이터가 존재함에도 불구하고 데이터들이 산발적으로 존재하고 체계적으로 데이터 베이스화 되어 있지 않아서 여전히 정보를 검색하고 여행 일정을 세우는 데에 많은 시간과 노력이 필요하다. 따라서 본 논문은 FP-tree 기반의 빈발 패턴 증가 기법을 이용한 여행 계획 수립 기법을 제안한다. 제안되는 기법에서 데이터들은 FP-tree 방식으로 저장되어 검색에 필요한 시간과 노력을 극적으로 줄이고, FP-growth 마이닝 기법을 이용해 효과적인 여행 경로를 선택할 수 있게 도와준다.

가중치가 부여된 FP-tree를 이용한 여행지 추출 기법 (Mining Technique of Tour Destination by weighted FP-tree)

  • 김민주;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.233-236
    • /
    • 2008
  • 최근 컴퓨터와 통신의 기술이 빠르게 발달함에 따라 사회 각 부분은 그동안 경험하지 못했던 정보화라는 새로운 변화를 겪었다. 그 결과 정보화 수준이 점점 고도화 될수록 더욱 다양하고 방대한 데이터가 생성되어 데이터베이스를 이루게 되었다. 방대한 데이터에서 유용한 정보를 얻는 데이터마이닝 기법이 중요한 문제로 대두되었다. 데이터마이닝 기법은 점점 더 많은 분야에서 합리적인 선택을 위해 필수적으로 사용된다. 본 논문은 마이닝 기법을 적용하여 방대한 데이터베이스가 최적의 여행 경로 선택을 제공한다. 본 논문은 빈발 패턴 증가 기법에 가중치를 두어 여행자가 여행지를 선별하기 좋은 환경을 제공한다. 미래 산업 중 가장 중요한 산업 중 하나인 관광 산업은 계속적으로 성장하고 있으며 논문에서 제시하는 데이터 마이닝 기법으로 더 큰 발전을 기대한다.

USN 환경에서 의미 기반 트랜잭션 구조를 이용한 순차 패턴 탐사 기법 (Sequence Pattern Mining Using Meaning-based Transaction Structure for USN system)

  • 최필선;강동현;김환;김대인;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1105-1108
    • /
    • 2012
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 찾아내는 기법이다. USN 환경에서 발생하는 스트림 데이터는 시간 속성을 갖는 이벤트들의 집합으로 표현할 수 있으며 순차 패턴 탐사 기법을 이용하여 유용한 정보를 탐사할 수 있다. 그러나 스트림 데이터 환경에서는 데이터가 무한하고 연속적으로 발생하기 때문에 모든 데이터를 저장하여 패턴을 탐사하는 기법을 적용하는 데는 문제가 있다. 이 논문에서는 향상된 데이터 처리방식을 사용하여 순차패턴을 탐사하는 스트림 데이터 마이닝 기법에 대하여 제안한다. 제안하는 기법은 의미 단위의 가변적 윈도우를 사용하여 스트림 데이터로부터 트랜잭션을 생성하고 이 트랜잭션들의 집합을 해시와 슬라이딩 윈도우를 사용하여 스트림 데이터의 순차 패턴을 탐사한다. 이를 이용한 제안 기법은 실시간 시스템에 적합하게 데이터 저장 공간 사용의 효율성을 높이고 신속하게 유용한 패턴을 탐사할 수 있다.