• 제목/요약/키워드: 데이타마이닝

검색결과 106건 처리시간 0.027초

데이타마이닝 기법을 이용한 문서 자동 분류 모델 (An Automatic Text Classification Model using Association Rules)

  • 김영인;이진용;문현정;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

멀티미디어 데이터의 다차원 연관규칙 마이닝 (Multi-Dimensional Association Rule Mining in Multimedia Data)

  • 김진옥;황대준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.233-236
    • /
    • 2001
  • 멀티미디어 데이터의 증가와 마이닝 기술의 발전으로 인해 멀티미디어 마이닝에 대한 관심이 증가하고 있다. 본 논문에서는 특성국지화를 이용한 내용기반의 정보검색 기술과 다차원 데이터큐브 구축기술을 통해 멀티미디어 데이터에서 연관규칙을 찾아내는 멀티미디어 데이터마이닝 시스템 프로토타입을 제안한다. 특히 멀티미디어 데이터의 칼라, 질감 등 거시적인 이미지 성분 대신 이미지의 영역성과 유사성을 이용한 특성국지화방법을 이용하여 이미지를 분할함으로써 방대한 데이타에서 효과적인 내용기반의 정의 검색을 시행하고 검색한 벡터를 메타데이타로 한 데이스베이스를 구축한다. 그리고 데이터베이스에서 데이터간 연관규칙을 찾아내어 지식을 마이닝하는데 효과적인 다차원 데이터큐브를 구축하고 여기에 연관규칙 검색 알고리즘을 적용한다.

  • PDF

데이타마이닝을 이용한 전문 검색엔진의 설계 및 구현 (A Design and Implementation of Expert Search Engine Using DataMining)

  • 황보윤;김병찬;김영지;문현정;우용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.43-46
    • /
    • 2001
  • 본 논문에서는 데이타마이닝 기법을 이용하여 지능형 전문 검색엔진을 설계하고 사용자 인터페이스를 구현하였다. 먼저, 컴퓨터 분야의 전문 용어에 대하여 연관 규칙 탐사 알고리즘을 이용하여 의미적으로 연관된 용어들끼리 클러스터로 구성하였다. 전문 용어별로 구성된 클러스터는 본 논문에서 제안한 지식베이스 테이블에 저장하여 의미적으로 연관된 용어를 포함하는 웹 문서를 검색하는 과정에서 이용하였다. 검색과정에서는 사용자가 제시한 키워드와 관련된 전문 용어들간의 연관정도를 가중치로 부여하여 연관 정도가 높은 웹 문서순으로 출력하였다. 제안된 방법을 통하여 사용자가 제시한 키워드와 의미적으로 연관된 웹 문서를 효과적으로 검색할 수 있었다.

  • PDF

정량 정보를 포함한 순차 패턴 마이닝 알고리즘 (Sequential Pattern Mining Algorithms with Quantities)

  • 김철연;임종화;;심규석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.453-462
    • /
    • 2006
  • 순차 패턴을 찾는 것은 데이타마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 경제나 과학분야와 같은 많은 분야에서는 정량 정보가 아이템과 같이 기록되어 있으며, 기존의 알고리즘이 처리하지 못하는 이러한 정량 정보는 사용자에게 보다 유용한 정보를 전달하여 줄 수 있다. 본 논문에서는 정량 정보를 포함한 순차패턴 마이닝 문제를 제안하였다. 기존의 순차패턴 알고리즘에 대한 단순한 확장으로는 모든 정량에 대한 후보 패턴들을 모두 생성하기 때문에 확대된 탐색 공간을 효율적으로 탐색할 수 없음을 보이고, 이러한 단순한 확장 알고리즘의 성능을 대폭 향상시키기 위하여 정량 정보에 대해 해쉬 필터링과 정량 샘플링 기법을 제안하였다. 다양한 실험 결과들은 제안된 기법들이 단순히 확장된 알고리즘과 비교하여 수행시간을 매우 단축시켜 줄 뿐만 아니라, 데이타베이스 크기에 대한 확장성 또한 향상시켜줌을 보여 준다.

데이타마이닝 기법을 이용한 경보데이타 분석기 구현 (Implementation of Analyzer of the Alert Data using Data Mining)

  • 신문선;김은희;문호성;류근호;김기영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.1-12
    • /
    • 2004
  • 최근 네트워크 구성이 복잡해짐에 따라 정책기반의 네트워크 관리기술에 대한 필요성이 증가하고 있으며, 특히 네트워크 보안관리를 위한 새로운 패러다임으로 정책기반의 네트워크 관리 기술이 도입되고 있다. 보안정책 서버는 새로운 정책을 입력하거나 기존의 정책을 수정, 삭제하는 기능과 보안정책 결정 요구 발생시 정책결정을 수행하여야 하는데 이를 위해서는 보안정책 실행시스템에서 보내온 경보 메시지에 대한 분석 및 관리가 필요하다. 따라서 이 논문에서는 정책기반 네트워크 보안관리 프레임워크의 구조 중에서 보안정책 서버의 효율적인 보안정책 수립 및 수행을 지원하기 위한 경보데이타 분석기를 설계하고 구현한다. 경보 데이타 저장과 분석을 위해서 데이타베이스 스키마를 설계하고 저장된 경보데이타를 분석하는 모듈을 구현하며 경보데이타 마이닝 엔진을 구현하여 경보데이타를 효율적으로 분석하고 이를 통해 경보들의 새로운 유사패턴그룹이나 공격시퀀스를 유추하여 능동적인 보안정책관리를 지원할 수 있도록 한다.

균등 격자를 이용한 공간 클러스터링 기법의 설계 및 구현 (Design and Implementation of Spatial Clustering Method using Regular Grid)

  • 문상호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.485-489
    • /
    • 2003
  • 기존 연구에서 공간데이타 마이닝을 지원하기 위하여 여러 가지 공간 클러스터링 기법들이 제시되었다. 그러나 대부분의 기법들이 객체들 간의 거리를 기반으로 수행하므로, 공간데이타의 양이 많아질수록 계산 비용이 증가하는 문제점이 발생한다. 본 논문에서는 이러한 문제점을 해결하기 위하여, 균등 격자를 기반으로 하는 공간 클러스터링 기법을 제시한다. 그리고 이 기법을 실현화시키기 위하여 파일구조, 자료구조, 알고리즘을 설계 및 구현하고, 실제 실험데이타를 대상으로 적용하여 클러스터 생성 결과를 보인다.

  • PDF

데이타 마이닝을 사용한 방학 중 학습방법과 학업성취도의 관계 분석 (Effective Studying Methods during a School Vacation: A Data Mining Approach)

  • 김혜숙;문양세;김진호;노웅기
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.40-51
    • /
    • 2007
  • 학업성취도 향상을 위해 정규 수업 이외에도 과외, 학원수강, 교육방송 시청 등 다양한 교육이 이루어지고 있다. 본 논문에서는 방학 중 학습방법과 생활습관이 학업성취도 변화에 미치는 영향을 분석하기 위한 데이타 마이닝 접근법을 제안한다. 우선, 학업성취도에 영향을 미치는 방학중의 학습방법과 생활습관에 대한 다양한 요소를 도출한다. 다음으로, 마이닝 기법 중 의사결정트리와 연관 규칙을 사용하기 위한 데이타 변환 및 분석 방법을 제안한다. 마지막으로, 설문조사를 통해 수집한 현실의 구체적 데이터에서 의사결정트리를 생성하고 연관 규칙을 추출하는 방법을 제안한다. 중학생들에 대한 설문조사를 분석한 결과, 의사결정트리의 경우 네 가지 의미있는 결과를 도출하였다. 첫째, 상위권 학생들의 경우 학원수강이 성적을 향상시키는 것으로 나타났다. 둘째, 대부분 학생들의 경우 인터넷 학습사이트 이용은 성적을 하락시키는 것으로 나타났다. 셋째, 성적 변화에 큰 영향을 미칠 것으로 예상했던 과외는 실제로 큰 영향을 미치지 못하는 것으로 나타났다. 넷째, 다양한 학습방법의 병행은 오히려 성적 하락의 요인이 되는 것으로 파악되었다. 다음으로, 연관 규칙 추출 결과, 방학 중 활동 사이에는 특이한 규칙이 없는 것으로 나타났다. 본 논문에서 제시한 데이타 마이닝 접근법 및 결과는 학생들의 방학 중 생활 지도나 학습 계획 수립에 많은 도움이 될 수 있다고 사료된다.

퍼지 결정트리를 이용한 패턴분류를 위한 데이터 마이닝 알고리즘 (Data Mining Algorithm Based on Fuzzy Decision Tree for Pattern Classification)

  • 이중근;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권11호
    • /
    • pp.1314-1323
    • /
    • 1999
  • 컴퓨터의 사용이 일반화됨에 따라 데이타를 생성하고 수집하는 것이 용이해졌다. 이에 따라 데이타로부터 자동적으로 유용한 지식을 얻는 기술이 필요하게 되었다. 데이타 마이닝에서 얻어진 지식은 정확성과 이해성을 충족해야 한다. 본 논문에서는 데이타 마이닝을 위하여 퍼지 결정트리에 기반한 효율적인 퍼지 규칙을 생성하는 알고리즘을 제안한다. 퍼지 결정트리는 ID3와 C4.5의 이해성과 퍼지이론의 추론과 표현력을 결합한 방법이다. 특히, 퍼지 규칙은 속성 축에 평행하게 판단 경계선을 결정하는 방법으로는 어려운 속성 축에 평행하지 않는 경계선을 갖는 패턴을 효율적으로 분류한다. 제안된 알고리즘은 첫째, 각 속성 데이타의 히스토그램 분석을 통해 적절한 소속함수를 생성한다. 둘째, 주어진 소속함수를 바탕으로 ID3와 C4.5와 유사한 방법으로 퍼지 결정트리를 생성한다. 또한, 유전자 알고리즘을 이용하여 소속함수를 조율한다. IRIS 데이타, Wisconsin breast cancer 데이타, credit screening 데이타 등 벤치마크 데이타들에 대한 실험 결과 제안된 방법이 C4.5 방법을 포함한 다른 방법보다 성능과 규칙의 이해성에서 보다 효율적임을 보인다.Abstract With an extended use of computers, we can easily generate and collect data. There is a need to acquire useful knowledge from data automatically. In data mining the acquired knowledge needs to be both accurate and comprehensible. In this paper, we propose an efficient fuzzy rule generation algorithm based on fuzzy decision tree for data mining. We combine the comprehensibility of rules generated based on decision tree such as ID3 and C4.5 and the expressive power of fuzzy sets. Particularly, fuzzy rules allow us to effectively classify patterns of non-axis-parallel decision boundaries, which are difficult to do using attribute-based classification methods.In our algorithm we first determine an appropriate set of membership functions for each attribute of data using histogram analysis. Given a set of membership functions then we construct a fuzzy decision tree in a similar way to that of ID3 and C4.5. We also apply genetic algorithm to tune the initial set of membership functions. We have experimented our algorithm with several benchmark data sets including the IRIS data, the Wisconsin breast cancer data, and the credit screening data. The experiment results show that our method is more efficient in performance and comprehensibility of rules compared with other methods including C4.5.

최적 연관 속성 규칙을 이용한 비명시적 단백질 상호작용의 예측 (Prediction of Implicit Protein - Protein Interaction Using Optimal Associative Feature Rule)

  • 엄재홍;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2006
  • 단백질들은 서로 다른 단백질들과 상호작용 하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질 상호작용의 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이타가 산출되고 있는 현(現) 게놈시대에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모(Saccharomyces cerevisiae)에 대해 공개되어있는 단백질 상호작용 데이타들에서 속성들 간의 연관을 통해 유추 가능한 잠재적 단백질 상호작용들을 예측하기 위한 연관속성 마이닝 방법을 제시한다. 단백질의 속성들 중 연속값을 가지는 속성값들은 최대상호 의존성에 기반을 두어 이산화 하였으며, 정보이론기반 속성선택 알고리즘을 사용하여 단백질들 간의 상호작용 예측을 위해 고려되는 단백질의 속성(attribute) 수 증가에 따른 속성차원문제를 극복하도록 하였다. 속성들 간의 연관성 발견은 데이타마이닝 분야에서 사용되는 연관규칙 발견(association rule discovery) 방법을 사용하였다 논문에서 제안한 방법은 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 최대 약 96.5%의 예측 정확도를 보였으며 속성필터링을 통하여 속성필터링을 하지 않는 기존의 방법에 비해 최대 약 29.4% 연관규칙 발견속도 향상을 보였다.

위치 기반 서비스를 위한 이동 객체의 시간 패턴 탐사 기법 (Temporal Pattern Mining of Moving Objects for Location based Services)

  • 이준욱;백옥현;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.335-346
    • /
    • 2002
  • 위치 기반 서비스는 이동중인 사용자에게 위치와 관련된 정보를 제공한다. 최소한의 자원으로 사용자에게 유용한 정보를 개인화하여 제공하는 것은 위치 기반 서비스가 가져야 할 필수적인 기능이다. 이 기능은 데이타 마이닝을 통해 실현될 수 있다. 하지만 기존의 데이터 마이닝 연구는 시간 및 공간 속성을 동시에 고려하고 있지 않다. 따라서 시간에 따라 공간 위치 속성이 변경되는 특성을 갖는 위치 기반 서비스의 대상에는 적절하지 않다. 이 논문에서는 시간 및 공간 속성을 가지는 이동 객체의 위치 데이타로부터 유용한 시간 패턴을 탐사하기 위한 새로운 데이타 마이닝 기법을 제안하였다. 평면 상에서 좌표로 표현되는 이동 객체의 위치 정보를 일반화하기 위하여 contains와 같은 공간 연산을 사용하였다. 또한 이동 패턴 탐사 시 실제 유효한 시퀀스를 만들기 위해 객체의 위치 사이에 시간 제약조건을 적용하였다. 이렇게 생성된 이동 객체 위치의 시퀀스로부터 빈발 이동 시퀀스를 구하여 시간 패턴을 생성하였다. 제안한 기법은 기존과는 다른 시, 공간적 접근을 취함으로써 시간과 공간 의미가 중요시되는 위치 기반 서비스에 적합한 새로운 유형의 지식을 제공할 수 있다.