• 제목/요약/키워드: 데이타마이닝

검색결과 106건 처리시간 0.022초

다차원 색인을 이용한 하향식 계층 클러스터링 (Top-down Hierarchical Clustering using Multidimensional Indexes)

  • 황재준;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.367-380
    • /
    • 2002
  • 최근 공간 데이타 분석, 영상 분석 등과 같은 대용량 데이타를 관리하는 다양한 응용 업무들이 증가함에 따라, 대용량의 데이타베이스를 위한 클러스터링 기법이 많이 연구되고 있다. 그 중에서도 계층 클러스터링 기법은 데이타베이스의 계층 분할을 표현하는 계층 트리를 생성하고 이를 이용하여 효율적인 클러스터링을 수행하는 방법으로서, 지금까지는 주로 트리를 하위 계층으로부터 상위 계층으로 생성해 가는 상향식(bottom-up) 계층 클러스터링 기법들이 연구되었다. 이러한 상향식 클러스터링 방법은 트리를 생성하기 위하여 전체 데이타베이스를 한 번 이상 액세스하여야 할 뿐만 아니라, 하위 계층에서부터 검색을 시작하기 때문에 트리의 많은 부분을 검색하여야 하는 문제점이 있다. 본 논문에서는 대부분의 데이타베이스 응용에서 이미 유지하고 있는 다차원 색인을 이용하여 클러스터링을 수행하는 새로운 하향식(top-down) 계층 클러스터링 기법을 제안한다. 일반적으로 다차원 색인에서는 가까운 객체들이 동일한 (혹은 인접한) 페이지에 저장될 가능성이 큰 클러스터링 성질을 가진다. 이러한 다차원 색인의 클러스터링 성질을 사용하면 각 객체들간의 거리를 일일이 계산하지 않고도 이웃한 객체들을 식별할 수 있다. 우선 객체들의 밀도에 기반하여 클러스터를 정형적으로 정의한다. 이를 위하여, 객체를 포함하는 영역의 밀도를 이용한 영역 대조 분할(region contrast partition) 개념을 사용한다. 또, 클러스터링 알고리즘에서의 빠른 검색을 위하여 분기 한정(branch-and-bound) 알고리즘을 사용하며, 여기서의 한계값(bound)을 제안하고 이의 정확성을 이론적으로 증명한다. 실험 결과, 제안한 방법은 상향식 계층 클러스터링 방법인 BIRCH와 비교하여, 정확성 측면에서 우수하거나 유사한 것으로 나타났으며, 데이타 페이지 액세스 횟수를 데이타베이스 크기에 따라 최고 26~187배까지 감소시킨 것으로 나타났다. 이 같은 결과로 볼 때, 제안한 방법은 대용량 데이타베이스에서의 클러스터링 성능을 크게 향상시키는 기법으로서, 일반 데이타베이스 응용에 실용적으로 적용 가능하다고 판단된다.

특성정보를 이용한 영상기반 인터넷 동영상 검색 시스템의 구현 (An Implementation of a Image-based Internet Video Search System using Feature Information)

  • 손정식;이원석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.62-65
    • /
    • 2001
  • 본 논문에서는 인터넷 동영상 정보들을 보다 효율적이고 정확하게 검색할 수 있는 시스템을 구현하기 위해, 특성 정보에 기반한 영상기반 검색과 예제를 통한 질의를 사용한 시스템을 제안한다. 기존의 검색 시스템과는 달리 본 시스템에서는 사용자가 진의로 제출한 통영상의 특성정보를 추출하여 데이타마이닝하여 프로파일로 만들고, 인터넷에서 검색된 동영상의 특성정보와 비교하는 기법을 사용한다. 또한 진의 동영상 프로파일들을 통합하고, 특징 영역 세그먼트들의 중요도를 저장해 둠으로써 사용자의 질의를 하나의 척도로 처리하며, 작성된 프로파일과 비교 할 동영상의 특성정보를 영역별로 가중치를 주어 보정함으로 검색을 원하는 동영상의 특징을 강조한 진의가 가능하도록 한다. 끝으로 가중치를 주는 방법의 변화에 따른 시스템이 출력하는 검색 결과의 변화를 관찰하여 보정 방법의 성능을 평가한다.

  • PDF

e-Commerce 쇼핑몰의 소비자 서비스 강화를 위한 활용연구 (A Study on System Applications of e-CRM to Enforcement of consumer Service)

  • 김연정
    • 대한가정학회지
    • /
    • 제43권3호
    • /
    • pp.1-10
    • /
    • 2005
  • The purpose of this study was to investigate the enforcement strategy for Consumer Service marketing of an e-Commerce shopping mall. An e-CRM for a Cosmetic e-Commerce shopping mall, Data Warehousing(DW) component, analysis of data mining of the DW, and web applications and strategies had to developed for marketing of consumer service satisfaction. The major findings were as follows: An RFM analysis was used for consumer classification, which is a fundamental process of e-CRM application. The components of the DW were web sales data and consumer data fields. The visual process of consumer segmentations (superior consumer class) for e-CRM solutions is presented. The association analysis algorithm of data mining to up-selling and cross-selling indicates an association rule. These e-CRM results apply web DB marketing and operating principles to a shopping mall. Therefore, the system applications of e-CRM to Consumer services indicate a marketing strategy for consumer-oriented management.

클러스터의 히스토그램을 이용한 XML 문서의 점진적 클러스터링 기법 (An Incremental Clustering Technique of XML Documents using Cluster Histograms)

  • 황정희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.261-269
    • /
    • 2007
  • 이 논문에서는 XML 문서에 대한 효율적인 검색과 통합을 위한 기초연구로써 XML 문서들에 대한 구조 중심의 클러스터링 기법을 제안한다. 기존 연구에서 문서간의 구조적 유사도를 기반으로 클러스터를 형성해 가는 것과는 다르게 많은 데이타를 빠르게 처리할 수 있는 트랜잭션 데이타를 취급하는 알고리즘을 변형하여 적용한다. 각 클러스터에 포함되어 있는 항목들에 대한 누적 분포를 나타내는 히스토그램을 이용하여 전체적인 클러스터링의 응집도를 고려하는 클러스터링을 수행한다. 기존 연구와의 실험을 통해 클러스터링 처리 시간의 향상과 양질의 클러스터를 생성하는 것을 알 수 있었다.

검색어의 연관법칙 (ARMS : Association Rule for sMall Set)

  • 문상준;최재걸
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.10-12
    • /
    • 2004
  • 검색엔진에 사용자가 입력한 검색어를 분석하면 상호 연관이 있는 검색어들을 찾아낼 수 있다. 검색어들간의 상호 연관성을 찾기 위해서 데이타 마이닝 분야의 연관법칙을 위한 알고리즘을 적용하였다. 그러나 이 알고리즘들은 모두 일정 횟수 이상 검색된 검색어간의 연관법칙에 집중되어 있어서 일정 횟수 이상 검색되지 않은 검색어들은 버려진다. 이 연구에서는 이런 검색어들을 스몰 셋(small set)이라고 정의하고 스몰 셋의 연관법칙을 찾기 위한 방법을 제시한다. 실험결과는 이 연구에 제시한 방법이 효과적으로 동작하는 것을 입증해준다.

  • PDF

클러스터 내부 빈발 지지도를 이용한 개선된 사용 프로파일 평가 (Evaluation Of Improved Usage Profiles Using Frequency Support Threshold In Clusters)

  • 안계순;이필규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.277-279
    • /
    • 2002
  • 웹 로그 기반의 웹 사용 마이닝은 명시적 평가 의존, 확장성 결여, 그리고 다차원 및 희박한 데이터에 성능이 떨어지는 협력적 여과의 문제를 다소 해결할 수 있다. 그러나 k-Means 군집화 방법으로 생성된 군집속 유사 사용자 이동 패턴으로는 클러스터속 사용자 전체의 선호도를 표현할 수 없으므로 사용자 이동 패턴인 트랜잭션들로부터 사용 프로파일을 유도해야 한다. 본 논문에서는 유사 군집 사용자들의 관심과 기호를 표현할 수 있도록 클러스터 내부 데이타로부터 평균 가중치 및 빈발 지지도 임계값을 사용하여 개선된 사용 프로파일을 생성하고 실험 데이터를 통한 예측력과 추천에 대한 성능을 평가한다.

  • PDF

교사학습 알고리즘을 이용한 텍스트 분류 시스템 (A Text Classification System based on a Supervised Learning Algorithm)

  • 김진상;성정호;김성주
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.421-430
    • /
    • 1998
  • 지식경영을 위한 다양한 대상 업무중에서 텍스트 데이터의 마이닝은 특히 중요하다. 그 이유는 텍스트 데이터가 양적인 면에서 가장 풍부하고, 또 발견할 수 있는 지식을 가장 많이 포함하고 있기 때문이다. 본 논문에서는 텍스트 데이터베이스에서 지식발견을 위한 한 과정으로 텍스트 데이터베이스 내의 텍스트들을 분류하는 기법을 기술한다. 특히 문서 분류 방법은 데이터베이스의 일부 데이터를 훈련, 예제로 간주하여 교사 학습 알고리즘을 통해 학습한 후 나머지 데이터를 이용해 분류 정확성을 검증 및 향상시킨다. 시험 데이터로는 인터넷의 뉴스그룹의 기사를 이용하였고, 시험 결과 분류의 정확성은 한글 및 영문 모두 최소 70% 이상으로 나타났다.

  • PDF

순차 패턴 마이닝을 사용한 두 XML 문서간 최대 유사 경로 추출 (Extracting Maximal Similar Paths between Two XML Documents using Sequential Pattern Mining)

  • 이정원;박승수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.553-566
    • /
    • 2004
  • 최근 XML 저장 기법, 질의 최적화, 인덱싱 등의 XML 관련 기술이 활발히 연구되고 있다. 이와 관련하여 하나의 DTD나 XML Schema로 정의된 고정 구조를 공유하는 문서 집합이 아니라 다양한 구조를 가진 문서 집합인 경우 다중 문서간의 구조적 유사성이나 차이점 등을 파악할 필요가 있다. 예를 들어 서로 다른 사이트나 문서 관리 시스템에서 도출된 문서들을 합병하거나 분류할 필요가 있을 때, 문서를 처리하기 위해 공유 구조를 발견하는 일은 매우 중요하다. 본 연구에서는 다양한 문서들의 구조를 구성하는 경로들간의 유사성을 파악하기 위해 기존의 순차패턴 마이닝 알고리즘(1)을 변형하여 두 XML 문서간 최대 유사 경로를 추출한다. 몇 가지 실험을 통해 본 논문에서 제안한 변형된 순차패턴 마이닝 알고리즘이 두 문서간의 최대 유사 경로를 찾아내고 또한 두 문서간의 정확한 공유 경로 및 최대 유사 경로를 정확히 찾을 수 있음을 보인다. 또한 실험 결과 분석을 위해 최대 유사 경로를 기반으로 정의된 유사성 척도가 XML 문서를 정확하게 분류할 있음을 보인다.

멀티미디어 데이타의 재발생 항목 마이닝을 위한 연관규칙 연구 (A Study on Association-Rules for Recurrent Items Mining of Multimedia Data)

  • 김진옥;황대준
    • 한국멀티미디어학회논문지
    • /
    • 제5권3호
    • /
    • pp.281-289
    • /
    • 2002
  • 컴퓨터 처리기술과 저장기술 그리고 인터넷 등의 영향으로 멀티미디어 데이터의 양은 급속하게 증가하지만 체계적으로 멀티미디어 데이터간의 연관규칙을 마이닝하는 연구는 초기 단계이다. 본 논문은 이미지 프로세싱 분야 및 내용기반 이미지 검색에 대한 기존 연구를 바탕으로 대형 영상 데이터 저장소에 저장된 이미지 데이터에서 재발생하는 항목간의 연관규칙을 찾으며 공간적 관계로 내용기반의 연관규칙을 마이닝하는 알고리즘을 제안한다. 제안된 연관규칙 탐색 알고리즘은 이미지의 색상, 질감, 모양 등 내용기반의 영상속성을 오브젝트 항목으로 하여 오브젝트가 이미지에서 재발생될 때를 이용, 이미지간의 연관규칙을 찾고 오브젝트들이 이미지에서 차지하고 있는 공간적 위치관계를 통해 드러나지 않는 이미지간의 연관규칙을 마이닝한다. 본 논문의 재발생 항목을 고려한 연관규칙 알고리즘은 Apriori 알고리즘보다 빈번한 항목 집합을 찾아내는데 더 높은 성능을 보인다는 것을 실험 을 통하여 제시한다. 제 안된 알고리즘은 동일한 정보원으로부터 받은 멀티미디어 데이터간의 연관성을 탐색하는데 특히 효과적이며 다양한 관련 응용분야에 적용할 수 있다.

  • PDF

랭킹 SVM과 RDBMS의 밀결합 통합 (Tightly Coupled Integration of Ranking SVM and RDBMS)

  • 송재환;오진오;양은석;유환조
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.247-253
    • /
    • 2009
  • 지난 십 년간 랭킹은 데이터 마이닝 분야의 활발한 연구분야였다. 그러나 랭킹은 다른 데이터 마이닝 기법들과 비슷하게 RDBMS와는 독립적으로 개발되었고, 그로 인해 기존에 널리 사용되고 있는 RDBMS들과의 연동성이 떨어진다는 단점이 존재하게 되었다. 다른 데이터 마이닝 기법들은 소결합이나 밀결합 접근법을 이용하여 RDBMS와 연동하기 위한 연구가 활발하게 진행되어 왔고, 그 결과 실제로 사용 가능한 응용시스템들이 나오게 되었다. 그러나 랭킹에서는 이와 같은 노력들이 잘 이루어지지 않고 있다. 본 논문에서는 랭킹 작업을 RDBMS에 연동하여 효율적으로 수행하기 위하여 MySQL에 Ranking SVM을 통합하는 작업을 진행하였다. 밀결합 접근법을 기반으로 하는 우리의 구현은 MySQL에 랭킹을 위한 새로운 SQL 명령어를 추가하였고 랭킹 작업의 효율성을 확인하기 위해서 소결합 접근법을 기반으로 하는 Ranking SVM과 성능을 비교 평가하여 훈련단계에서 $10{\sim}40%$, 예측단계에서 평균 60%의 성능향상을 확인할 수 있었다.