• 제목/요약/키워드: knowledge discovery in database

검색결과 69건 처리시간 0.022초

Prefix-트리를 이용한 동적 가중치 빈발 패턴 탐색 기법 (Efficient Dynamic Weighted Frequent Pattern Mining by using a Prefix-Tree)

  • 정병수
    • 정보처리학회논문지D
    • /
    • 제17D권4호
    • /
    • pp.253-258
    • /
    • 2010
  • 지금까지의 빈발 패턴(Frequent Pattern) 마이닝에서는 각 항목들의 중요도(Weight)는 모든 같은 값으로 다루어 왔으나 실 환경에서는 각 항목들의 중요도가 다르게 적용되는 경우가 많이 있고 또 같은 항목이라도 시간에 따라 다른 중요도 값으로 다루어져야 할 경우가 있다. 비즈니스 데이터 분석 환경이나 웹 클릭 데이터 분석 환경과 같은 응용에서도 동적으로 변하는 중요도를 고려하여야 한다. 지금까지 항목의 중요도를 고려하는 여러 패턴 마이닝 기법들이 제안되고 있으나 동적으로 변하는 항목의 중요도를 고려하는 연구는 발표되지 않고 있다. 본 논문에서는 처음으로 동적인 항목들의 중요도(혹은 가중치)를 고려하는 빈발 패턴 마이닝 알고리즘을 제안한다. 제안하는 기법은 단 한번의 데이터베이스 스캔으로 처리되므로 스트림 데이터를 분석할 수 있다. 여러 실험을 통하여 제안하는 기법은 매우 효과적이며 확장성이 좋은 것임을 보인다.

Requirement Analysis for Bio-Information Integration Systems

  • Lee, Sean;Lee, Phil-Hyoun;Dokyun Na;Lee, Doheon;Lee, Kwanghyung;Bae, Myung-Nam
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.11-15
    • /
    • 2003
  • Amount of biological data information has been increasing exponentially. In order to cope with this bio-information explosion, it is necessary to construct a biological data information integration system. The integration system could provide useful services for bio-application developers by answering general complex queries that require accessing information from heterogeneous bio data sources, and easily accommodate a new database into the integrated systems. In this paper, we analyze architectures and mechanisms of existing integration systems with their advantages and disadvantages. Based on this analysis and user requirement studies, we propose an integration system framework that embraces advantages of the existing systems. More specifically, we propose an integration system architecture composed of a mediator and wrappers, which can offer a service interface layer for various other applications as well as independent biologists, thus playing the role of database management system for biology applications. In other words, the system can help abstract the heterogeneous information structures and formats from the application layer. In the system, the wrappers send database-specific queries and report the result to the mediator using XML. The proposed system could facilitate in silico knowledge discovery by allowing combination of numerous discrete biological information databases.

  • PDF

Data Mining for Knowledge Management in a Health Insurance Domain

  • Chae, Young-Moon;Ho, Seung-Hee;Cho, Kyoung-Won;Lee, Dong-Ha;Ji, Sun-Ha
    • 지능정보연구
    • /
    • 제6권1호
    • /
    • pp.73-82
    • /
    • 2000
  • This study examined the characteristicso f the knowledge discovery and data mining algorithms to demonstrate how they can be used to predict health outcomes and provide policy information for hypertension management using the Korea Medical Insurance Corporation database. Specifically this study validated the predictive power of data mining algorithms by comparing the performance of logistic regression and two decision tree algorithms CHAID (Chi-squared Automatic Interaction Detection) and C5.0 (a variant of C4.5) since logistic regression has assumed a major position in the healthcare field as a method for predicting or classifying health outcomes based on the specific characteristics of each individual case. This comparison was performed using the test set of 4,588 beneficiaries and the training set of 13,689 beneficiaries that were used to develop the models. On the contrary to the previous study CHAID algorithm performed better than logistic regression in predicting hypertension but C5.0 had the lowest predictive power. In addition CHAID algorithm and association rule also provided the segment characteristics for the risk factors that may be used in developing hypertension management programs. This showed that data mining approach can be a useful analytic tool for predicting and classifying health outcomes data.

  • PDF

공간 데이터 분석을 위한 공간 연관 규칙 탐사 시스템의 설계 및 구현 (Design and Implementation of Spatial Association Rule Discovery System for Spatial Data Analysis)

  • 안찬민;이윤석;박상호;이주홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.27-34
    • /
    • 2006
  • 최근 공간 정보들을 효과적으로 이용할 수 있는 기술에 대한 연구가 활발하게 이루어지고 있다. 효율적인 지식 탐사를 위해 다양한 기존의 데이터 마이닝 방법들이 확장되어 공간 데이터 마이닝에 사용되고 있다. 그러나 기존의 공간 연관 규칙 탐사 시스템들은 프레디킷 간의 연산을 통해 규칙을 발견함에 따라 질의 결과에 다양한 비공간 속성들을 반영하지 못하는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 공간 데이터베이스에서 사용되는 질의를 확장하고, 위상정보에 따른 데이터를 구성한 후 비공간 객체 속성간의 연관 규칙을 발견하는 시스템을 제안한다. 특히 지리 정보 시스템에 적용 가능한 모델을 구현하였다. 이렇게 구현된 시스템은 사용 중인 공간 데이터베이스를 확장하므로 이식성이 뛰어나고, 공간 속성뿐만 아니라 다양한 비공간 속성을 고려함으로써 좀 더 실생활에 유용한 공간 연관 규칙을 발견할 수 있다.

  • PDF

Environmental Consciousness Data Modeling by Association Rules

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권3호
    • /
    • pp.529-538
    • /
    • 2005
  • Data mining is the method to find useful information for large amounts of data in database. It is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. The methods of data mining are association rules, decision tree, clustering, neural network and so on. Association rule mining searches for interesting relationships among items in a riven large data set. Association rules are frequently used by retail stores to assist in marketing, advertising, floor placement, and inventory control. There are three primary quality measures for association rule, support and confidence and lift. We analyze Gyeongnam social indicator survey data using association rule technique for environmental information discovery. We can use to environmental preservation and environmental improvement by association rule outputs.

  • PDF

Environmental Consciousness Data Modeling by Association Rules

  • 박희창;조광현
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 추계학술대회
    • /
    • pp.115-124
    • /
    • 2004
  • Data mining is the method to find useful information for large amounts of data in database. It is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. The methods of data mining are association rules, decision tree, clustering, neural network and so on. Association rule mining searches for interesting relationships among items in a given large data set. Association rules are frequently used by retail stores to assist in marketing, advertising, floor placement, and inventory control. There are three primary quality measures for association rule, support and confidence and lift. We analyze Gyeongnam social indicator survey data using association rule technique for environmental information discovery. We can use to environmental preservation and environmental improvement by association rule outputs.

  • PDF

Extraction of Hierarchical Decision Rules from Clinical Databases using Rough Sets

  • Tsumoto, Shusaku
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.336-342
    • /
    • 2001
  • One of the most important problems on rule induction methods is that they cannot extract rules, which plausibly represent experts decision processes. On one hand, rule induction methods induce probabilistic rules, the description length of which is too short, compared with the experts rules. On the other hand, construction of Bayesian networks generates too lengthy rules. In this paper, the characteristics of experts rules are closely examined and a new approach to extract plausible rules is introduced, which consists of the following three procedures. First, the characterization of decision attributes (given classes) is extracted from databases and the classes are classified into several groups with respect to the characterization. Then, two kinds of sub-rules, characterization rules for each group and discrimination rules for each class in the group are induced. Finally, those two parts are integrated into one rule for each decision attribute. The proposed method was evaluated on a medical database, the experimental results of which show that induced rules correctly represent experts decision processes.

  • PDF

공간 연관규칙의 추출과 적용 - 도시성장 예측모델을 사례로 - (Extraction and Application of Spatial Association Rules: A Case Study for Urban Growth Modeling)

  • 조성휘;박수홍
    • 대한지리학회지
    • /
    • 제39권3호
    • /
    • pp.444-456
    • /
    • 2004
  • 최근 GIS 분야에서는 GIS와 동적 프로세스 모델링에 기반한 셀룰라 오토마타(CA)의 결합을 통한 공간모델링 연구가 활발히 진행되고 있다. 그러나 선행 연구에서의 CA 모델링은 해결하고자 하는 문제의 핵심이 되는 규칙을 찾아내는 기능은 제공하지 못하고 있다. 본 연구에서는 GIS와 지식 발견 기법을 이용하여 공간 연관규칙을 추출하는 방법론을 제시하고 실제 사례에 적용하였다. 이러한 방법론의 제시는 CA 모델링의 기능을 더욱 향상시킬 것으로 기대된다. 또한 본 연구에서 사례로 적용한 도시지역 확장 외에 다양한 문제에 대한 활용이 가능할 것으로 판단된다.

컴퓨터공학 분야 학술 논문 데이터베이스를 이용한 키워드 연관 네트워크 기반 지식지도 (A Knowledge Map Based on a Keyword-Relation Network by Using a Research Paper Database in the Computer Engineering Field)

  • 정보석;권영근;곽승진
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.501-508
    • /
    • 2011
  • 최근 여러 분야에서 활용되고 있는 지식지도는 대량의 정보 속에 숨겨진 특징을 찾아서 그 의미를 파악할 수 있도록 가시적인 형태의 결과를 보여주는 것을 말한다. 본 논문에서는 2000년부터 2010년까지 컴퓨터 공학 분야의 국내 학술지에 게재된 논문들의 데이터베이스를 활용하여 연구동향 분석을 위한 키워드 연관 네트워크 기반의 지식지도를 제안하였다. 그 지식지도를 통해 키워드 연관 네트워크에서 개별 키워드가 속한 연결 요소의 크기 변화를 살펴봄으로써 관련 연구 주제의 영향력 변화를 추론할 수 있었다. 또한, 랜덤 네트워크와의 비교를 통해 키워드 연관 네트워크에서 최대 연결 요소의 크기가 상대적으로 매우 작으며, 상호 관련성이 높은 키워드 쌍들의 그룹이 밀집되어 있음을 보였다. 이는 최대 연결 요소에 대응하는 연구 분야가 크지 않으며 여러 소규모의 연구 주제들이 느슨한 형태로 연결되어 있음을 암시한다. 이러한 분석 결과들은 단순히 개별 키워드의 사용 빈도수 등을 분석하는 전통적인 방식으로는 얻기 어렵다는 점에서 본 논문에서 제안한 지식지도가 연구동향 분석의 방법이 될 수 있다.

Libraries for Life: A Case Study of National Library Board, Singapore

  • Foo, Schubert;Tang, Chris;Ng, Judy
    • 한국문헌정보학회지
    • /
    • 제44권4호
    • /
    • pp.33-59
    • /
    • 2010
  • Library 2.0 advocates a socially rich, multimedia enabled, user originated and communally innovative environment that poses significant opportunities for the libraries to evolve and make themselves even more relevant and significant for her users. This paper presents a case study of the National Library Board of Singapore, in playing a vital role to facilitate the realisation of a long-term key national program, The Singapore Memory (SM) Project. SM embraces the attributes of the Library 2.0 environment to enable the nation's memory to be collected, organised, preserved, discovered, researched, augmented and created. The output of is an evolving collection of knowledge assets on Singapore along a Singapore Memory Content Continuum of existing content that is steadily augmented with new content. The content will be collected across all formats, in any language, from Singaporeans and non-Singaporeans, from any institution and agency, from Singapore and abroad, and from official and unofficial sources. The utopian scenario of SM Project is that any person, community, group or institution who has ever experienced Singapore in any way or has any material on Singapore will engage actively in the contribution, discovery and creation of content for the project, and thus become advocates to further encourage and catalyse more contribution, discovery and creation. The paper outlines the key approaches, concepts and ideas for the project. An important element is the proliferation, exposure and accessibility of the rich contents envisaged in the project. The SM proliferation plan along with examples of how two existing resources, namely, the Singapore Infopedia, a database of articles on Singapore's history, culture, people and events 4 and NewspaperSG, an online resource of current and historic Singapore and Malayan newspapers, have been designed are presented to demonstrate how content can be exposed, searched and discovered.