• 제목/요약/키워드: Knowledge Mining

검색결과 578건 처리시간 0.024초

상위 K 하이 유틸리티 패턴 마이닝 기법 성능분석 (Performance Analysis of Top-K High Utility Pattern Mining Methods)

  • 양흥모;윤은일;김철홍
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.89-95
    • /
    • 2015
  • 전통적인 빈발 패턴 마이닝은 데이터베이스로부터 사용자 정의 최소 임계치 이상의 빈도수를 가지는 유효 패턴들을 식별한다. 적절한 임계치 설정은 해당 도메인에 대한 사전 지식을 요구하므로 쉬운 작업이 아니다. 따라서 임계치 설정을 통한 마이닝 결과의 정밀한 제어 불가능으로 인해 도메인 지식을 기반으로 하지 않는 패턴 마이닝 방법이 필요하게 되었다. 상위 K 빈발 패턴 마이닝은 이러한 문제를 해결하기 위해 제안되었으며, 임계치 설정 없이 상위 K개의 중요 패턴들을 마이닝 한다. 사용자는 이를 적용함으로써 데이터베이스에 상관없이 가장 높은 빈도수의 패턴부터 K번째로 높은 빈도수의 패턴까지 찾아낼 수 있다. 비록 상위 K 빈발 패턴 마이닝이 임계치 설정 없이 상위 K개의 중요 패턴들을 마이닝 하지만, 트랜잭션 내 아이템 수량과 데이터베이스 내 서로 다른 아이템 중요도를 고려하지 못하여 많은 실세계 응용의 요구에 부합하지 못한다. 하이 유틸리티 패턴 마이닝은 아이템 중요도가 포함된 비 바이너리 데이터베이스의 특성을 고려하기 위해 제안되었으나 최소 임계치를 필요로 한다. 최근 임계치 설정 없는 하이 유틸리티 패턴 마이닝을 위한 상위 K 하이 유틸리티 패턴 마이닝이 개발되었으며, 이를 통해 사용자는 사전 지식 없이 원하는 수의 패턴을 마이닝 할 수 있다. 본 논문은 상위 K 하이 유틸리티 패턴 마이닝을 위한 알고리즘을 분석한다. 최신 알고리즘에 대한 성능분석을 통해 개선사항 및 발전 방향에 대해 고찰한다.

GPCR 경로 추출을 위한 생물학 기반의 목적지향 텍스트 마이닝 시스템 (BIOLOGY ORIENTED TARGET SPECIFIC LITERATURE MINING FOR GPCR PATHWAY EXTRACTION)

  • KIm, Eun-Ju;Jung, Seol-Kyoung;Yi, Eun-Ji;Lee, Gary-Geunbae;Park, Soo-Jun
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.86-94
    • /
    • 2003
  • Electronically available biological literature has been accumulated exponentially in the course of time. So, researches on automatically acquiring knowledge from these tremendous data by text mining technology become more and more prosperous. However, most of the previous researches are technology oriented and are not well focused in practical extraction target, hence result in low performance and inconvenience for the bio-researchers to actually use. In this paper, we propose a more biology oriented target domain specific text mining system, that is, POSTECH bio-text mining system (POSBIOTM), for signal transduction pathway extraction, especially for G protein-coupled receptor (GPCR) pathway. To reflect more domain knowledge, we specify the concrete target for pathway extraction and define the minimal pathway domain ontology. Under this conceptual model, POSBIOTM extracts interactions and entities of pathways from the full biological articles using a machine learning oriented extraction method and visualizes the pathways using JDesigner module provided in the system biology workbench (SBW) [14]

  • PDF

RFID-based Supply Chain Process Mining for Imported Beef

  • Kang, Yong-Shin;Lee, Kyounghun;Lee, Yong-Han;Chung, Ku-Young
    • 한국축산식품학회지
    • /
    • 제33권4호
    • /
    • pp.463-473
    • /
    • 2013
  • Through the development of efficient data collecting technologies like RFID, and inter-enterprise collaboration platforms such as web services, companies which participate in supply chains can acquire visibility over the whole supply chain, and can make decisions to optimize the overall supply chain networks and processes, based on the extracted knowledge from historical data collected by the visibility system. Although not currently active, the MeatWatch system has been developed, and is used in part for this purpose, in the imported beef distribution network in Korea. However, the imported beef distribution network is too complicated to analyze its various aspects using ordinary process analysis approaches. In this paper, we suggest a novel approach, called RFID-based supply chain process mining, to automatically discover and analyze the overall supply chain processes from the distributed RFID event data, without any prior knowledge. The proposed approach was implemented and validated, by using a case study of the imported beef distribution network in Korea. Specifically we demonstrated that the proposed approach can be successfully applied to discover supply chain networks from the distributed event data, to simplify the supply chain networks, and to analyze anomaly of the distribution networks. Such novel process mining functionalities can reinforce the capability of traceability services like MeatWatch in the future.

데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색 (Finding Frequent Itemsets based on Open Data Mining in Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.447-458
    • /
    • 2003
  • 기존의 데이터 마이닝 방법들은 기본적으로 지식 발견의 대상이 되는 데이터 집합이 마이닝 작업 시작 이전에 명확히 정의되는 것으로 가정하며 이러한 가정은 고정적으로 정의된 특정 데이터 집합에 내재된 정보 추출이 데이터 마이닝의 목적이 될 때 유효하다. 또한, 기존의 데이터 마이닝 방법들은 대용량의 데이터 집합에 대한 마이닝 결과를 얻는데 있어서 상당한 처리 시간을 요구한다. 따라서, 새로운 트랜잭션 데이터가 지속적으로 추가되는 데이터 스트림에서 추가된 트랜잭션의 정보들을 포함하는 최신의 마이닝 결과를 최대한 빠른 시간 안에 얻기를 기대하는 실시간 처리 환경에서는 기존의 데이터 마이닝 방법을 적용하는 것이 거의 불가능하다. 이러한 목적에 부합하기 위해서 본 논문에서는 새로운 데이터 마이닝 개념인 개방 데이터 마이닝을 제안한다. 개방 데이터 마이닝에서는 새로운 트랜잭션이 발생함에 따라 이전에 발생한 트랜잭션들에 대한 마이닝 결과가 새롭게 갱신되며 따라서 확장된 전체 트랜잭션 집합에 대한 마이닝 결과를 빠르게 얻을 수 있다. 이러한 방법을 효과적으로 구현하기 위해서는 새롭게 출현한 항목에 대한 지연추가와 이전 데이터 집합에 출현한 항목들 중에서 중요하지 않는 항목에 대한 전지작업이 병행되어야 한다. 논문에서 제안하는 알고리즘은 알고리즘의 특성을 파악하기 위한 일련의 다양한 실험을 통해서 검증된다.

아파트 경매를 위한 웹 기반의 지능형 의사결정지원 시스템 구현 (Implementation of a Web-Based Intelligent Decision Support System for Apartment Auction)

  • 나민영;이현호
    • 한국정보처리학회논문지
    • /
    • 제6권11호
    • /
    • pp.2863-2874
    • /
    • 1999
  • Apartment auction is a system that is used for the citizens to get a house. This paper deals with the implementation of a web-based intelligent decision support system using OLAP technique and data mining technique for auction decision support. The implemented decision support system is working on a real auction database and is mainly composed of OLAP Knowledge Extractor based on data warehouse and Auction Data Miner based on data mining methodology. OLAP Knowledge Extractor extracts required knowledge and visualizes it from auction database. The OLAP technique uses fact, dimension, and hierarchies to provide the result of data analysis by menas of roll-up, drill-down, slicing, dicing, and pivoting. Auction Data Miner predicts a successful bid price by means of applying classification to auction database. The Miner is based on the lazy model-based classification algorithm and applies the concepts such as decision fields, dynamic domain information, and field weighted function to this algorithm and applies the concepts such as decision fields, dynamic domain information, and field weighted function to this algorithm to reflect the characteristics of auction database.

  • PDF

Knowledge Extraction from Academic Journals Using Data Mining Techniques

  • 남수현;김홍기
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 춘계학술대회
    • /
    • pp.531-544
    • /
    • 2005
  • 최근 우리는 인접학문 간 그리고 학계와 산업계 간의 연구협조가 점차 증가하고 있음을 보아오고 있다. 이러한 현상은 특히 학술저널 간 지식의존성을 촉진하는 계기를 제공하고 있다고 할 수 있다. 본 논문의 목적은 관련저널 간 지식상호 의존성을 규명하고 저널지식의 구조화를 위하여 association, 군집화, 링크분석 등 데이터마이닝 기법을 적용하는 방법론을 제시하는 것이다. 제시된 방법을 통하여 기대되는 점들은 1) 논문의 기본속성인 키워드, 저자, 그리고 인용데이터를 통합하는 규칙 집합을 통하여 논문지식검색기능의 향상, 2) 키워드를 기반으로 관련 저널 간 그리고 저널내부의 군집분석으로 지식동향 파악, 3) Kleinberg (1999)의 권위와 허브 개념을 인용데이터 분석에 활용하여 기존의 양적 평가 기준인 영향력 지수 (impact factor)의 문제점을 보완하며, 4) 특정 논문이나 저널의 지식파급과 관련한 영향력을 산출하는 잠재적 지식파급 지수를 제안하는 것이다.

  • PDF

Emerging Data Management Tools and Their Implications for Decision Support

  • Eorm, Sean B.;Novikova, Elena;Yoo, Sangjin
    • 한국산업정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.189-207
    • /
    • 1997
  • Recently, we have witnessed a host of emerging tools in the management support systems (MSS) area including the data warehouse/multidimensinal databases (MDDB), data mining, on-line analytical processing (OLAP), intelligent agents, World Wide Web(WWW) technologies, the Internet, and corporate intranets. These tools are reshaping MSS developments in organizations. This article reviews a set of emerging data management technologies in the knowledge discovery in databases(KDD) process and analyzes their implications for decision support. Furthermore, today's MSS are equipped with a plethora of AI techniques (artifical neural networks, and genetic algorithms, etc) fuzzy sets, modeling by example , geographical information system(GIS), logic modeling, and visual interactive modeling (VIM) , All these developments suggest that we are shifting the corporate decision making paradigm form information-driven decision making in the1980s to knowledge-driven decision making in the 1990s.

  • PDF

Knowledge Extraction from Academic Journals Using Data Mining Techniques

  • 남수현;김홍기
    • 디지털융복합연구
    • /
    • 제3권1호
    • /
    • pp.75-88
    • /
    • 2005
  • 최근 우리는 인접학문 간 그리고 학계와 산업계간의 연구협조가 점차 증가하고 있음을 보아오고 있다. 이러한 현상은 특히 학술저널 간 지식의존성을 촉진하는 계기를 제공하고 있다고 할 수 있다. 본 논문의 목적은 관련저널 간 지식상호 의존성을 규명하고 저널지식의 구조화를 위하여 연관성 (association), 군집화, 링크분석 등 데이터마이닝 기법을 적용하는 방법론을 제시하는 것이다. 제시된 방법을 통하여 기대되는 점들은 1) 논문의 기본 속성인 키워드, 저자, 그리고 인용데이터를 통합하는 규칙 집합을 통하여 논문지식검색기능의 향상, 2) 키워드를 기반으로 관련 저널 간 그리고 저널내부의 군집분석으로 지식동향 파악, 3) Kleinberg (1999)의 권위와 허브 개념을 인용데이터 분석에 활용하여 기존의 양적 평가 기준인 영향력지수 (impact factor)의 문제점을 보완하며, 4) 특정 논문이나 저널의 지식파급과 관련한 영향력을 산출하는 잠재적 지식파급 지수를 제안하는 것이다.

  • PDF

러브집합이론과 SOM을 이용한 연속형 속성의 이산화 (Discretization of Continuous Attributes based on Rough Set Theory and SOM)

  • 서완석;김재련
    • 산업경영시스템학회지
    • /
    • 제28권1호
    • /
    • pp.1-7
    • /
    • 2005
  • Data mining is widely used for turning huge amounts of data into useful information and knowledge in the information industry in recent years. When analyzing data set with continuous values in order to gain knowledge utilizing data mining, we often undergo a process called discretization, which divides the attribute's value into intervals. Such intervals from new values for the attribute allow to reduce the size of the data set. In addition, discretization based on rough set theory has the advantage of being easily applied. In this paper, we suggest a discretization algorithm based on Rough Set theory and SOM(Self-Organizing Map) as a means of extracting valuable information from large data set, which can be employed even in the case where there lacks of professional knowledge for the field.

Data Mining Techniques for Medical Informatics: Application to SNP Analysis

  • 천세학;김진;박윤주;함기백;천세철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.258-263
    • /
    • 2005
  • Haplotype-based analysis using high-density SNP markers have gained a great attention in evaluating genes in gene analysis and various clinical situations. However, there has been no research on disease diagnostic modeling based on SNPs analysis to our knowledge. The purpose of this study is to explore how knowledge discovery techniques are applied in medical informatics area and proposes a Case Based Reasoning (CBR) technique for diagnosis of gastric caner using Single Nucleotide Polymorphism(SNP).

  • PDF