• 제목/요약/키워드: Data Mining Ontology

검색결과 53건 처리시간 0.026초

그래프마이닝을 활용한 빈발 패턴 탐색에 관한 연구 (A Methodology for Searching Frequent Pattern Using Graph-Mining Technique)

  • 홍준석
    • Journal of Information Technology Applications and Management
    • /
    • 제26권1호
    • /
    • pp.65-75
    • /
    • 2019
  • As the use of semantic web based on XML increases in the field of data management, a lot of studies to extract useful information from the data stored in ontology have been tried based on association rule mining. Ontology data is advantageous in that data can be freely expressed because it has a flexible and scalable structure unlike a conventional database having a predefined structure. On the contrary, it is difficult to find frequent patterns in a uniformized analysis method. The goal of this study is to provide a basis for extracting useful knowledge from ontology by searching for frequently occurring subgraph patterns by applying transaction-based graph mining techniques to ontology schema graph data and instance graph data constituting ontology. In order to overcome the structural limitations of the existing ontology mining, the frequent pattern search methodology in this study uses the methodology used in graph mining to apply the frequent pattern in the graph data structure to the ontology by applying iterative node chunking method. Our suggested methodology will play an important role in knowledge extraction.

데이터 마이닝 기법을 이용한 XML 문서의 온톨로지 반자동 생성 (Semi-Automatic Ontology Generation about XML Documents using Data Mining Method)

  • 구미숙;황정희;류근호;홍장의
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.299-308
    • /
    • 2006
  • 최근 웹 문서를 비롯한 공공 문서 등에 대한 문서 교환을 위해 XML 데이터를 이용한 표준화 작업이 진행 중이므로 XML 문서가 증가하고 있다. 이와 같은 XML 문서에 대한 정보 검색의 효율을 높이기 위해 의미적 요소를 추가한 온톨로지를 기반으로 하는 시맨틱 웹이 등장하였다. 그러나 기존의 수동적인 온톨로지 구축 방식은 비용과 시간이 많이 소모되는 단점이 있으므로 이 논문에서는 유사한 도메인의 XML문서 집합으로부터 데이터 마이닝 기법의 연관규칙 알고리즘을 이용하여 반자동으로 온톨로지를 구축하는 방법을 제안한다. 제안한 방법은 특정한 도메인에 대한 온톨로지를 구축하기 위해서 필요한 데이터의 형태 및 개념 레벨, 그리고 얼마나 많은 개념을 사용할 것인가 하는 도메인 범위의 자동 설정을 온톨로지 자동 생성을 위한 온톨로지 도메인 레벨을 결정하기 위해서 데이터 마이닝 알고리즘을 이용한다. XML 문서의 태그에 대해 연관규칙을 적용하여 빈발하게 발생하는 빈발 패턴을 찾아내고, 서로 관련 있는 개념의 쌍을 추출하여 온톨로지 자동 생성을 위한 도메인 범위를 설정한다. 온톨로지 구축은 온톨로지 언어중의 하나인 XML Topic Maps와 공개 소스인 토픽법 엔진인 TM4J를 이용하여 온톨로지 기반의 시맨틱 웹 엔진을 구현하였다.

A Data Mining Approach for a Dynamic Development of an Ontology-Based Statistical Information System

  • Mohamed Hachem Kermani;Zizette Boufaida;Amel Lina Bensabbane;Besma Bourezg
    • Journal of Information Science Theory and Practice
    • /
    • 제11권2호
    • /
    • pp.67-81
    • /
    • 2023
  • This paper presents a dynamic development of an ontology-based statistical information system supporting the collection, storage, processing, analysis, and the presentation of statistical knowledge at the national scale. To accomplish this, we propose a data mining technique to dynamically collect data relating to citizens from publicly available data sources; the collected data will then be structured, classified, categorized, and integrated into an ontology. Moreover, an intelligent platform is proposed in order to generate quantitative and qualitative statistical information based on the knowledge stored in the ontology. The main aims of our proposed system are to digitize administrative tasks and to provide reliable statistical information to governmental, economic, and social actors. The authorities will use the ontology-based statistical information system for strategic decision-making as it easily collects, produces, analyzes, and provides both quantitative and qualitative knowledge that will help to improve the administration and management of national political, social, and economic life.

센서 네트워크의 데이터 스트림 마이닝을 위한 온톨로지 기반의 전처리 기법 (Ontology based Preprocessing Scheme for Mining Data Streams from Sensor Networks)

  • 정재은
    • 지능정보연구
    • /
    • 제15권3호
    • /
    • pp.67-80
    • /
    • 2009
  • 다양한 센서의 개발과 센서 네트워크 구축으로 인해 특정 공간의 환경 데이터를 수집할 수 있다. 보다 유용한 정보 및 지식의 발견을 위하여 데이터 마이닝(Data mining) 기법이 활용되는 연구들이 소개되었다. 본 연구에서는 이와 같은 데이터 마이닝 기법의 효율성 증대를 위하여 센서 네트워크로부터의 데이터 스트림의 전처리 과정(Preprocessing)을 수행하고자 한다. 제안하는 센서 스트림 데이터의 전처리 과정은 i) 세션확인(Session identification)과 ii) 오류검증(Error detection) 문제를 해결하고자 한다. 특히, 이를 위해 각센서 장비로부터 수집되는 데이터의 의미(Semantics)를 표현하고 있는 온톨로지(Ontology)를 적용한다. 본 연구 결과의 성능 평가를 위하여 센서 네트워크 테스팅 환경을 교내에 설치하였으며 30여일 동안 수집된 데이터를 이용하여 시뮬레이션을 실행하였다.

  • PDF

헬스 빅데이터 플랫폼에서 이기종 라이프로그 마이닝 모델 (Heterogeneous Lifelog Mining Model in Health Big-data Platform)

  • 강지수;정경용
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.75-80
    • /
    • 2018
  • 본 논문에서는 헬스 빅데이터 플랫폼에서 이기종 라이프로그 마이닝 모델을 제안한다. 이는 사용자의 라이프 로그를 실시간으로 수집하고 헬스케어 서비스를 제공하기 위한 온톨로지 기반의 마이닝 모델이다. 제안하는 방법은 이기종 라이프 로그 데이터를 분산처리하고, 클라우드 컴퓨팅 환경에서 실시간으로 처리한다. 이를 이기종 온톨로지를 기반으로 구성한 환경에 적합하도록 상위 온톨로지 방식으로 지식베이스를 재구성한다. 재구성한 지식베이스는 Jena 4.0 추론엔진을 이용해 추론 규칙들을 생성하고, 규칙 기반 추론 방법으로 실시간 헬스 서비스를 제공한다. 라이프로그 마이닝을 숨겨진 관계에 대한 분석과 시계열적 생체신호에 대한 예측모델을 구성한다. 이는 관계나 추론규칙에서 포함되지 않은 음의 상관관계나 양의 상관관계를 탐색하여 사용자의 생체신호에 대한 변화를 감지하고 예방 의료 서비스를 현실화하는 실시간 헬스케어 서비스가 가능하다. 성능 평가는 제안한 이기종 라이프로그 마이닝 모델 방법이 정확도에서 0.734, 재현율에서 0.752로 다른 모델에 비해 우수하게 나타난다.

데이터 마이닝 기술을 적용한 사용자 선호 스팸 대응 온톨로지 구축 (Constructing User Preferred Anti-Spam Ontology using Data Mining Technique)

  • 김종완;김희재;강신재
    • 한국지능시스템학회논문지
    • /
    • 제17권2호
    • /
    • pp.160-166
    • /
    • 2007
  • 사용자마다 임의의 메일에 대한 반응은 자신의 취향에 따라 다를 수 있다. 본 논문에서는 사용자 선호 온톨로지를 구축함으로서 스팸 메일을 줄이고자 한다. 사용자의 행동양식을 기술하는 온톨로지를 정의하기 위하여, 사용자들의 선호도 정보와 그들의 이메일에 대한 반응을 연구하기 위한 연관성 분류 마이닝 방법을 적용했다. 생성된 분류 규칙은 정형화된 온톨로지 언어로 표현된다. 사용자 선호 온톨로지는 어떤 메일이 느팸 또는 비스팸 인지를 의미있는 양식으로 설명할 수 있다. 또한 사용자들의 온톨로지에 대한 이해력 향상을 위해 논리합성에 기반한 새로운 규칙 최적화 절차를 제안하여 불필요한 규칙들을 제거한다.

An Ontology-Based Labeling of Influential Topics Using Topic Network Analysis

  • Kim, Hyon Hee;Rhee, Hey Young
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1096-1107
    • /
    • 2019
  • In this paper, we present an ontology-based approach to labeling influential topics of scientific articles. First, to look for influential topics from scientific article, topic modeling is performed, and then social network analysis is applied to the selected topic models. Abstracts of research papers related to data mining published over the 20 years from 1995 to 2015 are collected and analyzed in this research. Second, to interpret and to explain selected influential topics, the UniDM ontology is constructed from Wikipedia and serves as concept hierarchies of topic models. Our experimental results show that the subjects of data management and queries are identified in the most interrelated topic among other topics, which is followed by that of recommender systems and text mining. Also, the subjects of recommender systems and context-aware systems belong to the most influential topic, and the subject of k-nearest neighbor classifier belongs to the closest topic to other topics. The proposed framework provides a general model for interpreting topics in topic models, which plays an important role in overcoming ambiguous and arbitrary interpretation of topics in topic modeling.

Practical Text Mining for Trend Analysis: Ontology to visualization in Aerospace Technology

  • Kim, Yoosin;Ju, Yeonjin;Hong, SeongGwan;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권8호
    • /
    • pp.4133-4145
    • /
    • 2017
  • Advances in science and technology are driving us to the better life but also forcing us to make more investment at the same time. Therefore, the government has provided the investment to carry on the promising futuristic technology successfully. Indeed, a lot of resources from the government have supported into the science and technology R&D projects for several decades. However, the performance of the public investments remains unclear in many ways, so thus it is required that planning and evaluation about the new investment should be on data driven decision with fact based evidence. In this regard, the government wanted to know the trend and issue of the science and technology with evidences, and has accumulated an amount of database about the science and technology such as research papers, patents, project reports, and R&D information. Nowadays, the database is supporting to various activities such as planning policy, budget allocation, and investment evaluation for the science and technology but the information quality is not reached to the expectation because of limitations of text mining to drill out the information from the unstructured data like the reports and papers. To solve the problem, this study proposes a practical text mining methodology for the science and technology trend analysis, in case of aerospace technology, and conduct text mining methods such as ontology development, topic analysis, network analysis and their visualization.

PubMine: An Ontology-Based Text Mining System for Deducing Relationships among Biological Entities

  • Kim, Tae-Kyung;Oh, Jeong-Su;Ko, Gun-Hwan;Cho, Wan-Sup;Hou, Bo-Kyeng;Lee, Sang-Hyuk
    • Interdisciplinary Bio Central
    • /
    • 제3권2호
    • /
    • pp.7.1-7.6
    • /
    • 2011
  • Background: Published manuscripts are the main source of biological knowledge. Since the manual examination is almost impossible due to the huge volume of literature data (approximately 19 million abstracts in PubMed), intelligent text mining systems are of great utility for knowledge discovery. However, most of current text mining tools have limited applicability because of i) providing abstract-based search rather than sentence-based search, ii) improper use or lack of ontology terms, iii) the design to be used for specific subjects, or iv) slow response time that hampers web services and real time applications. Results: We introduce an advanced text mining system called PubMine that supports intelligent knowledge discovery based on diverse bio-ontologies. PubMine improves query accuracy and flexibility with advanced search capabilities of fuzzy search, wildcard search, proximity search, range search, and the Boolean combinations. Furthermore, PubMine allows users to extract multi-dimensional relationships between genes, diseases, and chemical compounds by using OLAP (On-Line Analytical Processing) techniques. The HUGO gene symbols and the MeSH ontology for diseases, chemical compounds, and anatomy have been included in the current version of PubMine, which is freely available at http://pubmine.kobic.re.kr. Conclusions: PubMine is a unique bio-text mining system that provides flexible searches and analysis of biological entity relationships. We believe that PubMine would serve as a key bioinformatics utility due to its rapid response to enable web services for community and to the flexibility to accommodate general ontology.

A Web-Based Domain Ontology Construction Modelling and Application in the Wetland Domain

  • Xing, Jun;Han, Min
    • 한국멀티미디어학회논문지
    • /
    • 제10권6호
    • /
    • pp.754-759
    • /
    • 2007
  • Methodology of ontology building based on Web resources will not only reduce significantly the ontology construction period, but also enhance the quality of the ontology. Remarkable progress has been achieved in this regard, but they encounter similar difficulties, such as the Web data extraction and knowledge acquisition. This paper researches on the characteristics of ontology construction data, including dynamics, largeness, variation and openness and other features, and the fundamental issue of ontology construction - formalized representation method. Then, the key technologies used in and the difficulties with ontology construction are summarized. A software Model-OntoMaker (Ontology Maker) is designed. The model is innovative in two regards: (1) the improvement of generality: the meta learning machine will dynamically pick appropriate ontology learning methodologies for data of different domains, thus optimizing the results; (2) the merged processing of (semi-) structural and non-structural data. In addition, as known to all wetland researchers, information sharing is vital to wetland exploitation and protection, while wetland ontology construction is the basic task for information sharing. OntoMaker constructs the wetland ontologies, and the model in this work can also be referred to other environmental domains.

  • PDF