• Title/Summary/Keyword: 문서간 관계 추출

Search Result 103, Processing Time 0.052 seconds

Automatic Extraction of protein-protein interaction information from biological literature (생물학 관련 문헌으로부터 상호작용 정보 자동 추출)

  • 정의헌;김민경;박현석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.808-810
    • /
    • 2003
  • 본 논문에서는 생물학 관련 문서에서 단백질 간의 상호작용을 추출하는 방법에 대한 전반적인 기술 동향을 소개하고, 현재 구현된 상호작용 정보 자동추출 시스템의 연구 결과에 대해 기술한다. 일반적으로 이미 알려진 단백질들의 관계를 추출함에 있어서는 단백질의 이름에 대한 특성 구분과 표현의 의미적 해석등에 NLP 기법을 사용하여, 사용자 정의에 따른 룰을 생성하는 방법과 데이터 마이닝 기법을 적용하여, 단백질간의 관계를 자동적으로 추출하는 방법, 또한 위의 이 두가지 방법을 병행하는 방법이 현재 연구되고 있다. 이 논문에서는 자연언어처리 기법과 머신러닝 기법(SVM)을 이용하여, 단백질간의 상호작용에 관한 일반 생물 정보 문헌에서 추출하고, 그 성능을 테스트 해 보겠다.

  • PDF

사용자 의도 정보를 사용한 웹문서 분류

  • Jang, Yeong-Cheol
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2008.10b
    • /
    • pp.292-297
    • /
    • 2008
  • 복잡한 시맨틱을 포함한 웹 문서를 정확히 범주화하고 이 과정을 자동화하기 위해서는 인간의 지식체계를 수용할 수 있는 표준화, 지능화, 자동화된 문서표현 및 분류기술이 필요하다. 이를 위해 키워드 빈도수, 문서내 키워드들의 관련성, 시소러스의 활용, 확률기법 적용 등에 사용자의도(intention) 정보를 활용한 범주화와 조정 프로세스를 도입하였다. 웹 문서 분류과정에서 시소러스 등을 사용하는 지식베이스 문서분류와 비 감독 학습을 하는 사전 지식체계(a priori)가 없는 유사성 문서분류 방법에 의도정보를 사용할 수 있도록 기반체계를 설계하였고 다시 이 두 방법의 차이는 Hybrid조정프로세스에서 조정하였다. 본 연구에서 설계된 HDCI(Hybrid Document Classification with Intention) 모델은 위의 웹 문서 분류과정과 이를 제어 및 보조하는 사용자 의도 분석과정으로 구성되어 있다. 의도분석과정에 키워드와 함께 제공된 사용자 의도는 도메인 지식(domain Knowledge)을 이용하여 의도간 계층트리(intention hierarchy tree)를 구성하고 이는 문서 분류시 제약(constraint) 또는 가이드의 역할로 사용자 의도 프로파일(profile) 또는 문서 특성 대표 키워드를 추출하게 된다. HDCI는 문서간 유사성에 근거한 상향식(bottom-up)의 확률적인 접근에서 통제 및 안내의 역할을 수행하고 지식베이스(시소러스) 접근 방식에서 다양성에 한계가 있는 키워들 간 관계설정의 정확도를 높인다.

  • PDF

Optimization of Associative Word Knowledge Base using Apriori-Genetic Algorithm (연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화)

  • Go, Su-Jeong;Choe, Jun-Hyeok;Lee, Jeong-Hyeon
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.8
    • /
    • pp.560-569
    • /
    • 2001
  • 지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관게를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않은 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호 정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF.IDF를 이용한 단어 정제 방법과 비교한다.

  • PDF

Ontology-Based Document Classification (온톨로지 기반 웹 문서 분류)

  • 송무희;임수연;민도식;강동진;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.535-537
    • /
    • 2003
  • 본 논문에서는 웹 문서들이 가지는 용어 정보들과 어휘들의 의미구조를 계층적 형태로 표현한 온틀로지 기반 자동 문서분류 방법을 제안한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 점하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하며, 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

An Efficient Text Mining method based on Domain Stopword Elimination (도메인 불용어 제거를 통한 효율적인 텍스트 마이닝 기법)

  • Song, Jae-Sun;Joo, Kil-Hong;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1523-1526
    • /
    • 2003
  • 정보 검색 분야에서 문서 클러스터링방법은 사용자에게 양질의 다양한 정보를 제공하기 위한 방법으로 이에 대한 많은 연구가 수행되었다. 피러나 기존의 문서클러스터링 방법들은 클러스터간의 포함관계를 나타내는 계층적 관계를 표현하지 않고 의미적으로만 비슷한 내용의 문서를 묶어 여러 개의 클러스터로 나타내었다. 이에 본 논문에서는 각 문서가 속하는 도메인 별로 불용어와 키워드를 추출하여 문서클러스터링에 적용하는 알고리즘을 제안한다.

  • PDF

String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure (술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출)

  • Jeong, Chang-Hoo;Choi, Sung-Pil;Chun, Hong-Woo;Hong, Soon-Chan;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.

Automatic Term Recognition using Domain Similarity and Statistical Methods (분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출)

  • Oh, Jong-Hoon;Lee, Kyung-Soon;Choi, Key-Sun
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.4
    • /
    • pp.258-269
    • /
    • 2002
  • There have been many studies of automatic term recognition (ATR) and they have achieved good results. However, there are scopes to improve the performance of extracting terms still further by using the additional technical dictionaries. This paper focuses on the method for extracting terms using the hierarchy among technical dictionaries. Moreover, a statistical method based on frequencies, foreign words, and nested relations assists extracting terms which do not appear in dictionaries. Our method produces relatively good results for this task.

Construction of Test Collection for Extraction of Biomedical PLOT & Relations (생의학분야 PLOT 및 관계추출을 위한 테스트컬렉션 구축)

  • Choi, Yun-Soo;Choi, Sung-Phl;Jeong, Chang-Hoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2010.05a
    • /
    • pp.425-427
    • /
    • 2010
  • Large-scaled information extraction consists of named-entity recognition, terminology extraction and relation extraction. Since all the elementary technologies have been studied independently so far, test collections for related machine learning models also have been constructed independently. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In this study, we integrate named-entities and terminologies with PLOT(Person, Location, Organization, Terminology) in a biomedical domain and construct a test collection of PLOT and relations between PLOTs.

  • PDF

Medicine Ontology Building based on Semantic Relation and Its Application (의미관계 정보를 이용한 약품 온톨로지의 구축과 활용)

  • Lim Soo-Yeon;Park Seong-Bae;Lee Sang-Jo
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.5
    • /
    • pp.428-437
    • /
    • 2005
  • An ontology consists of a set and definition of concepts that represents the characteristics of a given domain and relationship between the elements. To reduce time-consuming and cost in building ontology, this paper proposes a semiautomatic method to build a domain ontology using the results of text analysis. To do this, we Propose a terminology processing method and use the extracted concepts and semantic relations between them to build ontology. An experiment domain is selected by the pharmacy field and the built ontology is applied to document retrieval. In order to represent usefulness for retrieving a document using the hierarchical relations in ontology, we compared a typical keyword based retrieval method with an ontology based retrieval method, which uses related information in an ontology for a related feedback. As a result, the latter shows the improvement of precision and recall by $4.97\%$ and $0.78\%$ respectively.

Design and Implementation of XML-based Indexing Algorithm Using Depth-First and Shortest Distance Between Nodes (깊이탐색과 노드간 최단거리를 이용한 XML 인덱싱 알고리즘 설계 및 구현)

  • 김광남;윤희병;김화수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.547-549
    • /
    • 2004
  • 웹기반 하에서 구조적인 정보를 표현하기 위해서 XML이 다양하게 사용되고 있으나 XML 기반 문서는 다양한 Schema와 노드의 표현으로 구성되어 있어서 이를 효율적으로 인덱싱 하여 저장하는 것은 매우 어려운 일이다 이를 해결하기 위하여 추상화, DTD, K-ary 완전트리 기법 등 다양한 연구가 이루어지고 있으나 응용에 많은 제한을 가지고 있다. 본 논문에서는 XML 기반의 웹문서를 효율적으로 인덱싱하고 사용자의 질의에 최적의 결과를 제공하기 위한 알고리즘을 설계 및 구현한다. 인덱싱 시스템 설계를 위해서 먼저 노드(부모 형제)의 ID를 추출하는 알고리즘을 제안하며, 문서 및 노드 테이블 설계 결과를 제시한다. 그리고 C#을 이용한 파싱과 인덱스 알고리즘을 구현하기 위하여 깊이탐색과 관계 노드간 최단거리를 이용하며, 알고리즘 실행 결과와 이 결과로 자동 생성된 문서 및 노드 테이블의 파싱 결과를 또한 제시한다.

  • PDF