• Title/Summary/Keyword: 문서간 관계 추출

Search Result 103, Processing Time 0.048 seconds

Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model (양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법)

  • Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

Query Extending and Document Classification Using Fuzzy Logic (퍼지 논리를 이용한 질의어 확장과 문서 분류)

  • 은희주;이기영;김용성
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.195-197
    • /
    • 1999
  • 본 연구에서는 인터넷 상의 많은 문서들 중에서 사용자에게 보다 적합한 문서를 제공하기 위해 퍼지 관계성을 이용하여 검색 결과 집합의 문서에서 추출한 키워드간의 유사클래스를 생성한다. 또한, 기존의 키워드 직접 매칭에 의한 검색 방법의 단점이라 할 수 있는 의미적 관계를 가지는 문서에 대한 검색 방법도 제안한다. 생성된 유사 클래스는 사용자의 질의를 확장하여 사용자의 관심도를 보다 많이 반영하게 되고, 그 질의어가 포함된 단어나 구의 발생 빈도수가 높은 문서에 대해 의미적으로 서로 연결시켜 분류한다. 본 연구에서 제안한 알고리즘에 의해 문서를 사용자 관심 정도로 분류, 카테고리를 생성하여 검색 효율을 증대시키고 사용자의 요구에 적합한 결과를 제공하고자 한다.

  • PDF

Korean Space Event Relation Extraction Using Case-frame (격틀 정보를 이용한 한국어 공간 사건 관계 추출)

  • Kwak, Sujeong;Kim, Bogyum;Park, Yongmin;Lee, Jae Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.798-801
    • /
    • 2014
  • 문서에서 공간 개체와 사건을 찾아내고, 이들 간의 위상적 관계나 의미적 관계를 찾아내는 것을 공간정보 추출이라고 한다. 본 논문에서는 언어분석 결과와 세종사전을 활용해 자연언어 문서에서 동작(motion) 사건 관계 중심의 공간 정보를 추출하는 규칙 기반 시스템을 제안하였다. 수동으로 구축한 20문장의 평가 집합에 대해 사건 관계 추출은 27.45%의 F-measure 성능을 보였다. 공간보다 비교적 많은 연구가 진행된 시간 관계 추출에 대한 최신 연구의 성능이 30~35% 수준[1]인 것을 고려하여 볼 때, 본 연구는 공간 사건 관계 추출의 기초 연구로 의미가 있다.

Estimation of Document Similarity using Semantic Kernel Derived from Helmholtz Machines (헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정)

  • 장정호;김유섭;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.440-442
    • /
    • 2003
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어수준 이상의 개념 수준에서의 운서 비교를 가능하게 한다. 본 논문에서는 은닉변수모델을 이용하여 문서 집합으로부터 단어들 간의 의미관계를 자동적으로 추출하고 이를 통해 문서간 유사도 측정을 효과적으로 하기 위한 방안을 제시한다. 은닉변수 모델로는 다중요인모델의 학습이 용이한 헬름홀츠 머신을 활용하묘 이의 학습 결과에 기반하여, 문서간 비교를 한 의미 커널(semantic kernel)을 구축한다. 2개의 문서 집합 HEDLINE과 CACM 데이터에 대한 검색 실험에서, 제안된 기법을 적응함으로써 기본 VSM(Vector Space Model) 에 비해 20% 이상의 평균 정확도 향상을 이를 수 있었다.

  • PDF

Automatic Extraction and Clustering of Concepts for Domain Ontology Construction (도메인 온톨로지 구축을 위한 개념 자동 추출 및 클러스터링)

  • Jung, Hyun-Ki;Kim, Yu-Seop
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.305-309
    • /
    • 2008
  • 기존의 온톨로지 구축에 관한 연구들을 살펴보면 개념의 상 하위 관계와 관련한 연구 또는 기구축된 도메인에 특화된 지식베이스에 기반한 도메인 온톨로지 구축 연구가 주를 이룬다. 그러나 개념과 개념간의 관계는 상 하위 구조와 같은 단순한 계층적 구조로는 그 다양한 특성을 표현할 수 없으며, 도메인 온톨로지를 구축하는 경우에 기구축된 데이터베이스와 같은 개념간 관계가 잘 정의된 데이터는 반드시 필요하였다. 예를 들면, 다양한 지식이 구축되어 있는 데이터베이스나 특정 도메인에 관한 전문 사이트(예 : 의학정보, 약학정보 사이트) 등이 있어야 개념간의 다양한 관계가 표현되어 있는 온톨로지를 구축할 수 있었다. 본 연구에서는 도메인 온톨로지를 구축함에 있어서 이러한 제약을 극복하기 위하여 도메인에 특화된 문서들을 웹 검색을 통하여 수집하였고, 수집된 문서 데이터를 이용하여 자동으로 도메인에 특화된 개념들을 추출하고 이들 개념들을 클러스터링함으로써 개념들간의 다양한 관계를 표현할 수 있는 도메인 온톨로지의 자동 구축 가능성을 제시한다.

  • PDF

XML DTD IDREF-lD Modeling using the Field Ordering of RDB Structure (필드 순서화를 이용한 RDB구조의 IHHL DTD IDREF-ID 모델링)

  • 김정희;곽호영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.31-33
    • /
    • 2002
  • 현재 관계형 데이터베이스상에 XML문서를 저장하거나 추출하는 연구들이 진행중이며 이미 ADO(Active Data Object) 2.5와 SQL Server 2000에서는 각각 일차원적인 구조를 가진 레코드셋을 XML 문서로 반환하거나 조인(Join)된 구조를 XML로 직접 추출해 내고 있다. 하지만 이러한 기술들은 계속 성숙되고 있는 단계이며, 관계형 데이터베이스의 테이블간의 다대 다 관계와 같이 IDREF-lD로 표현되어야 하는 복잡한 관계를 처리하지는 못하고 있다. 이에 본 논문에서는 사전에 XML과 관련 없이 저장된 데이터베이스에서 추출된 내용들에 대해 XML 문서 형식들을 적용하고자 했을 때 참조할 DTD(Document Type Definition)의 생성과정에서 필드. 순서화를 이용한 IDREF-lD의 모델링 방식을 제안한다.

  • PDF

Weight decision of the XML Tag using Relationship Probability (관계성 확률을 이용한 XML 태그의 가중치 결정)

  • Jeong, Hye-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.699-702
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도 결정에 관한 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 인용된 문서간의 관계를 알아보고 서로 연관이 있을 확률을 계산하여 그 기대치만큼 색인어에 대한 가중치에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

  • PDF

Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents (한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축)

  • Lim, Chae-Gyun;Oh, KyoJoong;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

Relation Extraction based on Composite Kernel using Pattern Similarity of Predicate-Argument Structure (술어-논항 구조의 패턴 유사도를 활용한 혼합 커널 기반 관계 추출)

  • Jeong, Chang-Hoo;Chun, Hong-Woo;Choi, Yun-Soo;Song, Sa-Kwang;Choi, Sung-Pil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.276-279
    • /
    • 2011
  • 문서 내에 존재하는 개체 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있다. 본 논문에서는 기존에 개발되어 비교적 높은 성능을 보여준 트리 커널의 구절 구조 유사성 정보와 두 개체 사이의 유의미한 연관관계를 표현하는 술어-논항 구조 패턴의 유사성 정보를 활용하는 혼합 커널을 제안한다. 구문적 구조를 이용하는 기존의 트리 커널 기법에 술어와 논항 간의 의미적 구조를 활용하는 술어-논항 구조 패턴 유사도 커널을 결합하여 상호보완적인 혼합 커널을 구성하였고, 실험을 통하여 개발된 커널의 성능을 측정하였다. 실험 결과 구절 구조 정보를 이용하는 트리 커널만을 단독으로 사용했을 때보다 술어-논항 구조의 패턴 정보를 결합한 혼합 커널을 사용했을 때에 더 좋은 성능을 보이는 것을 확인할 수 있었다. 이는 관계 인스턴스에 대한 구절 구조 정보뿐만 아니라 개체 간의 유의미한 연관관계를 표현해주는 술어-논항 구조 패턴 또한 관계 추출 작업에 매우 유용한 정보임을 입증하고 있다.

Design and Implementation of a WebEditor Specialized for Web-Site Maintenance (유지보수에 특화된 웹 문서 작성기의 설계 및 구현)

  • Cho, Young-Suk;Kwon, Yong-Ho;Do, Jae-Su
    • Convergence Security Journal
    • /
    • v.7 no.4
    • /
    • pp.73-81
    • /
    • 2007
  • Users of World Wide Web (Web) experience difficulties in the retrieval of pertinent information due to the increased information provided by Web sites and the complex structure of Web documents that are continuously created, deleted, restructured, and updated. Web providers' efforts to maintain their sites are tend to be less than that of site creation due to the expenses required for maintenance. If information of relationship among Web documents and their validity is provided to Web managers as well as Web developers, they can better serve users. In order to grasp the whole structure of a Web site and to verify the validity of hyperlinks, traversal and analysis of hyperlinks in a Web document are required to provide information for effective and efficient creation and maintenance of the Web. In this paper, we introduce a Web Editor specialized for Web maintenance. We emphasized on two aspects: first, the analysis of HTML Tags to extract hyperlink information and second, establishment of the relationship among hyperlinked documents, and verification of the validity of them.

  • PDF