• Title/Summary/Keyword: 관계 추출

Search Result 4,378, Processing Time 0.037 seconds

A New Method for Improving Performance in ACE Relation Detect ion and Characterization (ACE 관계 추출과 특징화 과정에서 성능 향상을 위한 새로운 방법(1))

  • Kim, Kyung-Duk;Kim, Seok-Hwan;Lee, Gray Geun-Bae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.1-6
    • /
    • 2005
  • 텍스트 기반 문서의 급증으로 인해 정보 추출 기술이 더욱 중요해지고 있다 특히 최근에 활발한 연구가 진행되고 있는 개체 간 관계 추출 기술은 정보검색과 질의응답 등 많은 분야에 걸쳐 활용될 수 있는 기술이다 본 논문은 기존의 자질 기반 관계 추출 시스템의 재현율을 향상시키기 위해 WHISK 알고리즘을 도입한 시스템에 관한 것이다. WHISK 알고리즘은 문장으로부터 관계에 참여하는 개체 쌍을 추출하는 규칙을 자동으로 학습한다. 그리고 시스템은 최대 엔트로피 모델을 이용하여 WHISK에 의해 추출된 개체 쌍에 적합한 관계 유형을 파악해 낸다. 본 논문은 시스템에 사용된 WHISK 알고리즘과 최대 엔트로피 모델에 대해서 알아보고, 실제로 WHISK 알고리즘을 도입하여 관계를 가지는 개체 쌍을 추출하여 문제를 해결했을 때 어느 정도의 성능 향상이 있는지 알아본다.

  • PDF

ISA Relation Extraction from Wikipedia Category Structure (위키피디아 카테고리 구조를 이용한 상하위 관계 추출)

  • Choi, DongHyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.1-5
    • /
    • 2009
  • 상하위 관계 자동 추출은 분류체계를 자동 구축하는 데 있어서 핵심적인 내용이며, 이렇게 자동으로 구축된 분류 체계는 정보 추출과 같은 여러 가지 분야에 있어서 중요하게 사용된다. 본 논문에서는 위키피디아 카테고리 구조로부터 상하위 관계를 추출하는 방식에 대하여 제안한다. 본 논문에서는 판별하고자하는 위키피디아 카테고리 구조뿐만이 아닌, 그와 관련된 다른 위키피디아 카테고리 구조까지 고려하여 카테고리 이름에 나타난 토큰들간의 수식 그래프를 구축한 후, 그래프 분석 알고리즘을 통하여 각 카테고리 구조가 상하위 관계일 가능성에 대한 점수를 매긴다. 실험 결과, 본 알고리즘은 기존의 연구로 상하위 관계임을 판별할 수 없었던 일부 카테고리 구조에 대하여 성공적으로 상하위 관계인지를 판별하였다.

  • PDF

A Design of Spark Based System for Extracting Hierarchical Relationships from RDB View Definitions (RDB 뷰 정의로부터 상하위 관계를 추출하는 스파크 기반 시스템 설계)

  • Ahn, Jinhyun;Im, Dong-Hyuk;Kim, Hong-Gee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.80-81
    • /
    • 2016
  • 기계가 읽을 수 있는 형태의 정보로 구성된 시맨틱웹 환경이 주목을 받고 있다. 온톨로지는 정보를 구조적으로 표현하는 방법론의 일종으로 시맨틱웹에서 중요한 역할을 한다. 사람이 일일이 정보를 처음부터 온톨로지로 만드는 것은 쉽지 않기 때문에 관계형 데이터베이스를 온톨로지로 자동으로 변환하는 연구가 진행되고 있다. 최근 하둡을 활용하여 관계형 데이터베이스의 뷰 정의로부터 상하위 관계를 추출하는 연구가 제안 됐다. 하지만, 하둡은 디스크 기반이기 때문에 속도가 느리다는 단점이 있다. 본 논문에서는 관계형 데이터베이스의 뷰 정의로부터 상하위 관계를 추출하는 과정을 인메모리 분산 처리 시스템인 스파크에서 수행하는 방법을 제안한다. 주어진 뷰 정의에 있는 테이블 이름으로 분산시킨 후 각각에서 독립적으로 상하위 관계를 추출한다.

Extraction of Relational Schema from XML Schema (XML 스키마로부터 관계형 스키마 추출 기법)

  • 김은욱;민미경
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.351-354
    • /
    • 2002
  • 데이터로서 XML의 의미가 중요해짐에 따라 XML 문서를 저장하는 방법들에 대한 연구가 활발히 진행되고 있다. 그 중 하나가 스키마를 이용하여 XML 문서를 관계형 데이터베이스에 저장하는 것으로서, 지금까지 DTD를 중심으로 연구가 이루어져 왔으나, XML 스키마의 등장으로 DTD의 단점을 보완하고, 기존 관계형 데이터베이스와 보다 유사하게 표현 할 수 있게 되었다. 본 논문에서는 XML 스키마에서 관계형 스키마를 추출하는 기법을 제시한다. 제시된 기법은 DTD에서 관계형 스키마를 추출하는 기법을 기반으로 하여, DTD에서 표현할 수 없는 사용자 정의 데이터형을 추가로 제공하는 등, XML 스키마의 속성과 요소에 따른 여러 특성을 표현할 수 있다.

  • PDF

Triplet Extraction using Korean Dependency Parsing Result (한국어 의존 파싱을 이용한 트리플 관계 추출)

  • Kwak, Sujeong;Kim, Bogyum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.86-89
    • /
    • 2013
  • 자연언어 문서에서 지식 추출은 QA 시스템을 비롯한 여러 분야에서 필수적이다. 트리플은 가장 일반적인 지식 추출 형식으로 문장 내부의 지식 정보를 주어, 서술어, 목적어의 관계로 표현한다. 본 논문에서는 한국어 의존 파서로 문장을 분석하고, 그 결과에서 트리플을 추출하는 방법을 제안했다. 제안된 트리플 추출기는 21개 문장에서 추출된 78개의 트리플 정답 집합과, 64개의 준정답 집합에 대해서 각각 60.75%와 66.67%의 F-measure 성능을 보였다.

  • PDF

Design of a Web-Scale Spatial Knowledge Extractor Using Hadoop MapReduce (하둡 맵리듀스를 이용한 웹 스케일 수준의 공간 지식 추출기 설계)

  • Lee, Seokjun;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1326-1329
    • /
    • 2015
  • 최근 들어 공간 지식을 활용한 다양한 서비스들이 개발됨에 따라, 공간 객체들 간의 정성적 공간 관계를 표현한 정성 공간 지식의 수요가 크게 늘어나고 있다. 공간 객체 각각의 세부 정보를 담은 대용량의 공간 데이터들은 개방화가 점차 확대되고 있으나, 공간 객체들 간의 정성적 관계를 표현한 정성 공간 지식은 상대적으로 확보하기 어려운 실정이다. 본 논문에서는 하둡 맵리듀스 병렬 분산 컴퓨터 환경을 이용해, 대용량의 공간 데이터로부터 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 정성 공간 지식을 자동으로 추출하는 공간 지식 추출기를 제안한다. 본 논문에서 제안하는 대용량의 공간 지식 추출기는 맵리듀스 프레임워크를 기반으로 R-트리 색인과 범위 질의들을 효과적으로 이용함으로써, 웹 스케일 수준의 정성 공간 지식을 매우 효율적으로 추출해낸다. Open Street Map (OSM) 공개 데이터를 이용한 성능 분석 실험을 통해, 본 논문에서 제안하는 대용량 공간 지식 추출기의 높은 성능을 확인할 수 있었다.

String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure (술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출)

  • Jeong, Chang-Hoo;Choi, Sung-Pil;Chun, Hong-Woo;Hong, Soon-Chan;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.

The Interpretation of Noun Sequences Using Semantic Relation and Subcategorization Information (의미관계와 문형정보를 이용한 복합명사 해석)

  • Kim, Do-Wan;Lee, Kyung-Soon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.310-315
    • /
    • 1999
  • 본 논문에서는 기계가독형사전과 말뭉치로부터 명사의 의미관계정보를 추출하고, 추출된 의미관계정보와 명사에서 파생된 용언의 문형정보를 이용하여 복합명사를 해석하는 방법을 제안한다. 의미관계정보는 상 하위관계, 목적관계, 위치관계, 시간관계, 소유관계, 원인관계 등 11개에 대해서 정규식 패턴을 정의하여 기계가독형 사전과 말뭉치로부터 추출한다. 복합명사 해석은 한국어 복합명사의 대부분을 차지하는 '수식명사 + 핵심명사' 형태를 해석 대상으로 하며, 핵심명사의 특성에 따라 의미관계정보와 문형정보를 이용하여 해석한다.

  • PDF

Design and Implement Index Sequence Relation Information Model Using Pattern-In Repository (패턴정보저장소를 이용한 인덱스 순서관계정보모델 설계 및 구현)

  • Sun, Su-Kyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.597-600
    • /
    • 2004
  • 최근에는 웹 환경에 적합한 개방형과 컴포넌트들을 효율적으로 분류하고 추출하는 방법이 연구되고 있다. 본 논문은 개발환경에서 생성되는 산출물들 중 디자인패턴을 통합 관리하고, 추출, 검색하여 관리해 주는 인덱스순서관계정보모델을 설계 구현한다. 이 제안의 장점은 "인덱스 순서관계정보"로 클래스들 사이의 관련된 여러 관계정보를 UML 설계방법에 적응할 수 있는 구조로 변형할 수 있다. 두 번째 장점은 개발자가 인덱스 순서관계 정보에서 제공하는 정보를 가지고 관계정보를 쉽게 파악할 수 있으며, 디자인 패턴을 쉽게 추출함으로서 개발자는 설계정보에 쉽게 적용할 수 있다. 따라서 본 논문에서는 검색시간과 추출의 효율성을 입증하기 위해 시뮬레이션을 실시하여 향상된 기능을 입증하였다. 이 모델은 급변하는 소프트웨어 산업에 능동적으로 대체와 소프트웨어 개발에 시간을 단축함으로써 현존하는 다양한 디자인 패턴들을 최소한의 코드 수정을 통하여 재설계 함으로써 소프트웨어 개발 경제성을 높이는 데 있다.

  • PDF

Automatic Keyword Extraction using Hierarchical Graph Model Based on Word Co-occurrences (단어 동시출현관계로 구축한 계층적 그래프 모델을 활용한 자동 키워드 추출 방법)

  • Song, KwangHo;Kim, Yoo-Sung
    • Journal of KIISE
    • /
    • v.44 no.5
    • /
    • pp.522-536
    • /
    • 2017
  • Keyword extraction can be utilized in text mining of massive documents for efficient extraction of subject or related words from the document. In this study, we proposed a hierarchical graph model based on the co-occurrence relationship, the intrinsic dependency relationship between words, and common sub-word in a single document. In addition, the enhanced TextRank algorithm that can reflect the influences of outgoing edges as well as those of incoming edges is proposed. Subsequently a novel keyword extraction scheme using the proposed hierarchical graph model and the enhanced TextRank algorithm is proposed to extract representative keywords from a single document. In the experiments, various evaluation methods were applied to the various subject documents in order to verify the accuracy and adaptability of the proposed scheme. As the results, the proposed scheme showed better performance than the previous schemes.