• Title/Summary/Keyword: Noun extraction

Search Result 52, Processing Time 0.024 seconds

Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries (기계가독형사전에서 상위어 판별을 위한 규칙 학습)

  • Choi Seon-Hwa;Park Hyuk-Ro
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.171-178
    • /
    • 2006
  • Most approaches for extracting hypernyms of a noun from its definitions in an MRD rely on lexical patterns compiled by human experts. Not only these approaches require high cost for compiling lexical patterns but also it is very difficult for human experts to compile a set of lexical patterns with a broad-coverage because in natural languages there are various expressions which represent same concept. To alleviate these problems, this paper proposes a new method for extracting hypernyms of a noun from its definitions in an MRD. In proposed approach, we use only syntactic (part-of-speech) patterns instead of lexical patterns in identifying hypernyms to reduce the number of patterns with keeping their coverage broad. Our experiment has shown that the classification accuracy of the proposed method is 92.37% which is significantly much better than that of previous approaches.

Noun Extraction System in Information retrieval System of "Mirine" (미리내 검색시스템의 명사추출 시스템)

  • Kim, Young-Kwan;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.89-91
    • /
    • 1999
  • 이 논문은 한국어 정보검색 시스템 "미리내"의 내부 모듈인 색인어 추출 시스템의 성능 평가에 관한 내용이다. 성능 평가를 위해서 99년 ETRI에서 실시한 "형태소분석기 및 태거 비교 분석대회(MATEC99)"의 시험어절을 사용하였다. 정보검색 시스템 "미리내"는 한국어 정보검색을 위해 부산대학교에서 개발한 시스템이다. 한국어 형태소분석 및 태거 대회(MATEC99)를 위해 미리내 검색엔진의 색인어 추출 모듈을 일부 수정하여 명사를 추출하였다. 명사추출기이든 형태소분석기이든 응용프로그램의 특성에 맞춰져서 동작한다. 정보검색의 하위 모듈인 색인어 추출 시스템은 정보검색을 위해 변형된 결과를 출력하므로 성능 비교를 위해 일부 모듈의 수정이 불가피하였다. ETRI에서 실시한 MATEC99는 지금까지 객관적인 평가 기준이 없었던 한국어 형태소분석기, 태거, 명사추출기의 표준화에 중요한 역할을 하였다.

  • PDF

Base-Noun Extraction with filtering and Segmentation in Korean (여과 및 분리 기법을 이용한 한국어 기준명사 추출)

  • 김재훈;김준홍;박호진
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.3-10
    • /
    • 2000
  • 웹의 등장으로 방대한 양의 문서를 다루는 정보검색, 정보추출, 정보요약 등의 분야에서 명사 추출은 대단히 중요한 역할을 담당하는 한 모듈이다. 본 논문에서는 대량의 문서에서 효과적으로 명사를 추출하기 위해 여과기법과 분리기법을 이용한 한국어 기준명사 추출 시스템을 기술한다. 기준명사는 명사들 중에서 기본이 되는 명사로서 복합명사는 제외된다. 본 논문의 기본적인 개념은 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사어구와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과, 재헌율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 정보요약 시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

  • PDF

Proper Noun Extraction Using Data Sets (데이터 집합을 이용한 고유명사 추출)

  • 김태현;이현숙;하유선;이만호;맹성현
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.11-18
    • /
    • 2000
  • 본 논문에서는 한국어 고유명사의 특징에 대해 살펴보고, 이를 기반으로 문서로부터 고유명사를 추출하기 위한 기본 모델을 제안한다. 고유명사는 문서의 내용을 대표하는데 주도적인 역할을 하기 때문에, 이를 효과적으로 추출해내는 것은 문서의 의미를 보다 정확하게 표현할 수 있는 방법이 될 수 있다. 문서에서 고유명사를 효과적으로 추출할 수 있도록 하기 위해, 본 연구에서는 이름집합, 접사집합, 단서집합을 구성할 수 있는 데이터 수집기 모델과 데이터 집합을 기본으로 이용하여 고유명사를 추출하는 고유명사 추출기 모델을 제안하였다. 그리고, 실제로 이 모델을 적용하여, 회사명과 관련된 데이터를 수집하고, 이를 이용해 문서로부터 회사명을 추출할 수 있도록 하는 시스템을 구현하였다. 구현된 회사명 추출 시스템을 이용해 고유명사 추출 실험을 수행한 결과, 외래어로 이루어진 회사명으로 인한 문제를 제외할 경우 만족할 만한 정확율과 재현율을 얻을 수 있었다.

  • PDF

Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method (자동 정렬을 통한 영한 복합어의 역어 추출)

  • Lee, Ju-Ho;Choi, Key-Sun;Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어 쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

Base-Noun Extraction with Filtering and Segmentation in Korean (여과 및 분리 기법을 이용한 한국어 기준명사 추출)

  • Kim, Jae-Hoon;Kim, Jun-Hong;Park, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.3-10
    • /
    • 2000
  • 웹의 등장으로 방대한 양의 문서를 다루는 정보검색, 정보추출, 정보요약 등의 분야에서 명사 추출은 대단히 중요한 역할을 담당하는 한 모듈이다. 본 논문에서는 대량의 문서에서 효과적으로 명사를 추출하기 위해 여과기법과 분리기법을 이용한 한국어 기준명사 추출 시스템을 기술한다. 기준명사는 명사들 중에서 기본이 되는 명사로서 복합명사는 제외된다. 본 논문의 기본적인 개념은 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사어구와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 정보시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

  • PDF

The Extraction of Korean Noun Phrases based on Dependency Patterns (의존관계 패턴에 기반한 한국어 명사구의 추출)

  • Seungshik Kang;Sangmo Lee;Minhaeng Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.615-617
    • /
    • 2023
  • 이 연구는 한국어 명사구를 말뭉치로부터 추출하는 방법의 하나로 의존관계 패턴에 기반한 접근방법을 제안하는 것을 목적으로 한다. 이 방법론을 활용한 경우에 명사구 추출의 정확성을 높일 수 있다. 이 논문에서는 한국어 법령 의존 말뭉치를 구축하는 단계부터 상위 명사구 목록을 생성하기 까지 거치는 5단계에 대해 상세하게 논의하는 한편, 의존구조 검색시스템을 통해 의존관계 패턴을 추출하는 절차에 대해 기술하고 이 작업을 수행하기 위한 검색식들의 특성들에 대해 검토한다.

  • PDF

A Study on the Construction of the Automatic Extracts and Summaries - On the Basis of Scientific Journal Articles - (자동 발췌문/요약 시스템 구축에 관한 연구 - 학술지 논문기사를 중심으로 -)

  • Lee Tae-Young
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.39 no.3
    • /
    • pp.139-163
    • /
    • 2005
  • Various corpus-based approaches, rhetorical roles of discourse structure, and unifications of similar sentences were applied to construct the automatic Ext/Sums(extracts and summaries). Rhetorical roles of sentences like objective, method, background, result, conclusion, etc. for making elastic Ext/Sums were established and extraction engines according to respective role were prepared. The $90\%$ of Success rate in extracting the important sentences of sample articles was accomplished. Rearranging the selected sentences, it used unification of similar sentences using the cosine coefficient equation, deletion of unnecessary modification and insertion clauses, junction of short sentences, and connection of sentences able to link. They suggest the methods applying rhetorical roles of sentences, meaning and signature of noun and verb in clauses, and cue words and location will be researched to construct the more effective Ext/Sums.

Korean Coreference Resolution using the Multi-pass Sieve (Multi-pass Sieve를 이용한 한국어 상호참조해결)

  • Park, Cheon-Eum;Choi, Kyoung-Ho;Lee, Changki
    • Journal of KIISE
    • /
    • v.41 no.11
    • /
    • pp.992-1005
    • /
    • 2014
  • Coreference resolution finds all expressions that refer to the same entity in a document. Coreference resolution is important for information extraction, document classification, document summary, and question answering system. In this paper, we adapt Stanford's Multi-pass sieve system, the one of the best model of rule based coreference resolution to Korean. In this paper, all noun phrases are considered to mentions. Also, unlike Stanford's Multi-pass sieve system, the dependency parse tree is used for mention extraction, a Korean acronym list is built 'dynamically'. In addition, we propose a method that calculates weights by applying transitive properties of centers of the centering theory when refer Korean pronoun. The experiments show that our system obtains MUC 59.0%, $B_3$ 59.5%, Ceafe 63.5%, and CoNLL(Mean) 60.7%.

Enhancing Performance of Bilingual Lexicon Extraction through Refinement of Pivot-Context Vectors (중간언어 문맥벡터의 정제를 통한 이중언어 사전 구축의 성능개선)

  • Kwon, Hong-Seok;Seo, Hyung-Won;Kim, Jae-Hoon
    • Journal of KIISE:Software and Applications
    • /
    • v.41 no.7
    • /
    • pp.492-500
    • /
    • 2014
  • This paper presents the performance enhancement of automatic bilingual lexicon extraction by using refinement of pivot-context vectors under the standard pivot-based approach, which is very effective method for less-resource language pairs. In this paper, we gradually improve the performance through two different refinements of pivot-context vectors: One is to filter out unhelpful elements of the pivot-context vectors and to revise the values of the vectors through bidirectional translation probabilities estimated by Anymalign and another one is to remove non-noun elements from the original vectors. In this paper, experiments have been conducted on two different language pairs that are bi-directional Korean-Spanish and Korean-French, respectively. The experimental results have demonstrated that our method for high-frequency words shows at least 48.5% at the top 1 and up to 88.5% at the top 20 and for the low-frequency words at least 43.3% at the top 1 and up to 48.9% at the top 20.