• Title/Summary/Keyword: 세종말뭉치

Search Result 101, Processing Time 0.04 seconds

Annotation Tool for Construction Korean PropBank and Sejong Semantic Tagged Corpus (한국어 PropBank 및 세종 의미 표지 부착 말뭉치 구축을 위한 도구)

  • Han, Dae-Yong;Choi, Han-Gil;Lee, Jung-Kuk;Kim, Jong-Dae;Park, Chan-Young;Song, Hye-Jung;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.35-39
    • /
    • 2012
  • 의미역 결정에 있어 의미 표지 부착 말뭉치는 필수적이지만 한국어 의미 표지 부착 말뭉치는 영어나 중국어와 같은 언어에 비하여 구축이 미비한 상황이다. 본 논문에서는 한국어 의미 분석을 위한 한국어 Proposition Bank(이하 PropBank)와 세종 의미 표지 부착 말뭉치의 구축을 위한 소프트웨어 도구를 개발하였다. 본 논문에서 구현한 도구는 문장 성분의 의존관계를 이용하여 주어진 술어에 대한 논항을 찾아주고, PropBank 프레임 파일과 세종 용언 격틀 사전을 활용하여 사용자가 능률적으로 한국어 PropBank와 세종 의미 표지 부착 말뭉치를 구축할 수 있도록 하였다.

  • PDF

The $21^{st}$ Century Sejong Project Special Corpus Construction (1998~2007) (21세기 세종 계획 특수자료 구축 분과의 성과 (1998~2007))

  • Seo, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.317-322
    • /
    • 2007
  • 이 발표는, <21세기 세종 계획>(문화관광부/국립국어원의 지원, 1998~2007)의 일환으로 이루어진, 특수자료 구축 분과의 지난 10년간의 성과를 소개하고자 하는 데에 목적이 있다. 특수자료 구축 분과에서는 구어, 병렬, 역사 자료, 북한 및 해외 말뭉치와 같은 특수 말뭉치의 구축을 담당하고 있다. 여기서는 특수자료 구축 소분과의 개요와 과제의 구성, 각 세부 과제별 말뭉치 구축 성과 및 각 말뭉치의 가치와 특성을 밝히고자 한다.

  • PDF

Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap) (한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Journal of KIISE
    • /
    • v.43 no.1
    • /
    • pp.71-79
    • /
    • 2016
  • Disambiguation of homographs is an important job in Korean semantic processing and has been researched for long time. Recently, machine learning approaches have demonstrated good results in accuracy and speed. Other knowledge-based approaches are being researched for untrained words. This paper proposes a hybrid method based on the machine learning approach that uses a lexical semantic network. The use of a hybrid approach creates an additional corpus from subcategorization information and trains this additional corpus. A homograph tagging phase uses the hypernym of the homograph and an additional corpus. Experimentation with the Sejong Corpus and UWordMap demonstrates the hybrid method is to be effective with an increase in accuracy from 96.51% to 96.52%.

Semantic Role Transformation of Arguments using Predicate and Josa Information (술어와 조사 정보를 이용한 논항의 의미역 변환)

  • Seo, Min-Jeong;Seok, Mi-Ran;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.51-55
    • /
    • 2014
  • 의미역 결정 (Semantic Role Labeling) 은 문장 내의 술어와 이들의 논항들의 의미 관계를 결정하는 과정을 뜻한다. 의미역 결정을 하기 위해서는 대량의 말뭉치와 다양한 언어 자원이 필요한데, 많은 경우에 PropBank 말뭉치가 사용된다. 한국어 PropBank는 다른 언어에 비해 자료가 적어 그것만을 가지고 의미역 결정을 하기에 적절하지 않다. 또한 한국어 의미 분석을 위해서 지금까지는 세종 말뭉치나 의미역이 활용되어 오기도 하였다. 따라서 한국어 의미역 결정에서는 한국어 PropBank 뿐만 아닌 세종 의미역 표지 부착 말뭉치의 구축 역시 요구되는데 말뭉치 구축 작업이 수동 부착 작업이기 때문에 많은 시간과 비용이 소모된다. 본 논문에서는 이러한 문제점을 해결하기 위해 이미 구축되어 있는 한국어 PropBank 의미역을 세종 의미역으로 자동 변환하는 방법을 제시한다. 자동 변환을 위해서는 먼저 PropBank 의미역의 변환 후보 의미역을 구하여 이들 중에서 가장 적절한 의미역으로 변환한다. 자동 변환을 위해서는 크게 3 가지 특징을 활용하는데, 첫째는 변환 대상 논항의 의미 유사성이고, 둘째는 논항과 의미 관계를 가지고 있는 술어, 그리고 셋째는 논항과 결합되어 있는 조사이다. 이 세 가지 특징을 사용하여 정확한 의미역 변환을 위해 술어, 조사의 의미역 결합 확률 테이블을 구축한다.

  • PDF

A Design of Frame File Extension Tool for Korean PropBank (한국어 PropBank 프레임 파일 확장 도구 설계)

  • Lee, Jung-Kuk;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.126-129
    • /
    • 2011
  • 본 논문에서는 한국어 PropBank의 구축을 위한 동사의 프레임 파일 확장 및 구축에 대한 연구를 논한다. 문장 단위의 의미 분석에 있어서 가장 중요하다고 볼 수 있는 의미 역 결정을 위해서 필요한 언어자원중, PropBank는 동사의 술어-논항 구조를 태그해 놓은 말뭉치로써 가장 널리 쓰이는 언어자원 중 하나이다. PropBank는 크게 술어-논항 구조를 태그한 말뭉치와 개별 동사들의 논항 구조를 기술한 프레임 파일로 이루어져 있다. 한국어 PropBank 구축을 위해서는 구문 표지 부착 말뭉치에 술어-논항 구조의 표지 부착 작업 및 한국어 동사의 프레임 파일의 구축 및 확장이 이루어져야 하는데, 본 논문에서는 세종 계획에서 발표한 용언 격틀 파일을 사용하여 기존의 한국어 PropBank 프레임 파일을 확장하는 도구를 설계하였다.

  • PDF

Robust Method for Sentence Boundary Identification in informal documents (비형식적인 문서에 강건한 문장 경계 인식)

  • Kim, Ju-Hee;Seo, Jung-Yun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.266-270
    • /
    • 2010
  • 본 논문에서는 구두점이나 띄어쓰기가 없는 비형식적인 문서에서도 문장의 경계를 잘 인식할 수 있는 문장 경계 인식기를 제안한다. 기존의 문장인식기는 문장경계의 후보를 구두점 출현 위치만으로 하였는데 이는 잡음이 많은 웹문서를 처리하는데 한계가 있다. 반면에 제안한 방법은 문장 경계의 후보를 구두점의 출연 위치로 제한하지 않고 문장 경계 인식을 위한 자질로 구두점에 비 의존적인 음절 n-gram을 사용함으로써, 구두점이 잘 표현된 문서뿐만 아니라 구두점의 생략이 빈번한 웹문서의 문장 경계 인식까지 효과적으로 수행할 수 있다. 통계기반의 기계학습 기법으로 CRFs를 이용하여 하였고, 학습과 실험에 세종계획 말뭉치를 사용하였다. 제안한 문장 경계 인식기는 세종계획 말뭉치에서 99.99%의 정확률과 100.00%의 재현율을 보였고, 세종계획 말뭉치에서 문장 경계의 구두점을 제거한 경우에도 96.20%의 정확률과 87.51%의 재현율을 보여 구두점이 없는 경우에도 문장 경계 인식이 잘이루어짐을 확인할 수 있었다.

  • PDF

Detecting errors on Korean POS tagged corpus using GMM (GMM을 이용한 품사 부착 말뭉치의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.246-251
    • /
    • 2019
  • 품사 부착 말뭉치란 문장에 포함된 각 단어에 품사 표지를 부착한 말뭉치를 말한다. 이런 말뭉치에는 다양한 형태의 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 학습 자료로 사용하는 자연언어처리 시스템의 좋은 성능을 기대할 수 없다. 따라서 말뭉치의 일관성이나 정확도는 자연언어처리 시스템의 성능에 많은 영향을 준다. 하지만 말뭉치 구축 과정에서 작업자의 실수가 발생하고 여러 작업자가 작업을 수행하다 보니 일관성을 유지하기가 쉽지 않다. 본 논문에서는 이러한 문제를 해결하기 위해서 GMM을 이용한 군집화를 수행하여 오류 후보를 추출한다. 이를 통해서 말뭉치 구축 과정에서 작업자의 실수를 방지하고 일관성을 유지하고자 한다. 세종품사부착 말뭉치를 대상으로 임의로 오류를 유발시켜 실험한 결과, 재현율 84.74%의 성능으로 오류를 탐지하였다. 향후에 좀 더 높은 재현율을 위해서 자질 확장이나 회귀 분석 방법 등을 추진할 계획이다.

  • PDF

Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer (말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기)

  • Shim, Kwangseob
    • Journal of KIISE
    • /
    • v.42 no.1
    • /
    • pp.68-75
    • /
    • 2015
  • This paper proposes a method for the automatic word spacing of unsegmented Korean sentences. In our method, eojeol monograms are used for word spacing as opposed to the syllable n-grams that have been used in previous studies. The use of a Korean morphological analyzer is limited to the correction of typical word spacing errors. Our method gives a 98.06% syllable accuracy and a 94.15% eojeol recall, when 10-fold cross-validated with the Sejong corpus, after filtering out non-hangul eojeols. The processing rate is 250K eojeols or 1.8 MB per second on a typical personal computer. Syllable accuracy and eojeol recall are related to the size of the eojeol dictionary, better performance is expected with a bigger corpus.

Verification of POS tagged Corpus (품사 표지 부착 말뭉치 검증)

  • Lee, Mi-Kyoung;Jung, Han-Min;Sung, Won-Kyung;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.145-150
    • /
    • 2005
  • 본 논문에서는 자연어 처리 연구에서 이용되는 품사 표지 부착 말뭉치의 오류 검증 방안에 대해 제안한다. 현재까지의 품사 표지 부착 말뭉치들은 정제보다는 구축에 중점을 두고 있으며, 기존의 오류 검출과 정정 방안에 관련된 연구들은 기 구축된 말뭉치를 대상으로 한 것이 아니라, 품사 표지 부착 시스템의 후 처리에 집중하고 있다. 형태소 분석기나 품사 표지 부착 시스템의 학습에 이용되는 품사 표지 부착 말뭉치가 오류 검증 단계를 거친다면 이 시스템들은 좀 더 높은 신뢰성을 가지게 될 것이다. 본 논문에서는 품사 표지부착 말뭉치 검증을 위한 어절 분할 오류, 철자 오류, 표지 부착 오류, 형식 오류, 일관성 오류의 5가지 오류 유형과 검증 방안을 제안한다. 또한 제안한 방법에 따라 세종 계획의 형태소 분석 말뭉치의 오류를 검증해 보았으며, 그 결과 말뭉치 오류 정제가 말뭉치의 신뢰도를 향상시킬 수 있음을 보인다.

  • PDF

Corpus-Linguistical Analysis of Newspaper Articles (신문 기사의 코퍼스 언어학적 분석)

  • Song, Kyung-Hwa;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.7-14
    • /
    • 2006
  • 본 연구에서는 신문 기사에 대한 실증적 언어 분석을 목적으로 하여, <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 다양한 각도로 계량화하여 분석한다. 신문 기사를 표제, 전문, 본문의 구성으로 나누고 각 구성의 특징에 따라 형태 분석 말뭉치, 형태의미 분석 말뭉치, 구문 분석 말뭉치를 이용하여 분석한다. 본 연구는 대량의 신문 기사 말뭉치를 이용한 계량적 방법이라는데 의의가 있다 이러한 연구 방법을 통하여 기존의 직관을 이용한 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있을 것이다.

  • PDF