• Title/Summary/Keyword: 의존구조 말뭉치

Search Result 33, Processing Time 0.024 seconds

PPeditor: A Corpus Annotation Tool for Korean Dependency Structures (PPeditor: 한국어 의존구조 말뭉치 구축 도구)

  • Park, Eun-Jin;Kim, Jae-Hoon;Kim, Kang-Min;Kim, Chang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.741-744
    • /
    • 2005
  • 효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석 오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.

  • PDF

Korean Dependency Guidelines for Dependency Parsing and Exo-Brain Language Analysis Corpus (의존 구문분석을 위한 한국어 의존관계 가이드라인 및 엑소브레인 언어분석 말뭉치)

  • Lim, Joon-Ho;Bae, Yongjin;Kim, Hyunki;Kim, Yunjeong;Lee, Kyu-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.234-239
    • /
    • 2015
  • 2000년대 중반 세종 구구조 구문분석 말뭉치가 배포된 이후 의존 구문분석이 구문분석 연구의 주요 흐름으로 자리 잡으면서 많은 연구자들이 구구조 구문분석 말뭉치를 개별적으로 의존구조로 변환하여 구문분석 연구를 수행하였다. 하지만 한국어 문장의 의존구조 표현에 대한 논의가 부족하여 서로 다른 의존구조로 변환 후 구문분석을 연구함으로써 연구 효율성이 저하되는 문제가 발생하였다 본 연구에서는 이와 같은 문제에 접근하기 위하여 한국어 문장에 대한 의존관계 가이드라인을 제안한다. 그리고 제안하는 가이드라인을 기반으로 구축한 엑소브레인 언어분석 말뭉치(725 문장)에 대해 소개한다.

  • PDF

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation (XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure (PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구)

  • Kim Jae-Hoon;Park Eun-Jin
    • The KIPS Transactions:PartB
    • /
    • v.13B no.1 s.104
    • /
    • pp.63-70
    • /
    • 2006
  • In general, a corpus contains lots of linguistic information and is widely used in the field of natural language processing and computational linguistics. The creation of such the corpus, however, is an expensive, labor-intensive and time-consuming work. To alleviate this problem, annotation tools to build corpora with much linguistic information is indispensable. In this paper, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. The most ideal way is to fully automatically create the corpus without annotators' interventions, but as a matter of fact, it is impossible. The proposed tool is semi-automatic like most other annotation tools and is designed to edit errors, which are generated by basic analyzers like part-of-speech tagger and (partial) parser. We also design it to avoid repetitive works while editing the errors and to use it easily and friendly. Using the proposed annotation tool, 10,000 Korean sentences containing over 20 words are annotated with dependency structures. For 2 months, eight annotators have worked every 4 hours a day. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

Building Korean Dependency Treebanks Reflected Chunking (구묶음을 반영한 한국어 의존 구조 말뭉치 생성)

  • Namgoong, Young;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Choi, Min-Seok;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.133-138
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 요소의 위치에 제약이 적고 생략에도 유연하게 대처할 수 있어 한국어 구문 분석에 적합하다. 하지만 의존 구문 분석을 수행할 때 지배소를 결정해야 할 노드 수가 많으면 계산의 복잡도가 올라가고, 각 노드의 지배소를 결정할 때 방향성 문제가 있어 구문 분석에 모호함을 더한다. 이때 지배소 후위 원칙을 엄격하게 적용할 경우 구문적 중심어와 의미적 중심어가 불일치하는 문제가 발생한다. 이러한 문제들을 해소하기 위해 구묶음을 수행한 문장으로 구문 분석을 수행할 수 있다. 따라서, 본 논문에서는 기존의 의존 구문 말뭉치를 말덩이 기반의 의존 구문 말뭉치로 변환하는 알고리즘을 기술하고, 이에 따라 구축한 말뭉치와 기존의 말뭉치를 정량적으로 비교한다.

  • PDF

Korean Dependency Parsing Based on Learning Weights of Features (자질 가중치 학습을 이용한 한국어 의존파싱)

  • Kim, Young-Tae;Ra, Dong-Yul;Lim, SooJong
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.63-67
    • /
    • 2010
  • 본 논문에서는 자질(feature)의 가중치를 학습하여 이용하는 기계학습 기반 한국어 의존 파싱 기법을 소개한다. 이를 위하여 모든 가능한 의존관계에 대하여 각 의존관계마다 일정한 수의 자질을 생성한다. 자질마다 가중치에 의하여 그 중요도를 나타낸다. 자질의 가중치 값은 의존관계가 태깅된 구문구조 학습 말뭉치를 이용하여 학습한다. 이를 위해 본 논문에서는 간단한 가중치 기계학습 기법을 제시한다. 실험을 위한 언어 자원으로는 구구조부착 세종말뭉치를 변환하여 구한 의존관계 부착 말뭉치를 사용하였다. 실험 결과 약 86.5%의 정확률을 가지는 의존파싱이 가능함을 관찰하였다.

  • PDF

Chunking of Auxiliary Verbs including Dependant Nouns (의존명사를 포함하는 보조용언의 구묶음)

  • Kim, Tae-Woong;Cho, Hee-Young;Seo, Hyung-Won;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.279-284
    • /
    • 2006
  • 한국어 부분 구문분석의 단위인 말덩이(chunk)는 하나의 의미적 중심어를 가지며, 그 구문구조가 선형인 구를 말하며, 말덩이를 분석하는 과정을 구묶음(chunking)이라고 한다. 한국어 말덩이에는 여러 종류가 있으며 보조용언도 말덩이의 한 종류이다. 이 논문은 (한국해양대학교, 2005)의 연구를 바탕으로 오류를 자주 발생시킨 의존명사를 포함하는 보조용언에 대한 명확한 기준을 제시하여 구축된 말뭉치의 신뢰성을 더욱 높이고자 한다. 이 논문에서는 모든 의존명사를 포함하는 보조용언을 다루기에는 더 많은 연구가 필요하므로 "것", "바", "때문", "데" 등의 의존명사를 포함하는 보조용언을 구성하는 말덩이를 중심으로 명확한 기준을 언어학적인 방법으로 제시하고 말뭉치 구축 오류를 방지할 수 있는 해결방안을 모색한다.

  • PDF

The Extraction of Korean Noun Phrases based on Dependency Patterns (의존관계 패턴에 기반한 한국어 명사구의 추출)

  • Seungshik Kang;Sangmo Lee;Minhaeng Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.615-617
    • /
    • 2023
  • 이 연구는 한국어 명사구를 말뭉치로부터 추출하는 방법의 하나로 의존관계 패턴에 기반한 접근방법을 제안하는 것을 목적으로 한다. 이 방법론을 활용한 경우에 명사구 추출의 정확성을 높일 수 있다. 이 논문에서는 한국어 법령 의존 말뭉치를 구축하는 단계부터 상위 명사구 목록을 생성하기 까지 거치는 5단계에 대해 상세하게 논의하는 한편, 의존구조 검색시스템을 통해 의존관계 패턴을 추출하는 절차에 대해 기술하고 이 작업을 수행하기 위한 검색식들의 특성들에 대해 검토한다.

  • PDF

Developing a Sentiment Analysing and Tagging System (감성 분석 및 감성 정보 부착 시스템 구현)

  • Lee, Hyun Gyu;Lee, Songwook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.8
    • /
    • pp.377-384
    • /
    • 2016
  • Our goal is to build the system which collects tweets from Twitter, analyzes the sentiment of each tweet, and helps users build a sentiment tagged corpus semi-automatically. After collecting tweets with the Twitter API, we analyzes the sentiments of them with a sentiment dictionary. With the proposed system, users can verify the results of the system and can insert new sentimental words or dependency relations where sentiment information exist. Sentiment information is tagged with the JSON structure which is useful for building or accessing the corpus. With a test set, the system shows about 76% on the accuracy in analysing the sentiments of sentences as positive, neutral, or negative.

A Study of Disfluency Processing for Dependency Parsing of Spoken (구어 의존 구문 분석을 위한 비유창성 처리 연구)

  • Park, Seokwon;Choe, Hyonsu;Han, Jiyoon;Oh, Taehwan;Ahn, Euijeong;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF