• Title/Summary/Keyword: 뭉치

Search Result 757, Processing Time 0.022 seconds

Attention and Naïve Bayes Models based Lexicon Corpus and Applications for Korean (한국어에서 Attention 모델과 Naïve Bayes 모델 기반의 어휘 말뭉치 구축 및 응용에 관한 연구)

  • Yoon, Joosung;Kim, Hyeoncheol
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.13-16
    • /
    • 2017
  • 감성 분석에서 어휘 말뭉치는 기존의 전통적인 기계학습 방법에서 중요한 특징으로 사용되었다. 최근 딥러닝의 발달로 hand-craft feature를 사용하지 않아도 되는 End-to-End 방식의 학습이 등장했다. 하지만 모델의 성능을 높이기 위해서는 여전히 어휘말뭉치와 같은 특징이 모델의 성능을 개선하는데 중요한 역할을 하고 있다. 본 논문에서는 이러한 어휘 말뭉치를 Attention 모델과 $Na{\ddot{i}}ve$ bayes 모델을 기반으로 구축하는 방법에 대해 소개하며 구축된 어휘 말뭉치가 성능에 끼치는 영향에 대해서 Hierarchical Attention Network 모델을 통해 분석하였다.

  • PDF

A Study on Effectively Detecting and Correcting POS-Tagged Errors (효율적인 품사부착 오류 검출 및 수정에 관한 연구)

  • Choi, Myung-Gil;Seo, Hyeong-Won;Nam, Yoo-Rim;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.132-137
    • /
    • 2012
  • 본 논문에서는 세종형태분석 말뭉치에 포함되어 있는 오류를 효율적으로 수정하기 위하여 오류 수정도구를 개발하였다. 세종형태분석 말뭉치에서 오류를 검출하기 위하여 형태소 생성과 자동 띄어쓰기 방법을 이용하였다. 검출된 오류를 수정하기 위하여 철자 오류 수정, 형태소 삭제 수정, 형태소 삽입 수정, 어절 재분석 방법을 사용하였다. 또한 최대한 반복적인 작업은 수행하지 않도록 설계하였다. 구현된 오류 수정 도구를 통하여 세종형태분석 말뭉치를 수정하였을 경우 텍스트 파일 형태의 말뭉치에서 오류를 수정하는 것보다 최소 9배 이상 빠른 작업이 가능하였으며, 사용자가 오류 수정 작업을 진행할수록 수정 속도가 빨라짐을 실험을 통해서 알 수 있었다.

  • PDF

Internet English Newspaper Article Extraction Tool for English Corpus Construction (영어 말뭉치 구축을 위한 인터넷 영어 신문기사 추출 도구)

  • Kim, Sung-Dong;Eum, Jae-Young;Song, Chulmin
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.154-156
    • /
    • 2012
  • 영한 기계번역 시스템의 개발을 위해서는 여러 가지 사전이 필요하고, 다앙한 모호성 해소를 위한 연구를 위한 데이터가 필요하며, 번역 시스템의 테스트를 위해 많은 영어 문장이 필요하다. 따라서 영어 말뭉치를 구축하여 이로부터 사전에 필요한 정보, 모호성 해소 연구에 필요한 데이터, 번역 테스트를 위한 문장 등을 추출할 필요가 있다. 본 논문에서는 영어 말뭉치를 구축하기 위해 인터넷 영어 신문 사이트로부터 영어로 작성된 신문기사를 추출하는 도구를 개발하였다. 이를 통해 자동적으로 영어 신문기사를 추출하여 말뭉치를 구축할 수 있으며, 이를 통해 영한 기계번역 시스템의 성능 향상을 지원할 수 있다.

  • PDF

Annotation Guidelines for Korean Sentiment Analysis and Annotation Tool (한국어 감정분석을 위한 말뭉치 구축 가이드라인 및 말뭉치 구축 도구)

  • Ha, Eun-Ju;Oh, Jin-Young;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.84-87
    • /
    • 2018
  • 한국어 감정분석에 대한 연구는 활발하게 진행되고 있다. 그렇지만 학습 및 평가 말뭉치 표현에 대한 논의가 부족하다. 본 논문은 한국어 감정분석에 대해 정의하고, 말뭉치 제작을 위한 가이드라인을 제시한다. 또한, 태깅 가이드라인에 따라 말뭉치를 구축하였으며 한국어 감정분석을 위한 반자동 태깅 도구를 구현하였다.

  • PDF

QUANTITATIVE STUDY ON KOREAN MORPHEMES IN JOURNAL EDITORIALS (한국어 형태소의 계량언어학적 연구 -신문 사설을 중심으로-)

  • Bae, Hee-Sook;Shi, Jeong-Kon;Paik, Hae-Seung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.17-24
    • /
    • 2001
  • 말뭉치 기반 언어 연구에서 균형성은 매우 중요하게 대두되는 문제이다. 말뭉치의 균형성을 맞추려면 여러 유형의 말뭉치가 갖는 언어적 특성을 고려하여야 한다. 그러나 계량언어학적방법으로 접근한 한국어 말뭉치의 유형별 언어 연구는 아직 미미하다. 본 연구는 언론 매체의 주요 부분인 신문의 사설을 말뭉치로 구성하여 그 언어적 특성을 살펴보고자 한다. 계량언어학의 전형적 방법에 따라 계량화 작업을 먼저 다루고, 이어 신중한 계량화 작업으로 얻어진 자료를 조사 분석하였다.

  • PDF

Procedures and Problems in Compiling a Disambiguated Tagged Corpus (어휘의미분석 말뭉치 구축의 절차와 문제)

  • Shin, Chi-Hyon;Choi, Min-Woo;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.479-486
    • /
    • 2001
  • 동음이의어 간의 서로 다른 의미를 효율적으로 변별해 줄 수 있는 방법 중 하나로 어휘의미분석 말뭉치의 활용을 들 수 있다. 이는 품사 단위의 중의성을 해소해 줄 수 있는 형태소 분석 말뭉치를 기반으로, 이 단계에서 해결하지 못하는 어휘적인 중의성을 해결한 것으로, 보다 정밀한 언어학적 연구와 단어 의미의 중의성 해결(word sense disambiguation) 등 자연언어처리 기술 개발에 사용될 수 있는 중요한 언어 자원이다. 본 연구는 실제로 어휘의미분석 말뭉치를 구축하기 위한 기반 연구로서, 어휘의미분서 말뭉치의 설계와 구축 방법론상의 제반 사항을 살펴보고, 중의적 단어들의 분포적 특징과 단어의 중의성 해결 단계에서 발생할 수 있는 문제점을 지적하고, 아울러 그 해결 방법을 모색해 의는 것을 목적으로 한다.

  • PDF

Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique (한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용)

  • Bae, JangSeong;Oh, JunHo;Hwang, HyunSun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.44-47
    • /
    • 2014
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계 학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에서 사용되는 Korean PropBank는 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank의 1/8 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역 부착 말뭉치와 동사 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 의미역 부착 말뭉치를 만드는 일은 많은 자원과 시간이 소비되는 작업이다. 본 논문에서는 도메인 적응 기술을 적용해보고 기존의 학습 데이터를 활용하여, 적은 양의 새로운 학습 말뭉치만을 가지고 성능 하락을 최소화 할 수 있는지 실험을 통해 알아보고자 한다.

  • PDF

말뭉치에 근거한 한국어 사전 표제어 구성

  • Park, Yeong-Hwan;Yun, Jun-Tae;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.58-65
    • /
    • 1991
  • 사전은 자연어를 처리하는 핵심 부분을 이루고 있다. 그러나 기존의 한국어 사전은 기계적인 처리에 직접 이용하기에는 크게 미흡하다. 특히, 사전의 기본을 이루는 표제어 수록에 관한 연구는 더욱 취약한 형편이다. 본 연구는 새로운 한국어 사전의 표제어률 구성하기 위하여 대형 말뭉치를 수집하였다. 이 말뭉치를 이용하여 기존 사전에서 빠져있는 미등록어들을 찾아내어 수록하고, 말뭉치에 나타난 각 단어의 출현 빈도를 조사하였다. 이 연구를 수행하기 위하여 형태소 분석기, 용례 분석기 등의 필수적인 텍스트 처리 도구들을 개발하였다. 또한, 말뭉치에 나타난 어절 단위의 오류 분포를 조사하여 밝히었다.

  • PDF

구문패턴을 이용한 반자동 구문분석 말뭉치 구축도구

  • Im, Jun-Ho;Park, So-Yeong;Gwak, Yong-Jae;Im, Hae-Chang;Kim, Ui-Su;Gang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.343-350
    • /
    • 2002
  • 본 논문에서는 구문패턴을 이용한 반자동 구문분석 말뭉치 구축도구를 제안한다. 일반적으로 구문분석 말뭉치를 구축하는 작업은 문법전문가의 많은 시간과 노력을 필요로 하고 있다. 본 논문은 구문분석 말뭉치를 구축할 때 수작업을 감소시켜 줄 수 있는 도구를 개발하기 위하여, 사용자가 정의하는 자질집합과 신뢰도를 바탕으로 구문패턴을 자동 추출하고 적용하는 방법을 제안한다. 소량의 말뭉치에서 실험한 결과, 구문패턴의 사용은 30%정도의 수작업을 감소시킬 수 있는 것으로 나타났다.

  • PDF

Corpus-Linguistical Analysis of Newspaper Articles (신문 기사의 코퍼스 언어학적 분석)

  • Song, Kyung-Hwa;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.7-14
    • /
    • 2006
  • 본 연구에서는 신문 기사에 대한 실증적 언어 분석을 목적으로 하여, <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 다양한 각도로 계량화하여 분석한다. 신문 기사를 표제, 전문, 본문의 구성으로 나누고 각 구성의 특징에 따라 형태 분석 말뭉치, 형태의미 분석 말뭉치, 구문 분석 말뭉치를 이용하여 분석한다. 본 연구는 대량의 신문 기사 말뭉치를 이용한 계량적 방법이라는데 의의가 있다 이러한 연구 방법을 통하여 기존의 직관을 이용한 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있을 것이다.

  • PDF