• Title/Summary/Keyword: 한국어 어휘 말뭉치

Search Result 103, Processing Time 0.03 seconds

A data-driven approach for lexicon selection for probabilistic language model (확률적 언어 모델을 위한 자료 기반 어휘 구축)

  • Ryu, Sung-Ho;Kim, Jin-Hyung
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.3-8
    • /
    • 2002
  • 한국어를 대상으로 하는 확률적 언어 모델에서는 대부분의 경우 형태소를 기본 어휘로서 사용하고 있다. 그러나, 이러한 모델들은 학습 및 검증을 위하여 사람에 의하여 형태소 분석이 이루어진 말뭉치를 필요로 한다. 또한, 형태소의 자동 분석은 현재 표준말을 중심으로 이루어져 있어 그 적용 분야에도 한계가 있다. 본 논문에서는 한국어의 특징을 고려하여 확률적 언어 모델의 구축에 적합한 어휘의 선택 기준에 대하여 고찰하고, 통계적인 기준을 통하여 확률적 언어 모델의 어휘를 구축하는 방법을 제안한다.

  • PDF

Implementation Tagging System of Korea Homonym (한국어 동형이의어 태깅 시스템 구현)

  • Kim, Jun-Su;Choe, Ho-Seop;Lee, Wang-Woo;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.24-30
    • /
    • 2002
  • 본 논문은 한국어 정보처리에서 발생하는 단어 중의성 문제를 해결하기 위하여, 사전 뜻풀이 말뭉치에서 추출하여 구축한 의미정보 데이터베이스(Semantic Information Database)와 이를 활용한 단어 중의성 해결 모델을 이용한 실용적인 동형이의어 태깅 시스템 개발을 목적으로 한다. 중 소규모의 국어사전 150,000여 개의 표제어 전체의 뜻풀이에 품사 태그를 부착한 117만 어절 규모의 뜻풀이 말뭉치를 구축한 후 사전에 등재된 14,000여 개의 동형이의어 중 뜻풀이에 나타나는 8,164개의 동형이의어에 표제어 어깨번호를 이용한 의미 태그를 부착함으로써, 대량의 동형이의어 분별을 위한 공기(coocurrence)하는 단어와 빈도(frequency)정보를 추출하여 데이터베이스화 할 수 있었다. 본 동형이의어 태깅 시스템의 정확률 측정과 문제점 발견을 위해 (21세기 세종 계획) 프로젝트에서 제공하는 150만 어절 의미 태그 부착 말뭉치를 대상으로 실험한 결과 세종 150만 의미 태그 부착 말뭉치에 고빈도로 출현하는 469개 어휘(총 출현 횟수 249.249개)에 대한 정확률이 91.58%로 나타났다.

  • PDF

Automatic Generation of Vocabulary Problem for Learning Korean as a Foreign Language (외국인의 한국어 학습을 위한 어휘 문제 자동 생성)

  • Kim, Seong-Uk;Lim, JaeHyun;Kim, Yein;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.247-250
    • /
    • 2014
  • 국내에서 거주하는 외국인들을 대상으로 한 여러 정책들이 만들어지고 있다, 그에 따른 한국어 교육의 수요는 증가하고 있지만 그에 적합한 한국어 교육시스템의 자동화 및 발전은 미약하다. 본 논문에서는 사전예문과 획득이 용이한 말뭉치를 가공하여 적절한 수준의 문제를 자동으로 생성하는 방법을 제안한다. 자동문제생성에서는 말뭉치와 사전 예문에서 문제와 보기문항을 생성하고, 보기 리스트를 생성한다. 웹문서 검색빈도를 이용하여 생성된 보기리스트의 적합성을 분석하여 정제된 보기 리스트를 획득한다. 얻어진 보기들을 임의로 선택하여 출력함으로써 사용자들이 다양한 문제를 접할 수 있도록 한다.

  • PDF

The POS Elderly: Semi-automatic annotation tool for Historical Korean (형태소 깎는 노인: 국어사 자료를 위한 형태분석 보조기)

  • Kim, Migyeong;Park, Suzi;Lee, Sana
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.39-43
    • /
    • 2016
  • '형태소 깎는 노인'은 국어사 자료를 처리하는 고성능 자동 형태분석기의 개발이 난항을 겪고 있는 상황에서 수동으로 형태분석 작업을 하는 연구자들을 지원하기 위하여 개발된 형태분석 보조기이다. 인간과 기계의 분업을 통해 인간의 피로를 최대한 줄이고, 단순 반복 형태에 대해서는 정답을 확실하게 제안할 수 있다는 것이 특징이다. 국어사 자료에는 한국어 정보처리를 위해 필요한 어휘 사전이 없으므로, 문법형태소 사전을 만들어 이를 단서로 조사/어미부와 어간부를 구분하도록 하였다. 이를 통해 구축된 소규모 형태분석 말뭉치들이 장기적으로는 자동 형태분석기의 성능 개선에 일조할 수 있을 것으로 기대한다.

  • PDF

Korean Lexical Disambiguation Based on Statistical Information (통계정보에 기반을 둔 한국어 어휘중의성해소)

  • 박하규;김영택
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.2
    • /
    • pp.265-275
    • /
    • 1994
  • Lexical disambiguation is one of the most basic areas in natural language processing such as speech recognition/synthesis, information retrieval, corpus tagging/ etc. This paper describes a Korean lexical disambiguation mechanism where the disambigution is perfoemed on the basis of the statistical information collected from corpora. In this mechanism, the token tags corresponding to the results of the morphological analysis are used instead of part of speech tags for the purpose of detail disambiguation. The lexical selection function proposed shows considerably high accuracy, since the lexical characteristics of Korean such as concordance of endings or postpositions are well reflected in it. Two disambiguation methods, a unique selection method and a multiple selection method, are provided so that they can be properly according to the application areas.

  • PDF

Parts-Of-Speech Tagging System Using Grammar Rule and Eojeol Relativity (문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템)

  • Do, Mi-Sook;Choe, Ho-Seop;Ock, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.481-484
    • /
    • 2003
  • 본 논문에서는 문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템을 제안한다. 원시 말뭉치와 품사태그 부착 말뭉치에서 중의 어절(ambiguity eojeol)의 앞뒤 어휘와 품사 정보를 파악하여 문법 규칙을 마련하였으며, 한국어의 품사와 문장성분적 요소를 고려한 7개의 어절 태그를 설정하여 이 어절 태그간의 확률값을 이용해 어절간의 상관도를 구하였다. 이러한 방법들을 이용하여 품사 태깅을 실험한 결과, 150 만 어절의 학습 말뭉치와 3 만 어절의 실험 말뭉치에서 각각 평균 92%와 91%의 정확률을 보였다.

  • PDF

Disambiguation of Korean Homonym Using Lexical Co-occurrencing Set and Thesaurus (어휘 공기 집합과 시소러스를 활용한 한국어 동형이의에 분별)

  • Lee, Wang-Woo;Choe, Ho-Seop;Kim, Jun-Su;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.152-157
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중에 동형이의어 분별의 중의성을 해결하기 위하여, 유용한 구문 패턴을 바탕으로 사전 뜻풀이와 150만 어절의 말뭉치에서 어휘 공기 집합을 추출하여 동형이의어의 분별에 이용하였다. 특히, 용언류 동형이의어를 분별할 때에는 어휘 공기 집합의 자료 부족문제를 해결하기 위하여 시소러스를 이용한 어휘 공기 집합의 확장 방법을 제시한다. 시소러스 확장을 통한 분석에서 동형이의어의 분별이 실패할 경우 제한된 어절을 대상으로 통계적인 분석을 시도하여 동형이의어를 분별한다. 중의성이 높은 469개 동형이의어에 대하여 2가지 실험을 통해 각각 90.05%와 92.23%의 정확률을 얻을 수 있었다.

  • PDF

An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet (한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상)

  • Kwon, Soonho;Kim, Minho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

A Study on the Construction of an Emotion Corpus Using a Pre-trained Language Model (사전 학습 언어 모델을 활용한 감정 말뭉치 구축 연구 )

  • Yeonji Jang;Fei Li;Yejee Kang;Hyerin Kang;Seoyoon Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.238-244
    • /
    • 2022
  • 감정 분석은 텍스트에 표현된 인간의 감정을 인식하여 다양한 감정 유형으로 분류하는 것이다. 섬세한 인간의 감정을 보다 정확히 분류하기 위해서는 감정 유형의 분류가 무엇보다 중요하다. 본 연구에서는 사전 학습 언어 모델을 활용하여 우리말샘의 감정 어휘와 용례를 바탕으로 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 감정 유형으로 분류된 감정 말뭉치를 구축하였다. 감정 말뭉치를 구축한 후 성능 평가를 위해 대표적인 트랜스포머 기반 사전 학습 모델 중 RoBERTa, MultiDistilBert, MultiBert, KcBert, KcELECTRA. KoELECTRA를 활용하여 보다 넓은 범위에서 객관적으로 모델 간의 성능을 평가하고 각 감정 유형별 정확도를 바탕으로 감정 유형의 특성을 알아보았다. 그 결과 각 모델의 학습 구조가 다중 분류 말뭉치에 어떤 영향을 주는지 구체적으로 파악할 수 있었으며, ELECTRA가 상대적으로 우수한 성능을 보여주고 있음을 확인하였다. 또한 감정 유형별 성능을 비교를 통해 다양한 감정 유형 중 기쁨, 슬픔, 공포에 대한 성능이 우수하다는 것을 알 수 있었다.

  • PDF

A Treebank-Based Approach to Preferred Nominal Words in Grammatical Relations and their Semantic Types (구문분석 말뭉치를 이용한 문법 관계의 선호 체언 어휘와 의미 유형 연구)

  • Hong, Jungha
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.35-41
    • /
    • 2008
  • 이 논문은 각 문법 관계(grammatical relation)에서 선호되는 체언 어휘를 파악하고, 이 어휘들의 의미적 유형 및 그 위계를 파악하는 것이 목적이다. 이를 위해 80만 어절의 21세기 세종계획 구문분석 말뭉치에서 그 분포를 추출하고, 통계적 검증을 통해 각 문법 관계에서 선호되는 체언 어휘를 선별한다. 이 연구에서 관찰하는 문법 관계는 주어, 목적어, 용언수식어로 하며, 이들 문법 관계에서 선호되는 어휘 추출 대상 품사는 대명사, 고유명사, 일반명사로 한다. 한정성의 강도에 따라 주어 분포 경향이 나타나며, 이에 따라 대명사 > 고유명사 > 일반명사 순으로 주어 분포 경향이 나타난다. 그러나 일반적 예측과 다르게 한정성의 강도가 더 강한 것으로 알려진 대명사가 고유명사보다 목적어와 용언수식어에서 분포 경향이 더 강하여, 일반명사 > 대명사 > 고유명사의 순으로 분포 경향이 나타난다. 대명사, 고유명사, 일반명사는 공통적으로 주어에서는 사람 지시어, 목적어에서는 사물과 장소 지시어, 그리고 용언수식어에서는 시공간 표현이 선호되어 분포한다. 특히 대명사는 각 문법기능에서 인칭대명사의 경우 인칭에 따라, 그리고 지시대명사의 경우 원근칭에 따라 선호도의 차이를 보인다. 이러한 체언 어휘의 의미적 분포 특성은 문법 관계에 통사적 기능 외에도 의미적 경향이 반영된 것으로 고려될 수 있다.

  • PDF