• Title/Summary/Keyword: 어휘사전

Search Result 376, Processing Time 0.032 seconds

A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition (대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구)

  • Kang ByungOk
    • Proceedings of the KSPS conference
    • /
    • 2003.10a
    • /
    • pp.65-68
    • /
    • 2003
  • 본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9%, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3%의 성능향상을 보였다.

  • PDF

A study on construction of lexicon based on assorted writing style for syntax analysis of children literature (아동문헌의 구문분석을 위한 모아쓰기식 어휘사전 구축에 대한 연구)

  • 안지은;이태영;남궁황
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.189-192
    • /
    • 2001
  • 모아쓰기식 어휘사전은 풀어쓰기에 비해 용언어간의 크기가 늘어나고 용언어미도 많이 증대된다. 본 논문에서는 초등학생을 위한 홈페이지에서 사용되는 어휘가 상대적으로 적기 때문에 용언어간과 어미, 명사와 조사를 조화시켜 간단한 모아쓰기식 기계사전을 제시하였다.

  • PDF

Constructing Korean Lexical Concept Network for Encyclopedia Question-Answering System (백과사전 질의응답 시스템을 위한 어휘개념망 구축)

  • Choi, Mi-Ran;Oh, Hyo-Jung;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.99-105
    • /
    • 2004
  • 백과사전 질의응답 시스템은 사용자의 자연어 질문과 검색 대상 문서인 백과사전 내용의 의미를 파악하기 위한 고정밀 자연어 처리 기술이 요구된다. 이러한 고정밀 자연어 처리 기술을 위한 중요한 언어자원을 제공하기 위하여 한국어 명사와 동사로 구성되는 대규모 어휘개념망을 구축하였다. 한국어 어휘개념망은 명사와 동사의 상하위 관계를 주요 계층구조로 하여 다양한 한국어 어휘 기초 자료를 바탕으로 구축되었다. 구축된 규모는 일반명사 약 6만 어휘와 동사 약 2만 어휘를 포함한다. 이 논문에서는 어휘개념망을 구축하기 위한 방법과 과정을 소개하고 지금까지 구축된 어휘개념망의 특성에 대해 기술하며, 백과사전 질의응답 시스템에서 어떻게 활용되는지 시스템 구성요소의 예를 들어서 설명한다. 또한 현재 구축된 어휘개념망의 성능 평가를 위해 일반 코퍼스에 대한 커버리지 측정 결과를 기술한다.

  • PDF

The Construction of a Domain-Specific Sentiment Dictionary Using Graph-based Semi-supervised Learning Method (그래프 기반 준지도 학습 방법을 이용한 특정분야 감성사전 구축)

  • Kim, Jung-Ho;Oh, Yean-Ju;Chae, Soo-Hoan
    • Science of Emotion and Sensibility
    • /
    • v.18 no.1
    • /
    • pp.103-110
    • /
    • 2015
  • Sentiment lexicon is an essential element for expressing sentiment on a text or recognizing sentiment from a text. We propose a graph-based semi-supervised learning method to construct a sentiment dictionary as sentiment lexicon set. In particular, we focus on the construction of domain-specific sentiment dictionary. The proposed method makes up a graph according to lexicons and proximity among lexicons, and sentiments of some lexicons which already know their sentiment values are propagated throughout all of the lexicons on the graph. There are two typical types of the sentiment lexicon, sentiment words and sentiment phrase, and we construct a sentiment dictionary by creating each graph of them and infer sentiment of all sentiment lexicons. In order to verify our proposed method, we constructed a sentiment dictionary specific to the movie domain, and conducted sentiment classification experiments with it. As a result, it have been shown that the classification performance using the sentiment dictionary is better than the other using typical general-purpose sentiment dictionary.

moHANA: Morphological Hangul Analyzer using Multi-Dimensional Analysis Dictionary (moHANA: 다차원 해석 사전을 기반으로 한 한국어 형태소 분석기)

  • Seo, SeungHyeon;Kang, In-Ho;Kim, JaeDong
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.99-106
    • /
    • 2007
  • 본 연구는 국어의 모든 언어적 특성을 기술하고 이를 실제 형태소 분석에 적용할 수 있도록 다차원 해석 사전을 이용하는 형태소 분석 시스템인 moHANA(Morphological Hangul Analyzer)에 관한 연구이다. moHANA의 해석 사전은 태그정보 사전, 어휘 사전 그리고 문법 사전으로 구성된다. 태그정보 사전은 기존 형태소 해석기의 일차원적인 품사 정보와 달리 어류 태그정보, 형태적 정보, 통사적 정보, 의미적 정보 및 화용 정보의 5 차원 벡터 정보로 작성된다. 어휘 사전은 어휘와 그 어휘가 가질 수 있는 태그정보를 우선 순위에 기반하여 순서열로 가지며, 문법 사전은 특수 문법 연산자를 이용하여 태그정보 사전에 정의된 각각의 태그가 연결 가능한지 여부를 규정하는 문법이 구축되어 있다. 형태소가 가지는 태그정보를 다차원으로 정의하고 이에 따른 문법 규칙의 표현을 통해 보다 자세한 형태소 분석 및 새로운 형태소 태그의 삽입과 삭제의 용이함을 얻을 수 있다.

  • PDF

Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet (영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구)

  • Shin, Donghyok;Kim, Sairom;Cho, Donghee;Nguyen, Minh Dieu;Park, Soongang;Eo, Keonjoo;Nam, Jeesun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet (영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구)

  • Shin, Donghyok;Kim, Sairom;Cho, Donghee;Nguyen, Minh Dieu;Park, Soongang;Eo, Keonjoo;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

Pour un traitement lexicographique des proprietes syntaxiques et lexicales des noms coreens (언어사전의 명사항목 구성을 위한 통사 어휘 정보)

  • Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.96-98
    • /
    • 1989
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 명사 항목 내에 표시 되어야할 주요 통사 어휘 정보가 어떠한 것인가 하는 문제를 다룬다. 특히 기간 한국어 사전에서 소홀히 취급되었거나 무시되었으나, 언어학적으로는 중요하고, 따라서 언어 사전에 기록되는 것이 바람직한 한국어 명사의 통사 어휘적 속성의 일부를 소개해 보기로 한다.

  • PDF

한국어 사전과 동족보어 구문

  • 홍재성
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.89-94
    • /
    • 1990
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 동사항목 기술에서 고려되어야 할 통사.어휘 정보의 한 가지로 동족보어 구문의 문제를 다룬다. 한국어 동족보이 구문의 언어학적 분석을 바탕으로, (ㄱ) 기간 한국어 사전에서의 처리 현황을 검토하고; (ㄴ) 사전적 정보로서의 동족보어 구문의 속성을 좀 더 따져보며; (ㄷ) 동족보이 구문의 통사. 어휘 속성을 사전에 체계적으로 기록해야할 근거나, 이와 관련된 구체적 사전 기술의 방안을 제시해 본다.

  • PDF

Comparing the Usages of Vocabulary by Medias for Disaster Safety Terminology Construction (재난안전 용어사전 구축을 위한 미디어별 어휘 사용 양상 비교)

  • Lee, Jung-Eun;Kim, Tae-Young;Oh, Hyo-Jung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.6
    • /
    • pp.229-238
    • /
    • 2018
  • The rapid response of disaster accidents can be archived through the organical involvement of various disaster and safety control agencies. To define the terminology of disaster safety is essential for communication between disaster safety agencies and well as announcement for the public. Also, to efficiently construct a word dictionary of disaster safety terminology, it's necessary to define the priority of the terms. In order to establish direction of word dictionary construction, this paper compares the usage of disaster safety terminology by media: word dictionary, new media, and social media, respectively. Based on the terminology resources collected from each media, we visualized the distribution of terminology according to frequency weights and analyzed co-occurrence patterns. We also classified the types of terminology into four categories and proposed the priority in the construction of disaster safety word dictionary.