• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.029초

Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus (연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석)

  • Yoon, Jun-Tae;Lee, Chung-Hee;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

Summary Generation of a Document with Out-of-vocabulary Words (어휘 사전에 없는 단어를 포함한 문서의 요약문 생성 방법)

  • Lee, Tae-seok;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.530-531
    • /
    • 2018
  • 문서 자동 요약은 주요 단어 또는 문장을 추출하거나 문장을 생성하는 방식으로 요약한다. 최근 연구에서는 대량의 문서를 딥러닝하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 추출 요약이나 생성 요약 모두 핵심 단어를 인식하는 것이 매우 중요하다. 학습할 때 각 단어가 문장에서 출현한 패턴으로부터 의미를 인식하고 단어를 선별하여 요약한다. 결국 기계학습에서는 학습 문서에 출현한 어휘만으로 요약을 한다. 따라서 학습 문서에 출현하지 않았던 어휘가 포함된 새로운 문서의 요약에서 기존 모델이 잘 작동하기 어려운 문제가 있다. 본 논문에서는 학습단계에서 출현하지 않은 단어까지도 중요성을 인식하고 요약문을 생성할 수 있는 신경망 모델을 제안하였다.

  • PDF

A Bloom filter-based Sentiment-aware Web Crawling Algorithm (블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘)

  • Na, Chul-Won;On, Byung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF

Lexical Disambiguation for Intonation Synthesis : A CCG Approach (억양 합성을 위한 어휘 중의성 해소 : 결합범주문법을 통한 접근)

  • Lee, Ho-Joon;Park, Jong-Chul
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 한국언어정보학회 2005년도 하계 학술대회
    • /
    • pp.103-118
    • /
    • 2005
  • IT의 급격한 발전과 함께 새로운 형태의 정보 전달 방법이 지속적으로 나타나면서 우리말의 정확한 발음에 대한 인식이 점점 약화되고 있는 추세이다. 특히 장단음의 발음은 발화에 대한 전문인들도 정확하게 구분하지 못하고 있는 심각한 상황이다. 본 논문에서는 한국어 명사에서 나타나는 장단음화 현상을 주변 어휘와의 관계를 바탕으로 살펴보고 동음이의어 중 다르게 발음되는 명사의 장단음 구분을 명사와 명사의 수식어, 명사의 서술어와의 관계를 중심으로 논의한다. 분석된 결과는 결합범주문법을 이용하여 표현하고 어휘적 중의성이 해소된 음성 합성 과정을 표준화된 SSML(Speech Synthesis Markup Language)으로 기술한다.

  • PDF

Word Sense Distinction of Middle Verbs for Korean Verb Wordnet (한국어 동사의 어휘의미망 구축을 위한 중립동사의 의미분할)

  • Lee, Eunr-Young;Yoon, Ae-Sun
    • Language and Information
    • /
    • 제9권2호
    • /
    • pp.23-48
    • /
    • 2005
  • This study aims to discuss the word sense distinction of Korean middle verbs for restructuring KorLexVerb 1.0. Despite the duality of its meaning and syntactic structure, the word senses of middle verb are not clearly distinguished in current dictionaries. The underspecification causes very often mismatches that a same Korean word sense is used for two different English verb senses. A close examination on the syntactic and semantic properties of middle verb shows us that the word sense distinction and the reconstruction of hierarchical structure are indispensable. Finally, by doing this fine grained word sense distinction, we propose an alternative way of classification and description of the verb polysemy for KorLexVerb 1.0 as well as for dictionary-like language resources.

  • PDF

Grammaire du nom $pr{\acute{e}}dicatif$ : $\underline{yaksok}$ et dictionnaire (약속의 문법 : 서술명사의 통사.어휘적 기술과 사전)

  • Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.361-366
    • /
    • 1992
  • 이 발표에서는 공시적 기술 위주의 대규모 언어사전으로서의 현대한국어 사전을 구상할 때 성찰이 요구되는 서술명사의 처리방안을 생각해 보고자 한다. 보통명사의 한 하류부류인 서술명사로 특징지어지는 명사 약속을 실례로, 그 통사 어휘적 기술을 시도하고, 그 결과를 활용하는, 언어학적으로 근거있는 명사의 사전항목 구성을 검토해 보는 것이다. 약속의 항목에 명시적으로 표시되어야 할 주요 어휘 통사적 속성을 제시하고 또 이들의 사전적 표상을 위한 몇 가지 실제적 제안을 소개하려고 한다.

  • PDF

Word Sense Disambiguation Considering Words Relations and Its Application to Sign Language Generation System (어휘 간의 관계를 고려한 중의성 해소 방법 및 수화 생성 시스템에의 응용)

  • Kim, Sangchul;Park, Kwang-Hyun;Bien, Zeungnam
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-128
    • /
    • 2008
  • 어휘 중의성 해소는 다양한 분야에서 중요한 위치를 차지하고 있는 자연어처리 관련 문제이다. 본 논문에서는 어휘 중의성 해소의 실제 응용과 관련하여 문헌 내에 여러 개의 중의어가 존재할 때의 중의성 해소 문제를 다룬다. 기존의 연구에서는 다루지 않았던 다수의 중의어가 존재할 때의 중의성 해소 문제에 대하여 고찰한 후, 중의어 간의 연관성을 이용한 중의성 해소 개념을 제시한다. 또한 이를 이용한 구체적인 해소 방안 제안 및 본 연구의 한국어-한국수화 번역 시스템에의 응용 예를 소개한다. 결론 및 향후 과제에서는 본 논문에서 언급된 방법의 향후 개선 방안에 관하여 언급한다.

  • PDF

Construction of Sejong Electronic Dictionnary for Contemporary Korean (세종 전자사전 : 전산어휘부로서의 특성과 의의)

  • Hong, Chai-Song;Lee, Seong Heon
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.323-331
    • /
    • 2007
  • 이 글에서는 세종 전자사전이 전산어휘부로서 갖는 특성과 그 개발 의의를 대해서 살피고자 한다. 이를 위해 우선 세종 전자사전 개발 사업을 기간별 내용과 사업의 배경 및 목표, 사업 내용으로 나누어 개관한다. 그런 다음, 세종 전자사전의 특성을 개관하고, 거시구조 및 미시구조의 특성, 그리고 전산어휘부로서의 특성으로 나누어 살핀다. 또한 이러한 특성과 관련하여 세종 전자사전 개발의 의의에 대해서도 아울러 살핀다.

  • PDF

The difference in the representation of Korean Noun Eojeol in the mental lexicon based on its etymology (한국어 명사어절의 어원에 따른 심성어휘집 표상 양식의 차이)

  • Yoon, Ji Min;Nam, Ki Chun
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-261
    • /
    • 2009
  • 한국어에서 어절은 띄어쓰기 단위이며 한국어의 두드러진 특징 가운데 하나이다. 본 연구에서는 명사에 조사가 결합된 명사어절의 처리 과정에 대해서 밝히고자 이 과정에 관여하는 빈도효과를 측정하였다. 즉, 명사의 빈도와 어절의 빈도를 조작하여 어절의 의미를 판단하는데 걸리는 반응시간을 측정하였다. 실험 결과, 자극을 제시한 방법에 차별을 둔 실험 1과 실험 2의 결과에서 모두 어절빈도의 주효과가 유의미한 것으로 관찰되었다. 그러나 명사빈도의 주효과는 실험 2에서만 관찰되었고, 상호작용효과는 실험1과 실험2 모두 관찰되지 않았다. 또한, 한국어의 어원에 따른 즉 다시 말해, 한국어 명사를 한자어, 고유어, 외래어로 분류하여 어원에 따른 심성어휘집 표상 양식의 차이를 구별하여 보고 이를 토대로 더욱 세부적인 한국어 명사어절의 처리 과정을 규명하여 보고자 한다.

  • PDF

Performance Improvement of Extracting Bilingual Term from Phrase Table using Sentence Length Reduction (문장 길이 축소를 이용한 구 번역 테이블에서의 병렬어휘 추출 성능 향상)

  • Jeong, Seon-Yi;Lee, Kong-Joo
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.120-125
    • /
    • 2013
  • 본 연구는 대량의 특정 도메인 한영 병렬 말뭉치에서 통계 기반 기계 번역 시스템을 이용하여 병렬어휘를 효과적으로 추출해 낼 수 있는 방법에 관한 것이다. 통계 번역 시스템에서 어족이 다른 한국어와 영어간의 문장은 길이 및 어순의 차이로 인해 용어 번역 시 구절 번역 정확도가 떨어지는 문제점이 발생할 수 있다. 또한 문장 길이가 길어짐에 따라 이러한 문제는 더욱 커질 수 있다. 본 연구는 이러한 조건에서 문장의 길이가 축소된 코퍼스를 통해 한정된 코퍼스 자원 내 구 번역 테이블의 병렬어휘 추출 성능이 향상될 수 있도록 하였다.

  • PDF