• 제목/요약/키워드: 단어 중의성

검색결과 121건 처리시간 0.029초

은닉 마르코프 모델을 이용한 두단계 한국어 품사 태깅 (Two-Level Part-of-Speech Tagging for Korean Text Using Hidden Markov Model)

  • 이상주;임희석;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.305-312
    • /
    • 1994
  • 품사 태깅은 코퍼스에 정확한 품사 정보를 첨가하는 작업이다. 많은 단어는 하나 이상의 품사를 갖는 중의성이 있으며, 품사 태깅은 지역적 문맥을 이용하여 품사 중의성을 해결한다. 한국어에서 품사 중의성은 다양한 원인에 의해서 발생한다. 일반적으로 동형 이품사 형태소에 의해 발생되는 품사 중의성은 문맥 확률과 어휘 확률에 의해 해결될 수 있지만, 이형 동품사 형태소에 의해 발생되는 품사 중의성은 상호 정보나 의미 정보가 있어야만 해결될 수 있다. 그리나, 기존의 한국어 품사 태깅 방법은 문맥 확률과 어휘 확률만을 이용하여 모든 품사 중의성을 해결하려 하였다. 본 논문은 어절 태깅 단계에서는 중의성을 최소화하고, 형태소 태깅 단계에서는 최소화된 중의성 중에서 하나를 결정하는 두단계 태깅 방법을 제시한다. 제안된 어절 태깅 방법은 단순화된 어절 태그를 이용하므로 품사 집합에 독립적이면, 대량의 어절을 소량의 의사 부류에 사상하므로 통계 정보의 양이 적다. 또한, 은닉 마르코프 모델을 이용하므로 태깅되지 않은 원시 코퍼스로부터 학습이 가능하며, 적은 수의 파라메터와 Viterbi 알고리즘을 이용하므로 태깅 속도가 효율적이다.

  • PDF

시맨틱 웹을 이용한 다국어-지원 신문기사 번역시스템의 설계 및 구현 (Design and Implementation of a Multilingual-Supported Article Translation System using Semantic Web)

  • 강정석;이기영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.786-788
    • /
    • 2010
  • 최근 시맨틱 웹의 등장과 발전은 웹 2.0의 발전과 더불어 새로운 웹의 문화를 바꾸어 놓았다. 시맨틱 웹의 적용분야는 다양하지만 그중에서 의미 정보 검색과 다국어 정보 검색 기술을 통한 다국어 지원 번역이 연구 분야로의 필요성이 있다. 기존 기계번역이 번역률에 있어서 가장 큰 한계점은 단어 의미 중의성과 문법적은 오류이다. 따라서 본 논문에서는 시맨틱 웹과 단어 의미 중의성을 해소 시킬 새로운 알고리즘을 제안함으로써 단점을 제거하여 번역률을 향상시켜 모바일에 적용하였다. 모바일에 입력된 신문기사 이미지를 OCR을 통해 텍스트로 변환하고 사전 및 분야 온톨로지와 문장 규칙 추론을 동해 처리 속도 및 정확도 높은 번역시스템을 설계 및 구현하였다.

국어 의문사${\cdot}$부정사 의문문의 초점 실현에 대한 음향음성학적 연구 (Acoustic Phonetic Study about Focus Realization of wh-word Questions in Korean)

  • 박미영;안병섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.289-292
    • /
    • 2002
  • 국어에서 wh-단어가 포함된 의문사 의문문과 부정사 의문문은 통사적으로 같은 구조를 가지지만 의미적으로는 중의 관계에 있다. 그러나 두 의문문은 문장으로 발화될 때 음성적으로 서로 다른 여러 가지 운율 특징의 차이를 보여줌으로써, 발화 차원에서는 더 이상 중의 관계를 유지하지 않는다. 본고에서는 이러한 중의성의 해소는 두 의문문의 초점이 달리 실현되기 때문이라고 본다. 기존의 연구에서는 두 가지 의문문의 억양 연구를 초점의 작용 범위와 문말 억양의 차이, 강세구 형성의 유형을 중심으로 고찰하였다 .그리고 의문사와 부정사의 의미는, 이에 후행하는 서술어와 형성하는 강세구 유형에서 우선적으로 그 의미가 구분될 수 있다고 보았다. 그러나, 본고에서는 국어의 wh-단어가 초점으로서 작용하는 운율적 돋들림을 좀더 다양한 환경에서 실험하였다. 그리고 의문사${\cdot}$부정사와 후행하는 언어단위의 강세구 형성(accentual phrasing) 유형, 의문사${\cdot}$부정사 의문문 전체 문장 억양의 실현 양상, wh-단어 자체의 음의 높낮이(pitch contour) 실현 유형, 문말 억양(boundary tone)에서 음의 높낮이를 대상으로 분석하였다.

  • PDF

형태소 분석기의 어휘적 중의성 해결에 관한 연구 (A Study on Lexical Ambiguity Resolution of Korean Morphological Analyzer)

  • 박용욱
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.783-787
    • /
    • 2012
  • 한 어절을 중심으로 검사가 이루어지는 맞춤법 검사는 문맥상 어울리지 않는 단어로 인하여 생기는 오류는 찾기 어렵다. 맞춤법 검사기는 현재 어절 단위로 오류 여부를 판단하는 것이기 때문에 어휘적 중의성을 고려하지 않아도 된다. 그러나 문법 검사기는 문장 분석을 해야 하므로 어휘적 중의성을 제거하지 않고는 정확한 검사가 어렵다. 본 논문에서는 어휘적 중의성을 해결하기 위하여 몇 가지 규칙을 만들고 이를 활용하여 문장에 존재하는 어휘적 중의성을 해결할 수 있는 방법을 보인다. 또한 실험을 통하여 그 결과를 분석하였다.

가변길이 윈도우를 이용한 통계 기반 동형이의어의 중의성 해소 (Statistical Word Sense Disambiguation based on using Variant Window Size)

  • 박기태;이태훈;황소현;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.40-44
    • /
    • 2012
  • 어휘가 갖는 의미적 중의성은 자연어의 특성 중 하나로 자연어 처리의 정확도를 떨어트리는 요인으로, 이러한 중의성을 해소하기 위해 언어적 규칙과 다양한 기계 학습 모델을 이용한 연구가 지속되고 있다. 의미적 중의성을 가지고 있는 동형이의어의 의미분별을 위해서는 주변 문맥이 가장 중요한 자질이 되며, 자질 정보를 추출하기 위해 사용하는 문맥 창의 크기는 중의성 해소의 성능과 밀접한 연관이 있어 신중히 결정되어야 한다. 본 논문에서는 의미분별과정에 필요한 문맥을 가변적인 크기로 사용하는 가변길이 윈도우 방식을 제안한다. 세종코퍼스의 형태의미분석 말뭉치로 학습하여 12단어 32,735문장에 대해 실험한 결과 용언의 경우 평균 정확도 92.2%로 윈도우를 고정적으로 사용한 경우에 비해 향상된 결과를 보였다.

  • PDF

의존 문법과 대조 의미론을 이용한 한국어의 어휘적 중의성 해결 시스템 (Lexical Ambiguity Resolution System of Korean Language using Dependency Grammar and Collative Semantics)

  • 윤근수;권혁철
    • 인지과학
    • /
    • 제3권1호
    • /
    • pp.1-24
    • /
    • 1991
  • 본 논문은 한국어의 어휘적 중의성을 해결하는 시스템을 보여준다. 이 시스템은 의존 문법과 대조 의미론을 이용하고 있다. 의존 문법은 두 형태소 사이의 의존관계에 의하여 문장을 분석한다. 대조 의미론은 어휘적 중의성과 의미관계의 상호작용을 조사한다. 대조 의미론은 의미 프레임,의미 백터,대조,분류의 4개의 구성요소로 이루어진다. 본 시스템은 C 언어로 구성되었으며, 문자을 분석 학과 두 단어간의 의미 관계를 조사하며 어휘적 중의성을 해결한다.

키워드 확장을 통한 효율적인 유의어 검출 방법 (Efficient Synonym Detection Method through Keyword Extension)

  • 지기용;박지수;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.767-770
    • /
    • 2018
  • 인공지능의 발달로 사람이 사용하는 자연어 형태의 문장을 통해 정보를 주고받는 질의응답 시스템이 주목받고 있다. 이러한 질의응답 시스템은 자연어로 구성된 사용자의 질의문에서 의도를 정확하게 파악해야 한다. 단순히 질의어의 키워드에 의존한 검색은 단어의 중의성을 고려하지 않아 질의문의 의도를 정확히 파악하는 데 문제가 있다. 이런 문제점을 해결하기 위해 질의문의 의미와 맥락에 따른 연관성을 이용하여 유의어를 확장하는 방법이 연구되고 있다. 본 논문에서는 워드 임베딩을 통해 생성된 단어 유사도를 이용하여 질의문에서 추출된 키워드를 확장하는 방법을 제안한다.

의료 문서의 특성을 고려한 단어 모호성 해소 연구 (Word Sense Disambiguation for Coarse-grained Medical Corpus)

  • 송사광;장재원;임명은;맹성현;박수준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.943-948
    • /
    • 2007
  • 진료 기록 문서(CDA)가 의사들에 의해 작성되기 때문에 많은 전문용어, 약어, 숫자, 기호 등을 포함하고 있다. 본 논문에서는 이러한 특성을 고려하여 문서 내에서 여러 의미로 해석될 수 있는 약어, 중의어 등의 단어 모호성을 해소하고자 의미적 등가 부류를 이용하여 모호성을 해소하였다. 특히 의료문서가 많은 비율의 숫자, 기호를 사용하고 있고 문서 내에서 많은 의미적 유의성을 포함하고 있기 때문에 이들을 불용어로 처리하지 않고 의미적 등가 부류에 포함시킴으로써 진료문서 특성을 반영하였다.

  • PDF

상호정보량을 이용한 동형이의어 분별용 의미정보의 정제 (Refinement of Semantic-Information for WSD Using Mutual Information)

  • 김준수;이왕우;김창환;옥철영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.460-463
    • /
    • 2002
  • 사전 뜻풀이에서 추출된 기존의 의미정보는 동형이의어가 포함된 뜻풀이에서 명사, 용언을 모두 추출하는 방법을 이용하여 단어 중의성 해소에 부적절만 정보를 상당수 포함하게 되었다. 이러만 부적절한 정보 때문에 오분석이나 과분석이 발생하게 된다. 그러므로 기존의 의미정보에서 동형이의어 분별에 유용한 정보만을 선택하는 기준이 필요하게 되었다. 본 논문에서는 사전 뜻풀이에서 동형이의어와 의미정보 사이의 상호정보량을 계산하고 임계치를 선정하여 의미정보를 선택제약하는 방법을 이용하였다. 임계치에 의해 제한된 의미정보의 효율성을 실험하기 위한 다양만 동형이의어 분별 실험들을 수행하였다.

  • PDF

연구영역분석을 위한 디스크립터 프로파일링에 관한 연구 (Descriptor Profiling for Research Domain Analysis)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.285-303
    • /
    • 2007
  • 본 연구는 연구 영역 분석을 위하여 통제어휘와 비통제어휘를 연계해서 사용하는 새로운 방법을 모색하기 위한 것이다. 동시출현단어분석은 크게 통제어휘와 비통제어휘를 사용하는 경우의 두 가지 유형으로 구분할 수 있는데, 통제어휘를 사용할 경우에는 자료 희귀성 및 색인자 효과가 단점이며, 비통제어휘를 사용할 경우에는 저자의 주관에 따른 단어 선택 및 단어의 중의성이 문제가 된다. 이 연구에서는 양자를 보완할 수 있는 방법으로, 통제어휘인 디스크립터를 비통제어휘인 단어와의 동시출현 정보로 표현하는 디스크립터 프로파일링을 제안하였다. 정보학분야에 적용해본 결과, 디스크립터 프로파일링은 특정 영역의 최신 동향을 파악하는데 있어 통제어휘와 비통제어휘가 갖는 본질적인 문제점을 어느 정도 보완할 수 있는 것으로 나타났다.