• 제목/요약/키워드: 어휘 중의성

검색결과 98건 처리시간 0.026초

어휘의미망을 이용한 중국어 비감독 어의 중의성 해소 (Chinese Unsupervised Word Sense Disambiguation using WordNet)

  • 롄광저;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.365-368
    • /
    • 2012
  • 어의 중의성 해소는 자연어처리에서 중요한 역할을 한다. 감독 중의성 해소 방법은 비감독 중의성 해소 방법보다 높은 성능을 나타내지만, 구축비용이 큰 대규모 의미부착 말뭉치가 필요하다. 본 논문에서는 중국어 어휘의미망(HowNet)과 의미 미부착 말뭉치를 이용한 중국어 비감독 어의 중의성 해소 방법을 제안한다. 의미 미부착 말뭉치에서 통계정보를 추출하고, 중국어 어휘 의미망에서 중의성 어휘의 의미별 형제어를 추출하여 중의성 어휘의 주변 문맥에 나타나는 어휘와 카이제곱검정(${\chi}^2$-test)에 의한 독립성 검정을 통해 어휘 간 연관성을 판단하고 중의성 해소를 한다. 본 논문에서 제안한 중의성 해소방법의 성능을 SemEval-2007 평가데이터에서 측정한 결과 명사와 동사에서 각각 64.7%, 49.4%를 나타냈다. 이는 SemEval-2007 중국어 비감독 중의성 해소에서 가장 높은 성능을 나타낸 시스템보다 13.1%, 13.9% 높은 성능이다.

한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상 (An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet)

  • 권순호;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

형태소 분석기의 어휘적 중의성 해결에 관한 연구 (A Study on Lexical Ambiguity Resolution of Korean Morphological Analyzer)

  • 박용욱
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.783-787
    • /
    • 2012
  • 한 어절을 중심으로 검사가 이루어지는 맞춤법 검사는 문맥상 어울리지 않는 단어로 인하여 생기는 오류는 찾기 어렵다. 맞춤법 검사기는 현재 어절 단위로 오류 여부를 판단하는 것이기 때문에 어휘적 중의성을 고려하지 않아도 된다. 그러나 문법 검사기는 문장 분석을 해야 하므로 어휘적 중의성을 제거하지 않고는 정확한 검사가 어렵다. 본 논문에서는 어휘적 중의성을 해결하기 위하여 몇 가지 규칙을 만들고 이를 활용하여 문장에 존재하는 어휘적 중의성을 해결할 수 있는 방법을 보인다. 또한 실험을 통하여 그 결과를 분석하였다.

어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소 (Word Sense Disambiguation of Polysemy Predicates using UWordMap)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현 (Implementation of Word Sense Disambiguation System based on Korean WordNet)

  • 김민호;황명진;신종훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF

부사 정보를 이용한 한국어 구조 중의성 해소 (Korean Structural Disambiguation using Adverb Information)

  • 신승은;서영훈
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.110-115
    • /
    • 2000
  • 자연 언어 처리의 구문 구조 분석에서는 중의성 있는 결과가 많이 생성된다. 이러한 중의성을 해소하는데 어휘정보가 유용하다는 것은 잘 알려져 있으며, 이러한 어휘정보와 이를 이용한 중의성 해소에 관한 연구가 많이 이루어지고 있다. 본 논문은 한국어의 구문 구조 분석 시 부사에 의해 발생되는 중의성을 해소하기 위해 수식어 사전을 이용하여 구문 분석에서의 구조 중의성을 해소하였다. 수식어 사전의 어휘정보와 대상 말뭉치를 통해 각각의 부사에 대한 문법을 구성하고, 이를 이용하여 한국어 구문 구조 분석에서 부사에 의해 발생되는 중의성을 줄일 수 있다.

  • PDF

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 성능 향상 (Improvement of Korean Grammar Checker Using Partial Parsing based on Dependency Grammar and Disambiguation Rules)

  • 소길자;남현숙;김수남;원상연;권혁철;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-260
    • /
    • 1998
  • 한국어 문서에는 여러 어절을 검증해야만 처리할 수 있는 의미 오류와 문체 오류가 있다. 다수 어절 사이에 있는 오류는 부분 문장 분석을 한다. 논문에서는 의미 오류와 문체 오류를 처리할 때 어휘적 중의성 때문에 생기는 문제점을 제시하고 해결방법을 제안한다. 어휘적 중의성이란 한 단어가 두 가지 이상의 형태소 정보를 가짐을 뜻한다. 철자검사기와는 달리 문법 검사기에서는 어휘적 중의성을 제거하지 않으면 여러 가지 검사 오류가 발생한다. 이 논문에서는 의미, 문체 시스템에서 어휘적 중의성 때문에 검사 오류가 발생할 수 있는 과정을 크게 세 단계로 분류하였다. 연어 오류가 발생할 수 있는 검사단어가 어휘적 중의성을 가지면 표제어가 다른 규칙이 여러 개 존재한다. 이 때 규칙 선택 문제가 생긴다. 중의성 문제는 부분 문장분석 과정에서도 지배소와 의존소 사이의 의존관계를 정확하게 설정하기 어렵게 한다. 본 논문에서는 각 단계에서 발생한 문제를 최소화하여 문법 검사기의 성능을 향상시킨다.

  • PDF

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 (A Korean Grammar Checker using Lexical Disambiguation Rule and Partial Parsing)

  • 소길자;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권3호
    • /
    • pp.305-315
    • /
    • 2001
  • 본 논문에서는 우리말 문서에 있는 오류를 어절 단위로 검증하는 철자 오류와 여러 어절을 분석해야 처리할 수 있는 문법 오류로 분류하였다. 문법 오류를 처리할 때 전체 문장 분석은 시간이 많이 소요되고 구현하기 어려우므로 대부분 부분 문장 분석 방법을 이용한다. 기존 연구에서 사용한 부분 문장 분석은 분석 어절에 어휘 중의성이 있을 때 문장 분석 종결 또는 과분석 등의 오류가 발생한다. 본 논문에서는 문법 검사기에서 어휘 중의성 때문에 발생하는 문제점을 해결하는 방법으로 어휘 중의성 제거 규칙을 사용한다. 본 논문에서 구현한 어휘 중의성 제거 모듈은 코퍼스 데이타에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF

어휘의미분석 말뭉치 구축의 절차와 문제 (Procedures and Problems in Compiling a Disambiguated Tagged Corpus)

  • 신지현;최민우;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-486
    • /
    • 2001
  • 동음이의어 간의 서로 다른 의미를 효율적으로 변별해 줄 수 있는 방법 중 하나로 어휘의미분석 말뭉치의 활용을 들 수 있다. 이는 품사 단위의 중의성을 해소해 줄 수 있는 형태소 분석 말뭉치를 기반으로, 이 단계에서 해결하지 못하는 어휘적인 중의성을 해결한 것으로, 보다 정밀한 언어학적 연구와 단어 의미의 중의성 해결(word sense disambiguation) 등 자연언어처리 기술 개발에 사용될 수 있는 중요한 언어 자원이다. 본 연구는 실제로 어휘의미분석 말뭉치를 구축하기 위한 기반 연구로서, 어휘의미분서 말뭉치의 설계와 구축 방법론상의 제반 사항을 살펴보고, 중의적 단어들의 분포적 특징과 단어의 중의성 해결 단계에서 발생할 수 있는 문제점을 지적하고, 아울러 그 해결 방법을 모색해 의는 것을 목적으로 한다.

  • PDF

한-일 교차언어검색에서의 질의 문맥 정보를 이용한 대역어 변환 확률 모델 (Query Context Information-Based Translation Models for Korean-Japanese Cross-Language Informal ion Retrieval)

  • 이규찬;강인수;나승훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-104
    • /
    • 2005
  • 교차언어 검색 과정에서는 질의나 문서의 언어를 일치시키기 위한 변환 과정이 필수적이며, 이런 변환 과정에서 어휘의 중의성으로 인해 하나의 어휘에 대응하는 다수의 대역어가 생성됨으로써 사용자의 정보 욕구를 왜곡시켜 검색의 성능을 저하시킬 수 있다. 본 논문에서는 어휘 중의성 문제를 해결하기 위해서 질의의 문맥 정보를 이용하여 변환 질의의 확률을 구함으로써 중의성을 해소하는 방식을 제시하고, 질의의 길이, 중의도, 중의성을 가진 어휘의 비율 등에 따라서 성능이 어떻게 변하는지 비교함으로써 이 방법의 장점과 단점을 분석한다. 또한 현재의 단점을 보완하기 위한 차후 연구 방향을 제시한다.

  • PDF