• 제목/요약/키워드: 중의성

검색결과 4,478건 처리시간 0.032초

어절별 중의성 해소 정보를 이용한 품사 태깅의 성능 향상 (Improving Part-of-speech Tagging by using Resolution Information for Individual Ambiguous Word)

  • 박희근;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-139
    • /
    • 2007
  • 품사 태깅 시스템에서 규칙 정보와 통계 정보는 상호보완적으로 사용되어 품사 태깅의 성능을 향상시킨다. 하지만, 두 가지 정보로는 품사 태깅의 성능을 향상시키기에는 한계가 있다. 이에 본 논문에서는 어절별 중의성 해소 정보를 이용하여 품사 태깅 시스템의 정확률을 향상시키는 방법에 대해서 기술한다. 통계 정보는 21세기 세종계획의 천만 어절 균형 말뭉치와 태그 부착 말뭉치에서 추출한 trigram 형태의 중의성 어절 및 품사 태그열 출현 빈도 정보를 이용하여 구축하였고, 규칙 정보는 보조용언, 숙어, 관용적 표현 등을 이용하여 구축하였다. 어절별 중의성 해소 정보는 세종 천만 어절 균형 말뭉치의 중의성 어절에서 고빈도 상위 50%에 해당하는 어절을 대상으로 해당 어절의 의미정보와 문맥정보를 고려하여 구축되었고, 이것은 통계 정보를 이용한 품사 태깅 전에 적용되어 분석 후보를 줄여준다. 또한, 학습을 통하여 어절별 중의성 해소 정보를 수정 및 보강하여 잘못된 품사 태깅 결과를 보정해준다. 이와 같이 통계 정보와 규칙 정보를 이용한 품사 태깅 시스템에 고빈도 중의성 어절에 대한 어절별 중의성 해소 정보를 이용함으로써 품사 태깅의 성능을 향상시킬 수 있었다.

  • PDF

한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현 (Implementation of Word Sense Disambiguation System based on Korean WordNet)

  • 김민호;황명진;신종훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF

한국어 구문 중의성 해결과정 : 정상인과 명칭성 실어증 환자의 구문정보처리 특성 (Characteristics of Resolving Syntatic Ambiguity in Normals and Aphasic)

  • 김윤정;김수정;정재범;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.470-475
    • /
    • 1999
  • 문장을 이해하기 위해서는 각 단어를 이해한 후에 이 단어들이 문장 내에서 어떠한 기능을 담당하고 있는지 그 구조를 파악해야 한다. 한국어 정보 처리에 있어서 명칭성 실어증 환자는 어떠한 방식으로 이러한 문장 구조를 파악하는지 정상인과의 비교를 통해 그 특성을 살펴보고자 하는 데 본 연구의 목적이 있다. 실험 재료로는 구문 중의성 문장을 사용하였는데, 구문 중의성이란 가령 '정치가'와 같은 어절이 '정치+가(주격조사)'나, '정치+가(접미사)' 모두를 뜻할 수 있음을 말한다. 본 연구에서는 이러한 중의성을 이해하는 과정을 알아보기 위해 중의성 해결 지역에서의 읽기 시간(reading time)을 측정하였으며, 실험 과제는 자기 조절 읽기 과제(self-paced reading task)를 사용하였다. 그 결과 정상인 피험자와 마찬가지로 '정치가'와 같은 중의적 어절이 주어로 쓰였을 때에는 중의적 문장 / 비중의적 문장간의 차이가 없었으나 '명사+접사'로 해석해야 할 경우에는 둘 간의 차이가 크게 나타나 피험자였던 명칭성 실어증 환자의 경우 이러한 중의성을 해결하면서 읽는 데에는 손상이 없는 것으로 보였다. 단 전체적인 문장을 읽는데에는 시간이 오래 걸려 역시 문장을 읽고 이해하는 데에는 어려움을 겪는 것으로 나타났다. 따라서, 명칭성 실어증 환자는 문장 산출의 어려움이 구문적 정보처리에서의 문제라기보다는 어휘 정보를 적절하게 인출하지 못하기 때문에 나타나는 것으로 추론된다.

  • PDF

코어넷을 활용한 비지도 한국어 어의 중의성 해소 (Unsupervised Korean Word Sense Disambiguation using CoreNet)

  • 한기종;남상하;김지성;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

코어넷을 활용한 비지도 한국어 어의 중의성 해소 (Unsupervised Korean Word Sense Disambiguation using CoreNet)

  • 한기종;남상하;김지성;함영균;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

딥러닝을 이용한 한국어 어의 중의성 해소 (A Word Sense Disambiguation for Korean Language Using Deep Learning)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.380-382
    • /
    • 2019
  • 어의 중의성 문제는 자연어 분석 과정에서 공통적으로 발생하는 문제로 한 가지의 단어 표현이 여러 의미로 해석될 수 있기 때문에 발생한다. 이를 해결하기 위한 어의 중의성 해소는 입력 문장 중 여러 개의 의미로 해석될 수 있는 단어가 현재 문맥에서 어떤 의미로 사용되었는지 분류하는 기술이다. 어의 중의성 해소는 입력 문장의 의미를 명확하게 해주어 정보검색의 성능을 향상시키는데 중요한 역할을 한다. 본 논문에서는 딥러닝을 이용하여 어의 중의성 해소를 수행하며 기존 모델의 단점을 극복하여 입력 문장에서 중의적 단어를 판별하는 작업과 그 단어의 의미를 분류하는 작업을 동시에 수행하는 모델을 제안한다.

  • PDF

어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소 (Word Sense Disambiguation of Polysemy Predicates using UWordMap)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

형태소 분석기의 어휘적 중의성 해결에 관한 연구 (A Study on Lexical Ambiguity Resolution of Korean Morphological Analyzer)

  • 박용욱
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.783-787
    • /
    • 2012
  • 한 어절을 중심으로 검사가 이루어지는 맞춤법 검사는 문맥상 어울리지 않는 단어로 인하여 생기는 오류는 찾기 어렵다. 맞춤법 검사기는 현재 어절 단위로 오류 여부를 판단하는 것이기 때문에 어휘적 중의성을 고려하지 않아도 된다. 그러나 문법 검사기는 문장 분석을 해야 하므로 어휘적 중의성을 제거하지 않고는 정확한 검사가 어렵다. 본 논문에서는 어휘적 중의성을 해결하기 위하여 몇 가지 규칙을 만들고 이를 활용하여 문장에 존재하는 어휘적 중의성을 해결할 수 있는 방법을 보인다. 또한 실험을 통하여 그 결과를 분석하였다.

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 성능 향상 (Improvement of Korean Grammar Checker Using Partial Parsing based on Dependency Grammar and Disambiguation Rules)

  • 소길자;남현숙;김수남;원상연;권혁철;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-260
    • /
    • 1998
  • 한국어 문서에는 여러 어절을 검증해야만 처리할 수 있는 의미 오류와 문체 오류가 있다. 다수 어절 사이에 있는 오류는 부분 문장 분석을 한다. 논문에서는 의미 오류와 문체 오류를 처리할 때 어휘적 중의성 때문에 생기는 문제점을 제시하고 해결방법을 제안한다. 어휘적 중의성이란 한 단어가 두 가지 이상의 형태소 정보를 가짐을 뜻한다. 철자검사기와는 달리 문법 검사기에서는 어휘적 중의성을 제거하지 않으면 여러 가지 검사 오류가 발생한다. 이 논문에서는 의미, 문체 시스템에서 어휘적 중의성 때문에 검사 오류가 발생할 수 있는 과정을 크게 세 단계로 분류하였다. 연어 오류가 발생할 수 있는 검사단어가 어휘적 중의성을 가지면 표제어가 다른 규칙이 여러 개 존재한다. 이 때 규칙 선택 문제가 생긴다. 중의성 문제는 부분 문장분석 과정에서도 지배소와 의존소 사이의 의존관계를 정확하게 설정하기 어렵게 한다. 본 논문에서는 각 단계에서 발생한 문제를 최소화하여 문법 검사기의 성능을 향상시킨다.

  • PDF

한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상 (An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet)

  • 권순호;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.