• 제목/요약/키워드: 다의어

검색결과 61건 처리시간 0.041초

모두의 말뭉치를 이용한 한국어 다의어 분별 (Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus)

  • 신준철;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-210
    • /
    • 2020
  • 한국어 자연어처리 분야가 발달하면서 동형이의어 분별을 한 단계 넘어선 다의어 분별의 중요성이 점점 상승하고 있다. 최근에 다의어가 태깅된 "모두의 말뭉치"가 발표되었고, 이 말뭉치는 다의어가 태깅된 최초의 공개 말뭉치로써 다의어 연구가 본격적으로 진행될 수 있음을 의미한다. 본 논문에서는 이 말뭉치를 학습하여 작동하는 다의어 분별의 초기 모델을 제시하며, 이 모델의 실험 결과는 차후 연구를 위한 비교 기준점이 될 수 있다. 이 모델은 딥러닝을 사용하지 않은 통계형으로 개발되었고, 형태소분석과 동형이의어 분별은 기존의 UTagger로 해결하고 말뭉치 자원 외에도 UWordMap을 사용하여 다의어 분별을 보조하였다. 이 모델의 정확률은 약 87%이며, 다의어 분별 전에 형태소분석 또는 동형이의어 분별 단계에서 오류가 난 것을 포함한다. 현재까지 공개된 이 말뭉치는 오직 명사만 다의어 주석이 있기 때문에 명사만 정확률 측정 대상이 되었다. 이 연구를 통하여 다의어 분별의 어려움과, 다의어 분별에는 동형이의어 분별과는 다른 방법이 필요하다는 것을 확인할 수 있었다.

  • PDF

어휘지도(UWordMap)를 활용한 명사와 용언의 다의어 중의성 해소 (Noun and Verb Polysemy Word Sense Disambiguation Using UWordMap)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-219
    • /
    • 2015
  • 컴퓨터를 이용하여 명사와 용언의 의미를 자동으로 분별하는 것은 기계번역이나 검색 등의 기술에서 아주 중요한 기반 기술이다. 최근에 동형이의어 분별에 대한 연구 결과로 약 96%의 정확률을 보이는 시스템이 개발되었으나, 다의어 분별에 대한 연구는 아직 초기 단계로 일부 어휘만을 한정하여 연구되고 있다. 본 논문에서는 어휘지도를 이용하여 다의어를 분별하는 방법을 연구하였고, 어휘지도에 등록된 모든 일반 명사와 용언을 대상으로 실험하였다. 제안된 알고리즘은 문장에서 나타나는 명사와 용언의 관계를 어휘지도에서 찾고, 그 정보를 기반으로 다의어를 분별하였다. 아직은 그 정확률이 실용적인 수준이라고 볼 수는 없지만, 전체 다의어를 대상으로 실험하였고, 그 실험 결과를 분석함으로써 앞으로의 다의어 분별 연구 방향에 도움될 것으로 판단된다.

  • PDF

어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소 (Word Sense Disambiguation of Polysemy Predicates using UWordMap)

  • 배영준;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

의미검색을 위한 지식표현 연구 (A Study on Knowledge Representation for Semantic Search)

  • 김명관;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.31-33
    • /
    • 2003
  • 웹은 사람만이 읽을 수 있는 자연언어 문장들로 구성되어있다. 웹을 기계가 이해할 수 있게 하기 위해 의미적 표기로 구성되어야 한다. 광대한 웹의 성격상 수작업으로 이를 해결할 수는 없다. 따라서 본 연구에서는 링크 파서 및 개념그래프를 사용하여 자연어 문장을 지식표현으로 변환하고 이에 대한 검색을 다룬다. 기존의 연구에서는 3쌍으로 이루어진 지식표현과 검색으로 접근하고 있다. 그러나 이 경우 각 구(Phrase) 사이에 관계를 표현할 수가 없다. 또한 동의어 및 다의어에 대한 문제가 발생한다. 본 연구에서는 이 문제를 해결하기 위해 개념그래프를 사용하여 단어 사이의 의미를 표현하며 동의어 및 다의어 문제를 해결하기 위해 다중 단어로 된 동의어 즉 동일구(Paraphrase)를 사용한다. 이 경우 의미검색에서 다의어 및 동의어 문제가 개선됨을 보였다.

  • PDF

LSA모형에서 다의어 의미의 표상 (Representation of ambiguous word in Latent Semantic Analysis)

  • 이태헌;김청택
    • 인지과학
    • /
    • 제15권2호
    • /
    • pp.23-31
    • /
    • 2004
  • 잠재의미분석은 단어 의미를 동일한 맥락 (문장/문서) 하에서 동시에 제시되는 단어들의 공기성(co-occurence)으로 정의한다. 이 분석에서 한 단어는 맥락들을 대표하는 측들로 구성된 다차원 상의 한 점으로 표상 되며, 단어 의미는 각 단어가 맥락 속에서 등장한 빈도로 정의된다. 이 다차원 의미공간은 SVD를 통하여 차원이 축소되어 추상된 의미를 표상 한다. 이 연구는 다의어의 표상이 가능하도록 LSA를 발전시켰다. 제안된 LSA는 축에 대한 해석이 가능하도록 축의 회전을 도입하였으며 다의어 표상을 가능하게 하였다. 시뮬레이션에서는, 먼저 LSA에 의해 산출된 단어-맥락 빈도표에서 다의어를 포함하고 있는 문서들만을 재 수집한 다음 문서들을 다의어 의미별로 분류하였다. 두 번째 단계에서는 다의어의 특정의미에 대한 표상을 분류된 단어-맥락 빈도표에서 비해당 의미에 대한 맥락들을 제거한 후 LSA를 적용하여 구성하였다. 시뮬레이션 결과는 다의어의 의미들을 LSA가 표상 할 수 있음을 보여주었다. 이는 축회전을 포함한 LSA가 다의어 다중의미를 표상 할 수 있고 실용적인 측면에서 웹검색 엔진에도 적용될 수 있음을 시사한다.

  • PDF

의미 경계의 현실화를 위한 공기정보의 자동 군집화 (Automatic word sense clustering using collocation for practical sense boundaries)

  • 신사임;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.559-561
    • /
    • 2004
  • 본 논문에서는 다의어의 현실적인 의미 분포의 결정에 대해 이야기 하고자 한다. 수동으로 구축한 의미체계인 사전이나 시소러스들은 그 의미구분의 경개가 모호하고 비현실적인 부분이 많아서 언어처리 시스템의 적용에 문제점으로 지적되고 있다. 그러므로, 본 연구에서는 대용량 코퍼스에서 추출한 공기정보와 자동 군집화 방법들을 사용하여 실질적인 다의어의 의미 경계를 발견하는 방법을 제안하였다. 수동 구축된 사전과 코퍼스 기반 사전의 다의어 의미 분포와 비교해 본 결과, 본 논문에서 제안한 방법의 결과가 코퍼스 기반 사전의 의미 분포와 매우 유사한 결과를 보이는 것을 확인할 수 있었다.

  • PDF

적절다의의미 선택과정에서 관찰되는 숙련독자의 문맥의존적인 처리특성 (Context-dependent processing of skilled readers in selecting appropriate meaning of ambiguous words)

  • 이병택
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.225-230
    • /
    • 2002
  • 연구는 다의어의 문맥통합과정에서 관찰되는 숙련독자와 미숙련독자간의 개인차가 숙련독자의 문맥의존적인 처리특성에서 비롯되는지를 살펴보고자 하였다. 숙련독자의 문맥의존적인 처리특성을 좀 더 직접적으로 검토하기 위해 검사단어 강제선택과제를 고안하여 일련의 실험을 수행하였다. 편중문맥을 사용한 실험 1에서 숙련독자는 다의어의 주도적 의미가 부적절 검사단어로 사용된 실험조건과 무관단어가 부적절 검사단어로 사용된 통제조건간의 선택반응시간에 차이가 없었다. 한편 적절검사단어 선택을 방해하도록 구성된 갈등문맥이 사용된 실험 2에서 숙련독자는 미숙련독자보다 선택반응 시간이 느려서, 숙련독자가 적절검사단어 선택과정에서 더욱 큰 간섭을 경험했음을 보여주었다. 전체적으로 실험의 결과들은 숙련독자의 다의어 처리 특성이 문맥의존적이라고 가정할 때 잘 설명될 수 있는 것으로 보여진다.

  • PDF

다의어 분별 정확률 개선을 위한 보조사의 통사격 결정 (Determining a Syntactic Case of Auxiliary Postposition for Improving Accuracy of Polysemy Word-Sense-Disambiguation)

  • 신준철;옥철영
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.102-104
    • /
    • 2016
  • 하위범주화는 술어와 보어간의 의존 관계를 정의하는 언어정보로서 다의어 태깅이나 이 외에 자연어처리의 다양한 곳에 이용될 수 있다. 그러나 하위범주화에서 다루는 필수논항은 격조사로 표현되어 실제로 한국어에서 자주 나타나는 보조사는 여기에 포함되지 않는다. 이런 문제 때문에 하위범주화네 나타난 격조사만을 그대로 이용하려고 하면 재현율에 큰 문제가 발생하게 된다. 본 논문에서는 문장에서 격조사 대신 보조사가 사용되었을 때 하위범주화의 필수논항으로 인정할 수 있는 방법을 제시하고, 특히 보조사에 적용할 경우에 생기는 이점을 실험으로 증명한다.

  • PDF

다의어 분별 정확률 개선을 위한 보조사의 통사격 결정 (Determining a Syntactic Case of Auxiliary Postposition for Improving Accuracy of Polysemy Word-Sense-Disambiguation)

  • 신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-104
    • /
    • 2016
  • 하위범주화는 술어와 보어간의 의존 관계를 정의하는 언어정보로서 다의어 태깅이나 이 외에 자연어처리의 다양한 곳에 이용될 수 있다. 그러나 하위범주화에서 다루는 필수논항은 격조사로 표현되어 실제로 한국어에서 자주 나타나는 보조사는 여기에 포함되지 않는다. 이런 문제 때문에 하위범주화네 나타난 격조사만을 그대로 이용하려고 하면 재현율에 큰 문제가 발생하게 된다. 본 논문에서는 문장에서 격조사 대신 보조사가 사용되었을 때 하위범주화의 필수논항으로 인정할 수 있는 방법을 제시하고, 특히 보조사에 적용할 경우에 생기는 이점을 실험으로 증명한다.

  • PDF

동형이의어의 구별을 위한 한글한정어 사용에 관한 연구 (A Study on Hangul Qualifier for Homographic Descriptors)

  • 김태수;최석두
    • 정보관리학회지
    • /
    • 제14권1호
    • /
    • pp.107-124
    • /
    • 1997
  • 다의성이 있는 용어를 색인어로 사용하게 되면 탐색자의 요구와 관계없는 주제가 검색되므로 잡음률이 높아지게 된다. 이를 방지하기 위하여 거의 모든 통제어휘시스템에서 색인어로 사용될 기입어가 다의성을 가질 때 한글, 한자, 외국어 등을 이용하여 동형이의어와 세부분야을 한정하고 있다. 그러나 여러 학문분야에 걸친 대단위 어휘사전을 구축하려고 할 때 이들을 이용하여 다의성을 해소하는 데는 미흡한 점이 많으며, 흔히 사용하고 있는 한자한정어도 많은 문제점을 안고 있다. 본 고에서는 색인어로 사용될 기입어가 다의성이 있을 때 한글 한정어를 부기하여 이들을 구별할 것을 제안한다. 한글한정어의 타당성, 사용범위, 사용원칙등에 대하여 시소러스를 중심으로 논하고 이 개념의 확대적용방안에 대하여 언급한다.

  • PDF