• 제목/요약/키워드: 단어중의성해소

검색결과 65건 처리시간 0.024초

통계기만 의미중의성 해소를 이용한 정보검색 (Informal ion Retrieval using Word Sense Disambiguation based on Statintical Method)

  • 허정;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.508-510
    • /
    • 2002
  • 인터넷의 발전과 더불어 기하급수적으로 늘어난 디지털 정보를 대상으로 사용자의 요구를 만족시키는 정보검색을 하기 위해 자연어처리 기술이 많이 응용되고 있다. 본 논문에서는 정보검색에 자연어 처리 기술 중, 의미중의성 해소(WSD) 기술을 적용하였다. HANTEC 12만 문서를 대상으로 9개의 중의성 단어를 실험한 결과 67.8%의 정확률을 보였다. 본 실험을 통해 WSD의 오분석이 정보검색의 정확률에 상당히 민감한 결과를 초래함을 알 수 있었다. 그리고, WSD 기술이 정보검색에 적용된 떼 발생할 수 있는 여러 문제점들에 대하여 논의하였고, 이 문제점의 근원적인 해결방안은 WSD기술의 발전에 있다는 것을 알 수 있었다.

  • PDF

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법 (A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia)

  • 이호경;안재현;윤정민;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.813-821
    • /
    • 2017
  • 개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

사전을 기반으로 한 한국어 의미망 구축과 활용 (Construction and application of Korean Semantic-Network based on Korean Dictionary)

  • 최호섭;옥철영;장문수;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.448-450
    • /
    • 2002
  • 시소러스 의미망, 온톨로지 등과 같은 지식베이스는 자연언어처리와 관련된 여러 분야에서 중요한 언어자원의 역할을 담당하고 있다. 하지만 정보검색, 기계번역과 같은 특정 분야마다 다르게 구축되어 이러한 지식베이스는 실질적인 한국어 처리에는 크게 효과를 보지 못하고 있는 실정이다. 본 논문은 한국어를 대상으로 한 시소러스, 의미망의 등의 구축 방법론적 문제를 지적하고 말뭉치를 중심으로 한 텍스트 언어처리에 필요한 의미망의 구축 방법과 포괄적인 활용방안을 모색한다. 의미망 구축의 기반이 되는 지식은 각종 사전(dictionary)를 이용했으며, 구축하고 있는 의미망의 활용 가능성을 평가하기 위하여 ETRI의 의미기반 정보검색과 언어처리의 큰 문제 중 하나인 단어 중의성 해소(WSD)에서 어떻게 활용되는지를 살핀다. 그리하여 언어자인의 처리 방안 중의 하나인 의미망을 구축함으로써 언어를 효과적으로 처리하기 위한 기본적이면서 중요한 어휘 데이터베이스 마련과 동시에 언어자원 구축의 한 방향을 제시하고자 한다.

  • PDF

분류와 사용자 질의어 정보에 기반한 개인화 검색 시스템 (A Personalized Retrieval System Based on Classification and User Query)

  • 김광영;심강섭;곽승진
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.163-180
    • /
    • 2009
  • 본 논문은 사용자가 검색에 사용한 질의어를 기반으로 개인의 성향정보를 분석하고자 한다. 이를 위하여 사용자가 검색을 하기 위해서 입력한 질의어를 문서분류기를 이용하여 범주를 부여한다. 본 연구에서는 각 레코드에 미리 부여된 DDC 분류코드를 분류정보로 활용하였다. 이러한 방식을 사용하여 사용자의 질의어를 기반으로 개인의 특징을 분석한다. 분석된 개인의 성향정보를 검색 결과에 반영하고 개인의 의도에 맞는 문서를 재순위화시키는 개인화 검색시스템을 개발하였다. 또한 개인의 성향정보를 이용하여 단어의 중의성 문제를 해결할 수 있었다. 본 논문에서는 한국과학기술정보연구원이 운영 중인 과학기술학회마을 데이터베이스를 이용하여 개인화와 단어중의성 해소에 관한 실험을 수행하였다. 실험과 사용자 평가를 통해서 개인화 검색 및 단어중의성 해소 성능을 제시하였다.

상호 정보를 이용한 구조적 모호성 해소와 결과에 대한 확신도 측정 (Structural Disambiguation using Mutual Information and the Measure of Confidence)

  • 심광섭
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.153-176
    • /
    • 1993
  • 구조적 모호성은 자연 언어 문장을 분석할 때 흔히 나타내는 문제점 중의 하나로,지금까지 이문제의 해결은 대단히 어려운 것으로 인식되어 왔다.그러나,구조적 모호성을 해소하지 않고 올바른 언어 처리를 한다는 것은 사실상 불가능하다.본 논문에서는 이 문제에 대하여 정보 이론적(information-theoretic)개념인 상호 정보(mutual information)를 이용한 통계적 접근방법을 제안한다.상호정보는 말 뭉치로 부터 자동 습득이 가능하므로 지식습득속도가 대단히 빠를뿐만 아니라 지속적인 지식습득이 가능하다. 구조적 모호성 해소는 물론 모호성 해소 결과의 옳고 그름을 스스로 판단할수 있는 능력을 부여할수 있다면 보다 지능적인 시스템을 개발하는데 도움이 될것이다.본 논문에서는 그와 같은 지적 능력을 부여한느데 필요한 확신도(congidence measure) 개념도 또한 제시한다.확신도는 구조적 모호성을 해소하고 난 후에 계산되는 수치로서,구조적 모호성이 올바르게 해소되었을 가능성이 높으면 높을수록 그 값이 커지는 성질을 가지고 있다. 본 논문에서 제시한 구조적 모호성 해소 알고리즘의 타당성을 검증하기 위하여 이공계 논문 초록으로부터 발췌된 약 160만 단어의 말뭉치로부터 상호 정보를 자동 습득하고 이를 이용하요,1,639개의 문장에 대하여 구조적 모호성을 해소하는 실험을 하였다. 실험결과 구조적 모호성 해소 정화도는 약 80%로 나타났다.확신도 개념을 이용할 경우 구조적 모호성 해소가 잘못된 문장을 찾아 정정하는 작업을 매우 효과적으로 진행할 수 있었다.

워드 임베딩을 활용한 관용표현 인식 연구 (Korean Idiom Classification Using Word Embedding)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

단어 간 연관성 측정을 통한 문맥 철자오류 교정 (Context-sensitive Spelling Correction using Measuring Relationship between Words)

  • 최성기;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1362-1365
    • /
    • 2013
  • 한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

한국어 명사 의미 부류 체계의 구축과 활용 (Construction and application of semantic classes of Korean nouns)

  • 강범모;박동호;이성헌;박진호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.247-251
    • /
    • 2001
  • 명사 의미 부류 체계는 언어 처리의 다양한 분야에서 그 필요성이 부각되고 있다. 예를 들어, 기계 번역에 있어서의 단어 의미의 중의성 해소(word sense disambiguation), 정보검색 시스템에서도 재현율과 정확률의 향상, 추론 시스템 등을 위하여 명사 의미 부류는 중요한 역할을 한다. 명사 의미 부류 체계의 이러한 중요성 때문에 여러 온톨로지(ontology)가 기존에 구축되어 있다. 그런데 이러한 온톨로지들은 대개 순수한 개념적 기준에 입각한 것이며 단어의 통사적 특성을 별로 고려하고 있지 않다. 정보검색 시스템이나 추론 시스템의 경우에는 통사적 고려가 별로 중요하지 않을 수 있으나 기계번역의 경우 통사적 특성에 대한 고려가 매우 중요하다. 이러한 점에 주목하여 21세기 세종계획 전자사전 분과에서는 개념적 기준과 통사적 기준을 모두 고려하여 명사 의미 부류 체계를 구축하고 있다. 즉, 해당 부류에 속하는 명사들이 결합할 수 있는 술어(적정 술어) 등의 통사적 요인을 중요시하여 명사들을 분류하고 있는 것이다. 이에 따라 세종 체언 사전의 모든 명사들에 대해 의미부류 정보가 주어지고, 용언 사전의 용언의 각 논항에 대한 선택제약 정보도 이 명사 의미부류 체계를 이용하여 제시되고 있다. 이러한 정보들은 한국어 처리에 중요한 자료로 이용될 것이다.

  • PDF

정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템 (A Korean Homonym Disambiguation System Using Refined Semantic Information and Thesaurus)

  • 김준수;옥철영
    • 정보처리학회논문지B
    • /
    • 제12B권7호
    • /
    • pp.829-840
    • /
    • 2005
  • 단어 의미 중의성 해소는 자연언어처리 분야에 매우 중요한 부분이다. 본 논문에서는 사전 뜻풀이 특성을 이용해 기존의 의미정보를 정제하고 유용한 정보인 확률정보, 거리정보 및 격정보 등을 추가한 WSD 모델을 제안하였으며, 사전을 기반으로 구축된 "울산대학교 어휘 지능망(UOU-Word Intelligent Network: U-WIN)" 상의 단어 계층적 구조(시소러스)를 이용하여 의미정보의 자료 부족 문제를 해소하는 모델을 제시하였"다. "21세기 세종 계획"에서 제공하는 150만 어절 규모의 의미 태그 말뭉치를 대상으로 한 실험에서 최다 빈도 의미 결정(Maximum Frequence Class, MFC, 정확률 베이스라인)에 비해 $18.97\%$(명사 $21.73\%$, 동사 $17.11\%$) 정확률 향상을 보였으며, 기존의 확률 가중치와 어절 거리 가중치를 이용한 모델에 비해서는 $10.49\%$(명사 $8.84\%$, 동사 $11.51\%$)의 정확률 향상되었다. 또한 시소러스를 사용하지 않고 확률정보, 거리정보, 격정보 만을 이용한 모델에 비해 $6.12\%$(명사 $5.29\%$, 동사 $6.64\%$) 높은 정확률을 보였다.

지배소 후위 제약을 적용한 트랜지션 시스템 기반 한국어 의존 파싱 모델 (Korean Dependency Parsing Model based on Transition System using Head Final Constraint)

  • 임준호;윤여찬;배용진;임수종;김현기;이규철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-86
    • /
    • 2014
  • 한국어 의존 파싱은 문장 내 단어의 지배소를 찾음으로써 문장의 구조적 중의성을 해소하는 작업이다. 지배소 후위 원칙은 단어의 지배소는 자기 자신보다 뒤에 위치한다는 원리로, 한국어 구문분석을 위하여 널리 사용되는 원리이다. 본 연구에서는 한국어 지배소 후위 원리를 의존 파싱을 위한 트랜지션 시스템의 제약 조건으로 적용하여 2가지 트랜지션 시스템을 제안한다. 제안 모델은 기존 트랜지션 시스템 중 널리 사용되는 arc-standard와 arc-eager 알고리즘에 지배소 후위 제약을 적용한 포워드(forward) 기반 트랜지션 시스템과, 트랜지션 시스템의 단점인 에러 전파(error propagation)를 완화시키기 위하여 arc-eager 알고리즘의 lazy-reduce 방식을 적용한 백워드(backward) 기반 트랜지션 시스템이다. 실험은 세종 구구조 말뭉치를 의존구조로 변환하여 실험하였고, 실험 결과 백워드 기반 트랜지션 시스템이 포워드 방식보다 우수한 성능을 보였다. 기존 연구와의 비교를 위하여 기존 연구를 조사하였지만 세부 실험 환경이 서로 달라서 직접적인 비교는 어려웠다. 제안하는 시스템의 최고 성능은 UAS 92.85%, LAS 90.82% 이다.

  • PDF