• 제목/요약/키워드: wordnet

검색결과 24건 처리시간 0.02초

기계번역에서 동사 모호성 해결에 관한 하이브리드 기법 (A Hybrid Method of Verb disambiguation in Machine Translation)

  • 문유진;마르타파머
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.681-687
    • /
    • 1998
  • 본 논문에서는 기계번역에서 동사 번역의 모호성 해결을 위한 하이브리드 기법을 제안한다. 제안된 기법은 동사 번역을 위해 개념기반의 기법과 통계기반의 기법을 수행하는 알고리즘이다. 이를 위해 연어사전, WordNet과 말뭉치에서 추출한 통계 정보를 이용한다. 동사 번역의 모호성을 해결하기 위하여 이 알고리즘은 기계번역의 트랜스퍼 단게에서 번역할 동사의 번역어를 찾는다. 그러나 만일 적절한 번역어를 찾지 못하게 되면, Wordnet을 참조하여 번역 문장에서 동사의 논리적 제약어와 연어사전의 논리적 제약어들 사이의 단어간 유사도를 측정하여 번역어를 찾는다. 그리고 이와 동시에 이 알고리즘은 말뭉치에서 추출한 통계 정보를 참조하여 공기 유사도를 측정하여 번역어를 찾는다. 실험 결과, 이 알고리즘은 번역 정확성에서 기존의 다른 알고리즘보다 우수하며, 특히 연어기반의 기법과 비교할 때 약 24.8% 정도의 번역 정확성이 향상된 것으로 나타나고 있다.

  • PDF

주석기반 이미지 검색에서 개념적 이질성 극복을 위한 도메인 온톨로지 설계 및 구현 (Design and Implementation of Domain Ontology to Overcome Conceptual Heterogeneity in Annotation-based Image Retrieval)

  • 김원필;김판구
    • 인터넷정보학회논문지
    • /
    • 제4권4호
    • /
    • pp.1-8
    • /
    • 2003
  • 최근 멀티미디어 정보 시스템의 발전으로 저차원적 내용 기반 이미지 색인$\cdot$검색 방법에서 의미론적 개념기반 색인$\cdot$검색에 대한 연구로 바뀌어져가고 있다. 본 논문에서는 주석기반 이미지 검색에서 개념적 이질성을 극복하기 위해 온톨로지 이론의 적용에 대하여 분석하며, 또한 개념적 이질성 극복방안에 따른 온톨로지 적용 시 발생하는 문제점을 해결하고자 한다. 따라서 본 논문에서는 시각데이터에서 개념적 이질성을 극복하기 위해 새로운 도메인 온톨로지를 도입하고 온톨로지 적용 시 문제점들을 해결한다. 실험 결과, 기존의 대형 온톨로지의 하나인 WordNet을 사용한 것보다 단어들 간의 의미적 거리가 상당히 가까워짐에 따라 개념적 이질성을 극복할 수 있었다. 또한 도메인 온톨로지를 적용하여 주석기반 이미지 검색 시 대형 온톨로지가 가지고 있던 문제점을 해소하여 좀더 의미적 이미지 검색이 가능함을 보이고 있다.

  • PDF

한국어 어휘 의미망(alias. KorLex)의 지식 그래프 임베딩을 이용한 문맥의존 철자오류 교정 기법의 성능 향상 (Performance Improvement of Context-Sensitive Spelling Error Correction Techniques using Knowledge Graph Embedding of Korean WordNet (alias. KorLex))

  • 이정훈;조상현;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제25권3호
    • /
    • pp.493-501
    • /
    • 2022
  • This paper is a study on context-sensitive spelling error correction and uses the Korean WordNet (KorLex)[1] that defines the relationship between words as a graph to improve the performance of the correction[2] based on the vector information of the word embedded in the correction technique. The Korean WordNet replaced WordNet[3] developed at Princeton University in the United States and was additionally constructed for Korean. In order to learn a semantic network in graph form or to use it for learned vector information, it is necessary to transform it into a vector form by embedding learning. For transformation, we list the nodes (limited number) in a line format like a sentence in a graph in the form of a network before the training input. One of the learning techniques that use this strategy is Deepwalk[4]. DeepWalk is used to learn graphs between words in the Korean WordNet. The graph embedding information is used in concatenation with the word vector information of the learned language model for correction, and the final correction word is determined by the cosine distance value between the vectors. In this paper, In order to test whether the information of graph embedding affects the improvement of the performance of context- sensitive spelling error correction, a confused word pair was constructed and tested from the perspective of Word Sense Disambiguation(WSD). In the experimental results, the average correction performance of all confused word pairs was improved by 2.24% compared to the baseline correction performance.

한국어 워드넷에서의 개념 유사도를 활용한 선택형 문항 생성 시스템 (A Question Example Generation System for Multiple Choice Tests by utilizing Concept Similarity in Korean WordNet)

  • 김용범;김유섭
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.125-134
    • /
    • 2008
  • 본 논문에서는 난이도를 고려하여 선택형 문항을 자동으로 생성하는 방법을 고안하였으며, 학습자 수준에 적합하도록 동적인 형태로 다양한 문항 제시를 할 수 있는 시스템을 구현하였다. 선택형 문제를 통한 평가에서는 적절한 규모의 문제 은행이 필요하다. 이와 같은 요구를 만족시키기 위해서는 보다 쉽고 빠른 방식으로 다양하고 많은 문제 및 문항을 생성할 수 있는 시스템이 필요한데, 본 논문에서는 문제 및 문항의 생성을 위하여 워드넷이라는 언어 자원을 이용한 자동 생성 방법을 고안하였다. 자동 생성을 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드마다 워드넷의 계층적 특성에 따라 유사한 의미를 가진 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 기존의 한국어 워드넷의 스키마를 개념간 의미 유사도 행렬을 구할 수 있는 형태의 스키마로 변경한다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도가 없다고 볼 수 있는 수준 9까지 다양하게 제시될 수 있으며, 생성될 문항에 어느 정도의 유사도를 가진 어휘를 포함시키느냐에 따라서 출제자의 의도에 따른 난이도의 조정이 가능하다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 포함되어 있는 트리 구조의 크기까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 더 다양한 내용과 난이도를 가진 문제 또는 문항을 더 쉽게 출제할 수 있는 시스템을 개발할 수 있었다.