• Title/Summary/Keyword: 유사어 처리

Search Result 191, Processing Time 0.028 seconds

Dual Translation Imitating Brain-To-Brain Coupling for Better Encoder Representations (더 좋은 인코더 표현을 위한 뇌 동기화 모방 이중 번역)

  • Choi, GyuHyeon;Kim, Seon Hoon;Jang, HeonSeok;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.333-338
    • /
    • 2019
  • 인코더-디코더(Encoder-decoder)는 현대 기계 번역(Machine translation)의 가장 기본이 되는 모델이다. 인코딩은 마치 인간의 뇌가 출발어(Source language) 문장을 읽고 이해를 하는 과정과 유사하고, 디코딩은 뇌가 이해한 의미를 상응하는 도착어(Target language) 문장으로 재구성하는 행위와 비슷하다. 그렇다면 벡터로 된 인코더 표현은 문장을 읽고 이해함으로써 변화된 뇌의 상태에 해당한다고 볼 수 있다. 사람이 어떤 문장을 잘 번역하기 위해서는 그 문장에 대한 이해가 뒷받침되어야 하는 것처럼, 기계 역시 원 문장이 가진 의미를 제대로 인코딩해야 향상된 성능의 번역이 가능할 것이다. 본 논문에서는 뇌과학에서 뇌 동기화(Brain-to-brain coupling)라 일컫는 현상을 모방해, 출발어와 도착어의 공통된 의미를 인코딩하여 기계 번역 성능 향상에 도움을 줄 수 있는 이중 번역 기법을 소개한다.

  • PDF

Ontofitting: Specialization of Word Vectors for Semantic Representation (Ontofitting: 의미 표현을 위한 벡터 조정)

  • Oh, Jinyoung;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.537-540
    • /
    • 2018
  • 우리는 단어 임베딩에 외부지식을 내재할 수 있는 Ontofitting 방법을 제안한다. 이 방법은 retrofitting의한 방법으로 유의어, 반의어, 상위어, 하위어 정보를 단어 임베딩에 내재할 수 있다. 유의어와 반의어 정보를 내재하기 위해서 벡터의 각 유사도를 사용하였고 상하위어 정보를 내재하기 위해서 벡터의 길이 정보를 사용하였다. 유의어 사이에는 작은 각도를 가지고 반의어 사이에는 큰 각도를 가지게 된다. 하위어는 상위어보다 상대적으로 작은 길이를 가지게 된다. SimLex와 HyperLex로 실험하여 효과와 안정성을 검증하였다. 의미정보를 내재한 임베딩을 사용할 수 있다면 QA, 대화 등 응용에서 보다 좋은 성능을 보일 수 있을 것이다.

  • PDF

A Case Study on Universal Dependency Tagsets of Japanes (일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의 비교를 중심으로)

  • Lee, Jin;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.323-328
    • /
    • 2018
  • 한국어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 한국어에 적용하는 것에는 많은 어려움이 있다. 이를 해결하기 위해서 형태통사적 특성이 유사한 일본의 UD 적용 사례를 살펴보고 한국어의 UD 적용 양상과의 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰해 보고자 한다. 한국어와 일본어는 동일한 교착어로서 비슷한 특성을 지니고 있으나, 주석의 기본 단위 설정에서 차이를 보이면서 UD를 적용하는 양상이 달라졌음을 확인하였다. 일본어의 UD 주석에서 형태 분석 기본 단위인 단단위(Short unit word, 長單位)를 기본 구문 주석 단위로 하되 장단위(Long unit word, 短單位)와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 기준으로 의존 관계를 주석하는 방안에 대해서도 고려할 필요가 있다.

  • PDF

A Hybrid Method of Verb disambiguation in Machine Translation (기계번역에서 동사 모호성 해결에 관한 하이브리드 기법)

  • Moon, Yoo-Jin;Martha Palmer
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.3
    • /
    • pp.681-687
    • /
    • 1998
  • The paper presents a hybrid mcthod for disambiguation of the verb meaning in the machine translation. The presented verb translation algorithm is to perform the concept-based method and the statistics-based method simultaneously. It uses a collocation dictionary, WordNct and the statistical information extracted from corpus. In the transfer phase of the machine translation, it tries to find the target word of the source verb. If it fails, it refers to Word Net to try to find it by calculating word similarities between the logical constraints of the source sentence and those in the collocation dictionary. At the same time, it refers to the statistical information extracted from corpus to try to find it by calculating co-occurrence similarity knowledge. The experimental result shows that the algorithm performs more accurate verb translation than the other algorithms and improves accuracy of the verb translation by 24.8% compared to the collocation-based method.

  • PDF

Automatic Evaluation of Korean Free-text Answers through Predicate Normalization (서술어 정규화를 이용한 한국어 서술형 답안의 자동 채점)

  • Bae, Byunggul;Park, II-Nam;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.121-122
    • /
    • 2012
  • 컴퓨터를 사용한 서술형 답안의 자동채점은 채점의 편의성과 객관성을 제고하기 위하여 많은 연구자들이 연구해 왔으며 자동채점의 성능을 향상시키기 위해 여러 가지 방법들이 제안되었다. 본 논문은 서술어 정규화를 통하여 서술형 답안의 자동채점 정확도를 높이고자 하였다. 기존의 다른 채점 방법들과 비교했을때 서술어 정규화 기법을 적용한 채점 방식은 기존의 방법들보다 유사도 계산 정확도가 향상되어 정답 판별 정확도가 향상되는 것을 확인할 수 있었다. 서술어 정규화는 기존의 모든 서술형 답안 채점 방법에 추가적으로 적용할 수 있는 범용성을 가지고 있다. 따라서 서술어 정규화는 기존 방법들의 자동채점 정확도를 향상시켜 보다 정확하게 서술형 답안을 채점할 수 있다.

  • PDF

Fuzzy Query Processing through Two-level Similarity Relation Matrices Construction (2계층 유사관계행렬 구축을 통한 질의 처리)

  • 이기영
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.10
    • /
    • pp.587-598
    • /
    • 2003
  • This paper construct two-level word similarity relation matrices about title and to scientific treatise. As guide keyword similarity relation matrices which is constructed to co-occurrence frequency base same time keeps recall rater by query expansion by tolerance relation, it is index structure to improve the precision rate by two-level contents base retrieval. Therefore, draw area knowledge through subject analysis and reasoned user's information request and area knowledge to fuzzy logic base. This research is research to improve vocabulary mismatch problem and information expression having essentially on query.

  • PDF

Translation Pre-processing Technique for Improving Analysis Performance of Korean News (한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법)

  • Lee, Ji-Min;Jeong, Da-Woon;Gu, Yeong-Hyeon;Yoo, Seong-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

Gathering Common-word and Document Reclassification to improve Accuracy of Document Clustering (문서 군집화의 정확률 향상을 위한 범용어 수집과 문서 재분류 알고리즘)

  • Shin, Joon-Choul;Ock, Cheol-Young;Lee, Eung-Bong
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.53-62
    • /
    • 2012
  • Clustering technology is used to deal efficiently with many searched documents in information retrieval system. But the accuracy of the clustering is satisfied to the requirement of only some domains. This paper proposes two methods to increase accuracy of the clustering. We define a common-word, that is frequently used but has low weight during clustering. We propose the method that automatically gathers the common-word and calculates its weight from the searched documents. From the experiments, the clustering error rates using the common-word is reduced to 34% compared with clustering using a stop-word. After generating first clusters using average link clustering from the searched documents, we propose the algorithm that reevaluates the similarity between document and clusters and reclassifies the document into more similar clusters. From the experiments using Naver JiSikIn category, the accuracy of reclassified clusters is increased to 1.81% compared with first clusters without reclassification.

Implementation of a Web Document Clustering System Using Word2Vec (Word2Vec을 이용한 웹 문서 클러스터링 시스템 구현)

  • Yi, Hyun Seok;Ahn, Sung Hun;Lee, Yong Hwan;Cheon, Myung Jae;Park, Hyeok Ju;Park, Mee Hwa;Lee, Yong Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.26-29
    • /
    • 2016
  • 웹 문서 추천 시스템에서는 유사한 내용의 문서임에도 불구하고 URL이 달라서 다른 문서로 인식하여 사용자에게 추천하는 데이터 희소성 문제가 있다. 여기서 기존 연구들은 이 문제에 대한 해결 방법으로 TF-IDF를 이용하였으나 비용 및 시간의 한계가 있으며 유의어 분류 문제가 있다. 본 논문에서는 Word2Vec을 이용한 웹문서 학습 시스템을 통해 문제를 해결한다. 제안 시스템은 언론사의 뉴스를 수집하고 이를 정형화된 형식으로 분석하여 가공하는 전처리 과정을 거친 후 Word2Vec 학습을 통해 문서 벡터를 생성하고 이를 K-Means 클러스터링으로 유사 문서군으로 분류한다. 이 시스템을 이용하면 데이터 희소성 문제를 해결할 뿐만 아니라 연산량이 TF-IDF에 비해 줄어들고 유의어 분류 시 유사도가 높아지는 강점이 있다.

Japanese Predicate Generation in Korean-Japanese Machine Translation (한일 기계변역에서 일본어 술부생성)

  • Kwak, Jong-Geun;Kim, Eun-Ja;Lee, Jong-Hyeok;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.173-176
    • /
    • 1994
  • 서로 다른 언어를 사용하는 사람들 사이에 언어의 장벽을 넘기 위한 수단으로 컴퓨터를 이용한 기계번역이 각광 받고 있다. 본 논문에서는 한일 기계번역 시스템에서 한국어로부터 일본어를 생성하는 과정에서 고려해야 할 사항에 관해 다룬다. 일본어는 한국어와 문법적 특성이 거의 유사하여 기계번역의 방법 가운데 직접 번역 방식이 선호되고 있다. 그러나 일본어의 한 술부내의 문법형태소들은 한국어와 비교해 볼 때, 상이한 점이 많아서 다른 부분에 비해 자연스러운 생성이 어렵다. 본 논문에서는 한일 기계번역에서 일본어의 생성시 발생하는 문제점들을 해결할 수 있는 방안을 제시한다.

  • PDF