• Title/Summary/Keyword: 이중언어처리

Search Result 77, Processing Time 0.021 seconds

Rated Recall: Evaluation Method for Constructing Bilingual Lexicons (등급 재현율: 이중언어 사전 구축에 대한 평가 방법)

  • Seo, Hyeong-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.146-151
    • /
    • 2013
  • 이중언어 사전 구축 방법을 평가하는 방법에는 정확률, 재현율, MRR(Mean Reciprocal Rank) 등이 있다. 이들 방법들은 평가 집합에 있는 대역어를 정확하게 찾는 것에 초점을 맞추고 있다. 그러나 어떤 대역어가 얼마나 많이 사용되는지는 전혀 고려하지 않는다. 즉 자주 사용되는 대역어를 빨리 찾을 수 있는 방법이 좋은 방법이라고 말할 수 있다. 이와 같은 문제를 해결하기 위해서 본 논문에서는 이중언어 사전 구축의 새로운 평가 방법인 등급 재현율을 제안한다. 등급 재현율(rated recall)은 대역어가 학습 말뭉치에 나타난 정도를 반영하는 재현율이며, 자주 사용되는 대역어를 얼마나 정확하게 찾는지를 파악할 수 있는 좋은 측도이다. 본 논문에서는 문맥벡터와 중간언어를 이용한 이중언어 사전 구축 시스템의 성능을 평가하고 기존의 방법과 비교 분석하였다.

  • PDF

Access to Database Using List Comprehension (리스트 컴프리헨션을 이용한 데이터베이스 접근)

  • Park, Kyung-Soon;Woo, Gyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11b
    • /
    • pp.655-658
    • /
    • 2003
  • 기존의 데이터베이스 응용 프로그램을 작성할 경우에 질의 언어와 개발 언어간의 이중 언어 정의 문제(impedance mismatch)가 발생한다. 이를 해결하기 위한 한가지 방법으로 본 논문에서는 Haskell의 리스트 컴프리헨션(list comprehension)을 이용한 데이터베이스 접근을 제안한다. 이 방식을 이용할 경우 문법 체계가 명확해 진다는 장점과 연속적인 집계연산자(aggregate operator)를 사용할 수 있다는 장점이 있다. 또한 앞에서 지적한 이중 언어 정의 문제를 해결할 수 있다.

  • PDF

Bilingual Word Embedding using Subtitle Parallel Corpus (자막 병렬 코퍼스를 이용한 이중 언어 워드 임베딩)

  • Lee, Seolhwa;Lee, Chanhee;Lim, Heuiseok
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.157-160
    • /
    • 2017
  • 최근 자연 언어 처리 분야에서는 단어를 실수벡터로 임베딩하는 워드 임베딩(Word embedding) 기술이 많은 각광을 받고 있다. 최근에는 서로 다른 두 언어를 이용한 이중 언어 위드 임베딩(Bilingual word embedding) 방법을 사용하는 연구가 많이 이루어지고 있는데, 이중 언어 워드 임베딩에서 임베딩 절과의 질은 학습하는 코퍼스의 정렬방식에 따라 많은 영향을 받는다. 본 논문은 자막 병렬 코퍼스를 이용하여 밑바탕 어휘집(Seed lexicon)을 구축하여 번역 연결 강도를 향상시키고, 이중 언어 워드 임베딩의 사천(Vocabulary) 확장을 위한 언어별 연결 함수(Language-specific mapping function)을 학습하는 새로운 방식의 모델을 제안한다. 제안한 모델은 기존 모델과의 성능비교에서 비교할만한 수준의 결과를 얻었다.

  • PDF

Double Subject Analysis in Korean (한국어의 이중주어 분석)

  • Kim, Chang-Hyun;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.158-162
    • /
    • 2003
  • 이중주어 문장이란 하나의 용언이 두 개의 주격조사를 취하는 경우를 말한다. 이러한 이중주어 현상은 영어권에서는 없는 현상으로, 한국어 분석 측면에서 어려움을 야기할 뿐 아니라, 자동 번역 측면에서도 반드시 고려되어야 하는 현상이다. 그러나 이중주어의 분석에 대한 기존 연구는 국어학 분야에서만 진행되었을 뿐 자연어 처리분야에서는 다루어진 적이 없다. 본 논문에서는 이중주어 현상에 대한 분석을 통해, 이중주어 현상이 한국어 문장에서 빈번히 발생하는 현상이며, 기존의 ‘명시-격조사-용언’으로 구성되는 공기정보만으로는 이중주어 문장을 올바로 분석할 수 없음을 보인다. 이를 해결하기 위해 본 논문에서는 이중주어의 특성을 파악하고, 이들 특성에 맞게 ‘명사-격조사-용어’ 공기정보뿐 아니라 명사들 간의 공기정보 및 관형형 용언과 명사 공기정보, 그리고 주격조사의 교체를 통한 이중주어 분석 방법을 제안한다.

  • PDF

Constructions of Double Accusative in Korean & Japanese (한국어(韓國語)의 이중대격구문(二重對格構文)과 일본어(日本語)의 이중대격구문(二重對格構文)의 문제(問題))

  • Kang, Yong-Hee
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.169-174
    • /
    • 1998
  • 한국어(韓國語)의 격조사(格助詞)와 일본어(日本語)의 격조사(格助詞)의 유사성(類似性)과 상이성(相異性)에 관한 연구(硏究)는 많지만 격조사(格助詞)와 단문(單文)의 통사적(統辭的) 제약(制約)에 관한 연구(硏究)는 미비하다. 본 연구(硏究)에서는 이중대격구문(二重對格構文)의 관점(觀点)에서 양국언어(兩國言語)의 통사적(統辭的) 상이점(相異点)과 분포(分布)의 차이(差異)를 명백(明白)히 밝히며, 일본(日本)의 한국(韓日) 기계번역(機械飜譯) 시스템에서의 처리(處理)와 오역(誤譯)의 처리(處理)를 고찰(考察) 하는 것을 목적(目的)으로 한다.

  • PDF

Bilingual Lexicon Extraction Using Self-Organizing Maps (자기조직화 지도를 이용한 이중언어사전 자동 구축)

  • Seo, Hyeong-Won;Cheon, Minah;Kim, Jae-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.802-805
    • /
    • 2015
  • 본 논문은 인공신경망(artificial neural network)의 한 종류인 자기조직화 지도(self-organizing map)를 이용하여 비교말뭉치(comparable corpora)로부터 이중언어사전(bilingual lexicon)을 자동으로 구축하는 방법에 대하여 기술한다. 일반적으로 우리가 대상으로 하는 언어 쌍마다 말뭉치 혹은 초기사전과 같은 언어 자원을 수집하고 그것을 필요에 맞게 가공하는 것은 매우 어려운 일이다. 이런 관점에서 볼 때, 비지도학습(unsupervised learning) 방법 중 하나인 자기조직화 지도를 이용하여 사전을 구축하면 다른 방법에 비해 적은 노력으로도 더 높은 성능을 얻을 수 있다. 본 논문에서는 한국어와 불어에 대하여 실험을 하였고, 그 결과 적은 양의 초기사전으로도 주목할 만한 정확도를 얻을 수 있었다. 향후 연구로는 학습 파라미터에 대해 좀 더 다양한 실험을 하고, 다른 언어 쌍으로의 적용 및 기존의 평가사전을 확장하여 더 많은 경우에 대해 실험하는 것을 들 수 있다.

Automatic Construction of a Transliteration Dictionary from Bilingual Corpus (이중언어 코퍼스로부터 외래어 표기 사전의 자동구축)

  • Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.142-149
    • /
    • 1999
  • 외국문명의 영향으로 많은 외래어가 한국어 문서 내에서 사용되고 있으며, 이러한 단어는 주로 전문용어, 고유명사, 신조어 등으로 사전에 등록되지 않는 것이 많다. 본 논문에서는 이중언어 코퍼스로부터 자동으로 외래어 사전을 추출해 내는 확률적 정렬 방법과 실험결과를 소개한다. 확률적 정렬 방법은 통계적 음차 표기 모델에서 사용된 방법을 변형하여 적용한 것이며, 문서단위로 정렬된 두 종류의 영-한 이중언어 코퍼스에 대해 실험하여 재현률과 정확률을 측정하였다 성능은 전처리단계인 한국어 미등록어 추정에 영향을 많이 받았는데, 미등록어 추정을 대략하였을 경우, 재현률은 평균 58%였고, 정확률은 평균74%이었으며, 수동으로 미등록어 명사를 분리했을 경우, 재현률 평균86%, 정확률 평균91%로 외래어와 대응되는 원어를 추출해 냈다.

  • PDF

Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool (중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선)

  • Kwon, Hong-Seok;Seo, Hyeung-Won;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

Construction of bilingually pre-trained language model from large-scaled Korean and English corpus (KE-T5: 한국어-영어 대용량 텍스트를 활용한 이중언어 사전학습기반 대형 언어모델 구축)

  • Shin, Saim;Kim, San;Seo, Hyeon-Tae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.419-422
    • /
    • 2021
  • 본 논문은 한국어와 영어 코퍼스 93GB를 활용하여 구축한 대형 사전학습기반 언어모델인 KE-T5를 소개한다. KE-T5는 한국어와 영어 어휘 64,000개를 포함하는 대규모의 언어모델로 다양한 한국어처리와 한국어와 영어를 모두 포함하는 번역 등의 복합언어 태스크에서도 높은 성능을 기대할 수 있다. KE-T5의 활용은 대규모의 언어모델을 기반으로 영어 수준의 복잡한 언어처리 태스크에 대한 연구들을 본격적으로 시작할 수 있는 기반을 마련하였다.

  • PDF

Utilizing Local Bilingual Embeddings on Korean-English Law Data (한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩)

  • Choi, Soon-Young;Matteson, Andrew Stuart;Lim, Heui-Seok
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.10
    • /
    • pp.45-53
    • /
    • 2018
  • Recently, studies about bilingual word embedding have been gaining much attention. However, bilingual word embedding with Korean is not actively pursued due to the difficulty in obtaining a sizable, high quality corpus. Local embeddings that can be applied to specific domains are relatively rare. Additionally, multi-word vocabulary is problematic due to the lack of one-to-one word-level correspondence in translation pairs. In this paper, we crawl 868,163 paragraphs from a Korean-English law corpus and propose three mapping strategies for word embedding. These strategies address the aforementioned issues including multi-word translation and improve translation pair quality on paragraph-aligned data. We demonstrate a twofold increase in translation pair quality compared to the global bilingual word embedding baseline.