• 제목/요약/키워드: Bilingual Lexicon

검색결과 20건 처리시간 0.031초

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선 (Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool)

  • 권홍석;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

자기조직화 지도를 이용한 이중언어사전 자동 구축 (Bilingual Lexicon Extraction Using Self-Organizing Maps)

  • 서형원;천민아;김재훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.802-805
    • /
    • 2015
  • 본 논문은 인공신경망(artificial neural network)의 한 종류인 자기조직화 지도(self-organizing map)를 이용하여 비교말뭉치(comparable corpora)로부터 이중언어사전(bilingual lexicon)을 자동으로 구축하는 방법에 대하여 기술한다. 일반적으로 우리가 대상으로 하는 언어 쌍마다 말뭉치 혹은 초기사전과 같은 언어 자원을 수집하고 그것을 필요에 맞게 가공하는 것은 매우 어려운 일이다. 이런 관점에서 볼 때, 비지도학습(unsupervised learning) 방법 중 하나인 자기조직화 지도를 이용하여 사전을 구축하면 다른 방법에 비해 적은 노력으로도 더 높은 성능을 얻을 수 있다. 본 논문에서는 한국어와 불어에 대하여 실험을 하였고, 그 결과 적은 양의 초기사전으로도 주목할 만한 정확도를 얻을 수 있었다. 향후 연구로는 학습 파라미터에 대해 좀 더 다양한 실험을 하고, 다른 언어 쌍으로의 적용 및 기존의 평가사전을 확장하여 더 많은 경우에 대해 실험하는 것을 들 수 있다.

중간언어 문맥벡터의 정제를 통한 이중언어 사전 구축의 성능개선 (Enhancing Performance of Bilingual Lexicon Extraction through Refinement of Pivot-Context Vectors)

  • 권홍석;서형원;김재훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.492-500
    • /
    • 2014
  • 본 논문은 중간언어 기반 이중언어 사전 구축 방법에서 문맥벡터의 정제 방법을 제안한다. 중간언어 기반 이중언어 사전 구축 방법은 두 언어 간의 사전이나 병렬말뭉치 등 언어 자원이 부족한 언어쌍에 매우 효과적인 방법이다. 본 논문은 두 가지 정제 방법을 통해서 성능을 개선한다. 첫 번째 방법은 양방향 번역확률을 통하여 문맥벡터를 정제하였고 두 번째 방법은 품사 정보를 이용하여 문맥벡터를 정제하였다. 본 논문은 두 개의 서로 다른 언어 쌍으로 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 48.5%를, 상위 20에서 최대 88.5%의 정확도를 얻었고, 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 26.5%를, 상위 20에서 최대 66.5%의 성능을 보였다.

이중언어의 어휘접근과 범주 특수적 의미체계 (Lexical Access in the Bilinguals and the Category-specific Semantic System)

  • 이승복;정효선;조성우
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.505-534
    • /
    • 2010
  • 한국어-영어 후기 이중언어자에서 두 언어에 따른 의미체계에 대한 어휘접근 방식을 비교해보고자, 단어-그림 일치판단과제를 실시하였다. 자연물과 인공물에 속하는 두 가지 범주에 속하는 기본수준 범주의 단어 제시 후, 해당 그림을 제시하여 일치하는지 판단하도록 하였다. 단어-그림의 제시간격(SOA)을 실험 1에서는 650ms로 하였고, 실험 2에서는 200ms로 설정하여 과제수행에서의 번역효과를 통제하였다. 실험 1, 2 모두에서 한국어가 제시되었을 때가 영어로 제시되었을 때 보다 반응시간이 빨랐다. 또한 두 언어에 따라 반응시간 양상에 차이가 났는데, L1(한국어)에서는 자연물에서, L2(영어)에서는 인공물에서 하위범주 간 차이를 보였다. 이러한 차이를 공유된 의미체계에 대한 어휘접근 방식의 차이로 논의하였다.

  • PDF

자막 병렬 코퍼스를 이용한 이중 언어 워드 임베딩 (Bilingual Word Embedding using Subtitle Parallel Corpus)

  • 이설화;이찬희;임희석
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.157-160
    • /
    • 2017
  • 최근 자연 언어 처리 분야에서는 단어를 실수벡터로 임베딩하는 워드 임베딩(Word embedding) 기술이 많은 각광을 받고 있다. 최근에는 서로 다른 두 언어를 이용한 이중 언어 위드 임베딩(Bilingual word embedding) 방법을 사용하는 연구가 많이 이루어지고 있는데, 이중 언어 워드 임베딩에서 임베딩 절과의 질은 학습하는 코퍼스의 정렬방식에 따라 많은 영향을 받는다. 본 논문은 자막 병렬 코퍼스를 이용하여 밑바탕 어휘집(Seed lexicon)을 구축하여 번역 연결 강도를 향상시키고, 이중 언어 워드 임베딩의 사천(Vocabulary) 확장을 위한 언어별 연결 함수(Language-specific mapping function)을 학습하는 새로운 방식의 모델을 제안한다. 제안한 모델은 기존 모델과의 성능비교에서 비교할만한 수준의 결과를 얻었다.

  • PDF

중간언어 기반의 Word2Vec와 CCA를 이용한 이중언어 사전 추출 (Pivot-based Bilingual Lexicon Extraction Using Word2Vec and CCA)

  • 김정태;김창현;천민아;김재훈;김재환
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.307-309
    • /
    • 2016
  • 이중언어 사전은 자연어처리 분야에서 매우 유용한 자원으로 사용되고 있다. 그러나 초기사전이나 병렬말뭉치 등 자원이 부족한 언어 쌍에 대해서 이중언어 사전을 추출하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해 본 논문에서는 중간 언어 기반으로 Word2Vec와 CCA를 이용하여 이중언어 사전을 추출하는 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해서 중간언어로 영어를 사용하여 스페인어-한국어에 대한 이중언어 사전을 추출하는 실험을 하였다. 무작위로 뽑은 200개의 단어에 대한 번역 정확도를 구하였다. 그 결과 최상위에서 37.5%, 상위 10위에서 63%, 그리고 상위 20위에서는 69.5%의 정확도를 얻을 수 있었다.

  • PDF

사전을 사용한 주관성 어휘 번역 방법 (Conveying Subjectivity of a Lexicon of One Language into Another Using a Bilingual Dictionary)

  • 김준기;남상협;이예하;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.274-278
    • /
    • 2008
  • 인터넷 사용의 증가로 인터넷이 사용자의 의견 표출의 장이 되었다. 이에 따라 사용자의 견해나 의견을 자동으로 인식 및 추출하는 방법들이 연구되어 오고 있다. 의견 분석 (opinion analysis)은 한국어에서는 아직 연구가 활발히 되지 않는 분야로 의견 분석에 필요한 자원 및 도구들이 미비하다. 본 논문은 다른 언어권에서 구축된 주관성 어휘를 사전을 이용해 번역하는 방법을 제시하고 문제점 및 개선방법과 향후 연구방향에 관하여 논의한다.

  • PDF

중간언어 기반의 Word2Vec와 CCA를 이용한 이중언어 사전 추출 (Pivot-based Bilingual Lexicon Extraction Using Word2Vec and CCA)

  • 김정태;김창현;천민아;김재훈;김재환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.307-309
    • /
    • 2016
  • 이중언어 사전은 자연어처리 분야에서 매우 유용한 자원으로 사용되고 있다. 그러나 초기사전이나 병렬말뭉치 등 자원이 부족한 언어 쌍에 대해서 이중언어 사전을 추출하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해 본 논문에서는 중간 언어 기반으로 Word2Vec와 CCA를 이용하여 이중언어 사전을 추출하는 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해서 중간언어로 영어를 사용하여 스페인어-한국어에 대한 이중언어 사전을 추출하는 실험을 하였다. 무작위로 뽑은 200개의 단어에 대한 번역 정확도를 구하였다. 그 결과 최상위에서 37.5%, 상위 10위에서 63%, 그리고 상위 20위에서는 69.5%의 정확도를 얻을 수 있었다.

  • PDF

부트스트래핑 기반의 단어-임베딩 투영 학습에 의한 대역어 사전 구축 (Bootstrapping-based Bilingual Lexicon Induction by Learning Projection of Word Embedding)

  • 이종서;왕지현;이승진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.462-467
    • /
    • 2020
  • 대역사전의 구축은 저자원 언어쌍 간의 기계번역의 품질을 높이는데 있어 중요하다. 대역사전 구축을 위해 기존에 제시된 방법론 중 단어 임베딩을 기반으로 하는 방법론 대부분이 영어-프랑스어와 같이 형태적 및 구문적으로 유사한 언어쌍 사이에서는 높은 성능을 보이지만, 영어-중국어와 같이 유사하지 않은 언어쌍에 대해서는 그렇지 못하다는 사실이 널리 알려져 있다. 본 논문에서는 단어 임베딩을 기반으로 부트스트래핑을 통해 대역사전을 구축하는 방법론을 제안한다. 제안하는 방법론은 소량의 seed 사전으로부터 시작해 반복적인 과정을 통해 대역사전을 자동으로 구축하게 된다. 이후, 본 논문의 방법론을 이용해 한국어-영어 언어쌍에 대한 실험을 진행하고, 기존에 대역사전 구축 용도로 많이 활용되고 있는 도구인 Moses에 사용된 방법론과 F1-Score 성능을 비교한다. 실험 결과, F1-Score가 약 42%p 증가함을 확인할 수 있었으며, 초기에 입력해준 seed 사전 대비 7배 크기의 대역사전을 구축하였다.

  • PDF

이중언어자의 위계모형 검증 : 암묵기억과제와 외현기억과제의 효과 (A Test of Hierarchical Model of Bilinguals Using Implicit and Explicit Memory Tasks)

  • 김미라;정찬섭
    • 인지과학
    • /
    • 제9권1호
    • /
    • pp.47-60
    • /
    • 1998
  • 이중언어자의 언어구조를 기억정보의 위계적 특성으로 설명하는 위계모형의 적합성을 외현기억검사와 암묵기억검사를 사용하여 살펴보았다. 위계모형에 따르면 단어의 기억표상은 모국어와 외국어의 심성어휘집 정보와 두 언어와 공유하는 개념표상 정보로 구성되어 있으며, 개념표상 정보의 활성화는 심성어휘집 활성화를 통해 이루어지고, 과제의 종류와 번역의 방향성에 따라 심성어휘집과 개념표상의 정보가 별개로 인출될 수 있다. 기억검사중에서 개념 정보의 활성화에 민감한 외현기억검사와 지각 정보의 활성화에 민감한 암묵기억검사는 심성어휘집 정보와 개념표상 정보의 활성화에 상이한 민감성을 보일 것이다. 실험 1에서는 명명과제의 단어들을 의미적으로 범주화하여 제시한 후에 암묵기억검사와 외현기억검사를 실시했고, 실험 2에서는 의미적으로 범주화된 단어목록을 순행 및 역행 번역을 하도록 한 후에 암묵기억검사와 외현기억검사를 했다. 명명과제와 역행번역 및 암묵기억검사에는 목록의 의미적 범주효과가 나타나지 않았고, 순행번역 및 외현기억검사에는 목록의 의미적 범주효과가 나타났다. 이런 결과를 이중언어자의 언어구조가 언어에 따르는 별개의 심성어휘집과 공통의 개념표상을 지니고 있다는 위계모형을 지지하는 것으로 해석하였다.

  • PDF