• 제목/요약/키워드: 번역어

검색결과 263건 처리시간 0.028초

Zero-Shot 기반 기계번역 품질 예측 연구 (Study on Zero-shot based Quality Estimation)

  • 어수경;박찬준;서재형;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.35-43
    • /
    • 2021
  • 최근 다언어모델(Cross-lingual language model)을 활용하여 한 번도 보지 못한 특정 언어의 하위 태스크를 수행하는 제로샷 교차언어 전이(Zero-shot cross-lingual transfer)에 대한 관심이 증가하고 있다. 본 논문은 기계번역 품질 예측(Quality Estimation, QE)을 학습하기 위한 데이터 구축적 측면에서의 한계점을 지적하고, 데이터를 구축하기 어려운 상황에서도 QE를 수행할 수 있도록 제로샷 교차언어 전이를 수행한다. QE에서 제로샷을 다룬 연구는 드물며, 본 논문에서는 교차언어모델을 활용하여 영어-독일어 QE 데이터에 대해 미세조정을 실시한 후 다른 언어쌍으로의 제로샷 전이를 진행했고 이 과정에서 다양한 다언어모델을 활용하여 비교 연구를 수행했다. 또한 다양한 자원 크기로 구성된 언어쌍에 대해 제로샷 실험을 진행하고 실험 결과에 대해 언어별 언어학적 특성 관점으로의 분석을 수행하였다. 실험결과 multilingual BART와 multillingual BERT에서 가장 높은 성능을 보였으며, 특정 언어쌍에 대해 QE 학습을 전혀 진행하지 않은 상황에서도 QE를 수행할 수 있도록 유도하였다.

부트스트래핑 기반의 단어-임베딩 투영 학습에 의한 대역어 사전 구축 (Bootstrapping-based Bilingual Lexicon Induction by Learning Projection of Word Embedding)

  • 이종서;왕지현;이승진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.462-467
    • /
    • 2020
  • 대역사전의 구축은 저자원 언어쌍 간의 기계번역의 품질을 높이는데 있어 중요하다. 대역사전 구축을 위해 기존에 제시된 방법론 중 단어 임베딩을 기반으로 하는 방법론 대부분이 영어-프랑스어와 같이 형태적 및 구문적으로 유사한 언어쌍 사이에서는 높은 성능을 보이지만, 영어-중국어와 같이 유사하지 않은 언어쌍에 대해서는 그렇지 못하다는 사실이 널리 알려져 있다. 본 논문에서는 단어 임베딩을 기반으로 부트스트래핑을 통해 대역사전을 구축하는 방법론을 제안한다. 제안하는 방법론은 소량의 seed 사전으로부터 시작해 반복적인 과정을 통해 대역사전을 자동으로 구축하게 된다. 이후, 본 논문의 방법론을 이용해 한국어-영어 언어쌍에 대한 실험을 진행하고, 기존에 대역사전 구축 용도로 많이 활용되고 있는 도구인 Moses에 사용된 방법론과 F1-Score 성능을 비교한다. 실험 결과, F1-Score가 약 42%p 증가함을 확인할 수 있었으며, 초기에 입력해준 seed 사전 대비 7배 크기의 대역사전을 구축하였다.

  • PDF

응구기 와 시옹오의 문화이론과 번역의 의미 (Ngugi wa Thiong'o's Cultural Theory and Its Significance in Translation)

  • 이효석
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.411-434
    • /
    • 2017
  • 응구기는 최근 기쿠유어로 쓴 자신의 작품을 50여개 이상의 아프리카 지역어로 번역하는 작업에 관여하고 있다. 이는 로컬의 다양한 언어와 문화의 가치를 수호하기 위해 서구의 강한 언어와 문화에 맞서는 구체적인 행동이다. 한편 응구기는 자신의 작품을 영어로도 직접 번역하였는데, 이는 아프리카 문화의 폐쇄성을 막고 외부의 지평으로 열어두는 수평적 운동을 위한 것이다. 요컨대 주변부 언어 간의 대화도 중요하지만, 지배언어와 주변부 언어 간의 대화 역시 중요하다는 것을 강조하고 있는 것이다. 이때 번역이 이러한 역할을 수행하는 가교가 된다고 본다. 한편 사이먼 기칸디와 같은 학자는 응구기의 영어소설은 응구기 자신이 보존하려는 기쿠유어가 아니라 오히려 번역언어인 영어를 더욱 강화시켜 주는 것은 아닌지 의심한다. 강한 언어인 영어로의 번역본이 상대적으로 소수언어인 기쿠유 원본의 존재와 권위를 훼손하는 딜레마에 빠지게 된다는 것이다. 그러나 포스트식민 번역을 다루는 여러 학자들은 '두터운' 번역이 원본의 권위를 훼손하기 보다는 일종의 '새로운' 텍스트로서 문화적 대화와 소통의 메커니즘 속에서 작동한다고 주장한다. 또 응구기는 영어 번역본을 통해 아프리카 외부와 소통하고 아프리카 다양한 지역어로의 번역을 통해 내부와 소통하는 이중적인 전략을 구사한다. 응구기는 번역을 다양한 보편들의 대화와 연대, 나아가 보편적 보편을 탐색하는 가능성의 매체로 본다.

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역 (Clustering-based Statistical Machine Translation Using Syntactic Structure and Word Similarity)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권4호
    • /
    • pp.297-304
    • /
    • 2010
  • 통계기계번역에서 번역성능의 향상을 위해서 문장의 유형이나 장르에 따라 클러스터링을 수행하여 도메인에 특화된 번역을 시도하는 방법이 있다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 각 문장의 문법적 구조 유사도에 따른 유형별분류 기법과, 단어 유사도 정보를 사용한 장르 구분법을 적용하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 도메인 특화 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조 유사도와 단어 유사도의 계산 방법으로는 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정에서는 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

최신 기계번역 품질 예측 연구 (Research on Recent Quality Estimation)

  • 어수경;박찬준;문현석;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.37-44
    • /
    • 2021
  • 기계번역 품질 예측(Quality Estimation, QE)은 정답 문장(Reference sentence) 없이도 기계번역 결과의 질을 평가할 수 있으며, 활용도가 높다는 점에서 그 필요성이 대두되고 있다. Conference on machine translation(WMT)에서 매년 이와 관련한 shared task가 열리고 있고 최근에는 대용량 데이터 기반 Pretrained language model(PLM)을 적용한 연구들이 주로 진행되고 있다. 본 논문에서는 기계번역 품질 예측 task에 대한 설명 및 연구 동향에 대한 전반적인 survey를 진행했고, 최근 자주 활용되는 PLM의 특징들에 대해 정리하였다. 더불어 아직 활용된 바가 없는 multilingual BART 모델을 이용하여 기존 연구들인 XLM, multilingual BERT, XLM-RoBERTa와 의 비교 실험 및 분석을 진행하였다. 실험 결과 어떤 사전 학습된 다중언어 모델이 QE에 적용했을 때 가장 효과적인지 확인하였을 뿐 아니라 multilingual BART 모델의 QE 태스크 적용 가능성을 확인했다.

Coronavirus Disease-19(COVID-19)에 특화된 인공신경망 기계번역기 (Neural Machine translation specialized for Coronavirus Disease-19(COVID-19))

  • 박찬준;김경희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.7-13
    • /
    • 2020
  • 최근 세계보건기구(WHO)의 Coronavirus Disease-19(COVID-19)에 대한 팬데믹 선언으로 COVID-19는 세계적인 관심사이며 많은 사망자가 속출하고 있다. 이를 극복하기 위하여 국가 간 정보 교환과 COVID-19 관련 대응 방안 등의 공유에 대한 필요성이 증대되고 있다. 하지만 언어적 경계로 인해 원활한 정보 교환 및 공유가 이루어지지 못하고 있는 실정이다. 이에 본 논문은 COVID-19 도메인에 특화 된 인공신경망 기반 기계번역(Neural Machine Translation(NMT)) 모델을 제안한다. 제안한 모델은 영어를 중심으로 프랑스어, 스페인어, 독일어, 이탈리아어, 러시아어, 중국어 지원이 가능한 Transformer 기반 양방향 모델이다. 실험결과 BLEU 점수를 기준으로 상용화 시스템과 비교하여 모든 언어 쌍에서 유의미한 높은 성능을 보였다.

어휘 간의 관계를 고려한 중의성 해소 방법 및 수화 생성 시스템에의 응용 (Word Sense Disambiguation Considering Words Relations and Its Application to Sign Language Generation System)

  • 김상철;박광현;변증남
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-128
    • /
    • 2008
  • 어휘 중의성 해소는 다양한 분야에서 중요한 위치를 차지하고 있는 자연어처리 관련 문제이다. 본 논문에서는 어휘 중의성 해소의 실제 응용과 관련하여 문헌 내에 여러 개의 중의어가 존재할 때의 중의성 해소 문제를 다룬다. 기존의 연구에서는 다루지 않았던 다수의 중의어가 존재할 때의 중의성 해소 문제에 대하여 고찰한 후, 중의어 간의 연관성을 이용한 중의성 해소 개념을 제시한다. 또한 이를 이용한 구체적인 해소 방안 제안 및 본 연구의 한국어-한국수화 번역 시스템에의 응용 예를 소개한다. 결론 및 향후 과제에서는 본 논문에서 언급된 방법의 향후 개선 방안에 관하여 언급한다.

  • PDF

다언어주의와 언어교육정책 (Mutilingualism and Language Education Policy)

  • 김양순
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.321-326
    • /
    • 2020
  • 우리는 이 연구에서 다언어주의 맥락에서의 지속가능한 언어교육정책을 고찰하고자 한다. 인구의 다수가 다언어적이므로 다언어구사자들이 기준이 되는 다언어정책이 교육에서 우리가 채택할 수 있는 최선의 방법이다. 전통적으로 다언어사회였던 미국의 언어교육정책을 분석하여 한국사회의 언어교육정책에 관한 시사점을 모색하고자 한다. 다언어교육정책의 채택 동기와 정당성을 지속가능성, 정체성, 공정성, 세계영어, 기계번역, 그리고 보편문법이라는 6 가지 다른 관점에서 분석한다. 언어정책의 모델로 미국에서는 영어플러스(영어+n) 정책을 제안하며, 유사하게 한국에서는 한국어플러스(한국어+n) 정책을 언어교육현장에서의 최선의 언어정책모델로 제안한다. 이러한 플러스(+n)정책은 모국어와 해당국가의 다언어주의를 형성하는 다른 외래어 둘 다의 유창성을 목표로 하며 이때 다언어정책은 이중언어정책도 포함한다. 특히 4차 산업혁명시대의 맥락인 다양성과 융합의 시대에 언어다양성과 다언어정책은 해결해야할 문제가 아니라 보호되고 유지되어야할 권리이며 자산으로 간주되어야하고 언어교육정책 또한 다언어주의의 관점에서 다루어져야 한다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

어텐션 알고리듬 기반 양방향성 LSTM을 이용한 동영상의 압축 표준 예측 (Video Compression Standard Prediction using Attention-based Bidirectional LSTM)

  • 김상민;박범준;정제창
    • 방송공학회논문지
    • /
    • 제24권5호
    • /
    • pp.870-878
    • /
    • 2019
  • 본 논문에서는 어텐션 알고리듬 (attention algorithm) 기반의 양방향성 LSTM (bidirectional long short-term memory; BLSTM) 을 동영상의 압축 표준을 예측하기 위해 사용한다. 자연어 처리 (natural language processing; NLP) 분야에서 순환적 신경망 (recurrent neural networks; RNN) 의 구조를 이용하여 문장의 다음 단어를 예측하거나 의미에 따라 문장을 분류하거나 번역하는 연구들은 계속되어왔고, 이는 챗봇, 음성인식 스피커, 번역 애플리케이션 등으로 상용화되었다. LSTM 은 RNN에서 gradient vanishing problem 을 해결하고자 고안됐고, NLP 분야에서 유용하게 사용되고 있다. 제안한 알고리듬은 BLSTM과 특정 단어에 집중하여 분류할 수 있는 어텐션 알고리듬을 자연어 문장이 아닌 동영상의 비트스트림에 적용해 동영상의 압축 표준을 예측하는 것이 가능하다.