• 제목/요약/키워드: Multilingual

검색결과 172건 처리시간 0.028초

WordNet을 매개로 한 CoreNet-SUMO의 매핑 (Mapping between CoreNet and SUMO through WordNet)

  • 강신재;강인수;남세진;최기선
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.276-282
    • /
    • 2011
  • CoreNet은 한-중-일 다국어 텍스트의 분석, 언어 간 변환을 포함한 자연어처리에 유용한 자원이다. CoreNet의 보다 광범위한 분야 및 응용에의 활용을 장려하고 다국어 어휘의미망으로서의 국제적 위상을 제고하기 위해 SUMO에 연결하는 작업을 하였다. CoreNet과 SUMO를 매핑하기 위해 간접 매핑과 직접 매핑 방법을 모두 사용하였는데, CoreNet-KorLex-PWN-SUMO에 이르는 간접 매핑 작업을 통하여 한국어 중심의 CoreNet과 영어로 기술된 SUMO의 언어 간 변환의 어려움을 완화하고 CoreNet 개념에 대응하는 SUMO 클래스의 재현율을 극대화하였다.

COVID-19 recommender system based on an annotated multilingual corpus

  • Barros, Marcia;Ruas, Pedro;Sousa, Diana;Bangash, Ali Haider;Couto, Francisco M.
    • Genomics & Informatics
    • /
    • 제19권3호
    • /
    • pp.24.1-24.7
    • /
    • 2021
  • Tracking the most recent advances in Coronavirus disease 2019 (COVID-19)-related research is essential, given the disease's novelty and its impact on society. However, with the publication pace speeding up, researchers and clinicians require automatic approaches to keep up with the incoming information regarding this disease. A solution to this problem requires the development of text mining pipelines; the efficiency of which strongly depends on the availability of curated corpora. However, there is a lack of COVID-19-related corpora, even more, if considering other languages besides English. This project's main contribution was the annotation of a multilingual parallel corpus and the generation of a recommendation dataset (EN-PT and EN-ES) regarding relevant entities, their relations, and recommendation, providing this resource to the community to improve the text mining research on COVID-19-related literature. This work was developed during the 7th Biomedical Linked Annotation Hackathon (BLAH7).

Cross-Lingual Post-Training (XPT)을 위한 한국어 및 다국어 언어모델 연구 (Korean and Multilingual Language Models Study for Cross-Lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이찬희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.77-89
    • /
    • 2022
  • 대용량의 코퍼스로 학습한 사전학습 언어모델이 다양한 자연어처리 태스크에서 성능 향상에 도움을 주는 것은 많은 연구를 통해 증명되었다. 하지만 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 있다. 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 사용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. XPT 방법론은 자원이 풍부한 영어의 사전학습 언어모델의 파라미터를 필요에 따라 선택적으로 재활용하여 사용하며 두 언어 사이의 관계를 학습하기 위해 적응계층을 사용한다. 이를 통해 관계추출 태스크에서 적은 양의 목표 언어 데이터셋만으로도 원시언어의 사전학습 모델보다 우수한 성능을 보이는 것을 확인한다. 더불어, 국내외 학계와 기업에서 공개한 한국어 사전학습 언어모델 및 한국어 multilingual 사전학습 모델에 대한 조사를 통해 각 모델의 특징을 분석한다

대형 사전훈련 모델의 파인튜닝을 통한 강건한 한국어 음성인식 모델 구축 (Building robust Korean speech recognition model by fine-tuning large pretrained model)

  • 오창한;김청빈;박기영
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.75-82
    • /
    • 2023
  • 자동 음성 인식(automatic speech recognition, ASR)은 딥러닝 기반 접근 방식으로 혁신되었으며, 그중에서도 자기 지도 학습 방법이 특히 효과적일 수 있음이 입증되고 있다. 본 연구에서는 다국어 ASR 시스템인 OpenAI의 Whisper 모델의 한국어 성능을 향상시키는 것을 목표하여 다국어 음성인식 시스템에서의 비주류 언어의 성능 문제를 개선하고자 한다. Whisper는 대용량 웹 음성 데이터 코퍼스(약 68만 시간)에서 사전 학습되었으며 주요 언어에 대한 강력한 인식 성능을 입증했다. 그러나 훈련 중 주요 언어가 아닌 한국어와 같은 언어를 인식하는 데 어려움을 겪을 수 있다. 우리는 약 1,000시간의 한국어 음성으로 구성된 추가 데이터 세트로 Whisper 모델을 파인튜닝하여 이 문제를 해결한다. 또한 동일한 데이터 세트를 사용하여 전체 훈련된 Transformer 모델을 베이스 라인으로 선정하여 성능을 비교한다. 실험 결과를 통해 Whisper 모델을 파인튜닝하면 문자 오류율(character error rate, CER) 측면에서 한국어 음성 인식 기능이 크게 향상되었음을 확인할 수 있다. 특히 모델 크기가 증가함에 따라 성능이 향상되는 경향을 포착하였다. 그러나 Whisper 모델의 영어 성능은 파인튜닝 후 성능이 저하됨을 확인하여 강력한 다국어 모델을 개발하기 위한 추가 연구의 필요성을 확인할 수 있었다. 추가적으로 우리의 연구는 한국어 음성인식 애플리케이션에 파인튜닝된 Whisper 모델을 활용할 수 있는 가능성을 확인할 수 있다. 향후 연구는 실시간 추론을 위한 다국어 인식과 최적화에 초점을 맞춰 실용적 연구를 이어갈 수 있겠다.

동아시아의 맛 표현 용어 (Taste-describing Terms in East Asia)

  • 태전태홍
    • 한국식생활문화학회지
    • /
    • 제3권1호
    • /
    • pp.23-27
    • /
    • 1988
  • 일본, 한국, 중국의 식문화에 관한 용어들을 조사 비교하였다. 우선 맛의 인지를 표현하는 용어들을 수집 조사하고 이어서 삼개국 용어중에 서로 관계가 있는 단어들을 모으고 정의하였으며 맛 인식표현에서 삼개국 용어모델을 수립하였다.

  • PDF

범용 다국어 온톨로지 구축에서 나타난 문제점과 해결방안에 관한 연구 (Studies for Problem Solving Method on Development of General-multilingual Ontology System)

  • 남현주;김도완
    • 공학논문집
    • /
    • 제8권1호
    • /
    • pp.67-77
    • /
    • 2006
  • 본 논문의 핵심은 시맨틱 웹 환경에서 지능형 웹 서비스를 지원하기위한 온톨로지에 관계된다. 기존 온톨로지는 특정한 도메인을 위한 단일어로 구축되어 있다. 따라서 웹 상에서 정보서비스(정보검색, 정보관리, 정보서비스)를 하는데 제한적이였다. 본 논문에서 제안된 온톨로지는 다국어(영어, 한국어, 독일어)로 이루어진 범용적 목적의 온톨로지 구축 기술을 다루고 있다.

  • PDF

다국어 자동통역 기술동향 및 응용 (The Trends and Application of Multilingual Automatic Speech Translation Technology)

  • 김승희;윤승;조훈영;최승권;김상훈
    • 전자통신동향분석
    • /
    • 제26권5호
    • /
    • pp.1-13
    • /
    • 2011
  • 근래에 국가 간 교류가 한층 활발해지고 스마트폰이 급속히 보급됨에 따라 일반인들이 쉽게 자동통역 제품을 접할 수 있게 되었다. 자동통역 기술은 1990년대부터 세계 각국에서 정부차원의 연구개발 단계, 시범 서비스 및 실용화 연구개발 단계를 거쳐, 이제는 수십 개의 언어를 지원하는 스마트폰용 자동통역 앱이 소개되는 단계에 이르렀다. 본 고에서는 다국어 자동통역의 핵심 요소기술에 대해 설명하고, 최근 자동통역 기술의 개발 동향 및 응용 사례에 대해 기술한다.

  • PDF

한중일영 다국어 어휘 데이터베이스의 모형

  • 차재은;강범모
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 학술대회 발표논문집
    • /
    • pp.48-67
    • /
    • 2002
  • This paper is a report on part of the results of a research project entitled "Research and Model Development for a Multi-Lingual Lexical Database". It Is a six-year project in which we aim to construct a model of a multilingual lexical database of Korean, Chinese, Japanese, and English. Now we have finished the first two-year stage of the project In this paper, we present the goal of the project, the construction model of items in the lexical database, and the possible (semi-)automatic methods of acquisition of lexical information. As an appendix, we present some sample items of the database as an i1lustration.

  • PDF

온라인 문자인식기술

  • 이헌주
    • 정보와 통신
    • /
    • 제11권5호
    • /
    • pp.23-32
    • /
    • 1994
  • 편입력 기능을 창작한 시스템의 문자입력 기능에서 사용자들의 다양한 형태의 필기문자를 인식하여 사용자의 만족을 극대화 시킬 수 잇는 고성능의 인식기를 만들기 위해서는 상황과 장소에 따라서 변하는 필기형태를 학습할 수 있는 다이나믹한 인식기 개발이 절대적으로 필요하다고 판단된다. 또한 국제 경쟁력을 갖기 위해서는 사용자의 국적(nationality)에 따라 다양한 자종을 인식할 수 잇는 기능이 있어야 한다. 따라서 본 논문에서는 다양한 사용자의 요구를 만족시키기 위하여 인식기 설계시 필요한 design issues와 philosophy를 제시하고, 이를 기초로 학습기능, 국제화, 소형화의 특징을 갖는 학습기능 다중언어(multilingual) 인식기 설계 방법을 제안하고자 한다.

  • PDF

언어별 웹 화면 제공 시스템 (Multilingual Web-Page Providing system)

  • 진성근;이재경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1545-1548
    • /
    • 2000
  • 본 고는 인터넷 이용자가 원하는 웹페이지 링크시 발생할 수 있는 여러 가지 문제 중, 언어적인 장벽을 해결하기 위한 시스템을 설계하고 이를 이용하여 언어적인 문제를 해결할 수 있는 방법을 제시한다. 인터넷 이용자의 DNS 서버와 로컬 데이터베이스를 이용하여 인터넷 이용자의 언어 정보를 추정하고, 추정한 언어로 구성된 웹페이지를 인터넷 이용자에게 제공하는 시스템을 설계한 것이다. 이로 인해, 인터넷 이용자들에게 발생하는 언어적인 장벽 문제 해결, 웹페이지 상에서의 불필요한 클릭 수 감소, 웹페이지 링크 수 증가, 시간 절약 등의 여러 가지 편의를 제공할 수 있다.

  • PDF