• Title/Summary/Keyword: 다국어

Search Result 222, Processing Time 0.021 seconds

Design and Implementation of a Korean Analysis System for Multi-lingual Query Answering (다국어 질의응답을 위한 한국어 해석 시스템 설계 및 구현)

  • Kang, Won-Seog;Hwang, Do-Sam
    • The Journal of Korean Association of Computer Education
    • /
    • v.7 no.4
    • /
    • pp.43-50
    • /
    • 2004
  • Multi-lingual query answering system is the system which answers on the queries with several languages. LASSO[l] is the system that aims to answer the multi-lingual query. In this paper, we design and implement a Korean analysis system for LASSO. The Korean analysis system for query answering needs processing techniques of dialogue style. And the system must be practical and general so as to use on various domains. This system uses not dialogue processing techniques with high cost and low utility but heuristic rules with low cost and high utility. It is designed and implemented as a Korean interface of multi-lingual query answering system. The techniques of this system highly contribute to information retrieval and Korean analysis researches.

  • PDF

Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR (다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0)

  • Lee, Won-Jun;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF

Modeling a User-Friendly Korean-Japanese Thesaurus for Internet Circumstances (한.일 인터넷 정보유통을 위한 이용자 친화적 다국어 시소러스 모형 개발에 관한 연구)

  • Han, Seung-Hee
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.18 no.2
    • /
    • pp.253-269
    • /
    • 2007
  • The purpose of this study is modeling a user-friendly Korean-Japanese thesaurus for internet circumstances. The methodology had two steps: first, the problems were analyzed when multilingual thesaurus is constructed, with review of various multilingual thesauri and interview with multilingual thesaurus constructor in Korea and Japan. Second, collaborative tags were analyzed to differentiate cultural/linguistic background from word usage pattern. As a result, searching thesaurus model was suggested and applied to develop a user-friendly Korean-Japanese thesaurus.

CDISC Extension for Supporting Multinational Clinical Trials (다국적 임상시험 지원을 위한 CDISC 표준의 확장)

  • Yeom, Ji-Hyeon;Chai, In-Young;Kim, Suk-Il;Kim, Hyeak-Man
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.8
    • /
    • pp.566-575
    • /
    • 2009
  • Clinical Data Interchange Standards Consortium (CDISC) developed global and platform-independent data standards to improve ineffective processes of clinical trial studies. Regardless of its objective toward global cooperation, the current version of the CDISC standard cannot describe clinical trial data in various languages for multi-national investigators or reviewers. This problem applies not only to tabulated datasets in Study Data Tabulation Model (SDTM) but also to extensible markup language representation of the datasets in Operational Data Model (ODM) instances. In order to address this issue, we propose to extend the current version of SDTM and ODM to collect clinical data for multi-national clinical trials. SDTM needs to have new special-purpose domain for multi-language representation purpose. Additionally, ODM is recommended to extend its XML schema using subtyping or type inheritance mechanism respectively. Our extension of SDTM and ODM enable to represent any granule of study data tabulation model or XML data entities to describe in efficient languages. This result will contribute to collect multi-language data easily for multi-national clinical trials.

Multilanguage data input in Korean environments using XML (한국어 환경에서 XML을 이용한 다국어정보 입력)

  • Jeong, Hwi-Woong;Yoon, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.213-218
    • /
    • 2001
  • 최근 인터넷의 보급은 사용자들에게 많은 다국어 정보를 제공하게 되었다. 그러나 정작 각 국가의 언어를 입력하기 위해서는 자주 자판세트를 변경해야만 하며, 각 국가별 자판 세트가 다르기 때문에 많은 입력 오류를 감수해야 한다. 이를 위해 본 연구진에서는 과거 한국어 환경에서 다국어 지원을 위한 많은 보조 환경을 구축하였으나, 언어 코드의 특성으로 인해 상세한 환경 설정은 전산 전문가의 도움을 통해야 했고, 언어 환경 구축 및 자판 세트 교정에 많은 어려움을 겪었다. 이러한 문제점을 해결하기 위해 본 연구에서는 XML을 이용하여 일반 윈도우기반 컨트롤에서 다국어 정보를 손쉽게 입력할 수 있는 XML DTD와 입력 보조 클래스를 개발하였다. 본 연구결과물을 이용할 경우 일반 언어전문가들이 자신만의 자판 입력세트를 손쉽게 구성할 수 있으며, 이를 운영하는 시스템의 크기도 매우 줄어들어, 전체적인 컴퓨터 운영 효율성을 상승시키는 효과를 거둘 수 있다.

  • PDF

Developing XML based multilingual language education system (다국어 학습을 위한 XML기반 학습시스템의 설계)

  • Jeong, Hwi-Woong;Yoon, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.407-412
    • /
    • 1999
  • XML은 언어정보의 재사용성 및 다른 유형의 정보로 변환이 용이하여 최근 그 사용이 급증하고 있다. 그러나 XML은 아직까지 일부 분야에 국한되어 이용되고 있으며, 국내에서도 XML을 실제 활용하여 개발되고 있는 시스템은 극히 미약하다. 본 연구에서는 XML의 이점을 살려 한글을 포함한 다국어간 언어학습 컨텐트를 쉽게 구성하고 가공할 수 있는 XML 문서 내의 다국어 표현 방법에 대해 연구하였다. 또한 다국어 정보를 웹 환경에서 구현하기 위한 XSL과 유사한 문서 변환 구조 및 이를 처리할 수 있는 XML 처리기의 구조에 대해서도 소개한다. 본 연구에서 소개하는 문서 변환 구조를 이용할 경우 문자로 표현 가능한 매체를 매개로 하여 다양한 멀티미디어 컨텐트를 쉽게 작성할 수 있다.

  • PDF

A Study on the Multilingual Speech Recognition for On-line International Game (온라인 다국적 게임을 위한 다국어 혼합 음성 인식에 관한 연구)

  • Kim, Suk-Dong;Kang, Heung-Soon;Woo, In-Sung;Shin, Chwa-Cheul;Yoon, Chun-Duk
    • Journal of Korea Game Society
    • /
    • v.8 no.4
    • /
    • pp.107-114
    • /
    • 2008
  • The requests for speech-recognition for multi-language in field of game and the necessity of multi-language system, which expresses one phonetic model from many different kind of language phonetics, has been increased in field of game industry. Here upon, the research regarding development of multi-national language system which can express speeches, that is consist of various different languages, into only one lexical model is needed. In this paper is basic research for establishing integrated system from multi-language lexical model, and it shows the system which recognize Korean and English speeches into IPA(International Phonetic Alphabet). We focused on finding the IPA model which is satisfied with Korean and English phoneme one simutaneously. As a result, we could get the 90.62% of Korean speech-recognition rate, also 91.71% of English speech-recognition rate.

  • PDF

A Study on the Multilingual Speech Recognition using International Phonetic Language (IPA를 활용한 다국어 음성 인식에 관한 연구)

  • Kim, Suk-Dong;Kim, Woo-Sung;Woo, In-Sung
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.12 no.7
    • /
    • pp.3267-3274
    • /
    • 2011
  • Recently, speech recognition technology has dramatically developed, with the increase in the user environment of various mobile devices and influence of a variety of speech recognition software. However, for speech recognition for multi-language, lack of understanding of multi-language lexical model and limited capacity of systems interfere with the improvement of the recognition rate. It is not easy to embody speech expressed with multi-language into a single acoustic model and systems using several acoustic models lower speech recognition rate. In this regard, it is necessary to research and develop a multi-language speech recognition system in order to embody speech comprised of various languages into a single acoustic model. This paper studied a system that can recognize Korean and English as International Phonetic Language (IPA), based on the research for using a multi-language acoustic model in mobile devices. Focusing on finding an IPA model which satisfies both Korean and English phonemes, we get 94.8% of the voice recognition rate in Korean and 95.36% in English.

Implementation of Web Globalization System Based on Cadieux Model (Cadieux 모델에 기반한 Web Globalization 시스템 구현)

  • Lee, Young-Mi;Seo, Hyung-Kook;Lee, Kyung-Il
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.252-258
    • /
    • 2003
  • Web Globalization(이하 WG)은 global e-biz의 핵심으로 인터넷에 남은 가장 큰 사업이라고 할 수 있다. WG은 국제 시장 대응을 위해 다국어 웹사이트를 구축 및 관리하는 일이며 업무의 복잡성으로 인해 다국어 프로세스 자동화와 관리 도구가 절실히 요구되는 분야이다. 이에 WG의 시장 및 기술 동향을 살펴보고, Cadieux 모델에 기반한 모비코앤시스메타(이하 MnS)의 새로운 WG 시스템을 설명하고자 한다. 본 연구에서는 e-biz 세계화의 가장 큰 특징인 빈번한 트랜잭션과 콘텐츠 번역 프로세스를 자동화함으로 높은 비용 효과 달성을 기본목표로 하였으며, 다국어 글로벌 커뮤니티 지원 기능과 복잡한 문서 및 동영상과 같은 멀티미디어 콘텐츠의 세계화가 가능하도록 설계되었다. 마지막으로 프로토타입인 iGLOBIZ 시스템을 실제 구현해 봄으로 기술 및 상업화 가능성을 확인하고 향후의 연구 방향을 모색해 보았다.

  • PDF

Open API를 활용한 다국어 정보검색 시스템 모델링에 관한 연구

  • Hwang, Se-Chan;Kim, Heung-Cheol;Kim, Seon-Jin;Jeong, Ju-Seok;Kang, Sin-Jae
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2009.05a
    • /
    • pp.129-132
    • /
    • 2009
  • 본 논문은 오픈 API를 이용하여 다국어 정보검색 시스템을 모델링하는 방법론을 제시한다. 웹 2.0이 대두되면서 웹 2.0의 개념을 활용한 기술들이 발달하고 있는데, 그 중 한 기술이 오픈 API이다. 기업에서 개발한 새로운 서비스나 기능, 데이터 등을 API로 공개함으로써 사용자들이 공개된 API를 이용하여 새로운 서비스를 쉽게 개발할 수 있게 되었다. 본 연구에서는 구글, 플리커, 유튜브, 네이버, 다음 등의 사이트에서 제공하는 오픈 API를 이용하여, 다국어 정보 검색 시스템을 구현하였다. 구글 번역 API를 이용하여 한국어 질의어를 검색 대상 언어(영어, 일본어, 중국어 등)로 번역한 후, 소설 웹 사이트(플리커, 유튜브, 다음, 네이버 등)의 정보를 검색하고, 검색된 결과 내 텍스트를 다시 한국어로 번역한 후, 통합된 검색 결과를 사용자에게 보여준다.

  • PDF