• Title/Summary/Keyword: 다국어화

Search Result 32, Processing Time 0.022 seconds

A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition (다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구)

  • 지원우;윤춘덕;김우성;김석동
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.6
    • /
    • pp.434-442
    • /
    • 2003
  • Software internationalization, the process of making software easier to localize for specific languages, has deep implications when applied to speech technology, where the goal of the task lies in the very essence of the particular language. A greatdeal of work and fine-tuning has gone into language processing software based on ASCII or a single language, say English, thus making a port to different languages difficult. The inherent identity of a language manifests itself in its lexicon, where its character set, phoneme set, pronunciation rules are revealed. We propose a decomposition of the lexicon building process, into four discrete and sequential steps. For preprocessing to build a lexical model, we translate from specific language code to unicode. (step 1) Transliterating code points from Unicode. (step 2) Phonetically standardizing rules. (step 3) Implementing grapheme to phoneme rules. (step 4) Implementing phonological processes.

IF(interchange format) and IF tagging for the Multilingual Spoken Language Translation System (다국어 대화체 음성언어번역 시스템을 위한 IF(interchange format )와 IF 태깅)

  • 최운천
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.409-412
    • /
    • 1998
  • 미국의 카네기 메론 대학과 일본의 ATR 및 한국의 전자통신연구원 등이 가입한 CSTAR 에서는 99년 국제간 음성언어번역 시스템 데모를 위해 IF를 이용하여 데이터를 주고 받기로 합의하였다. IF는 크게는 인터넷을 통해 다른 나라의 음성언어번역 시스템과 연결하여 데이터를 주고 받는데 사용되고, 작게는 음성언어 번역 시스템 내의 해석 시스템과 생성 시스템 사이에 데이터를 주고 받는데 사용된다. IF는 중간언어 표현의 한 가지 방법으로 간단하면서도 단순한 표현으로 특정 영역 내에 나타나는 이미를 표현할 수 있도록 정의되었다. 대상으로 하는 영역은 여행 안내로 호텔 예약, 비행기 예약, 여행지 안내 및예약 등을 포함하고 있다. IF의 가장 큰 특징은 표현방법의 단순화에 있다. 즉, 의미를 가장 잘 나타낼 수 있는 표현을 골라, IF를 정의하여 언어 종속적인 요소를 가능한 배제하였다. IF 태깅은 발화에 대해 적절한 IF를 붙여 주는 일로 태깅을 수행하는 사람은 IF 태깅 요령에 따라 태깅을 수행하여야 한다. 현재 ETRI에서는 200대화 이상의 한국어 데이터에 대해 IF 태깅을 완료하였으며 해석 시스템과 생성 시스템 개발을 계속하고 있다.

  • PDF

A Development of Thin Client based Video Guide Service Using Video Virtualization and WebRTC (영상 가상화와 WebRTC를 이용한 고사양 저가 단말 기반 화상 안내 서비스 개발)

  • Kim, Kwang-Yong;Jung, Il-Gu;Ryu, Won
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.23 no.6
    • /
    • pp.500-504
    • /
    • 2013
  • In this paper, we have developed the application of a remote multi-lingual video guide that allows interaction with Set Top Box of a thin client by using the WebRTC, an web browser-based communication method. A server accesses a web camera in conjunction with digital information display of a thin client connected remotely and is exchanged guide information with user. This server can be played in thin client STB using virtualization based the high-quality video compression technology. Further, it is not dependent on the performance of the STB and provides a video guide remotely.

A Study on Korean Language Translation of Chinese Traditional Hansi in the 1910s and 1920s (1910~20년대 시인의 전통 한시 국역 양상과 의미 연구 - 최남선, 김소월, 김억, 이광수를 중심으로 -)

  • Chung, So-yeon
    • Journal of Korean Classical Literature and Education
    • /
    • no.34
    • /
    • pp.149-191
    • /
    • 2017
  • This study examines Korean language translations of traditional Chinese hansi in the 1910s and 1920s. In the $20^{th}$ century, many poets translated Chinese and Korean traditional hansi into Korean. In the early $20^{th}$ century, Korean language began to be used as a national public language. At that time, not only hansi but also poetry from several other languages had been translated into Korean. Choi Nam-sun in the 1910s and Kim So-woel, Kim Eok, and Lee Kwang-su in the 1920s translated Chinese traditional hansi, focusing on famous Dang dynasty poetry from Tu Fu and Li Bai, etc. Choi Nam-sun's translation in the 1910s aimed to consider poetry as a written literature. On the contrary, Kim So-woel, Kim Eok, and Lee Kwang-su believed that Korean modern verse literature should be songs as well as poetry, and their translations in the 1920s aimed to create songs as spoken literature by focusing on orality and universality. Though Korean is now the language, the literary history of hansi continues in modern poetry.

Search Re-ranking Through Weighted Deep Learning Model (검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델)

  • Gi-Taek An;Woo-Seok Choi;Jun-Yong Park;Jung-Min Park;Kyung-Soon Lee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.5
    • /
    • pp.221-226
    • /
    • 2024
  • In information retrieval, queries come in various types, ranging from abstract queries to those containing specific keywords, making it a challenging task to accurately produce results according to user demands. Additionally, search systems must handle queries encompassing various elements such as typos, multilingualism, and codes. Reranking is performed through training suitable documents for queries using DeBERTa, a deep learning model that has shown high performance in recent research. To evaluate the effectiveness of the proposed method, experiments were conducted using the test collection of the Product Search Track at the TREC 2023 international information retrieval evaluation competition. In the comparison of NDCG performance measurements regarding the experimental results, the proposed method showed a 10.48% improvement over BM25, a basic information retrieval model, in terms of search through query error handling, provisional relevance feedback-based product title-based query expansion, and reranking according to query types, achieving a score of 0.7810.

A Study on the Service of Korean Language Materials in the Arlington Public Library, Texas (미국 텍사스주 알링턴 공공도서관의 한국 자료 서비스에 관한 연구)

  • Choi Yeon-mi
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.39 no.2
    • /
    • pp.107-121
    • /
    • 2005
  • This research deals with the study of the Arlington Public Library and present situations of public libraries providing Korean language materials services in the United States. The focus of this research is on aspects of the Arlington Public Library, Texas : collecting, classifying, Possessing. circulating, and managing the Korean language materials. In addition, this research includes the description of the current trends of Korean language services in public libraries around the US with literature review methods. This research would be a useful steppingstone when libraries in other countries begin services with Korean language materials, or when public libraries in Korea begin to provide foreign language services.

Extracting English-Korean Named-Entity Word-pairs using Wikipedia (위키피디아를 이용한 영-한 개체명 대역어 쌍 구축)

  • Kim, Eun-Kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

Development of Web-based Workbench for the Construction of Thesaurus (시소러스 구축을 위한 웹 기반 워크벤치 개발)

  • Lee, Seung-Jun;Jung, Han-Min;Sung, Won-Kyung;Choi, Kwang;Lee, Sang-Hun;Choi, Suk-Doo
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.999-1004
    • /
    • 2006
  • 본 연구에서는 다양한 개념 패싯과 관계 패싯들을 수용한 범용 과학기술 시소러스 구축용 웹 기반 워크벤치 개발에 대해 기술한다. 기존 국내 시소러스 구축용 워크벤치들이 제공하는 기본적인 용어 관계구축 기능을 확장하여 개념 패싯, 범주 관계 패싯, 의미역 관계 패싯, 속성 관계 패싯 및 속성 키워드 처리 기능을 원활히 제공할 수 있는 사용자 중심적 워크벤치를 개발함으로써 시소러스 상의 개념들에 대한 효율적인 구축이 가능하도록 한다. 또한 시멘틱 웹 상의 온톨로지 영역에 보다 근접한 고도화되니 시소러스 구축을 위해 용어들을 개념화시키고, 개념간의 다양한 관계를 설정하는 프로세스 중심적 설계로 분야 적합성이 높은 정보 처리 기반을 갖춘다. 궁극적으로 여러 마이크로 시소러스들을 통합하여 운용할 수 있는 복합 모델을 구축하는 것을 목표로 하고 있다. 이러한 목적에 부합하는 시스템 구현을 위해 CBD(Component Based Development) 개발 방법론으로 MSF/CD를 이용하였으며, 분산 환경에서 이기종간의 데이터 교환을 용이하게 하기 위하여 웹 서비스 (XML Web Services)를 이용하였다. 또한 시멘틱 웹 기반 연구자 간 협업 지원 서비스 구현을 위한 확장 검색용으로서도 활용할 수 있도록 하였다. 시소러스 반출은 CSV, XML 및 RDF를 모두 지원할 수 있도록 함으로써 다양한 사용자 요구 사항에 부합할 수 있도록 하였다. 시소러스 브라우징을 시각화 기반의 3단계 구조를 가진 플래시로 구현하여 사용자가 쉽게 시소러스를 탐색하고 분석할 수 있는 기반을 제공하였다. 또한 다양한 검색 요구를 만족시키고자 기본 검색, 고급 검색, 메타 검색을 선택할 수 있도록 하며, 개념 편집 및 시소러스 브라우징과 연동시켜 효율적인 시소러스 구축이 가능하도록 하였다. 본 연구의 워크벤치를 이용하여 구축된 시소러스는 기존 시소러스들에 비해 사용자가 보다 폭넓은 의미 기반 검색을 수행할 수 있도록 함으로써 다각적인 정보를 쉽게 획득할 수 있는 기반을 마련하고 있다는 데 의의가 있으며, 다국어 시소러스 및 다중 시소러스를 수용할 수 있는 방향으로 발전시킬 계획이다.

  • PDF

A Study on the Development of Digital Library Model for PUST in North Korea (북한 PUST 디지털도서관 모델 개발 연구)

  • Lee, Jong-Moon
    • Journal of the Korean Society for information Management
    • /
    • v.25 no.3
    • /
    • pp.143-158
    • /
    • 2008
  • This study was conducted under the premise of providing the model for the construction of the library and the digital library in PUST, the joint construction from South and North Korea. First, we determined the problems in the construction of digital libraries as well as possible issues that may rise from the construction of the digital library in PUST. The results of the research showed that there were imminent problems from the operation of a digital library with the inadequate progress in the Held of copyright. In addition, the difference in the language system and the knowledge foundations of the two countries will produce problems in the homepage access, database construction, and information retrieval. In order to overcome these predictable problems, this research proposes the following: (1) parallel operation of both digital and high-drive libraries; (2) duplexing the homepage through the application of unicode concerning the digital library; (3) development and application of converted letter codes through the establishment of NCHAR data type; and (4) construction of an authority database.

A Study on Plot Lamination methodology for the planning and analysis of storytelling (스토리텔링 기획·분석을 위한 '플롯적층' 방법론 연구)

  • Ahn, Soong-Beum
    • Journal of Popular Narrative
    • /
    • v.26 no.3
    • /
    • pp.255-288
    • /
    • 2020
  • The purpose of this study is to propose 'plot lamination methodology' for planning and analyzing of storytelling. The story contents with a certain volume of narrative might have several important characters. Most of the characters have meaningful influences on the context of the story through their choices and actions as they go through dynamic changes to construct and deconstruct relationships. The plot lamination methodology is the result of an attempt to look at the process from the 'strategic' point of view by focusing on the fact that the main characters with supplementary nature contribute to the independent formation of subplot based on the main plot driven by the protagonist. Regardless of how they live their own unique and autonomous life in the narrative, the main characters hold a relatively subordinate position within the centripetal force of the main plot. Their journeys tend to expand/emphasize/divide up the process of the main plot's 'persuasion via causality,' and also individualize into the functions of emotional sympathy (pathos), moral, ethical perspective (ethos), and rational logic (logos). As such, the subplots of main characters are laminated according to these three functional traits, which could become multi-layered through second or third laminations, depending on the number and roles of other characters. If the plot lamination methodology is further developed through follow-up studies, it will open up the possibilities of the strategic design (planning) and aesthetic criticism (analysis) regarding the procedure of conjugation /branching of subplot and/from the main plot.