• 제목/요약/키워드: vocabulary translation

검색결과 34건 처리시간 0.019초

Development of A System for Registration of Korean Terminology on The Electropedia

  • Moon, Bonghee
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권8호
    • /
    • pp.105-111
    • /
    • 2019
  • In this paper, I introduce the development of a system to register Korean standard technical terms which are corresponded with English electronical terminologies on the Electropedia of the International Electronical Committee(IEC). In 2016, this project was started with the permission of registration at the Technical Committee 1 of the $80^{th}$ IEC General Meeting in Frankfurt, Germany. The work was consisted of 3 parts, the 1st step was gathering Korean vocabularies and building a databse for the translation of English terms of International Electronical Vocabulary(IEV) into Korean terms, the 2nd step was to find correct or proper Korean term which is in accord with each English term of IEV on the Electropedia. In this step, members of Korean TC 1 worked for search proper Korean terms using developed computer programs and databases which were made of Korean electronical dictionaries. After selection of proper terms, they did the cross-checking work for Korean terms each other. The last step was to register all of these Korean terms on the Electropedia. As a result, 20,766 Korean electronical terms were registered on the Electropedia in 2017. In the future, it is needed that the definition of English technical terms are translated into Korean.

한국어 분류를 위한 효율적인 서브 워드 분절 (Efficient Subword Segmentation for Korean Language Classification)

  • 서현진;남정재;김민석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.535-540
    • /
    • 2022
  • Out of Vocabulary(OOV) 문제는 인공신경망 기계번역(Neural Machine Translation, NMT)에서 빈번히 제기되어 왔다. 이를 해결하기 위해, 기존에는 단어를 효율적인 압축할 수 있는 Byte Pair Encoding(BPE)[1]이 대표적으로 이용되었다. 하지만 BPE는 빈도수를 기반으로 토큰화가 진행되는 결정론적 특성을 취하고 있기에, 다양한 문장에 관한 일반화된 분절 능력을 함양하기 어렵다. 이를 극복하기 위해 최근 서브 워드를 정규화하는 방법(Subword Regularization)이 제안되었다. 서브 워드 정규화는 동일한 단어 안에서 발생할 수 있는 다양한 분절 경우의 수를 고려하도록 설계되어 다수의 실험에서 우수한 성능을 보였다. 그러나 분류 작업, 특히 한국어를 대상으로 한 분류에 있어서 서브 워드 정규화를 적용한 사례는 아직까지 확인된 바가 없다. 이를 위해 본 논문에서는 서브 워드 정규화를 대표하는 두 가지 방법인 유니그램 기반 서브 워드 정규화[2]와 BPE-Dropout[3]을 이용해 한국어 분류 문제에 대한 서브 워드 정규화의 효과성을 제안한다. NMT 뿐만 아니라 분류 문제 역시 단어의 구성성 및 그 의미를 파악하는 것은 각 문장이 속하는 클래스를 결정하는데 유의미한 기여를 한다. 더불어 서브 워드 정규화는 한국어의 문장 구성 요소에 관해 폭넓은 인지능력을 함양할 수 있다. 해당 방법은 본고에서 진행한 한국어 분류 과제 실험에서 기존 BPE 대비 최대 4.7% 높은 성능을 거두었다.

  • PDF

SMS 변형된 문자열의 자동 오류 교정 시스템 (Automatic Error Correction System for Erroneous SMS Strings)

  • 강승식;장두성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권6호
    • /
    • pp.386-391
    • /
    • 2008
  • 휴대폰과 메신저 등 통신 환경에서 문자 메시지를 전송할 때 표준어가 아닌 왜곡된 어휘들을 사용하고 있으며, 이러한 변형된 어휘들은 음성 인식, 음성 합성, 문서 정보 추출 등 언어처리 및 관련 분야의 응용 시스템에서 많은 문제점을 유발시킨다. 본 논문에서는SMS 문장들의 변형 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하고 시스템을 구현하였다. 시스템의 성능에 가장 큰 영향을 미치는 변형된 문자열 사전을 구축하는 방법으로 (1) 통신 어휘집을 기반으로 수동으로 구축하는 방법, (2) 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, (3) 자동으로 변형된 문자열을 추출할 때 좌우 문맥을 고려하는 방법에 대하여 시스템을 구현하고 실험을 통하여 비교-분석 및 성능 평가 결과를 제시하였다.

실험동물의 발생이상 용어집 (Terminology of Developmental Abnormalities in Common Laboratory Animals)

  • 김종춘;양영수;안태환;김성호;정수연;이규식;정나영;정문구
    • Toxicological Research
    • /
    • 제22권3호
    • /
    • pp.157-220
    • /
    • 2006
  • This paper presents the first version of a Korean glossary of terms for structural developmental abnormalities in common laboratory animals, mainly rats, mice and rabbits. This is a translation of the glossary entitled Terminology and Developmental Abnormalities in Common Laboratory Mammals that was edited by the International Federation of Teratology Societies(IFTS) Committee on International Harmonization of Nomenclature in Developmental Toxicology. The purpose of the Korean glossary is to provide a common vocabulary that will reduce confusion and ambiguity in the description of developmental effects, particularly in submissions to regulatory agencies worldwide. The glossary contains a primary term or phrase, a definition of the abnormality, and notes, where appropriate. Selected synonyms or related terms, which reflect a similar or closely related concept, are noted. Non-preferred terms are indicated where their usage may be incorrect. Modifying terms used repeatedly in the glossary(e.g., absent, branched) are listed in Appendix A, and syndrome names are generally excluded from the glossary, but are listed separately in Appendix B. The glossary is organized into broad sections for external, visceral, and skeletal observations, then subdivided into regions, structures, or organs in a general overall head to tail sequence. Numbering is sequential, and not in any regional or hierarchical order, Uses and misuses of the glossary are discussed. Updates of the Korean glossary are planned based on the comments received.