• Title/Summary/Keyword: 음차표기

Search Result 27, Processing Time 0.02 seconds

Automatic Construction of a Transliteration Dictionary from Bilingual Corpus (이중언어 코퍼스로부터 외래어 표기 사전의 자동구축)

  • Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.142-149
    • /
    • 1999
  • 외국문명의 영향으로 많은 외래어가 한국어 문서 내에서 사용되고 있으며, 이러한 단어는 주로 전문용어, 고유명사, 신조어 등으로 사전에 등록되지 않는 것이 많다. 본 논문에서는 이중언어 코퍼스로부터 자동으로 외래어 사전을 추출해 내는 확률적 정렬 방법과 실험결과를 소개한다. 확률적 정렬 방법은 통계적 음차 표기 모델에서 사용된 방법을 변형하여 적용한 것이며, 문서단위로 정렬된 두 종류의 영-한 이중언어 코퍼스에 대해 실험하여 재현률과 정확률을 측정하였다 성능은 전처리단계인 한국어 미등록어 추정에 영향을 많이 받았는데, 미등록어 추정을 대략하였을 경우, 재현률은 평균 58%였고, 정확률은 평균74%이었으며, 수동으로 미등록어 명사를 분리했을 경우, 재현률 평균86%, 정확률 평균91%로 외래어와 대응되는 원어를 추출해 냈다.

  • PDF

Analysis of Modern Astronomical Terminology in the Early 1900s

  • BAHK, UHN MEE;MIHN, BYEONG-HEE
    • The Bulletin of The Korean Astronomical Society
    • /
    • v.41 no.1
    • /
    • pp.63.2-63.2
    • /
    • 2016
  • 1900년대 초에 발행된 천문학 서적 2권을 중심으로 사용된 천문학 용어를 현재와 비교분석하는 연구를 진행하였다. 우리는 두 서적에 사용된 용어에서 천문학용어, 화학원소 용어, 인물 및 지명 용어로 나누어서 현재의 과학용어사전과 비교하였다. 지금까지 사용되는 용어와 지금은 사용하지 않는 용어, 그리고 의미는 동일하지만 변화를 보인 용어로 나누어 분석하였다. 한 권의 천문학 서적에는 영어 색인이 포함되어 있어, 그 기준으로 현재와 비교하고, 나머지 천문학 서적은 본문에 나온 용어를 추려서 비교하였다. 용어를 통해서 두 권의 서적이 다른 경로로 수입 번역되었음을 알 수 있었고, 현재와 같이 용어의 통일이 없었다는 점에서 당시 천문학 교육의 한계점이 드러났다. 이 연구는 당시의 천문학 서적이나 관련 서적을 연구할 때, 한자 표기 없이 영어 어휘를 음차하여 표기된 용어를 동정하는데 도움을 줄 것으로 보인다.

  • PDF

Automatic Back-Transliteration with Word Origin Information (어원 정보를 이용한 외래어의 자동 원어 복원)

  • Lee, Sang-Yool;Kang, In-Su;Na, Seung-Hoon;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.54-60
    • /
    • 2003
  • 음차 표기된 외래어로부터 원어를 복원하는 문제는 원어의 발음정보를 이용한 통계적인 방법을 많이 사용한다. 하지만 지금까지의 연구들은 대부분 영어단어만을 그 대상으로 하였기 때문에 '도쿄(Tokyo)', '하인리히(Hinrich)'와 같이 어원이 영어가 아닌 단어들의 복원에는 좋은 결과를 보여주지 못했다. 이러한 문제를 해결하기 위하여 한글로 표기된 외래어의 어원을 판단할 수 있는 방법을 찾아내고, 이 방법을 통해 외래어를 어원별로 분리하여 학습모델을 구축함으로써 다양한 어원을 가진 외래어들의 복원 정확률을 높이고자 하였다. 위의 방식으로 구현된 시스템은 영어, 일본어, 중국어, 프랑스어의, 서로 다른 4개의 어원을 가진 데이터의 복원 실험에서 기존의 방식에 비해 13%의 성능 향상을 보였다.

  • PDF

Phonics-based Rules for Improving Performance of English-to-Korean Transliteration (영.한 음차 표기 성능 향상을 위한 음철법 기반 규칙 구축)

  • Kim, Min-Jeong;Hong, Gum-Won;Park, So-Young;Rim, Hae-Chang
    • Phonetics and Speech Sciences
    • /
    • v.1 no.4
    • /
    • pp.133-144
    • /
    • 2009
  • This paper presents a method for constructing and using transliteration rules which are based on Phonics, an instructional method for speaking and writing English letters. Conventional approaches to automatic transliteration often focused on statistical methods. However, the construction or the collection of correct transliteration examples is always the bottleneck of the statistical transliteration model. Also, in practical domains where the collection of such data is very difficult, such as education and tourism, it is reasonable to build a system without much qualified data. Furthermore, compared with Korean orthography of borrowed foreign words, the proposed approach is much easier to construct, and can generate more refined rules. The experimentation result shows that the proposed approach can improve the performance of a statistical-based transliteration system.

  • PDF

Web Contents Mining System for Real-Time Monitoring of Opinion Information based on Web 2.0 (웹2.0에서 의견정보의 실시간 모니터링을 위한 웹 콘텐츠 마이닝 시스템)

  • Kim, Young-Choon;Joo, Hae-Jong;Choi, Hae-Gill;Cho, Moon-Taek;Kim, Young-Baek;Rhee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.1
    • /
    • pp.68-79
    • /
    • 2011
  • This paper focuses on the opinion information extraction and analysis system through Web mining that is based on statistics collected from Web contents. That is, users' opinion information which is scattered across several websites can be automatically analyzed and extracted. The system provides the opinion information search service that enables users to search for real-time positive and negative opinions and check their statistics. Also, users can do real-time search and monitoring about other opinion information by putting keywords in the system. Proposing technique proved that the actual performance is excellent by comparison experiment with other techniques. Performance evaluation of function extracting positive/negative opinion information, the performance evaluation applying dynamic window technique and tokenizer technique for multilingual information retrieval, and the performance evaluation of technique extracting exact multilingual phonetic translation are carried out. The experiment with typical movie review sentence and Wikipedia experiment data as object as that applying example is carried out and the result is analyzed.

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.

Studies on the linguistic properties of the IT-People documents for an efficient Information Retrieval (IT 인물 관련 텍스트 정보의 효율적인 검색을 위한 Sub-language의 속성 연구)

  • Koh, Seung-Hui;Kim, So-Yeon;Cheon, Seung-Mi;Nam, Jee-Sun;Kim, Kweon-Yang;Park, Se-Young;Berlocher, Ivan
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.241-249
    • /
    • 2007
  • 본 연구는 IT 인물 관련 텍스트 정보의 효율적인 검색을 위하여 문서 내에서 인물과 관련된 정보를 담고 있는 문장들이 어떠한 특징을 가지고 실현되는가를 살펴보고 언어적 속성을 어떻게 구조화하고 형식화할 것인가를 논의하는 것을 목적으로 한다. 언어적 속성 분석을 위해서 전자신문 내에서 인물 관련 코퍼스를 수집하고 이들의 분석을 통해 다음과 같이 문제가 되는 특징들을 확인하였다. 즉 외래어 음차 표기문제, 복합명사 및 명사구 그리고 서술 명사적 표현의 문제 등으로 요약된다. IT라는 특정 영역에 대해 텍스트 내에서의 어휘-통사적 패턴을 분석하고 언어적 특징에 대한 효율적 기술을 위해서는 LGG 부분 문법 그래프 모델을 활용하도록 한다. 본 연구는 특정 영역인 IT 관련 문서에서 자연언어 텍스트를 대상으로 정보 검색할 때 문제가 되는 다양한 언어학적 현상들을 다루며, 향후보다 확장된 영역에서의 효율적 언어 처리에 대한 방법론적 대안을 제시할 수 있을 것으로 기대된다.

  • PDF