• Title/Summary/Keyword: 한글인명

Search Result 36, Processing Time 0.026 seconds

A Study on a Multilingual name Retrieval (다중 언어 인명 검색에 관한 연구)

  • Cho, Young-Hwa;Song, Jae-Yong;Ryu, Keun-Ho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.9
    • /
    • pp.2271-2280
    • /
    • 1998
  • In this paper, we propose a method to retneve english written korcan names efficientl, and design a multilingual name retrieval system, It is very difficult to retrieve english-written korean names in typical IR sytems. For example, "홍길동" is written in english as vanous forms such like "Hong, gildong", "Gildong Hong", "Hong kil dong", "Hong kil dong" and so on, We not only propose a rule-based querv expansion method to retrieve english-written korean names efficiently but also design a multiligual name retneval system which is consisted of query classifier, exception handler, query expander, query executor, exception list and rulebase, Finally we will try to show that english-written korean names could be efficiently retrieved with rule based name generator.

  • PDF

Statistical Ranking Recommendation System of Hangul-to-Roman Conversion for Korean Names (한글-로마자 인명 변환의 통계적 순위 추천 시스템)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • Journal of KIISE
    • /
    • v.44 no.12
    • /
    • pp.1269-1274
    • /
    • 2017
  • This paper focuses on the Hangul-to-roman conversion of Korean names. The proposed method recognizes existing notation and provides results according to the frequency of use. There are two main reasons for the diversity in Hangul-to-roman name conversion. The first is the indiscreet use of varied notation made domestically and overseas. The second is the customary notation of current notation. For these reasons, it has become possible to express various Roman characters in Korean names. The system constructs and converts data from 4 million people into a statistical dictionary. In the first step, the person's name is judged through a process matching the last name. In the second step, the first name is compared and converted in the statistical dictionary. In the last step, the syllables in the name are compared and converted, and the results are ranked according to the frequency of use. This paper measured the performance compared to the existing service systems on the web. The results showed a somewhat higher performance than other systems.

A Representation of Korean Human Names and Their Written in Chinese Characters Pronunciation Processing Using UTF-8 (UTF-8을 이용한 인명한자의 표현과 한글 독음 처리)

  • 조영철;유정원;변정용
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.575-578
    • /
    • 2004
  • 인물 정보 검색 시스템은 사용자에게 종합적이고 정확한 정보와 편리한 사용자 인터페이스를 제공해야 한다. 하지만 현재 웹 상에서 이 시스템의 방대한 화장 한자 자료를 표현하는데 EUC-KR은 많은 어려움을 가지고 있다. 그리고 어려운 인명용 한자와 전문 한자 용어로 인해 일반인들의 사용이 어려웠다. 이를 해결하기 위해 본 논문에서는 확장된 한자를 표기하기 위하여 UTF-8 인코딩 방식을 사용한다. 그리고 사용자가 알기 원하는 한자의 한글 독음 변환 처리를 통해 데이터베이스의 효율성과 사용자가 쓰기 편한 인터페이스를 제공한다.

  • PDF

A Research on the Format for Romanization of Korean Personal Name (한국인명의 로마자표기 형식에 대한 연구)

  • Kim, Sung-Won;Kim, Jeong-Woo
    • Journal of Information Management
    • /
    • v.43 no.2
    • /
    • pp.199-222
    • /
    • 2012
  • Due to the increase of international business and activities, Koreans nowadays have higher needs to present their personal identity to the foreigners. In this process, the first requirement is to exchange personal names with foreigners. Therefore, the phonetic translation of Korean names into Roman alphabetic notation is frequently required, in order to deliver Korean personal names to the people who do not understand Korean alphabet. However, some confusions have been witnessed in the way of transforming Korean names into Roman (English) alphabet notation, due to the fact that there are many different ways to put Korean pronunciation into Roman (English) alphabet. This study examines different formats of Romanization of Korean personal names to find and suggest an optimal one. It first examines structures of and differences between Korean and Western personal names and usage patterns, reviews the issues surrounding Romanization of Korean personal names, and patternizes diverse Romanization formats currently used. Based on these examinations and consequent findings, I would like to suggest a format for the Romanization of Korean personal names which is considered to be the best.

Improving Indexing Performance by using Occurrence Pattern Information of Proper Nouns (고유 명사 출현 패턴을 이용한 색인의 성능 향상에 관한 연구)

  • Jung, Rae-Jung;Kim, Jun-Tae
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.68-72
    • /
    • 1996
  • 본 논문에서는 고유 명사 출현 패턴 정보와 부가 정보를 이용한 미등록 고유 명사의 색인 방법을 제안한다. 정보 검색 시스템에서 고유 명사의 처리는 정확하고 의미 있는 색인을 위해 매우 중요하다. 본 논문은 형태소 분석 결과에 고유 명사 출현 패턴과 패턴 부가 정보를 사용하여 인명, 기관명, 회사명 등의 고유 명사 추출의 정확도를 높이는 방법을 제시한다. 총 827개의 인명과 기관 및 회사명을 포함하고 있는 조선일보 경제면 기사 100개 7416 어절에 대하여 본 시스템으로 실험한 결과, 인명의 경우 89%의 정확률을 보였다. 본 논문에서 제시한 출현 패턴과 고유 명사의 부가 정보를 적용했을 때 단순한 형태소 분석 결과에 비하여 고유 명사 추출 오류가 크게 개선되었다.

  • PDF

Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking (사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식)

  • Kim, Jungwook;Whang, Taesun;Kim, Bongsu;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.509-513
    • /
    • 2021
  • 개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

  • PDF

Korean Electronic Dictionary of Encyclopedic Nouns I. - Nouns related to Human Names - (검색 엔진을 위한 '백과 명사' 전자 사전의 구축 (I) <인명 관련 백과 명사의 연구>)

  • Nam, Jee-Sun;Lee, Ju-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.304-315
    • /
    • 1998
  • 정보 검색 시스템에서 가장 문제가 되는 어휘 클라스는 소위 '고유 명사'와 '합성 명사'로 분류되는 명사 유형이다. 이들 클라스는, 기존 대사전 및 전자 사전 (MRD)류에서, 그 어휘 목록을 체계적으로 제공하지 못하는 가장 대표적인 부류들인데, 실제 검색 시스템에서는 많은 경우 정보의 핵심어 (Key Word)가 된다. 본 연구에서는 신문, 잡지등 시사 문서류에서 가장 빈번히 발견되는 명사 유형의 하나인, '인명 관련 고유 명사' 유형에 대한 문제에 그 논의의 촛점을 두고, 이들 명사들의 체계적인 처리를 위해서 어떠한 형태로 사전을 구성해야 하는지를 검토할 것이다. '고유 명사'라는 개념 자체가 지니고 있는 외연적 정의상의 문제점을 극복하기 위해서 우리는 '백과 명사 (Encyclopedic Noun)'라는 용어를 사용하기로 하며, 이는 좁은 의미의 고유 명사 및, 전문어, 고유 명사 관련 파생-복합어류 등을 포함하는, 보다 확장된 개념으로 이해되어야 한다. <인명> 관련 백과 명사류의 하위 유형 분류 및 그 특징적 결합어 형태(Appropriate Particle)에 대한 연구 결과들이 소개된다.

  • PDF

An Implementation of Hangul Romanization System Based on Korean Phonotactic Rules and Categories of Words (한국어 음운 현상과 단어 유형을 고려한 한글-로마자 변환 시스템 구현)

  • ;;Robert J. Fouser
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.376-378
    • /
    • 2001
  • 본 논문은 새로 개정된 국어의 로마자 표기법(2000.7.7. 고시)에 따른 로마자 자동 변한 시스템의 구조와 변환 알고리즘을 제시한다. 특히 새 로마자 표기에 따른 규칙을 반영하여 사용자가 쉽고 편리하게 사용할 수 있도록 인명, 고유명사, 행정구역, 일반, 학술응용의 5개 항목으로 나누어 변환할 수 있게 했다. 또한 로마자표기에 적용한 표준 한글 음운변동 규칙과 로마자 표기의 원칙에 따른 5가지 변환 규칙을 도움말로 보여준다. 그리고 로마자 표기 원칙에 따라 발음상 혼동의 우려가 있는 부호의 규칙성을 조사하여 로마자 자동 변한 시스템에 적용함으로써 새 로마자 표기에서 발생할 수 있는 혼동을 제거하여 로마자 변환 시스템의 정확성을 높였다.

  • PDF

The design and implementation of automatic translation system for hangul's romanization ( A study on mechanic conversion using transcription ) (한글 로마자 자동 표기 시스템 설계 및 구현 ( 전사법(轉寫法) 기계적 변환에 관한 연구 ))

  • Kim, Hong-Sop;Pak, Jong-Sop;I, Hyon-Kol
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.437-447
    • /
    • 1993
  • 국제 협약에 따라 한글에 관한 정보는 로마자로 표기해야 한다. 우리나라는 1959년 2월 로마자 표기법'을 제정, 수차례 개정을 통해 1983년 6월 문교부(Ministry Of Education)안을 발표했으나, 표지판, 역명, 교과서, 공공문서들에서 활용되었지만, 영자신문, 외국 학술지등은 M-R( Mccune-Reishauer ) 표기법을, 인명, 신문 및 방송매체 등은 혼합표기방식을 사용함으로써 인(人). 지명(地名), ID, 대표어등 정보 검색시 혼란을 야기시켰고, 개정안에 따를 표기 정정으로 수백억원에 가까운 예산을 낭비하였으며, 최근 ISO(International Standard Organization)에서는 남북한 단일화 및 기계적 변환을 요구하고 있으나, 반달표 표기곤란, 편리성 결여, 북한의 주장등의 사유로 제정등을 거론하고 있는 실정에 있다. 잘 쓰지 않는 ASCII 코드 중에서 반달점 폰트를 제작하고 단어, 문장, 문서를 STRING으로 받아 알고리즘화된 음운법칙을 적용하여 소리글자로 변환하고 MOE테이블에서 대응글자를 참조하여 기계적 변환이 가능하도록 하였으며, 세련된 디자인, 풀다운 팝업방식을 채택, 2HD 1장으로 국내최초로 개발하였다.

  • PDF

A Morph Analyzer For MATES/CK (중한 기계 번역 시스템을 위한 형태소 분석기)

  • Kang, Won-Seok;Kim, Ji-Hyoun;Song, Young-Mi;Song, Hee-Jung;Huang, Jin-Xia;Chae, Young-Soog;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높이기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태깅 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태깅 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF