• Title/Summary/Keyword: 한자검색

Search Result 29, Processing Time 0.02 seconds

Support on Ideograph Characters Search of Unicode Based Information System (정보 시스템의 유니코드 기반 한자 검색 지원)

  • Yoon, So-Young
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.4
    • /
    • pp.375-391
    • /
    • 2007
  • Unicode Han ideograph character set differed from the our principle of the phonetic value ordering in that it followed the principle of KangXi radical-stroke ordering of the characters. Therefore, information system should support ideograph search on precise analysis of materials which consist of korean character (hangul) and ideograph character (hanja). History Information system has been maintaining Hanja(Chinese Character) to Hangul Dictionary, Terminology Dictionary for composition, borrowing, non-ideographic principles, Variant Forms Dictionary, and Recently discovered Chinese Characters List.

Problems with Chinese Ideographs Search in Unicode and Solutions to Them (유니코드 한자 검색의 문제점 및 개선방안)

  • Lee, Jeong-hyeon
    • Informatization Policy
    • /
    • v.19 no.3
    • /
    • pp.50-63
    • /
    • 2012
  • This thesis is designed to analyze how the search for Chinese ideographs is done in Koreanology-related domestic databases, domestic library databases, domestic academic databases, and overseas library databases, with a view to identifying problems and suggesting solutions to them. The major reasons that impede Chinese ideographs search in Unicode are classified as 'multicode characters', 'simplified characters', and 'variant characters', and three characters are chosen as samples to describe the current practice. Thirteen Koreanology-related databases, five domestic library databases, five domestic academic databases and two overseas library databases are analyzed in terms of Chinese ideographs search. To support search for multicode characters, the open source of the Unicode consortium must be applied. To improve search for simplified and variant characters, a matching table must be standardized and proposed to the Unicode consortium.

  • PDF

An Efficient Algorithms of HANJA Conversion Program and a Compound HANJA Conversion (효율적인 한자 순위 변환과 복합한자 변환 알고리즘)

  • Lee, Tai-Heon;Park, Ki-Hong
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.439-445
    • /
    • 1997
  • 한글 워드프로세서의 한자 사용이 필수적인 요소이다. 일상 생황에서 의사를 전달하기 위해서는 한국어로 사용하지만, 글이나 작문을 이용하여 의사를 전달할 때는 한글이 주를 이루고 문맥 안에 함축된 의미로 한자를 사용하면 정확하게 의사가 전달된다. 현재의 한글 워드프로세서에서는 한자 순위 변환 시스템의 키의 검색 횟수가 많고 또한 복합한자 변환 시스템에서는 실행 횟수가 많은 단점을 가지고 있다. 본 논문에서는 보다 효율적인 키의 검색 횟수를 줄이기 위해 효율적인 한자 순위 변환 알고리즘과 실행횟수를 줄이기 위해 개선된 복합한자 변환 알고리즘을 사용한다. 이러한 알고리즘은 검색과 실행 속도를 빠르게 함은 물론 한글 한자 변환시스템 처리에 도움을 줄 수 있다.

  • PDF

Design and Implementation of a hanja-Hangul Convertor for Generating Correct Hangul (바른 한글음 생성을 위한 한자.한글 변환기 설계 및 구현)

  • Gang, Hyeong-Il;Gang, Seung-Heon;Jang, Su-Min;Yu, Jae-Su
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.3
    • /
    • pp.583-591
    • /
    • 1998
  • 본 논문은 한자·한글 혼합 문서들을 정확한 우리말 문서로 자동 변환하는 한자·한글 변환기를 설계하고 구현한다. 구현된 한자·한글 변환기는 정보 검색 시스템에서 한자·한글 혼합 문서 검색시 사용자들이 한자에 해당하는 한글음을 파악하는데 걸리는 시간을 절약하고 쉽게 판독할 수 있도록 한다. 이를 위해 KS C 5601 표준코드를 기준으로 바르지 못한 한글음 생성의 원인을 조사하고 두 개 이상의 한글음을 갖는 한자들과 이형표기가 가능한 한자를 올바른 한글음으로 변환할 수 있는 한글단어 매핑사전을 구축한다.

  • PDF

A Representation of Korean Human Names and Their Written in Chinese Characters Pronunciation Processing Using UTF-8 (UTF-8을 이용한 인명한자의 표현과 한글 독음 처리)

  • 조영철;유정원;변정용
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.575-578
    • /
    • 2004
  • 인물 정보 검색 시스템은 사용자에게 종합적이고 정확한 정보와 편리한 사용자 인터페이스를 제공해야 한다. 하지만 현재 웹 상에서 이 시스템의 방대한 화장 한자 자료를 표현하는데 EUC-KR은 많은 어려움을 가지고 있다. 그리고 어려운 인명용 한자와 전문 한자 용어로 인해 일반인들의 사용이 어려웠다. 이를 해결하기 위해 본 논문에서는 확장된 한자를 표기하기 위하여 UTF-8 인코딩 방식을 사용한다. 그리고 사용자가 알기 원하는 한자의 한글 독음 변환 처리를 통해 데이터베이스의 효율성과 사용자가 쓰기 편한 인터페이스를 제공한다.

  • PDF

The Design for Ancient Literature Retrival System Using XML (XML 기반의 고문헌 검색 시스템 설계)

  • 이근우;이근무
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.390-394
    • /
    • 2001
  • 논문에서는 최근 인터넷 상에서 표준 공통 포맷으로 대두되는 XML을 이용하여 웹 기반의 역사자료의 데이터베이스 검색 시스템을 설계 및 구현하였다. 원격 교육 시스템의 참조문헌 지원 시스템을 설계하였다. 컴퓨터 상에서 고문헌 자료 주로 한자를 입력하고 검색할 수 있는 환경이 점차 나아지고 있다고는 하지만, 여전히 원전사료의 한자를 일반적인 환경에서 자유롭게 구현하는 일은 결코 용이하지 않다. 종래의 연구자들은 텍스트 별로 수작업으로 작성한 색인류를 이용하여 연구를 해왔다. 그러나 이러한 색인 이용방법에는 문제가 있다. 색인어로 삼고자 하는 단어를 텍스트에서 추출하는 과정에서 누락되는 경우가 있기 때문이다. 전산화된 데이터는 이른바 '발견적 이용'이라는 관점에서 활용될 수 있다.

  • PDF

A study on the problem of library Chinese character searching system in korean libraries (국내 도서관 한자검색의 문제점에 관한 연구)

  • Choi, Sejong;Park, Sunghyeok;Seo, Juri;Hwang, Seongjin;Lee, Changhoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1179-1181
    • /
    • 2013
  • 본 논문에서는 국내 도서관의 한자검색의 문제점에 대해 집중적으로 분석해 보았으며, 특히 간체자와 이체자의 문제점에 대하여 유니코드와 관련시켜 해결방안을 모색해 보았다. 간체자와 이체자를 정자로 인식하지 못 하는 문제점이 나타나는데 이는 매핑테이블을 이용하여 해결할 수 있을 것이다.

A Study of Gazette Comparison of Google Earth and US Data base -in case of Korea and Taiwan- (구글사의 위성영상과 미국의 지명데이터베이스에 나타나는 지명 비교연구-한국과 대만사례를 중심으로)

  • Park, Kyeong;Chang, Eun-Mi
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2007.06a
    • /
    • pp.203-211
    • /
    • 2007
  • 세계화의 빠른 진행과 더불어 외국에 대한 정확한 인식은 매우 중요한 문제로 등장하였다. 아직도 사실적 오류와 더불어 국제관계에서의 위치 때문에 많은 오류가 남아 있는 점도 사실이다. 그 가운데 미국의 위성영상서비스 가운데 가장 대표적인 구글사의 검색서비스와 미국지리정보국의 지명데이터베이스에 관한 내용을 분석함으로서 문제의 뿌리가 어디인지를 밝히고자 하였다. 이미 구글에 관련된 논문은 Science Direct 검색결과 69개가 검색되고 있을 만큼 전세계적 문화적 영향력을 가지고 있다. 본고에서는 전 세계의 지명을 영어로 서비스하고 있는 구글사와 미국의 지명 DB내에 있는 오류사례를 찾아내고, 그 유형을 분석하고, 특히 일제의 강점을 당했던 한국과 대만사례를 비교하는 데 있다. 대만 역시 1945년 제2차 세계대전의 종전으로 인해 일본의 영향에서 벗어나게 되었다. 따라서 지명에도 일본의 영향이 크게 남아 있을 것으로 보고 앞서 나온 유형대로 몇 개의 분석을 실시하였다. 그 중 대표적인 것을 들면, 경상남도 남해군 일원의 위성영상을 보면 최소한 3개의 일본식 지명이 나타난다. 우선 해양지명으로 미조만은 Mijo-wan으로 앵강만은 Oko-wan으로 표시되어 있고, 천황산은 Tenno San이라는 지명으로 나타나고 있다. 제주도의 한라산을 지칭하는 표준어는 Halla-san으로 등재되어 있으나 이명으로 소개되어 있는 것이 무려 11개나 등록되어 있는 것으로 파악되었다. Halla-san에 대한 미국의 NGA(National Geospatial-Intelligence Agency)의 지명정보 데이터베이스에서 검색한 결과는 아래와 같다. 앞의 간라산 또는 간다산 등은 일본식 표기임이 확실하며 여기에 오크랜드산(Auckland, Mount)이라고 또한 표기되어 있음을 확인할 수 있다. 대만의 경우 총 1,280개의 산악명과 산맥명이 등재되어 있으니 일본어 표기는 하나도 없으며, 영어로 Central Mountains와 Seaboard Mountains두개만 영문표기 지명이 등재되어 있을 뿐이며, 그 가운데 12개는 한자로 표기되어 있다. 국내의 지명이 모두 영문 알파벳으로 표기된 것과는 달리 대만의 경우 한자지명이 그대로 데이터베이스에 등재되어 있다. 하천의 경우를 분석해보면 1485개의 지명이 등록되어 있으며 이 가운데 24개는 한자지명으로 표기되어 있다. 유형별 분석을 통한 연구결과가 올바른 지명 찾기에 기여하고, 독도와 백두산에 국한된 지명논쟁의 근간을 공고히 하는데 기여할 것으로 사료된다.

  • PDF

A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition (오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구)

  • Lee, Byeong-Hui;Kim, Tae-Gyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.1
    • /
    • pp.184-194
    • /
    • 1997
  • In the recent years number of commercial off-line character recognition systems have been appeared in the Korean market. This paper describes a "self -organizing" data structure for representing a large dictionary which can be searched in real time and uses a practical amount of memory, and presents a study on the character correction for off-line printed sentence marks, Japanese, English, and Chinese character recognition. Self-organizing algorithm can be recommenced as particularly appropriate when we have reasons to suspect that the accessing probabilities for individual words will change with time and theme. The wrongly recognized characters generated by OCR systems are collected and analyzed Error types of English characters are reclassified and 0.5% errors are corrected using an English character confusion table with a self-organizing dictionary containing 25,145 English words. And also error types of Chinese characters are classified and 6.1% errors are corrected using a Chinese character confusion table with a self-organizing dictionary carrying 34,593 Chinese words.ese words.

  • PDF