• 제목/요약/키워드: 한자검색

검색결과 29건 처리시간 0.032초

정보 시스템의 유니코드 기반 한자 검색 지원 (Support on Ideograph Characters Search of Unicode Based Information System)

  • 윤소영
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.375-391
    • /
    • 2007
  • 현재 유니코드 CJK 한자코드는 부수 기준 배열방식을 따르고 있어 한자의 한글음가를 기준으로 하는 우리의 문자생활 방식과 차이가 있으며, 우리나라 고유한자나 동형이음어, 이두문자, 그리고 이체자 관계 등을 모두 수록하고 있지 않아 정보시스템에 그대로 적용하기에는 무리가 있다. 따라서 유니코드 기반 정보시스템의 정확한 한자표현 및 한자검색을 위해서는 한자를 포함하는 자료에 대한 정확한 이해를 바탕으로 여러 가지 지원방안을 마련해야 한다. 이러한 측면에서 역사분야 정보검색시스템에서는 한글음가 및 한국에서만 사용되는 동형이음어 처리를 위한 한자-한글음가 사전, 본래 한자의 음가와 다르게 읽히는 한자를 위한 특수용어사전, 이형자와이체자를 위한 이체자사전, 그리고 유니코드 CJK 통합한자에 등록되어 있지 않은 한자를 위한 신출 한자목록을 지원하고 있다.

유니코드 한자 검색의 문제점 및 개선방안 (Problems with Chinese Ideographs Search in Unicode and Solutions to Them)

  • 이정현
    • 정보화정책
    • /
    • 제19권3호
    • /
    • pp.50-63
    • /
    • 2012
  • 본고는 국내 한국학 관련 데이터베이스, 국내 도서관, 국내 학술 데이터베이스, 해외 도서관의 한자 검색 현황을 분석하여 문제점을 파악하고 개선 방안을 도출해 보고자 하였다. 유니코드 환경에서 한자 검색이 문제가 되는 주요한 이유를 '다중코드자', '간체자'와 '이체자'로 정리하고, 각각 3글자를 샘플로 검색하여 현황을 정리하였다. 한국학 관련 데이터베이스 13개, 국내 도서관 데이터베이스 5개, 국내 학술 데이터베이스 4개, 해외 도서관 데이터베이스 2개의 한자검색 현황을 조사하였다. 다중코드자에 대한 검색을 지원하기 위해서는 유니코드 컨소시엄에 공개된 소스를 적용해야 한다. 간체자와 이체자에 대한 검색 기능을 개선하기 위해서는 신뢰할 수 있는 매칭테이블을 표준화하여 유니코드 컨소시엄에 제안해야 한다.

  • PDF

효율적인 한자 순위 변환과 복합한자 변환 알고리즘 (An Efficient Algorithms of HANJA Conversion Program and a Compound HANJA Conversion)

  • 이태헌;박기홍
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.439-445
    • /
    • 1997
  • 한글 워드프로세서의 한자 사용이 필수적인 요소이다. 일상 생황에서 의사를 전달하기 위해서는 한국어로 사용하지만, 글이나 작문을 이용하여 의사를 전달할 때는 한글이 주를 이루고 문맥 안에 함축된 의미로 한자를 사용하면 정확하게 의사가 전달된다. 현재의 한글 워드프로세서에서는 한자 순위 변환 시스템의 키의 검색 횟수가 많고 또한 복합한자 변환 시스템에서는 실행 횟수가 많은 단점을 가지고 있다. 본 논문에서는 보다 효율적인 키의 검색 횟수를 줄이기 위해 효율적인 한자 순위 변환 알고리즘과 실행횟수를 줄이기 위해 개선된 복합한자 변환 알고리즘을 사용한다. 이러한 알고리즘은 검색과 실행 속도를 빠르게 함은 물론 한글 한자 변환시스템 처리에 도움을 줄 수 있다.

  • PDF

바른 한글음 생성을 위한 한자.한글 변환기 설계 및 구현 (Design and Implementation of a hanja-Hangul Convertor for Generating Correct Hangul)

  • 강형일;강승헌;장수민;유재수
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.583-591
    • /
    • 1998
  • 본 논문은 한자·한글 혼합 문서들을 정확한 우리말 문서로 자동 변환하는 한자·한글 변환기를 설계하고 구현한다. 구현된 한자·한글 변환기는 정보 검색 시스템에서 한자·한글 혼합 문서 검색시 사용자들이 한자에 해당하는 한글음을 파악하는데 걸리는 시간을 절약하고 쉽게 판독할 수 있도록 한다. 이를 위해 KS C 5601 표준코드를 기준으로 바르지 못한 한글음 생성의 원인을 조사하고 두 개 이상의 한글음을 갖는 한자들과 이형표기가 가능한 한자를 올바른 한글음으로 변환할 수 있는 한글단어 매핑사전을 구축한다.

  • PDF

UTF-8을 이용한 인명한자의 표현과 한글 독음 처리 (A Representation of Korean Human Names and Their Written in Chinese Characters Pronunciation Processing Using UTF-8)

  • 조영철;유정원;변정용
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.575-578
    • /
    • 2004
  • 인물 정보 검색 시스템은 사용자에게 종합적이고 정확한 정보와 편리한 사용자 인터페이스를 제공해야 한다. 하지만 현재 웹 상에서 이 시스템의 방대한 화장 한자 자료를 표현하는데 EUC-KR은 많은 어려움을 가지고 있다. 그리고 어려운 인명용 한자와 전문 한자 용어로 인해 일반인들의 사용이 어려웠다. 이를 해결하기 위해 본 논문에서는 확장된 한자를 표기하기 위하여 UTF-8 인코딩 방식을 사용한다. 그리고 사용자가 알기 원하는 한자의 한글 독음 변환 처리를 통해 데이터베이스의 효율성과 사용자가 쓰기 편한 인터페이스를 제공한다.

  • PDF

XML 기반의 고문헌 검색 시스템 설계 (The Design for Ancient Literature Retrival System Using XML)

  • 이근우;이근무
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.390-394
    • /
    • 2001
  • 논문에서는 최근 인터넷 상에서 표준 공통 포맷으로 대두되는 XML을 이용하여 웹 기반의 역사자료의 데이터베이스 검색 시스템을 설계 및 구현하였다. 원격 교육 시스템의 참조문헌 지원 시스템을 설계하였다. 컴퓨터 상에서 고문헌 자료 주로 한자를 입력하고 검색할 수 있는 환경이 점차 나아지고 있다고는 하지만, 여전히 원전사료의 한자를 일반적인 환경에서 자유롭게 구현하는 일은 결코 용이하지 않다. 종래의 연구자들은 텍스트 별로 수작업으로 작성한 색인류를 이용하여 연구를 해왔다. 그러나 이러한 색인 이용방법에는 문제가 있다. 색인어로 삼고자 하는 단어를 텍스트에서 추출하는 과정에서 누락되는 경우가 있기 때문이다. 전산화된 데이터는 이른바 '발견적 이용'이라는 관점에서 활용될 수 있다.

  • PDF

국내 도서관 한자검색의 문제점에 관한 연구 (A study on the problem of library Chinese character searching system in korean libraries)

  • 최세종;박성혁;서주리;황성진;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1179-1181
    • /
    • 2013
  • 본 논문에서는 국내 도서관의 한자검색의 문제점에 대해 집중적으로 분석해 보았으며, 특히 간체자와 이체자의 문제점에 대하여 유니코드와 관련시켜 해결방안을 모색해 보았다. 간체자와 이체자를 정자로 인식하지 못 하는 문제점이 나타나는데 이는 매핑테이블을 이용하여 해결할 수 있을 것이다.

구글사의 위성영상과 미국의 지명데이터베이스에 나타나는 지명 비교연구-한국과 대만사례를 중심으로 (A Study of Gazette Comparison of Google Earth and US Data base -in case of Korea and Taiwan-)

  • 박경;장은미
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2007년도 GIS 공동춘계학술대회 논문집
    • /
    • pp.203-211
    • /
    • 2007
  • 세계화의 빠른 진행과 더불어 외국에 대한 정확한 인식은 매우 중요한 문제로 등장하였다. 아직도 사실적 오류와 더불어 국제관계에서의 위치 때문에 많은 오류가 남아 있는 점도 사실이다. 그 가운데 미국의 위성영상서비스 가운데 가장 대표적인 구글사의 검색서비스와 미국지리정보국의 지명데이터베이스에 관한 내용을 분석함으로서 문제의 뿌리가 어디인지를 밝히고자 하였다. 이미 구글에 관련된 논문은 Science Direct 검색결과 69개가 검색되고 있을 만큼 전세계적 문화적 영향력을 가지고 있다. 본고에서는 전 세계의 지명을 영어로 서비스하고 있는 구글사와 미국의 지명 DB내에 있는 오류사례를 찾아내고, 그 유형을 분석하고, 특히 일제의 강점을 당했던 한국과 대만사례를 비교하는 데 있다. 대만 역시 1945년 제2차 세계대전의 종전으로 인해 일본의 영향에서 벗어나게 되었다. 따라서 지명에도 일본의 영향이 크게 남아 있을 것으로 보고 앞서 나온 유형대로 몇 개의 분석을 실시하였다. 그 중 대표적인 것을 들면, 경상남도 남해군 일원의 위성영상을 보면 최소한 3개의 일본식 지명이 나타난다. 우선 해양지명으로 미조만은 Mijo-wan으로 앵강만은 Oko-wan으로 표시되어 있고, 천황산은 Tenno San이라는 지명으로 나타나고 있다. 제주도의 한라산을 지칭하는 표준어는 Halla-san으로 등재되어 있으나 이명으로 소개되어 있는 것이 무려 11개나 등록되어 있는 것으로 파악되었다. Halla-san에 대한 미국의 NGA(National Geospatial-Intelligence Agency)의 지명정보 데이터베이스에서 검색한 결과는 아래와 같다. 앞의 간라산 또는 간다산 등은 일본식 표기임이 확실하며 여기에 오크랜드산(Auckland, Mount)이라고 또한 표기되어 있음을 확인할 수 있다. 대만의 경우 총 1,280개의 산악명과 산맥명이 등재되어 있으니 일본어 표기는 하나도 없으며, 영어로 Central Mountains와 Seaboard Mountains두개만 영문표기 지명이 등재되어 있을 뿐이며, 그 가운데 12개는 한자로 표기되어 있다. 국내의 지명이 모두 영문 알파벳으로 표기된 것과는 달리 대만의 경우 한자지명이 그대로 데이터베이스에 등재되어 있다. 하천의 경우를 분석해보면 1485개의 지명이 등록되어 있으며 이 가운데 24개는 한자지명으로 표기되어 있다. 유형별 분석을 통한 연구결과가 올바른 지명 찾기에 기여하고, 독도와 백두산에 국한된 지명논쟁의 근간을 공고히 하는데 기여할 것으로 사료된다.

  • PDF

오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구 (A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition)

  • 이병희;김태균
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.184-194
    • /
    • 1997
  • 최근 상용 오프라인 문자 인식시스템들이 계속 발표되고 있다. 본 눈문에서는 적 은 메모리와 빠른 시간내에 검색이 가능한 자기조직화 구조를 가진 단어 사전을 구축 하고 검색하는 알고리즘을 제시하며 오프라인 문자 인식 시스템을 이용하여 오인식 교정의 측면에서 문장부호, 영문자, 한자를 인식한 후에 나온 오인식된 문자들을 수 집하여 오인식 형태를 제분류하였다. 영문자에 대해서는 영문자의 오인식 형태와 오 인식의 예들을 조사하고 오인식이 자주 일어나는 글자에 대해 오인식 혼동 테이블을 작성하였으며 25,145개의 영어 단어가 입력된 자기조직화된 영어 단어 사전을 가지고 교정을 행하여 0.5%의 인식률 향상을 가져왔다. 한자에 대해서도 영문자와 마찬가지 로 오인식 행태를 조사하고 혼동 테이블을 작성하였으며 34,593개의 단어가 입력된 자기조직화된 한자 단어 사전을 이용하여 교정을 행하여 인식률을 6.1% 향상시켰다.

  • PDF