• 제목/요약/키워드: CJK unified ideographs

검색결과 2건 처리시간 0.016초

유니코드 한자 검색의 문제점 및 개선방안 (Problems with Chinese Ideographs Search in Unicode and Solutions to Them)

  • 이정현
    • 정보화정책
    • /
    • 제19권3호
    • /
    • pp.50-63
    • /
    • 2012
  • 본고는 국내 한국학 관련 데이터베이스, 국내 도서관, 국내 학술 데이터베이스, 해외 도서관의 한자 검색 현황을 분석하여 문제점을 파악하고 개선 방안을 도출해 보고자 하였다. 유니코드 환경에서 한자 검색이 문제가 되는 주요한 이유를 '다중코드자', '간체자'와 '이체자'로 정리하고, 각각 3글자를 샘플로 검색하여 현황을 정리하였다. 한국학 관련 데이터베이스 13개, 국내 도서관 데이터베이스 5개, 국내 학술 데이터베이스 4개, 해외 도서관 데이터베이스 2개의 한자검색 현황을 조사하였다. 다중코드자에 대한 검색을 지원하기 위해서는 유니코드 컨소시엄에 공개된 소스를 적용해야 한다. 간체자와 이체자에 대한 검색 기능을 개선하기 위해서는 신뢰할 수 있는 매칭테이블을 표준화하여 유니코드 컨소시엄에 제안해야 한다.

  • PDF

대용량 온라인 한자 인식을 위한 클러스터링 거리계산 척도 (Distance Measures in HMM Clustering for Large-scale On-line Chinese Character Recognition)

  • 김광섭;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권9호
    • /
    • pp.683-690
    • /
    • 2009
  • 은닉 마코프 모델(Hidden Markov Model: HMM)에 기반을 둔 온라인 한자 인식에서 클래스의 수가 대용량일 경우에는 인식에 걸리는 시간 증가가 좋은 인식 시스템을 구현하는데 있어서의 걸림돌이 된다. 본 논문에서는 이러한 인식 속도 문제를 해결하고자 HMM을 클러스터링하여 인식 속도를 개선하는 방법과 이에 적합한 효율적인 HMM 간의 거리계산법을 제안한다. 유니코드 한 중 일 통합한자로 정의된 총 20,902개의 한자에 대한 온라인 한자 인식 시스템을 구축하는 실험에서 약 2배 정도로 인식속도가 향상됨을 확인할 수 있었고 클러스터링을 하지 않았을 때보다 0.9%의 인식률만 하락한 95.37%의 10순위 인식률을 달성했다.