• 제목/요약/키워드: ideographs

검색결과 7건 처리시간 0.019초

유니코드 한자 검색의 문제점 및 개선방안 (Problems with Chinese Ideographs Search in Unicode and Solutions to Them)

  • 이정현
    • 정보화정책
    • /
    • 제19권3호
    • /
    • pp.50-63
    • /
    • 2012
  • 본고는 국내 한국학 관련 데이터베이스, 국내 도서관, 국내 학술 데이터베이스, 해외 도서관의 한자 검색 현황을 분석하여 문제점을 파악하고 개선 방안을 도출해 보고자 하였다. 유니코드 환경에서 한자 검색이 문제가 되는 주요한 이유를 '다중코드자', '간체자'와 '이체자'로 정리하고, 각각 3글자를 샘플로 검색하여 현황을 정리하였다. 한국학 관련 데이터베이스 13개, 국내 도서관 데이터베이스 5개, 국내 학술 데이터베이스 4개, 해외 도서관 데이터베이스 2개의 한자검색 현황을 조사하였다. 다중코드자에 대한 검색을 지원하기 위해서는 유니코드 컨소시엄에 공개된 소스를 적용해야 한다. 간체자와 이체자에 대한 검색 기능을 개선하기 위해서는 신뢰할 수 있는 매칭테이블을 표준화하여 유니코드 컨소시엄에 제안해야 한다.

  • PDF

고전 자료 디지털화사업에서의 신출한자 처리 개선방안 (Improvement plan for 'Newly found ideographs(新出漢字)' in the digitalizing business of the old Korean documents)

  • 이정화
    • 한국한의학연구원논문집
    • /
    • 제10권1호
    • /
    • pp.1-14
    • /
    • 2004
  • As entering the information age of the 21st century, Korea is actively processing many digitalizing businesses related to information source of the Korean academic science at the government level based on the Korean advanced digital technologies, which makes them more evolved through the internet networks in Korea. The definition of 'Newly found ideographs(新出漢字)' are made by researching and extracting from the old Chinese documents through the digitalizing process and they are not registered yet among the block of Unicode & extended Chinese characters those are existent international standard. Presently Korea is in the middle of brisk developing computerized old documents in the huge scale. Meanwhile, the international standard of Chinese characters in mostly Asian countries where using them is processing and developing by IRG. Therefore, Korean processing works is very important which are included extracting precisely 'Newly found ideographs' founded from building its database, organizing as an international standard code, submitting the International organization and finally registering as the best standard code.

  • PDF

한의학고전문헌 DB구축과 신출자 처리 - 한의학지식정보자원웹서비스를 중심으로 - (Improvement plan for 'Newly found ideographs(新出漢字)' in the digitalizing business of the old Korean Medicine documents - with 'knowledge of oriental web service' -)

  • 이정화;김홍준
    • 한국의사학회지
    • /
    • 제18권1호
    • /
    • pp.127-141
    • /
    • 2005
  • As we enter the 21st century, the Information Era, we are making a national effort to digitalize the information resources of Korean Studies, based on our leading digital technology. However, there is much difficulty of computerizing Chinese characters used in Korea, China, and Japan, with the of technologies developed by the West. This paper gives an example of how to register and process the Newly found ideographs(新出漢字) put forth by Digitalization of Knowledge information resource on Korean oriental medicine.

  • PDF

한글 타이포그라피의 정체성에 관한 연구 (A Study of the Identity of Hangul Typography)

  • 안상수
    • 디자인학연구
    • /
    • 제13권1호
    • /
    • pp.103-110
    • /
    • 2000
  • 한글은 동아시아 한자문화권 속에서 태어났다. 우리의 글자문화는 서양 글자 문화는 엄연히 다른 전통이 있었다. 동양에서 글자란 영물이자 주술이었으며, 존엄과 신비 그리고 제의가 함유된 경외의 대상이었다. 동양에서는 글씨 그 자체의 엄연한 가치를 인정하는 문화적 전통이 있었던 것이다. 이러한 글자관 세계속에서 완벽한 소리글자로서 한글은 태어났다. 그러나 한글의 특성은 뜻글자로서의 한자적 배경과 사뭇 다르며 독특하다. 한글은 소리글자임에도 불구하고 한자적 이미지의 고향을 강하게 지니고 있다. 이것은 라틴 알파벳이 그 진화의 오랜 여정 속에서 이미지의 고향을 잃어버린 것과 대조되는 부분이며, 소리글자로서의 한글이 이미지의 속성을 함께 가지고 있는 것은 한글의 특성이라 할 수 있다. 다시 말해 한글 형태는 조합 방식에서 한자와 같은 속성을 가지고 있으면서, 소리글자로서의 특성은 라틴 알파벳에 가깝다. 한글은 곧 시간적으로 한자 문화에 바탕을 둔 시각 이미지 글자의 배경으로서의 기억을 생생히 가지고 있고, 또 기능적으로는 매우 발달된 형태의 소리글자로서의 글자의 두 가지 속성을 모두 한몸에 지니고 있는 것이 특징이다. 이러한 한글의 특징은 이미지 시대에 살고 있는 우리에게 바로 우리 시각문화의 존재 의미를 일깨워주는 부분이라 하겠다. 곧 세계 글자문화 속에서 돋보이는 이러한 한글 타이포그라피의 정체성이야 말로 바로 우리 시각문화의 본질이 될 것이다.

  • PDF

대용량 온라인 한자 인식을 위한 클러스터링 거리계산 척도 (Distance Measures in HMM Clustering for Large-scale On-line Chinese Character Recognition)

  • 김광섭;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권9호
    • /
    • pp.683-690
    • /
    • 2009
  • 은닉 마코프 모델(Hidden Markov Model: HMM)에 기반을 둔 온라인 한자 인식에서 클래스의 수가 대용량일 경우에는 인식에 걸리는 시간 증가가 좋은 인식 시스템을 구현하는데 있어서의 걸림돌이 된다. 본 논문에서는 이러한 인식 속도 문제를 해결하고자 HMM을 클러스터링하여 인식 속도를 개선하는 방법과 이에 적합한 효율적인 HMM 간의 거리계산법을 제안한다. 유니코드 한 중 일 통합한자로 정의된 총 20,902개의 한자에 대한 온라인 한자 인식 시스템을 구축하는 실험에서 약 2배 정도로 인식속도가 향상됨을 확인할 수 있었고 클러스터링을 하지 않았을 때보다 0.9%의 인식률만 하락한 95.37%의 10순위 인식률을 달성했다.

A Comparative Study of Aphasics' Abilities in Reading and Writing Hangul and Hanja

  • Kim, Heui-Beom
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.289-293
    • /
    • 1996
  • In Korean, as with Kana and Kanji in Japanese, two kinds of word-writing systems--Hangul (the Korean alphabet) and Hanja (the Chinese character; Kanji in Japanese)--have been and still are being used. Hangul is phonetic while Hanja is ideographic. A phonetic alphabet represents the pronunciation of words, wheras ideographs are where a character of a writing system represents a concept. Aphasics suffer from language disorders following brain damage. The reading and writing of Hangul and Hanja by two Korean Broca's aphasics were analyzed with two goals. The first goal was to confirm the functional autonomy of reading and writing systems in the brain that has been argued by other researchers. The second goal was to reveal what difference the subjects show in reading and writing Hangul and Hanja. As experimental materials, 50 monosyllabic words were chosen in Hangul and Hanja respectively. The 50 word pairs of Hangul and Hanja have the same meaning and are also the most familiar monosyllabic words for a group of normal adults in their fifties and sixties. The errors that the aphasic subjects made in performing the experimental materials are analyzed and discussed here. This analysis has confirmed that reading and writing systems are located in different parts in the brain. Furthemore, it seems clear that the two writing systems of Hangul and Hanja have their own respective processes.

  • PDF

Korean-Chinese Person Name Translation for Cross Language Information Retrieval

  • Wang, Yu-Chun;Lee, Yi-Hsun;Lin, Chu-Cheng;Tsai, Richard Tzong-Han;Hsu, Wen-Lian
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.489-497
    • /
    • 2007
  • Named entity translation plays an important role in many applications, such as information retrieval and machine translation. In this paper, we focus on translating person names, the most common type of name entity in Korean-Chinese cross language information retrieval (KCIR). Unlike other languages, Chinese uses characters (ideographs), which makes person name translation difficult because one syllable may map to several Chinese characters. We propose an effective hybrid person name translation method to improve the performance of KCIR. First, we use Wikipedia as a translation tool based on the inter-language links between the Korean edition and the Chinese or English editions. Second, we adopt the Naver people search engine to find the query name's Chinese or English translation. Third, we extract Korean-English transliteration pairs from Google snippets, and then search for the English-Chinese transliteration in the database of Taiwan's Central News Agency or in Google. The performance of KCIR using our method is over five times better than that of a dictionary-based system. The mean average precision is 0.3490 and the average recall is 0.7534. The method can deal with Chinese, Japanese, Korean, as well as non-CJK person name translation from Korean to Chinese. Hence, it substantially improves the performance of KCIR.

  • PDF