• Title/Summary/Keyword: Unicode

Search Result 68, Processing Time 0.032 seconds

ISO/IEC 10646과 멀티바이트 코드 세트간의 변환시스템의 설계 및 구현 (Design and Implementation of Conversion System Between ISO/IEC 10646 and Multi-Byte Code Set)

  • 김철
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.319-324
    • /
    • 2018
  • 본 논문에서는 ISO/IEC 10646과 멀티바이트 코드 세트간의 변환 시스템을 설계하고 구현한다. 65,000 문자의 코드를 제공하는 UCS 세트는 128 문자의 코드 용량을 제공하는 ASCII 코드의 제한성을 해결하고, 전세계 언어의 표현, 전송, 교환, 처리, 저장 및 입출력을 단일 코드 페이지에서 적용하며, 다국어 소프트웨어 개발시 코드 변환을 단순화시킴으로써 프로그램의 코드 수정을 위한 시간과 비용을 효율적으로 절감하게 한다. 따라서 UCS 코드 시스템과 ASCII 및 EBCDIC 코드 시스템들이 혼용되어 사용되는 환경에서는 상호 시스템간의 코드 변환 방법은 시스템 마이그레이션시 제공되어야 하는 중요한 고려 사항이다. 본 논문의 코드 변환 유틸리티는 UCS와 IBM 호스트 코드간의 매핑 테이블을 포함하고 있으며 제안된 코드 변환 알고리즘을 시스템에서 구현하였다. 제안된 코드 변환 프로그램은 실제 시스템 환경에서 성공적으로 구동하였음을 검증하였고, UCS와 멀티바이트 코드 시스템간의 마이그레이션시 가이드라인으로 제공될 수 있다.

한의학 교육을 위한 필수한자 추출 및 분석연구 (Study on the prerequisite Chinese characters for the education of traditional Korean medicine)

  • 황상문;이병욱;신상우;조수인;임윤경;채한
    • 대한한의학원전학회지
    • /
    • 제24권5호
    • /
    • pp.147-158
    • /
    • 2011
  • There has been a need for an operational curriculum for teaching Chinese characters used by traditional Korean medicine (TKM), but the it was not thoroughly reviewed so far. We analysed the frequency of unicode Chinese characters with five textbooks of traditional Korean medicine used as a national standard. We found that 氣, 經, 陽, 陰, 不, 熱, 血, 脈, 病, 證, 寒, 中, 心, 痛, 虛, 大, 生, 治, 本, 之 are the 20 most frequently used Chinese characters, and also showed 100 frequently used characters for each textbook. We used a cumulative frequency analysis method to suggest a list of 1,000 prerequisite Chinese characters for the TKM education (TKM 1000). which represents the current usage of Chinese characters in TKM and covers 99% of all textbook use if combined with MEST 1800. This study showed prerequisite and essential Chinese characters for the implementation of evidence-based teaching in TKM. The TKM 1000, a prerequisite characters by this study based on the TKM textbooks can be used for the development of Korean Medicine Education Eligibility Test (KEET), entrance exam to the Colleges of Oriental Medicine or textbooks, and educational curriculum for premed students.

사전 기반 최소대립쌍 검색 도구 (A minimal pair searching tool based on dictionary)

  • 김태훈;이재호;장문수
    • 한국지능시스템학회논문지
    • /
    • 제24권2호
    • /
    • pp.117-122
    • /
    • 2014
  • 최소대립쌍이란 한 음소의 차이만으로 다른 의미를 갖는 단어의 쌍을 말한다. 본 논문은 최소대립쌍을 이용한 국어음운학 연구의 효율성을 위해 최소대립쌍 검색도구를 제안한다. 검색 도구 개발에 앞서 기존 프로그램과 몇 가지 비교 분석을 통해, 개발해야할 한국어 최소대립쌍 검색 도구의 방향을 제시한다. 제안하는 검색도구는 컴퓨터 사용에 익숙하지 않은 국어학자를 위해 키보드 입력을 최소화한 사용자 친화적인 인터페이스를 제시한다. 효율적인 최소대립쌍 연구를 위해 분류 검색 기능을 제공함으로써 더욱 면밀한 최소대립쌍 연구가 가능하도록 한다. 그리고 성능 향상을 위해 유니코드 분석으로 음소를 분리하여 사전 로딩 속도를 향상시키고, 검색의 효율성을 위해 사전 구조를 최적화한다. 검색 알고리즘은 음절 개수를 이용한 해시 탐색으로 검색 속도를 높인다. 제안하는 도구는 초기 버전에 비해 사전 변환 속도는 5배, 검색 속도는 3배 향상되었다.

북한 PUST 디지털도서관 모델 개발 연구 (A Study on the Development of Digital Library Model for PUST in North Korea)

  • 이종문
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.143-158
    • /
    • 2008
  • 본 연구는 남북합작으로 건립하는 PUST에 설치될 도서관과 디지털도서관 모델 제시를 위해 수행되었다. 우선 이론적 연구를 통해 디지털도서관의 문제와 PUST 디지털도서관의 이슈를 파악하였다. 그 결과, 저작권법하의 공정사용 미흡 등으로 현 단계에서 디지털도서관만 운영하는 것은 문제가 있는 것으로 파악되었다. 또 남북의 언어와 지적기반의 차이 등으로 홈페이지 접근 데이터베이스 구축 자료 의 검색 등에 문제가 있는 것으로 파악되었다. 이에 연구자는 디지털도서관과 하이브리드 도서관을 병행 운영할 것과, 디지털도서관 관련 하여 유니코드를 통한 홈페이지의 이중화 NCHAR 데이터타입 설정을 통한 다국어 저장, 전거 데이터베이스 구축 등을 제안하였다.

소셜네트워크서비스에 활용할 비표준어 한글 처리 방법 연구 (Research on Methods for Processing Nonstandard Korean Words on Social Network Services)

  • 이종화;레환수;이현규
    • 한국산업정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.35-46
    • /
    • 2016
  • 특정한 관심이나 활동을 공유하는 관계망을 구축해주는 온라인 서비스인 소셜네트워크서비스(SNS), 자신의 관심사에 따라 자유롭게 글, 사진, 동영상 등을 올릴 수 있는 공간인 블로그(Blog) 등은 자신을 알리고 표현하는 사회현상으로 자리 매김하고 있다. 이러한 SNS나 블로그를 통해 사용자들이 자유롭게 표현한 글들을 분석하여 의미있는 정보와 가치, 그리고 패턴을 찾기 위한 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 의미 분석(Semantic Analysis) 등의 연구가 활발히 이루어지고 있다. 또한, 연구자들의 연구 효율을 보다 높이기 위하여 키워드 기반 연구들도 이루어져있다. 하지만 대부분의 연구들은 한글의 맞춤법에 많은 한계점을 나타내고 있다. 본 연구는 어근을 찾기 힘든 이상한 외계 언어, 무분별하게 표현되는 속어, 알기 힘든 한글 이모티콘 인터넷 언어, 마이닝 처리 과정에서 파악하기 어려운 단어들을 데이터베이스에 구축하여 데이터 사전 기반 마이닝 처리 기법의 한계를 극복하고자 한다. 특정 주제에 대한 주관적 견해로 구성된 블로그를 사례 분석 대상으로 연구를 진행하였으며 유니코드를 활용한 비표준어 추출은 텍스트 마이닝 처리에 유용함을 발견할 수 있었다.

웹 2.0을 위한 다국어 식별자 기반의 Cool URI에 대한 연구 (A Research on Cool URI based on Internationalized Resource Identifier for Web 2.0)

  • 정의현;김원;송관호;박찬기
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.223-230
    • /
    • 2006
  • 차세대 웹은 표현 중심의 웹을 데이터 중심의 웹으로 이끌 것으로 예측되며, Web 2.0과 시맨틱 웹의 기술적 결합이 될 것이다. 차세대 웹은 시맨틱 처리, 웹 플랫폼과 데이터 결합이 매우 중요한 기술적 요소이다. 이 중에서 데이터 결합에 사용되는 Cool URI는 영속적이고 사용자 친화적인 URI를 제공하는 기술이며, 이미 블로그 등에서 매우 중요하게 사용되고 있다. 그러나 Cool URI는 한글과 같은 다국어 환경에 적합하도록 구성되어 있지 않으며 여러 인코딩이 혼재된 국내 웹 환경에서는 쉽게 사용하기 어려운 상황이다. 본 논문에서는 이러한 Cool URI를 다국어 식별자와 같이 사용하기 위한 기술적인 고려 사항 및 Cool URI 웹 컴포넌트에 관하여 논한다. 제시한 방식은 인코딩의 종류에 상관없이 동일한 기능을 제공하며, 다른 애플리케이션에서 쉽게 사용 가능하도록 파일 시스템 기반과 CGI 기반 방식을 모두 지원한다. 여러 환경에서 실험한 결과는 구현된 웹 컴포넌트가 설계 목표를 만족함을 보여주었다.

  • PDF

Language-Independent Word Acquisition Method Using a State-Transition Model

  • Xu, Bin;Yamagishi, Naohide;Suzuki, Makoto;Goto, Masayuki
    • Industrial Engineering and Management Systems
    • /
    • 제15권3호
    • /
    • pp.224-230
    • /
    • 2016
  • The use of new words, numerous spoken languages, and abbreviations on the Internet is extensive. As such, automatically acquiring words for the purpose of analyzing Internet content is very difficult. In a previous study, we proposed a method for Japanese word segmentation using character N-grams. The previously proposed method is based on a simple state-transition model that is established under the assumption that the input document is described based on four states (denoted as A, B, C, and D) specified beforehand: state A represents words (nouns, verbs, etc.); state B represents statement separators (punctuation marks, conjunctions, etc.); state C represents postpositions (namely, words that follow nouns); and state D represents prepositions (namely, words that precede nouns). According to this state-transition model, based on the states applied to each pseudo-word, we search the document from beginning to end for an accessible pattern. In other words, the process of this transition detects some words during the search. In the present paper, we perform experiments based on the proposed word acquisition algorithm using Japanese and Chinese newspaper articles. These articles were obtained from Japan's Kyoto University and the Chinese People's Daily. The proposed method does not depend on the language structure. If text documents are expressed in Unicode the proposed method can, using the same algorithm, obtain words in Japanese and Chinese, which do not contain spaces between words. Hence, we demonstrate that the proposed method is language independent.

스킵연결이 적용된 오토인코더 모델의 클러스터링 성능 분석 (Clustering Performance Analysis of Autoencoder with Skip Connection)

  • 조인수;강윤희;최동빈;박용범
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권12호
    • /
    • pp.403-410
    • /
    • 2020
  • 오토인코더의 데이터 복원(Output result) 기능을 이용한 노이즈 제거 및 초해상도와 같은 연구가 진행되는 가운데 오토인코더의 차원 축소 기능을 이용한 클러스터링의 성능 향상에 대한 연구도 활발히 진행되고 있다. 오토인코더를 이용한 클러스터링 기능과 데이터 복원 기능은 모두 동일한 학습을 통해 성능을 향상시킨다는 공통점이 있다. 본 논문은 이런 특징을 토대로, 데이터 복원 성능이 뛰어나도록 설계된 오토인코더 모델이 클러스터링 성능 또한 뛰어난지 알아보기 위한 실험을 진행했다. 데이터 복원 성능이 뛰어난 오토인코더를 설계하기 위해서 스킵연결(Skip connection) 기법을 사용했다. 스킵연결 기법은 기울기 소실(Vanishing gradient)현상을 해소해주고 모델의 학습 효율을 높인다는 장점을 가지고 있을 뿐만 아니라, 데이터 복원 시 손실된 정보를 보완해 줌으로써 데이터 복원 성능을 높이는 효과도 가지고 있다. 스킵연결이 적용된 오토인코더 모델과 적용되지 않은 모델의 데이터 복원 성능과 클러스터링 성능을 그래프와 시각적 추출물을 통해 결과를 비교해 보니, 데이터 복원 성능은 올랐지만 클러스터링 성능은 떨어지는 결과를 확인했다. 이 결과는 오토인코더와 같은 신경망 모델이 출력된 결과 성능이 좋다고 해서 각 레이어들이 데이터의 특징을 모두 잘 학습했다고 확신할 수 없음을 알려준다. 마지막으로 클러스터링의 성능을 좌우하는 잠재변수(latent code)와 스킵연결의 관계를 분석하여 실험 결과의 원인에 대해 파악하였고, 파악한 결과를 통해 잠재변수와 스킵연결의 특징정보를 이용해 클러스터링의 성능저하 현상을 보완할 수 있다는 사실을 보였다. 이 연구는 한자 유니코드 문제를 클러스터링 기법을 이용해 해결하고자 클러스터링 성능 향상을 위한 선행연구이다.