• Title/Summary/Keyword: 정규화 텍스트

Search Result 36, Processing Time 0.034 seconds

Correction for Hangul Normalization (올바른 한글 정규화를 위한 수정 방안)

  • Ahn, Dae-Hyuk;Park, Young-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.73-80
    • /
    • 2006
  • 현재 유니코드에서 한글텍스트의 정규화 기법은 완성형 현대한글 음절과 옛 한글을 표현하는 조합형 한글 그리고 호환 자모등과 같이 사용할 경우 원래의 글자와는 전혀 다른 글자의 조합을 만들어내는 문제점이 있다. 이러한 문제점은 호환 한글 자모 및 기호들의 잘못된 정규화 변환과 유니코드의 한글자모 조합 규칙에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용 할 수 있게 허용한 때문이다. 이는 정규화 형식을 처음 작성할 당시 옛 한글의 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성 된데 따른 결과라 하겠다. 따라서 본 연구에서는 유니코드 환경에서의 한글코드와 특히 최근 들어 Web을 비롯하여 XML과 IDN에서 필연적으로 사용하는 정규화에 따른 문제점을 파악하고 이들을 올바르게 처리하기 위한 정규화의 수정 방안과 조합형 한글의 조합규칙에 대한 수정 방안을 제안한다.

  • PDF

Normalization of Clinical Medical Records by Disambiguating Abbreviations and Acronyms (약어와 두문자어의 모호성 해결을 통한 임상 의무기록의 정규화)

  • Inho Bae;Jin-Sang Kim;Yoon-Nyun Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.676-678
    • /
    • 2008
  • 임상 의무기록에 나타나는 많은 두문자어들은 기계적인 처리과정에서 의무기록의 모호성을 크게 증가시키기 때문에, 정보추출이나 텍스트 마이닝을 하기 전에 전처리 과정으로 의무기록이 정규화 되어야 한다. 본 연구에서는 임상 의무기록 중 하나인 퇴원요약지에 사용된 약어와 두문자어들의 모호성을 제거하기 위한 정규화 시스템을 설계하고 구현했다. 정규화를 위해 문맥정보를 이용하여 의무기록의 종류와 기록내 위치정보를 파악하였고 이를 이용하여 약어와 두문자어의 의미를 학습하고 분류하였다. 본 연구에서 구현한 정규화 시스템은 실험에서 6가지 두문자어들이 가지는 16가지 의미들에 대해 94.7%의 정확률을 얻었다.

A text-based emergency situation classification method (텍스트 기반 119 신고전화 상황 분류)

  • Kwak, Semin;Lim, Yoonseob;Choi, JongSuk
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2016.11a
    • /
    • pp.304-306
    • /
    • 2016
  • 본 논문에서는 기계학습 방법에 기반을 둔 119 긴급 신고 전화 전사 데이터에 대한 구급, 구조, 화재 상황 분류 알고리즘을 개발하였다. 신고전화에서 빈번하게 발생하는 비정형 발화 패턴을 효율적으로 정규화하고 자연어 문장 처리 기법에서 일반적으로 사용하는 방법을 적용하여 신고전화 텍스트 데이터를 기계학습에서 사용할 수 있는 특징 벡터로 재구성하였다. 2743개의 신고전화에 대해 선형 서포트 벡터 머신을 이용하여 상황 분류를 수행한 결과, 92% 의 정확도를 얻을 수 있었다.

  • PDF

Automatic Acquisition of Ranked IS-A Relation from Unstructured Text (텍스트에서 IS-A 관계의 자동 추출 및 순위화)

  • Ryu, Pum-Mo;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.150-157
    • /
    • 2007
  • 본 논문에서는 의존 구조 매칭과 약한 지도식 학습 방법을 적용하여 텍스트에서 IS-A 관계를 자동으로 추출하고 순위화하는 방법을 제안한다. 텍스트에서 잠재적인 IS-A 관계를 표현하는 [관계 표현, 하위어, 상위어]의 삼진관계 리스트를 추출하고, 관계 표현과 IS-A 관계 인스턴스, IS-A 관계 후보, 사이의 상호 관련성을 이용하여 각각의 점수를 반복적으로 정제한다. 제안한 방법의 대표적인 특징은 다음과 같다. 1) 의존 구조에 기반한 패턴 매칭 방법을 적용하여 정규 표현에 기반한 방법보다 다양한 형태의 삼진관계를 추출할 수 있고, 2) 도메인 코퍼스에서 통계적으로 추출한 어휘 사이의 관련성 정보를 이용하여 도메인에 적합한 IS-A 관계 인스턴스의 순위를 높일 수 있으며, 3) 관계 표현과 관계 인스턴스의 점수를 상호 관련성에 기반한 방법으로 반복적으로 점수화하여 IS-A 관계 인스턴스 사이의 변별력을 높일 수 있다. 실험에서 순위화된 관계 인스턴스는 전문가의 판단과 66%이상 일치함을 보였고, 의존 구조를 이용한 유연한 패턴 매칭 방법은 정규표현을 이용한 방법보다 43.6%의 추가적인 삼진관계를 추출하였다.

  • PDF

Correction for Hangul Normalization in Unicode (유니코드 환경에서의 올바른 한글 정규화를 위한 수정 방안)

  • Ahn, Dae-Hyuk;Park, Young-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.169-177
    • /
    • 2007
  • Hangul text normalization in current Unicode makes wrong Hangul syllable problems when using with precomposed modern Hangul syllables and composing old Hangul by using conjoining-Hangul Jamo and compatibility Hangul Jamo. This problem comes from allowing incorrect normalization form of compatibility Hangul Jamo and Hangul Symbol and also permitting to use conjoining-Hangul Jamo mixture with precomposed Hangul syllable in Unicode Hangul composing rule. It is caused by lack of consideration of old Hangul and/or insufficient understanding of Hangul code processing when writing specification for normalization forms in Unicode. Therefore on this paper, we study Hangul code in Unicode environment, specifically problems of normalization used for Web and XML, IDN in nowadays. Also we propose modification of Hangul normalization methods and Hangul composing rules for correct processing of Hangul normalization in Unicode.

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database (서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.36 no.2
    • /
    • pp.327-348
    • /
    • 2005
  • The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

  • PDF

Hangul Encoding Standard based on Unicode (유니코드의 한글 인코딩 표준안)

  • Ahn, Dae-Hyuk;Park, Young-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.12
    • /
    • pp.1083-1092
    • /
    • 2007
  • In Unicode, two types of Hangul encoding schemes are currently in use, namely, the "precomposed modern Hangul syllables" model and the "conjoining Hangul characters" model. The current Unicode Hangul conjoining rules allow a precomposed Hangul syllable to be a member of a syllable which includes conjoining Hangul characters; this has resulted in a number of different Hangul encoding implementations. This unfortunate problem stems from an incomplete understanding of the Hangul writing system when the normalization and encoding schemes were originally designed. In particular, the extended use of old Hangul was not taken into consideration. As a result, there are different ways to represent Hangul syllables, and this cause problem in the processing of Hangul text, for instance in searching, comparison and sorting functions. In this paper, we discuss the problems with the normalization of current Hangul encodings, and suggest a single efficient rule to correctly process the Hangul encoding in Unicode.

A Recognition of the Printed Alphabet by Using Nonogram Puzzle (노노그램 퍼즐을 이용한 인쇄체 영문자 인식)

  • Sohn, Young-Sun;Kim, Bo-Sung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.4
    • /
    • pp.451-455
    • /
    • 2008
  • In this paper we embody a system that recognizes the printed alphabet of two font types (Batang, Dodum) inputted by a black-and-white CCD camera and converts it into an editable text form. The image of the inputted printed sentences is binarized, then the rows of each sentence are separated through the vertical projection using the Histogram method, and the height of the characters are normalized to 48 pixels. With the reverse application of the basic principle of the Nonogram puzzle to the individual normalized character, the character is covered with the pixel-based squares, representing the characteristics of the character as the numerical information of the Nonogram puzzle in order to recognize the character through the comparison with the standard pattern information. The test of 2609 characters of font type Batang and 1475 characters of font type Dodum yielded a 100% recognition rate.

A Study on the Perception of Disaster and Crisis Using SNS(Twitter) (SNS(트위터)를 활용한 재난 및 위기상황 인식에 관한 연구)

  • Choi, YeonHo;Hyun, SangYeop;Shin, Younsoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.483-486
    • /
    • 2021
  • 재난 및 위기상황이 발생하면 해당 상황을 신속하고 정확하게 파악해야 많은 사람들을 구조할 수 있다. 본 논문은 SNS에서 재난 및 위기 상황을 정확하게 인식하는 연구를 진행한다. 텍스트 정규화, 워드 토큰화, 단어 임베딩 과정을 통해 전처리를 진행하고 키워드와 여러 특징들을 뽑아 SVM classifier를 사용하여 분류 작업을 실시한다. 실험결과 재난과 연관이 있는 경우에 해시태그의 빈도수, URL 빈도수, 두 키워드간의 거리가 다른 특징들의 조합보다 더 좋은 결과를 나타내었다.

Analysis of the National Police Agency business trends using text mining (텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석)

  • Sun, Hyunseok;Lim, Changwon
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.2
    • /
    • pp.301-317
    • /
    • 2019
  • There has been significant research conducted on how to discover various insights through text data using statistical techniques. In this study we analyzed text data produced by the Korean National Police Agency to identify trends in the work by year and compare work characteristics among local authorities by identifying distinctive keywords in documents produced by each local authority. A preprocessing according to the characteristics of each data was conducted and the frequency of words for each document was calculated in order to draw a meaningful conclusion. The simple term frequency shown in the document is difficult to describe the characteristics of the keywords; therefore, the frequency for each term was newly calculated using the term frequency-inverse document frequency weights. The L2 norm normalization technique was used to compare the frequency of words. The analysis can be used as basic data that can be newly for future police work improvement policies and as a method to improve the efficiency of the police service that also help identify a demand for improvements in indoor work.