• 제목/요약/키워드: Word segmentation

검색결과 135건 처리시간 0.021초

문자 인식에서 단어 간의 활자 인쇄선 위치 분석과 클래스 분류 (Typographical Analyses and Classes of Characters and Words in Optical Character Recognition)

  • 정민철
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.337-342
    • /
    • 2005
  • 본 논문은 활자 인쇄선 분석과 이에 따른 클래스 분류를 제안한다. 활자 인쇄선 분석은 영문 인쇄체 인식에 있어 불가결한 요소이다. 활자 인쇄선 분석은 문자 인식에서 문자 분할을 위한 전처리 단계이다. 본 논문은 두 부분으로 나뉘는데, 첫 부분에서는 단어 간 활자 인쇄선 분석을 통한 단어 활자선 클래스를 정의한다. 두 번째 부분에서는 문자 간 활자 인쇄선 분석을 통한 문자 활자선 클래스를 정의한다. 이렇게 정의된 단어 활자선 클래스와 문자 활자선 클래스는 문자 분할시 정확한 문자 분할을 위하여 사용된다.

Spatio-temporal방법을 이용한 지역명 인식에 관한 연구 (A Study on the recognition of local name using Spatio-Temporal method)

  • 지원우
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.121-124
    • /
    • 1993
  • This paper is a study on the word recognition using neural network. A limited vocabulary, speaker independent, isolated word recognition system has been built. This system recognizes isolated word without performing segmentation, phoneme identification, or dynamic time wrapping. It needs a static pattern approach to recognize a spatio-temporal pattern. The preprocessing only includes preceding and tailing silence removal, and word length determination. A LPC analysis is performed on each of 24 equally spaced frames. The PARCOR coefficients plus 3 other features from each frame is extracted. In order to simplify a structure of neural network, we composed binary code form to decrease output nodes.

  • PDF

CRF를 이용한 한국어 자동 띄어쓰기 (Automatic Word Spacing based on Conditional Random Fields)

  • 심광섭
    • 인지과학
    • /
    • 제22권2호
    • /
    • pp.217-233
    • /
    • 2011
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 한국어 문장을 입력받아 자동으로 띄어쓰기를 해 주는 시스템을 제안한다. 띄어쓰기 문제는 주어진 문장의 각 음절에 대하여 띄어쓰기 여부를 나타내는 레이블을 부착하는 일종의 레이블링 문제이므로, 본 논문에서는 레이블링 문제 해결에 띄어난 성능을 보이는 것으로 알려진 CRF를 이용하여 자동 띄어쓰기를 시도하였다. 약 112만 음절 규모의 학습용 데이터로 학습을 하고, 2,114 문장(약 9.3만 음절)의 평가용 데이터로 띄어쓰기 정확도에 대한 평가를 하였다. 평가 결과 음절 단위의 정확도는 98.84%, 어절 단위의 정확도는 95.99%인 것으로 나타났다.

  • PDF

Chinese Word Segmentation

  • Li, Haizhou;Yuan, Baosheng
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1998년도 Language, Information and Computation = Selected Papers from the 12th Pacific Asia Conference on Language, Information and Computation, Singapore
    • /
    • pp.212-217
    • /
    • 1998
  • PDF

문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색 (Keyword Spotting on Hangul Document Images Using Character Feature Models)

  • 박상철;김수형;최덕재
    • 정보처리학회논문지B
    • /
    • 제12B권5호
    • /
    • pp.521-526
    • /
    • 2005
  • 본 논문에서는 저 품질의 한글 문서 영상에서 OCR 기반 검색 시스템의 대안으로 키워드 검출 시스템(Keyword Spotting)을 제안하고 OCR 기반 문서 검색 시스템과 비교한다. 제안 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분리하면서 문자 넓이 값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안한다. 키워드 특징은 서체별 문자 모델의 결합으로 구성한다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대 단어 매칭 방법을 적용한다. 본 논문에서 제안한 키워드 검출 시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 글자 크기가 작고 문서의 상태가 좋지 않은 경우 제안한 키워드 검출 시스템에 의한 검색 성능이 OCR 기반 검색 시스템 보다 우수함을 입증하였다.

단어통사론을 위한 계산 모형 (A Computational Model for the Word-Syntax)

  • 김동주;김한우
    • 전자공학회논문지CI
    • /
    • 제39권6호
    • /
    • pp.11-23
    • /
    • 2002
  • 한국어 형태론에 대한 기존의 전산모형은 선형적인 것들로 단어 내부구조 분석보다 형태소 분리 문제에만 관심을 두고 있다. 이러한 선형적 전산모형을 구문 분석 과정과 통합적으로 고려할 경우, 구문 단위 요소의 형성을 위해 형태소 분석 결과를 묶어야만 하는 추가적인 과정이 필요할 뿐만 아니라 의미적 직관성을 얻기도 어려웠다. 본 논문에서는 형태소 분리와 구문 요소 형성뿐만 아니라 단어의 구조 분석까지도 통합적으로 다룰 수 있는 단어통사론적 시각에 따른 전산 모형을 제안한다. 먼저 형태소 분리와 변형 문제를 다루기 위해 2단계형태론의 형식화를 도입하고, 품사 문맥을 반영하기 위해 기능성 구분문자를 제안한다. 그리고 형태소의 통사적 결합 검사를 위해 GLR에 기반한 변형 알고리즘을 제안한다.

분할확률 모델을 이용한 한국어 고립단어 인식 (Isolated Word Recognition Using Segment Probability Model)

  • 김진영;성경모
    • 대한전자공학회논문지
    • /
    • 제25권12호
    • /
    • pp.1541-1547
    • /
    • 1988
  • In this paper, a new model for isolated word recognition called segment probability model is proposed. The proposed model is composed of two procedures of segmentation and modelling each segment. Therefore the spoken word is devided into arbitrary segments and observation probability in each segments is obtained using vector quantization. The proposed model is compared with pattern matching method and hidden Markov model by recognition experiment. The experimental results show that the proposed model is better than exsisting methods in terms of recognition rate and caculation amounts.

  • PDF

투영 프로파일의 간략화 방법을 이용한 인쇄체 한글 문서 영상에서의 문자 분할 (Character Segmentation on Printed Korean Document Images Using a Simplification of Projection Profiles)

  • 박상철;김수형
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.89-96
    • /
    • 2006
  • 본 논문에서는 한글 문서 영상에서의 문자 분할을 위한 2가지 알고리즘을 제안한다. 첫째는 투영 프로파일 기반 개선된 문자 분할 알고리즘이다. 이 알고리즘은 크게 문자수 추정, 분할 점 획득 및 문자 경계 탐색, 그리고 최적의 문자 분할 결과 선택으로 구성된다. 두 번째는 근접한 문자들이 서로 연결된 저 품질 문서 영상에 적합한 분할 알고리즘이다. 이 경우 연결요소를 제거하기 위해 투영 프로파일의 일부를 잘랐는데, 이를 ${\alpha}$-cut이라 한다. 그 후 전자의 방법을 변형하여 문자 분할을 수행한다. 다양한 폰트 속성을 갖고 품질이 낮은 43,572개의 한글 단어 영상을 대상으로 실험한 결과, 투영 프로파일 기반 개선된 문자 분할 알고리즘이 91.81%, 투영 프로파일에 ${\alpha}$-cut을 적용한 알고리즘이 99.57% 의 문자 분할 성공률을 나타내어 저 품질 한글 문서 영상에서 ${\alpha}$-cut을 이용한 문자 분할 알고리즘이 효과적임을 입증하였다.

A review of Chinese named entity recognition

  • Cheng, Jieren;Liu, Jingxin;Xu, Xinbin;Xia, Dongwan;Liu, Le;Sheng, Victor S.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.2012-2030
    • /
    • 2021
  • Named Entity Recognition (NER) is used to identify entity nouns in the corpus such as Location, Person and Organization, etc. NER is also an important basic of research in various natural language fields. The processing of Chinese NER has some unique difficulties, for example, there is no obvious segmentation boundary between each Chinese character in a Chinese sentence. The Chinese NER task is often combined with Chinese word segmentation, and so on. In response to these problems, we summarize the recognition methods of Chinese NER. In this review, we first introduce the sequence labeling system and evaluation metrics of NER. Then, we divide Chinese NER methods into rule-based methods, statistics-based machine learning methods and deep learning-based methods. Subsequently, we analyze in detail the model framework based on deep learning and the typical Chinese NER methods. Finally, we put forward the current challenges and future research directions of Chinese NER technology.

Using Syntax and Shallow Semantic Analysis for Vietnamese Question Generation

  • Phuoc Tran;Duy Khanh Nguyen;Tram Tran;Bay Vo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2718-2731
    • /
    • 2023
  • This paper presents a method of using syntax and shallow semantic analysis for Vietnamese question generation (QG). Specifically, our proposed technique concentrates on investigating both the syntactic and shallow semantic structure of each sentence. The main goal of our method is to generate questions from a single sentence. These generated questions are known as factoid questions which require short, fact-based answers. In general, syntax-based analysis is one of the most popular approaches within the QG field, but it requires linguistic expert knowledge as well as a deep understanding of syntax rules in the Vietnamese language. It is thus considered a high-cost and inefficient solution due to the requirement of significant human effort to achieve qualified syntax rules. To deal with this problem, we collected the syntax rules in Vietnamese from a Vietnamese language textbook. Moreover, we also used different natural language processing (NLP) techniques to analyze Vietnamese shallow syntax and semantics for the QG task. These techniques include: sentence segmentation, word segmentation, part of speech, chunking, dependency parsing, and named entity recognition. We used human evaluation to assess the credibility of our model, which means we manually generated questions from the corpus, and then compared them with the generated questions. The empirical evidence demonstrates that our proposed technique has significant performance, in which the generated questions are very similar to those which are created by humans.