• Title/Summary/Keyword: 단어 분리

Search Result 112, Processing Time 0.044 seconds

Text Extraction and Word Grouping using 3D Area-Weighted Graph in Document (문서 이미지에서 문자 추출과 3차원 면적-가중치 그래프를 이용한 단어 그룹핑)

  • 옥세영;박환철;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.556-558
    • /
    • 1998
  • 이미지 분석이나 데이터 베이스 인덱싱 또는 종이 문서를 전자 문서화 하는 문제는컴퓨터 비젼 응용분야에서 중요 관심사가 되어왔다. 이러한 문제들을 처리하기 위해서는 제일 먼저 이미지와 문자가 혼합되어 있는 문서에서 자동으로 문자와 이미지들을 분리해 내는 과정이 필수 적이다. 본 논문에서는 신문이나 광고등에서 볼 수 있는 이미지, 음각 문자와 양각 문자가 섞여 있는 문서에서 문자만을 추출하는 알고리즘을 제안한다. 이 알고리즘은 Run-length code를 이용하여 문자나 이미지의 경계선(bound) 모양의 특징을 추출하여 음각 문자와 이미지, 양각 문자를 구분한다. 그리고 추출된 글자들을 3차원 공간상에 매핑한 후 3차원 면적 가중치 그래프를 이용하여 관련된 단어들로 묶어주는 3차원 그룹핑 알고리즘을 제시한다. 실험결과로는 추출된 문자와 그룹핑된 결과를 보여준다.

  • PDF

Korean Morphological Analyzer and POS Tagger Just Using Finite-State Transducers (유한상태변환기만을 이용한 한국어 형태소 분석 및 품사 태깅)

  • Park, Won-Byeong;Kim, Jae-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.165-168
    • /
    • 2006
  • 이 논문은 유한상태변환기만을 이용하여 한국어 형태소 분석 및 품사 태깅 시스템을 제안한다. 기존의 한국어 형태소 분석 시스템들은 규칙기반 형태소 분석기가 주를 이루고 한국어 품사 태깅 시스템은 은닉마르코프 모델 기반 품사 태깅이 주를 이루었다. 한국어 형태소 분석의 경우 유한상태변환기를 이용한 경우도 있었으나, 이 방법은 변환기를 작성하기 위한 규칙을 수작업으로 구축해야 하며, 그 규칙에 따라서 사전이 작성되어야 한다. 이 논문에서는 품사 태깅 말뭉치를 이용해서 유한상태변환기에서 필요한 모든 변환 규칙을 자동으로 추출한다. 이런 방법으로 네 종류의 변환기, 즉, 자소분리변환기, 단어분리변환기, 단어형성변환기, 품사결정변환기를 자동으로 구축한다. 구축된 변환기들은 결합연산(composition operation)을 이용하여 하나의 유한상태변환기를 구성하여 한국어 형태소 분석과 동시에 한국어 품사 태깅을 수행한다. 이 방법은 하나의 유한상태변환기만을 이용하기 때문에 복잡도는 선형시간(linear complexity)을 가지면, 형태소 분석기와 품사 태깅 시스템을 매우 짧은 시간 내에 개발 할 수 있었다.

  • PDF

A Study on the Spoken Korean Citynames Using Multi-Layered Perceptron of Back-Propagation Algorithm (오차 역전파 알고리즘을 갖는 MLP를 이용한 한국 지명 인식에 대한 연구)

  • Song, Do-Sun;Lee, Jae-Gheon;Kim, Seok-Dong;Lee, Haing-Sei
    • The Journal of the Acoustical Society of Korea
    • /
    • v.13 no.6
    • /
    • pp.5-14
    • /
    • 1994
  • This paper is about an experiment of speaker-independent automatic Korean spoken words recognition using Multi-Layered Perceptron and Error Back-propagation algorithm. The object words are 50 citynames of D.D.D local numbers. 43 of those are 2 syllables and the rest 7 are 3 syllables. The words were not segmented into syllables or phonemes, and some feature components extracted from the words in equal gap were applied to the neural network. That led independent result on the speech duration, and the PARCOR coefficients calculated from the frames using linear predictive analysis were employed as feature components. This paper tried to find out the optimum conditions through 4 differerent experiments which are comparison between total and pre-classified training, dependency of recognition rate on the number of frames and PAROCR order, recognition change due to the number of neurons in the hidden layer, and the comparison of the output pattern composition method of output neurons. As a result, the recognition rate of $89.6\%$ is obtaimed through the research.

  • PDF

Keyword Spotting on Hangul Document Images Using Character Feature Models (문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색)

  • Park, Sang-Cheol;Kim, Soo-Hyung;Choi, Deok-Jai
    • The KIPS Transactions:PartB
    • /
    • v.12B no.5 s.101
    • /
    • pp.521-526
    • /
    • 2005
  • In this Paper, we propose a keyword spotting system as an alternative to searching system for poor quality Korean document images and compare the Proposed system with an OCR-based document retrieval system. The system is composed of character segmentation, feature extraction for the query keyword, and word-to-word matching. In the character segmentation step, we propose an effective method to remove the connectivity between adjacent characters and a character segmentation method by making the variance of character widths minimum. In the query creation step, feature vector for the query is constructed by a combination of a character model by typeface. In the matching step, word-to-word matching is applied base on a character-to-character matching. We demonstrated that the proposed keyword spotting system is more efficient than the OCR-based one to search a keyword on the Korean document images, especially when the quality of documents is quite poor and point size is small.

A Study on the Performance Improvement of a Stock Information Retrieval System using Continuous Speech Recognition Technology (연속음성인식기술을 이용한 음성인식 증권정보 시스템의 성능 향상에 대한 연구)

  • 구명완
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.51-55
    • /
    • 1998
  • 한국통신이 개발하여 현재 700-3000번으로 서비스되고 있는 음성 인식 증권정보시스템을 소개하고, 음성인식 성능을 향상시키기 위한 한국통신의 연구현황을 기술하고자 한다. 현재 운용중에 있는 서비스 시스템은 120명이 동시에 사용할 수 있는 시스템이며 S/W 와 H/W를 분리시켜 S/W의 버전을 갱신하더라고 H/W의 변경이 최소화 되도록 설계되었다. 현재 고려하고 있는 성능 향상 방법은 연속음성 인식 기술을 이용하여 고립단어 인식을 시도하는 것과 거절기능 구현 및 tied-state에 의한 문맥종속 음소를 구하는 것이다. 또한 연속 HMM 모델 방식으로의 변경도 연구중에 있다.

  • PDF

Analyzing the Phenomena of Hate in Korea by Text Mining Techniques (텍스트마이닝 기법을 이용한 한국 사회의 혐오 양상 분석)

  • Hea-Jin, Kim
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.56 no.4
    • /
    • pp.431-453
    • /
    • 2022
  • Hate is a collective expression of exclusivity toward others and it is fostered and reproduced through false public perception. This study aims to explore the objects and issues of hate discussed in our society using text mining techniques. To this end, we collected 17,867 news data published from 1990 to 2020 and constructed a co-word network and cluster analysis. In order to derive an explicit co-word network highly related to hate, we carried out sentence split and extracted a total of 52,520 sentences containing the words 'hate', 'prejudice' and 'discrimination' in the preprocessing phase. As a result of analyzing the frequency of words in the collected news data, the subjects that appeared most frequently in relation to hate in our society were women, race, and sexual minorities, and the related issues were related laws and crimes. As a result of cluster analysis based on the co-word network, we found a total of six hate-related clusters. The largest cluster was 'genderphobic', accounting for 41.4% of the total, followed by 'sexual minority hatred' at 28.7%, 'racial hatred' at 15.1%, 'selective hatred' at 8.5%, 'political hatred' accounted for 5.7% and 'environmental hatred' accounted for 0.3%. In the discussion, we comprehensively extracted all specific hate target names from the collected news data, which were not specifically revealed as a result of the cluster analysis.

A Study on the Preprocessing for Manchu-Character Recognition (만주문자 인식을 위한 전처리 방법에 관한 연구)

  • Choi, Minseok;Lee, Choong-Ho
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.14 no.2
    • /
    • pp.90-94
    • /
    • 2013
  • Research for Manchu character digitalization is at an early stage. This paper proposes a preprocessing algorithm for Manchu character recognition. This algorithm improves the existing Hilditch thinning algorithm so that it corrects thinning error for Manchu characters. The existing algorithm separates the characters into the left-hand side and right-hand side, while our alogorithm uses the central point between the points that strokes exist when it classifies each of characters. The experimentation results show that this method is valid for thinning and classification of Manchu characters.

Automatic Keyword Extraction System for Korean Documents Information Retrieval (국내(國內) 문헌정보(文獻情報) 검색(檢索)을 위한 키워드 자동추출(自動抽出) 시스템 개발(開發))

  • Yae, Yong-Hee
    • Journal of Information Management
    • /
    • v.23 no.1
    • /
    • pp.39-62
    • /
    • 1992
  • In this paper about 60 auxiliary words and 320 stopwords are selected from analysis of sample data, four types of stop word are classified left, right and - auxiliary word truncation & normal. And a keyword extraction system is suggested which undertakes efficient truncation of auxiliary word from words, conversion of Chinese word to Korean and exclusion of stopword. The selected keyeords in this system show 92.2% of accordance ratio compared with manually selected keywords by expert. And then compound words consist of $4{\sim}6$ character generate twice of additional new words and 58.8% words of those are useful as keyword.

  • PDF

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.

DaHae: Japanese Morphological Analyzer for Japanese to Korean Machine Translation (DaHae: 일한 기계번역을 위한 일본어 형태소 분석기)

  • Yuh, Sang-Hwa;Jung, Han-Min;Chang, Won;Kim, Tae-Wan;Hwang, Do-Sam;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.195-207
    • /
    • 1995
  • 일본어는 한자, 히라가나, 가다가나 등 다양한 종류의 문자를 사용하며 이들의 혼용 비율이 매우 높아 띄어쓰기를 하지 않아도 문서의 가독성을 유지한다. ICOT 사전, EDR 사전, ATLAS I/JK사전 등 기존의 전자 사전에서 복합 자종의 표제어가 차지하는 비율(한자+히라가나의 표제어 제외)은 평균 8.8%로 그 수가 매우 작다. 따라서, 문장 내에서 자종의 변화는 단어를 구분하는 하나의 delimiter로 이용될 수 있다. 본 시스템에서는 형태소 분석의 전단계로 전처리기를 두어 자종정보(character type information)에 의한 fragment 분리 및 예외 단어, 정형표현 처리를 수행하며 각 fragment 의 형태소 분석 방법을 제시한다. 형태소 분석기는 전처리기의 처리 결과를 입력받아 각각의 fragment를 전처리기가 제시한 분석 방법에 따라 분석하여 입력 문장의 가능한 모든 분석을 추출한다. 이 방법은 불필요한 사전 탐색과 접속 체크 회수를 줄여 분석 성능을 향상시킨다.

  • PDF