• 제목/요약/키워드: Morphological Analyzer

검색결과 146건 처리시간 0.023초

A Rule-Based Analysis from Raw Korean Text to Morphologically Annotated Corpora

  • Lee, Ki-Yong;Markus Schulze
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.105-128
    • /
    • 2002
  • Morphologically annotated corpora are the basis for many tasks of computational linguistics. Most current approaches use statistically driven methods of morphological analysis, that provide just POS-tags. While this is sufficient for some applications, a rule-based full morphological analysis also yielding lemmatization and segmentation is needed for many others. This work thus aims at 〔1〕 introducing a rule-based Korean morphological analyzer called Kormoran based on the principle of linearity that prohibits any combination of left-to-right or right-to-left analysis or backtracking and then at 〔2〕 showing how it on be used as a POS-tagger by adopting an ordinary technique of preprocessing and also by filtering out irrelevant morpho-syntactic information in analyzed feature structures. It is shown that, besides providing a basis for subsequent syntactic or semantic processing, full morphological analyzers like Kormoran have the greater power of resolving ambiguities than simple POS-taggers. The focus of our present analysis is on Korean text.

  • PDF

Information Retrieval Systems: Between Morphological Analyzers and Systemming Algorithms

  • Mohamed, Afaf Abdel Rhman;Ouni, Chafika;Eljack, Sarah Mustafa;Alfayez, Fayez
    • International Journal of Computer Science & Network Security
    • /
    • 제22권3호
    • /
    • pp.375-381
    • /
    • 2022
  • The main objective of an Information Retrieval System (IRS) is to obtain suitable information within a reasonable time to satisfy a user need. To achieve this purpose, an IRS should have a good indexing system that is based on natural language processing.In this context, we focus on the available Arabic language processing techniques for an IRS with the goal of contributing to an improvement in the performance. Our contribution consists of integrating morphological analysis into an IRS in order to compare the impact of morphological analysis with that of stemming algorithms.

문자 인식 후처리를 위한 형태소 분석기와 문자 교정기의 구현 (Implementation of morphologica analyzer and spelling corrector for charcter recognition post-processing)

  • 이영화;김규성;김영훈;이상조
    • 전자공학회논문지C
    • /
    • 제34C권5호
    • /
    • pp.82-92
    • /
    • 1997
  • In this paper, we propose post-rpocessing method that corrects a misrecognized character by generated a characater recognizer using morphological analyzer and spelling corrector. The proposed post-processing consists of sthree phases : First, our method pass through morhological analyzer which only outputted necessary information for spelling correcting, doesn't analyze a bundle of phrases, and detects the location of misrecognized character. Second, tagging the generated candidate character using the information of character substitution table and grapheme substitution/separating table. Then we retry analysis after the misrecognition character has been substituted. Finally we select table, we investigate misrecognized charcters in CORPUS. Reliability analysis used to frequency of randomly selected about 100,000 words in CORPUS. A korean character recognizer demonstrates 93% correction rate without a post-processing. The entire recognition rate of our system with a post-processing exceeds 97% correction rate.

  • PDF

TV 자막 신호를 이용한 한글 수화 발생 시스템의 개발 (Development of Korean Sign Language Generation System using TV Caption Signal)

  • 김대진;김정배;장원;변증남
    • 전자공학회논문지CI
    • /
    • 제39권5호
    • /
    • pp.32-44
    • /
    • 2002
  • 본 논문에서는 TV 자막 신호를 이용한 한글 수화 발생 시스템을 다룬다. TV 자막 방송 프로그램에 포함된 자막 신호는 자막 신호 복호화기(Caption Decoder)를 이용하여 PC로 전송된 후, 한글 수화의 특성에 적합하게 개발된 형태소 분석기를 통하여 의미 있는 단위로 나누어 진다. 분석된 형태소는 3차원 수화 애니메이션 데이터로 변환되어 3차원 한글 수화 발생기를 통하여 시각적으로 표현된다. 특히, 실시간 처리가 가능하도록 각종 전처리 기법들에 기반한 형태소 분석기를 제안하였다. 개발된 시스템은 실제 자막 방송 프로그램에 적용되어 그 유용성을 검증하였으며 실제 농아인들의 사용에 의하여 그 실용성을 검증하였다.

기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅 (Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning)

  • 최맹식;김학수
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.45-50
    • /
    • 2011
  • 한국어 형태소 분석에서 미등록 형태소 오류들은 2가지 유형으로 나뉜다. 첫 번째 오류 유형은 형태소 분석기가 어떤 형태소열도 찾아내지 못하는 것이고, 두 번째 오류 유형은 등록 형태소들의 잘못된 조합을 찾아내는 것이다. 지금까지 대부분의 기존 미등록 형태소 추정 기술들은 단지 첫 번째 오류 유형에만 초점을 맞추어 왔다. 본 논문에서는 2가지 유형의 오류들의 모두 다룰 수 있는 미등록 형태소 추정 방법을 제안한다. 제안 방법은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출한다. 그리고 CRFs(Conditional Random Fields)를 이용하여 검출된 어절들의 형태소 분리와 품사 태깅을 수행한다. 실험에서 제안 방법은 기능어 최장 일치 기반의 전형적인 방법보다 뛰어난 성능을 보였다. 실험 결과에 기초하여 미등록 형태소 오류의 두 번째 유형이 한국어 형태소 분석의 성능을 올리기 위해서 꼭 다루어져야 한다는 것을 알 수 있었다.

인접 조건 검사에 의한 초고속 한국어 형태소 분석 (High Speed Korean Morphological Analysis based on Adjacency Condition Check)

  • 심광섭;양재형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권1호
    • /
    • pp.89-99
    • /
    • 2004
  • 본 논문에서는 코드 변환 과정과 축약, 탈락, 불규칙 활용 둥으로 변형된 형태소의 원형을 복원하고 분석 후보를 생성하는 등의 과정을 거치지 않고 형태소 사전에서 제공되는 인접 조건에 대한 검사만으로 형태소 분석을 하는 방법을 제안한다. 인접 조건 검사는 복잡한 연산을 하지 않고 단순한 비트 연산만으로 할 수 있기 때문에 제안된 방법은 초고속 형태소 분석기 구현에 적합하다. 본 논문에서 제안한 방법에 따라 구현된 한국어 형태소 분석기 MACH는 1.13 GHz Pentium III 개인용 컴퓨터에서 대략 5분/GB의 분석 속도를 보였으며, 분석 정확도는 99.2 %로 기존의 다른 분석기와 큰 차이가 없었다.

명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법 (An Efficient Method for Korean Noun Extraction Using Noun Patterns)

  • 이도길;이상주;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.173-183
    • /
    • 2003
  • 형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 잃는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고. 명사 접미 음절열은 바로 알에 있는 병사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복인 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 덕 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다.

오류에 기반한 복합명사 좌우접속규칙 사전 구축 (Error-driven Noun-Connection Rule Extraction for Morphological Analysis)

  • 이공주;이성욱
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제36권8호
    • /
    • pp.1123-1128
    • /
    • 2012
  • 본 연구의 목적은 한국어 형태소 분석기의 복합명사 분석에 이용할 수 있는 좌우접속규칙을 오류 정보를 이용하여 구축하는 것이다. 우리는 복합명사를 웹사이트로부터 수집하였고 CnuMa 형태소분석기를 이용하여 형태소를 분석하였다. 오류가 발견되면 그 오류를 수정할 수 있는 명사 접속 규칙을 구축하였으며, 명사 좌우 접속 규칙은 복합명사내의 좌우 문맥을 고려하여 작성되었다. 오류에 기반한 좌우접속규칙은 한국어 형태소 분석기인 CnuMa 형태소분석기의 정확률과 재현율을 각각 2.8%, 10.8% 향상시켰다.

증발-응축법에 의해 발생된 은(silver) 나노입자의 구조제어 및 전기적 부착 특성 연구 (Morphological control and electrostatic deposition of silver nanoparticles produced by condensation-evaporation method)

  • 김휘동;안지영;김수형
    • 한국입자에어로졸학회지
    • /
    • 제5권2호
    • /
    • pp.83-90
    • /
    • 2009
  • This paper describes a condensation-evaporation method (CEM) to produce size-controlled spherical silver nanoparticles by perturbing coagulation and coalescence processes in the gas phase. Polydisperse silver nanoparticles generated by the CEM were first introduced into a differential mobility analyzer (DMA) to select a group of silver nanoparticles with same electrical mobility, which also enables to make a group of nanoparticles with elongated structures and same projected area. These silver nanoparticles selected by the DMA were then in-situ sintered at ${\sim}600^{\circ}C$, and then they were observed to turn into spherical shaped nanoparticles by the rapid coalescence process. With the assistance of modified converging-typed quartz reactor, we can also produce the 10 times higher number concentration of silver nanoparticles compared with a general quartz reactor with uniform diameter. Finally, the spherical silver nanoparticles with 30 nm were electrostatically deposited on the surface of silicon substrate with the coverage rate of ~4%/hr. This useful preparation method of size-controlled monodisperse silver nanoparticles developed in this work can be applied to the various studies for characterizing the physical, chemical, optical, and biological properties of nanoparticles as a function of their size.

  • PDF

판상엽 고해조건에 따른 섬유특성 변화 평가 (Characteristic Change of Fiber Depending on the Refining Conditions of Reconstituted Tobacco Process)

  • 한영림;성용주;김삼곤;김근수;하인호
    • 한국연초학회지
    • /
    • 제27권2호
    • /
    • pp.195-200
    • /
    • 2005
  • The goal of refining is to treat fibers so they meet the requirements of the papermaking process. The refining process in papermaking has great influence on the quality of the final product by changing the fiber properties, such as fiber length, shape, fine contents and so on. In this study, the effect on the morphological change of fibers by the refining conditions were investigated using the fiber morphology analyzer. Fiber morphology analyzer used to determine which pulps are suitable for producing particular products. Furthermore it is widely used in paper mills to monitor paper quality. The morphological change of fibers according to refining conditions were evaluated out by measuring fiber, shive and fine. In the fiber morphology, the domestic reconstituted tobacco fiber has the bigger average fiber length value than that of the foreign reconstituted tobacco.