• 제목/요약/키워드: Korean morphological analyzer

검색결과 116건 처리시간 0.027초

국내외산 판상엽 구성물질의 형태적 특성 비교 (Analysis of Reconstituted Tobacco Products by Characterizing Morphological Properties of Major Structure Materials)

  • 성용주;한영림;김삼곤;김근수;주정현;송태원
    • 한국연초학회지
    • /
    • 제27권2호
    • /
    • pp.189-194
    • /
    • 2005
  • The morphological properties of various structure materials of domestic and foreign reconstituted tobacco products(RTP) were investigated by using the Bauer-McNett classifier and the image analyzer. The results of the fiber classification showed the fraction of the bigger size structure materials was larger in a domestic RTP than that in two foreign RTPs. In case of fine fraction, the domestic RTP had bigger fine fraction than two foreign RTPs. Images of each structure materials showed the scrap in the foreign RTPs kept the original shape which were rare in the domestic RTP fractions. Those results deduced that the raw materials in a foreign RTP process might be treated separately depending on the mechanical and morphological properties, which could reduce the amount of fine generation and increase the efficiency in raw material treatment.

국한문 혼용 텍스트 색인어 추출기법 연구 『시사총보』를 중심으로 (An Experimental Approach of Keyword Extraction in Korean-Chinese Text)

  • 정유경;반재유
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.7-19
    • /
    • 2019
  • 본 연구는 국한문 혼용 텍스트를 대상으로 한글 형태소 분석 기법과 한문 어조사를 반영한 색인어 추출기법을 제안하였다. 국한문 혼용체로 작성된 『시사총보』 논설을 대상으로 해당 시기에 사용된 고유명사 및 한자어 사전을 보완하였으며 한자어 불용어 리스트를 고려하여 색인어를 추출하였다. 본 연구에서 제안한 국한문 색인 시스템은 수작업 색인 결과를 기준으로, 중국어형태소 분석기에 비해 재현율과 정확률 측면에서 상대적으로 높은 성능을 보였으며, 어문법이 확립되지 않은 근현대 시기의 국한문 혼용체를 대상으로 한 첫 번째 색인어 추출기법을 제안하였다는 데에서 연구의 차별점이 있다.

정자의 형태학적 특성 분석에 관한 연구 (A Study on the Morphological Analysis of Sperm)

  • 백재승;전성수;김수웅;이원진;박광석
    • Clinical and Experimental Reproductive Medicine
    • /
    • 제24권2호
    • /
    • pp.153-165
    • /
    • 1997
  • In male reproducible health, fertility and IVF (in-vitro fertilization), semen analysis has been most important. Semen analysis can be divided into concentration, motional and morphological analysis of sperm. The existing method which was developed earlier to analyze semen concentrated on the sperm motility analysis. To provide more useful and precise solutions for clinical problems such as infertility, semen analysis must include sperm morphological analysis. But the traditional tools for semen analysis are subjective, imprecise, inaccurate, difficult to standardize, and difficult to reproduce. Therefore, with the help of development of microcomputers and image processing techniques, we developed a new sperm morphology analyzer to overcome these problems. In this study the agreement on percent normal morphology was studied between different observers and a computerized sperm morphology analyzer on a slide-by-slide basis using strict criteria. Slides from 30 different patients from the SNUH andrology laboratory were selected randomly. Microscopic fields and sperm cells were chosen randomly and percent normal morphology was recorded. The ability of sperm morphology analyzer to repeat the same reading for normal and abnormal cells was studied. The results showed that there was no significant bias between two experienced observers. The limits of agreement were 4.1%${\sim}$-3.8%. The Pearson correlation coefficient between readers was 0.79. Between the manual and sperm morphology analyzer, the same findings were reported. In this experiments the slides were stained by two different methods, PAP and Diff-Quik staining methods. The limits of agreement were 7.2%${\sim}$-5.7% and 6.0%${\sim}$-6.3%, respectively. The Pearson correlation coefficients ware 0.76 and 0.91, respectively. The limits of agreement was tighter below 20% normal forms. In the experiments of repeatability, 52 cells stained by PAP and Diff-Quik staining methods were analyzed three times in succession. Estimating pairwise agreement, the kappa statistic for the pairs were 0.76, 0.81, 0.86, and 0.75, 0.88, 0.88 respectively. In this study it was shown that there was good agreement between manual and computerized assessment of normal and abnormal cells. The repeatability and agreement per slide of computerized sperm morphology analyzer was excellent. The computer's ability to classify normal morphology per slide is promising. Based on results obtained, this system can be of clinical value both in andrology laboratories and IVF units.

  • PDF

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

Analyzer to Identify Phrases and the Functional Roles in Sentences: Its Architectural Aspects

  • Alam, Yukiko Sasaki
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.67-75
    • /
    • 2007
  • This paper presents the architectural aspects of the phrase analyzer that attempts to recognize phrases and identify the functional roles in the sentences in formal Japanese documents. Since the object of interest is a phrase, the current system, designed in an object-oriented architecture, contains the Phrase class, and makes use of the linguistic generalization about languages with Case markers that a phrase, whether a noun phrase, a verb phrase, a postposition (or preposition) phrase or a clause phrase, can be separated into the content and the function components. Without a dictionary, and drawing on the orthographic information on the words to parse, it also contains a class that identifies the types of characters, a class representing grammar, and a class playing the role of a controller. The system has a simple and intuitive structure, externally and internally, and therefore is easy to modify and extend.

  • PDF

A Rule-Based Analysis from Raw Korean Text to Morphologically Annotated Corpora

  • Lee, Ki-Yong;Markus Schulze
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.105-128
    • /
    • 2002
  • Morphologically annotated corpora are the basis for many tasks of computational linguistics. Most current approaches use statistically driven methods of morphological analysis, that provide just POS-tags. While this is sufficient for some applications, a rule-based full morphological analysis also yielding lemmatization and segmentation is needed for many others. This work thus aims at 〔1〕 introducing a rule-based Korean morphological analyzer called Kormoran based on the principle of linearity that prohibits any combination of left-to-right or right-to-left analysis or backtracking and then at 〔2〕 showing how it on be used as a POS-tagger by adopting an ordinary technique of preprocessing and also by filtering out irrelevant morpho-syntactic information in analyzed feature structures. It is shown that, besides providing a basis for subsequent syntactic or semantic processing, full morphological analyzers like Kormoran have the greater power of resolving ambiguities than simple POS-taggers. The focus of our present analysis is on Korean text.

  • PDF

형태소 분석기를 이용한 키워드 검색 기반 한국어 텍스트 명령 시스템 (Keyword Retrieval-Based Korean Text Command System Using Morphological Analyzer)

  • 박대근;이완복
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.159-165
    • /
    • 2019
  • 딥러닝을 기반으로 한 음성 인식 기술이 상용 제품에 적용되기 시작했지만, 음성 인식으로 분석된 텍스트를 효율적으로 처리할 방법이 없기 때문에 VR 컨텐츠에서 그 적용 예를 찾아 보기는 쉽지 않다. 본 논문은 문장의 형태소를 분석하는 형태소 분석기와 챗봇 개발에 주로 이용되는 검색 기반 모델(Retrieval-Based Model)을 활용하여 명령어를 효율적으로 인식하고 대응할 수 있는 한국어 텍스트 명령 시스템을 제안하는 것을 목적으로 한다. 실험 결과 제안한 시스템은 문자열 비교 방식과 같은 동작을 하기 위해 16%의 명령어만 필요했으며, Google Cloud Speech와 연동하였을 때 60.1%의 성공률을 보였다. 실험 결과를 통해 제안한 시스템이 문자열 비교 방식보다 효율적이라는 것을 알 수 있다.

TV 자막 신호를 이용한 한글 수화 발생 시스템의 개발 (Development of Korean Sign Language Generation System using TV Caption Signal)

  • 김대진;김정배;장원;변증남
    • 전자공학회논문지CI
    • /
    • 제39권5호
    • /
    • pp.32-44
    • /
    • 2002
  • 본 논문에서는 TV 자막 신호를 이용한 한글 수화 발생 시스템을 다룬다. TV 자막 방송 프로그램에 포함된 자막 신호는 자막 신호 복호화기(Caption Decoder)를 이용하여 PC로 전송된 후, 한글 수화의 특성에 적합하게 개발된 형태소 분석기를 통하여 의미 있는 단위로 나누어 진다. 분석된 형태소는 3차원 수화 애니메이션 데이터로 변환되어 3차원 한글 수화 발생기를 통하여 시각적으로 표현된다. 특히, 실시간 처리가 가능하도록 각종 전처리 기법들에 기반한 형태소 분석기를 제안하였다. 개발된 시스템은 실제 자막 방송 프로그램에 적용되어 그 유용성을 검증하였으며 실제 농아인들의 사용에 의하여 그 실용성을 검증하였다.

기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅 (Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning)

  • 최맹식;김학수
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.45-50
    • /
    • 2011
  • 한국어 형태소 분석에서 미등록 형태소 오류들은 2가지 유형으로 나뉜다. 첫 번째 오류 유형은 형태소 분석기가 어떤 형태소열도 찾아내지 못하는 것이고, 두 번째 오류 유형은 등록 형태소들의 잘못된 조합을 찾아내는 것이다. 지금까지 대부분의 기존 미등록 형태소 추정 기술들은 단지 첫 번째 오류 유형에만 초점을 맞추어 왔다. 본 논문에서는 2가지 유형의 오류들의 모두 다룰 수 있는 미등록 형태소 추정 방법을 제안한다. 제안 방법은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출한다. 그리고 CRFs(Conditional Random Fields)를 이용하여 검출된 어절들의 형태소 분리와 품사 태깅을 수행한다. 실험에서 제안 방법은 기능어 최장 일치 기반의 전형적인 방법보다 뛰어난 성능을 보였다. 실험 결과에 기초하여 미등록 형태소 오류의 두 번째 유형이 한국어 형태소 분석의 성능을 올리기 위해서 꼭 다루어져야 한다는 것을 알 수 있었다.