• 제목/요약/키워드: Korean morphological analyzer

검색결과 116건 처리시간 0.022초

엔터테인먼트 데이터를 위한 자연어 검색시스템 (A Natural Language Retrieval System for Entertainment Data)

  • 김정인
    • 한국멀티미디어학회논문지
    • /
    • 제18권1호
    • /
    • pp.52-64
    • /
    • 2015
  • Recently, as the quality of life has been improving, search items in the area of entertainment represent an increasing share of the total usage of Internet portal sites. Information retrieval in the entertainment area is mainly depending on keywords that users are inputting, and the results of information retrieval are the contents that contain those keywords. In this paper, we propose a search method that takes natural language inputs and retrieves the database pertaining to entertainment. The main components of our study are the simple Korean morphological analyzer using case particle information, predicate-oriented token generation, standardized pattern generation coherent to tokens, and automatic generation of the corresponding SQL queries. We also propose an efficient retrieval system that searches the most relevant results from the database in terms of natural language querying, especially in the restricted domain of music, and shows the effectiveness of our system.

플러그인 컴포넌트 기반의 한국어 형태소 분석기 (A Plug-In Component-based Korean Morphological Analyzer)

  • 박상원;최동현;김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-201
    • /
    • 2010
  • 지식/정보 서비스의 수준이 급격히 발전함에 따라 기반 기술인 자연언어처리의 중요성이 증가했고, 또 여러 분야에서 다양한 목적에 부합하는 자연언어처리 도구를 필요로 하고 있다. 한국어 자연언어처리 기반 기술 중에서 형태소 분석은 기초적이면서도 중요한 분석 단계이다. 하지만 현재까지 개발된 한국어 형태소 분석기들은 대부분 특정 시스템에 맞게 최적화되어 실행 효율성과 정확성을 높이는데 중점을 두고 있다. 이러한 도구들은 접근성과 확장성이 떨어지고 다양한 요구에 유언하게 대처할 수 없는 단점이 있다. 따라서 본 논문에서는 플러그인 형태의 한국어 형태소 분석 컴포넌트들을 이용하여 유연하게 워크플로를 구성하고 다양한 목적에 맞게 활용할 수 있도록 지원하는 한국어 형태소 분석 시스템을 제안한다. 이번 연구를 통해서 보다 많은 사람들이 형태소 분석 기술에 쉽게 접근하고 활용하여, 한국어 분석 기반 기술 및 용용 기술이 더욱 발전 할 수 있을 것으로 기대한다.

  • PDF

호르몬 결핍이 척추체에 미치는 영향 평가: 골의 구조학적 및 질적 요소 분석 (Evaluation of Hormone Deficiency in Vertebral Body: Analysis of Bone Structure and Quality)

  • 김치훈;우대곤;박지형;이법이;김지현;김한성
    • 한국정밀공학회지
    • /
    • 제27권5호
    • /
    • pp.92-101
    • /
    • 2010
  • This study evaluated the structure and quality of osteoporotic vertebral bone. To induce osteoporosis, eight rats were ovariectomized (OVX). All rats were divided into two groups (Normal group: 4, OVX group: 4). Total lumbar vertebrae for each rat were scanned by in-vivo ${\mu}CT$ at 0, 4 and 8 weeks. Morphological characteristics (BV/TV, Tb.Th, Tb.N, Tb.Sp and SMI) were calculated by in-vivo ${\mu}CT$ image analyzer. Three dimensional finite element models were analyzed to investigate bone strength of OVX and Normal groups. Moreover, the elastic modulus was quantitatively analyzed to evaluate the quality changes of osteoporotic bone. In the OVX group, BV/TV, Tb.Th and Tb.N were significantly decreased at all the lumbar over time (p<0.05). We also investigated a contrary tendency in Tb.Sp and SMI, compared to the above results in each group. A degree of alteration of mechanical characteristics in OVX group was decreased over measuring time (p<0.05). Bone quality presented by distribution of elastic modulus was improved in the Normal group more than OVX group. The findings of the present study indicated that both bone structure and quality of whole lumbar could be tracked and detected by analyzing the morphological and biomechanical characteristics of bones, based on a nondestructive method.

형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형 (A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging)

  • 이승욱;이도길;임해창
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권7호
    • /
    • pp.11-18
    • /
    • 2008
  • 한국어 형태소 분석은 일반적으로 입력된 문장의 분석 후보를 다수 생성한 후, 그 중 최적의 후보를 선택하는 과정을 거친다. 분석 후보를 많이 생성할수록 올바른 분석이 포함될 가능성이 높아지지만 동시에 모호성이 증가한다는 문제가 생긴다. 이를 해결하기 위해 본 논문은 단일 후보를 생성하는 규칙 기반 분석 모형을 제안한다. 분석 규칙은 품사 부착 말뭉치를 통해 자동으로 추출되기 때문에 규칙 구축비용을 필요로 하지 않을 뿐만 아니라 높은 분석성공률을 보인다. 분석이 성공한 경우에는 단 하나의 분석 후보만을 생성하기 때문에 최적 후보 선택 단계에서의 모호성이 효과적으로 감소되고, 계산 복잡도 역시 줄어든다. 규칙 모형으로 분석이 실패한 경우를 대비해 기존 확률 기반 모형을 결합함으로써 형태소 분석 성능을 향상시킬 수 있다.

  • PDF

모바일 환경을 고려한 규칙기반 음성인식 오류교정 (Rule-based Speech Recognition Error Correction for Mobile Environment)

  • 김진형;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.25-33
    • /
    • 2012
  • 본 논문에서는 모바일 환경에서 음성인식한 결과에 포함된 오류를 교정하는 규칙기반 접근방법을 제안한다. 제안하는 방법은 처리시간이나 메모리에 제약을 받는 모바일 환경을 고려하여 다음과 같이 구성된다. 오류 교정 속도를 최소화하기 위해서, 음절 해체 및 조합 과정이나 형태소 분석 등의 처리를 줄이고, 최장일치 규칙 선택기준을 바탕으로 오류 발생 추정 지점에서 교정 후보도 하나만 생성한다. 제안하는 방법은 메모리를 효율적으로 사용하기 위해서, 어절사전이나 형태소분석기를 사용하지 않고, 규칙도 유형별로 따로 구분하지 않고 통합하여 저장한다. 제안하는 방법은 모델의 수정 및 유지보수가 용이하도록, 오류교정규칙을 학습말뭉치에서 자동으로 추출하여 구축한다. 실험결과 제안하는 방법은 음성인식 결과에 대하여 정확률을 5.27% 정도 재현율을 5.60% 정도 개선하였다.

DaHae: 일한 기계번역을 위한 일본어 형태소 분석기 (DaHae: Japanese Morphological Analyzer for Japanese to Korean Machine Translation)

  • 여상화;정한민;장원;김태완;황도삼;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-207
    • /
    • 1995
  • 일본어는 한자, 히라가나, 가다가나 등 다양한 종류의 문자를 사용하며 이들의 혼용 비율이 매우 높아 띄어쓰기를 하지 않아도 문서의 가독성을 유지한다. ICOT 사전, EDR 사전, ATLAS I/JK사전 등 기존의 전자 사전에서 복합 자종의 표제어가 차지하는 비율(한자+히라가나의 표제어 제외)은 평균 8.8%로 그 수가 매우 작다. 따라서, 문장 내에서 자종의 변화는 단어를 구분하는 하나의 delimiter로 이용될 수 있다. 본 시스템에서는 형태소 분석의 전단계로 전처리기를 두어 자종정보(character type information)에 의한 fragment 분리 및 예외 단어, 정형표현 처리를 수행하며 각 fragment 의 형태소 분석 방법을 제시한다. 형태소 분석기는 전처리기의 처리 결과를 입력받아 각각의 fragment를 전처리기가 제시한 분석 방법에 따라 분석하여 입력 문장의 가능한 모든 분석을 추출한다. 이 방법은 불필요한 사전 탐색과 접속 체크 회수를 줄여 분석 성능을 향상시킨다.

  • PDF

FreeWAIS-sf의 분석 및 한글화 (Analysis and Localization of freeWAIS-sf)

  • 오정석;김지승;이준호;이상호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권5호
    • /
    • pp.611-618
    • /
    • 1999
  • 원하는 정보에 대한 빠르고 정확한 접근은 정보화 사회를 살아가는 현대인들에게 성공의 여부를 결정짓는 중요한 요소가 되었다. 지금까지 대용량의 문서를 효율적으로 검색할 수 있는 정보 검색 시스템에 관한 많은 개발이 이루어져 왔다. 그러나, 연구용으로 자유롭게 이용될 수 있는 시스템들의 대부분이 영문 정보 검색 시스템으로 국한되어 있으며, 한영 혼용 정보 검색 시스템의 개발은 미흡한 실정이다. 본 연구에서는 영문 정보 검색 시스템 freeWAIS-sf를 분석하고, 한글 형태소 분석기 HAM을 이용하여 freeWAIS-sf를 한글화하였다. 또한 freeWAIS-sf의 가중치 기법을 변경하고, 변경된 가중치 기법이 보다 높은 검색 효과를 제공함을 실험을 통하여 입증하였다.

트랜스포머를 이용한 향상된 댓글 생성에 관한 연구 (A Study on Improved Comments Generation Using Transformer)

  • 성소윤;최재용;김경철
    • 한국게임학회 논문지
    • /
    • 제19권5호
    • /
    • pp.103-114
    • /
    • 2019
  • 온라인 커뮤니티 안에서 다른 사용자들의 글에 반응할 수 있는 딥러닝 연구를 2017년부터 진행해 왔으나, 한국어의 조사와 같은 특성으로 인한 단어처리의 어려움과 RNN 모델의 특성으로 인한 GPU 사용률 저조 문제로 인해 적은 양의 데이터로 학습을 제한해야 했다. 하지만 최근 자연어 처리 분야의 급격한 발전으로 이전보다 뛰어난 모델들이 등장함에 따라 본 연구에서는 이러한 발전된 모델을 적용해 더 나은 학습 결과를 생성해 내는 것을 목표로 한다. 이를 위해 셀프-어텐션 개념이 적용된 트랜스포머모델을 도입했고 여기에 한국어 형태소 분석기 MeCab을 적용해 단어처리의 어려움을 완화했다.

형태소 분석기의 어휘적 중의성 해결에 관한 연구 (A Study on Lexical Ambiguity Resolution of Korean Morphological Analyzer)

  • 박용욱
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.783-787
    • /
    • 2012
  • 한 어절을 중심으로 검사가 이루어지는 맞춤법 검사는 문맥상 어울리지 않는 단어로 인하여 생기는 오류는 찾기 어렵다. 맞춤법 검사기는 현재 어절 단위로 오류 여부를 판단하는 것이기 때문에 어휘적 중의성을 고려하지 않아도 된다. 그러나 문법 검사기는 문장 분석을 해야 하므로 어휘적 중의성을 제거하지 않고는 정확한 검사가 어렵다. 본 논문에서는 어휘적 중의성을 해결하기 위하여 몇 가지 규칙을 만들고 이를 활용하여 문장에 존재하는 어휘적 중의성을 해결할 수 있는 방법을 보인다. 또한 실험을 통하여 그 결과를 분석하였다.

부분어절 조건부확률 기반 동형이의어 태깅 모델 (Korean Homograph Tagging Model based on Sub-Word Conditional Probability)

  • 신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권10호
    • /
    • pp.407-420
    • /
    • 2014
  • 한국어 형태소 분석 및 태깅은 크게 2가지 단계로 나뉜다. 첫 번째 단계는 어절을 분석하여 후보들을 생성하는 것으로, 여러 의미를 가진 어절은 이 단계에서 다양한 후보들이 생성된다. 두 번째는 문맥 정보를 이용하여 후보 중에 가장 적절한 하나를 선택하는 단계로, 흔히 태깅이라 한다. 일반적으로 두 번째 단계에서는 은닉 마르코프 모델(Hidden Markov Model, 이하 HMM)을 자주 사용하지만, 본 논문에서는 처리속도를 향상시킨 부분어절 조건부확률 모델을 제안한다. 이 모델은 우선적으로 인접 어절 정보를 이용하여 현재 처리 중인 어절의 의미를 결정하고, 예외적으로 용언이 인접한 경우에만 후보 정보의 극히 일부분을 이용한다. 실험 결과 정확률은 HMM의 96.49%보다 0.07% 낮았지만, 처리 소요 시간을 약 53% 감소시켰다.