• Title/Summary/Keyword: 품사태깅

Search Result 152, Processing Time 0.035 seconds

English-to-Korean Machine Translation System for Air Force Intelligence : ALKOL (공군 정보 영한 기계번역 시스템 : ALKOL)

  • Lee, Hyun-Ah;Lim, Chul-Su;Choi, Myung-Seok;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.315-322
    • /
    • 2000
  • 본 논문에서는 공군 정보 번역을 위한 영한 기계번역 시스템 ALKOL에 대해서 소개한다. ALKOL은 어휘화된 규칙에 기반한 번역 시스템으로, 어휘화된 규칙은 어휘-분석-변환-생성의 네 단계의 정보가 연결된 형태로 사전에 저장된다. 이와 같은 사전 구조에 의해 번역 과정의 효율성을 높일 수 있고, 어휘화된 규칙에 의해 정확하고 자연스러운 번역 결과를 얻을수 있다. ALKOL의 번역 과정은 형태소 분석, 품사 태깅, 분석 전처리, 구문 분석, 변환, 생성의 단계로 이루어진다. 각 단계에서는 전/후처리를 보강하여 실제 번역 환경에서 나타나는 문제들을 해결하고, 하나 이상의 번역 결과를 출력하여 사용자가 원하는 결과를 선택할 수 있게 한다.

  • PDF

Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis (말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

A Study on Method for Extraction of Emotion in Newspaper (신문기사의 감정추출 방법에 관한 연구)

  • Baek, Sun-Kyoung;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.562-564
    • /
    • 2005
  • 정보검색에서의 사용자의 다양한 질의어는 객관적인 키워드에서 인간이 주관적으로 생각하고 느끼는 감정요소를 동반한 어휘들로 범위가 넓어지고 있다. 이에 본 논문에서는 감정에 기반한 신문기사 검색을 위하여 기사의 구문 분석 및 품사 태깅 절차를 거쳐 동사를 추출하고 그 중 감점을 내포하는 동사들의 관계를 이용하여 신문기사의 감정을 추출한다. 감정동사의 관계를 창조하기 위하여 감정동사들을 OWL/RDF(S)를 이용해서 온톨로지를 구축하였고 에지(Edge)기반의 유사도 측정방법을 제안하였다. 제안한 방법은 여러 가지 감정을 추출하고 감정 정도를 측정할 수 있기 때문에 이는 향후 감정기반 신문기사 검색에 효과적으로 사용될 수 있을 것이다.

  • PDF

Spelling Correction in Korean Using the `Eojeol` generation Dictionary (어절 생성 사전을 이용한 한국어 철자 교정)

  • Lee, Yeong-Sin;Park, Yeong-Ja;Song, Man-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.1
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF

BERT with subword units for Korean Morphological Analysis (BERT에 기반한 Subword 단위 한국어 형태소 분석)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.37-40
    • /
    • 2019
  • 한국어 형태소 분석은 입력된 문장 내의 어절들을 지니는 최소의 단위인 형태소로 분리하고 품사 부착하는 작업을 의미한다. 기존 한국어 형태소 분석 방법은 음절 기반 연구가 주를 이루고 이를 순차 태깅 문제로 보고 SVM, CRF혹은 Bi-LSTM-CRF 등을 이용하거나 특정 음절에서 형태소의 경계를 결정하는 전이 기반 모델을 통해 분석하는 모델 등이 연구되었다. 최근 자연어 처리 연구에서 대용량 코퍼스로부터 문맥을 고려한 BERT 등의 언어 모델을 활용한 연구가 각광받고 있다. 본 논문에서는 음절 단위가 아닌 BERT를 이용한 Sub-word 기반 형태소 분석 방법을 제안하고 기분석 사전을 통해 분석하는 과정을 거쳐 세종 한국어 형태소 분석 데이터 셋에서 형태소 단위 F1 : 95.22%, 어절 정확도 : 93.90%의 성능을 얻었다.

  • PDF

A Study on the Integration of Recognition Technology for Scientific Core Entities (과학기술 핵심개체 인식기술 통합에 관한 연구)

  • Choi, Yun-Soo;Jeong, Chang-Hoo;Cho, Hyun-Yang
    • Journal of the Korean Society for information Management
    • /
    • v.28 no.1
    • /
    • pp.89-104
    • /
    • 2011
  • Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

A Korean Mobile Conversational Agent System (한국어 모바일 대화형 에이전트 시스템)

  • Hong, Gum-Won;Lee, Yeon-Soo;Kim, Min-Jeoung;Lee, Seung-Wook;Lee, Joo-Young;Rim, Hae-Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.6
    • /
    • pp.263-271
    • /
    • 2008
  • This paper presents a Korean conversational agent system in a mobile environment using natural language processing techniques. The aim of a conversational agent in mobile environment is to provide natural language interface and enable more natural interaction between a human and an agent. Constructing such an agent, it is required to develop various natural language understanding components and effective utterance generation methods. To understand spoken style utterance, we perform morphosyntactic analysis, shallow semantic analysis including modality classification and predicate argument structure analysis, and to generate a system utterance, we perform example based search which considers lexical similarity, syntactic similarity and semantic similarity.

  • PDF

Another Choice for Parsing : Using Syntactic Morpheme (파싱을 위한 선택 : 구문 형태소의 이용)

  • Hwang, Y.G.;Song, Y.J.;Lee, H.Y.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.249-254
    • /
    • 1999
  • 자연어 분석에서 발생하는 가장 큰 문제점은 분석의 각 단계에서 필요 이상의 모호성이 발생하는 것이다. 이러한 모호성은 각각의 분석 단계에서는 반드시 필요한 결과일 수 있지만 다음 단계의 관점에서는 불필요하게 과생성된 자료로 볼 수 있다. 특히 한국어 형태소 분석 단계는 주어진 문장에 대해 최소의 의미를 가지는 형태소로 분석하기 때문에 과생성된 결과를 많이 만들어 내는데, 이들 대부분이 보조용언이나 의존 명사를 포함하는 형태소열에서 발생한다. 품사 태깅된 코퍼스에서 높은 빈도를 나타내는 형태소들을 분석해 보면 주위의 형태소와 강한 결합 관계를 가지는 것을 발견할 수 있다. 이러한 형태소는 대부분 자립성이 없는 기능형태소로서, 개개의 형태소가 가지는 의미의 합으로 표현되기보다는 문장내에서 하나의 구문 단위로 표현될 수 있다. 본 논문에서는 이 형태소 열을 구문 형태소로 정의하고, 필요한 경우 일반 형태소 해석의 결과를 구문 형태소 단위로 결합하고 이를 바탕으로 구문 해석을 하는 방법을 제안한다. 구문 형태소 단위를 이용하여 구문해석을 수행함으로써, 형태소 해석 결과의 축소를 통해 불필요한 구문 해석 곁과를 배제할 수 있다.

  • PDF

Segmenting Korean Nominal Compounds with an Unknown Morpheme Using Back-off Statistics (백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해)

  • Park, Jae-Han;Kim, Myoung-Sun;Rho, Dae-Wook;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.65-72
    • /
    • 2004
  • 본 논문에서는 백오프 통계 정보를 이용하여 일반적인 복합명사 뿐만 아니라 외래어 미등록어를 포함한 복합명사도 잘 분해하는 방법을 제안한다. 본 시스템은 입력으로 형태소분석기가 내주는 많은 분석 후보들을 받는다. 단음절 명사를 포함한 분석 후보도 포함되므로 입력 분석 후보의 수는 대단히 많게 된다. 본 모듈의 주요 작업은 이 중에서 가장 좋은 분석후보를 선택하는 것이 된다. 미등록어가 포함된 경우 이에 부합되는 분석 후보를 잘 선택하는 시스템의 개발을 목표로 한다. 이를 위해서 본 시스템에서 사용하는 주요 정보는 단어간 어휘 바이그램 통계정보이다. 또한 외래어 미등록어의 인식 정확성을 높이기 위해 음절 바이그램 정보도 이용한다. 통계정보는 대량의 품사 태깅 말뭉치에서 추출하였다. 데이터 부족 문제를 해소하기 위해서 우리는 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 미등록어가 포함된 복합명사의 분석 후보의 수를 줄이기 위한 기술도 연구하였다.

  • PDF

Korean Noun Phrase Identification using Maximum Entropy Method (최대 엔트로피 모델을 이용한 한국어 명사구 추출)

  • Kang, In-Ho;Jeon, Su-Young;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해서될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 실험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF