• 제목/요약/키워드: 품사 태거

Search Result 33, Processing Time 0.019 seconds

Korean Morphological Analyzer and Part-Of-Speech Tagger Based on CYK Algorithm Using Syllable Information (음절단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사태거)

  • Kwon, Oh-Woog;Chung, Yu-Jin;Kim, Mi-Young;Ryu, Dong-Won;Lee, Moon-Ki;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.76-86
    • /
    • 1999
  • 본 논문에서는 포항공과대학교 지식 및 언어공학연구실에서 개발한 한국어 형태소 분석기 및 품사 태거에 대하여 설명한다. 먼저, 음운 축약 현상이 많은 한국어에 적합한 음절단위 CYK 알고리즘을 제안한다. 그리고, 복합명사 및 복합동사에 대한 처리와 실제 문서에서 빈번히 발생하는 띄어쓰기 오류 처리에 대한 방법론을 설명하고 미등록어에 대한 처리 방안을 제시한다. 품사 태거에서 사용된 방법론과 태그 집합간 매핑, 그리고 명사 추출기에 대해 기술한 후 마지막으로 MATEC'99를 위한 준비과정에서 발생한 표준안과 우리 시스템 사이의 차이점을 나열 및 분석하고 간단히 MATEC'99를 통해 얻은 실험 결과와 평가를 하고자 한다.

  • PDF

Domain Adaptation Method for LHMM-based English Part-of-Speech Tagger (LHMM기반 영어 형태소 품사 태거의 도메인 적응 방법)

  • Kwon, Oh-Woog;Kim, Young-Gil
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1000-1004
    • /
    • 2010
  • A large number of current language processing systems use a part-of-speech tagger for preprocessing. Most language processing systems required a tagger with the highest possible accuracy. Specially, the use of domain-specific advantages has become a hot issue in machine translation community to improve the translation quality. This paper addresses a method for customizing an HMM or LHMM based English tagger from general domain to specific domain. The proposed method is to semi-automatically customize the output and transition probabilities of HMM or LHMM using domain-specific raw corpus. Through the experiments customizing to Patent domain, our LHMM tagger adapted by the proposed method shows the word tagging accuracy of 98.87% and the sentence tagging accuracy of 78.5%. Also, compared with the general tagger, our tagger improved the word tagging accuracy of 2.24% (ERR: 66.4%) and the sentence tagging accuracy of 41.0% (ERR: 65.6%).

Morphological Analyzer and Tagger Evaluation Contest(MATEC 99) Overview (형태소분석기 및 품사 태거 평가대회(MATEC99) 개요)

  • Lee, Jae-Sung;Park, Jay-Duke;Cha, Keon-Hoe;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.13-22
    • /
    • 1999
  • 한국어 정보처리에서 기본 모듈로 많이 사용되는 형태소분석기, 태거 및 명사추출기에 대한 객관적인 평가를 위해서는 실제 사용되는 언어에 대한 평가기준과 방대한 양의 평가자료 구축이 필수적이다. 전자통신연구원(ETRI)에서는 표준적인 평가기준과 평가자료(말뭉치)를 구축하여 "제 1회 형태소분석기 및 품사 태거 평가대회" 을 개최하였으며, 이 대회는 학습기간을 포함하여 1999년 6월 7일부터 10월 1일까지 진행되었다. 평가에는 총 15개팀이 참가하였고, 명사추출, 태거, 형태소분석기의 각 분야에 대해 약 25만 4천어절의 학습 말뭉치를 제공한 후, 시험말뭉치 약3만 3천어절에 대해 평가가 이루어졌다. 이 글에서는 이 대회의 취지, 진행과정, 평가 방식, 평가결과 등에 대해 소개한다.

  • PDF

Porting POSTAG using Part-Of-Speech TagSet Mapping (품사 태그 세트의 매핑을 이용한 한국어 품사 태거 (POSTAG) 이식)

  • Kim, Jun-Seok;Shim, Jun-Hyuk;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.484-490
    • /
    • 1999
  • 품사 태그세트 매핑은 서로 다른 품사 태그세트로 태깅되어 있는 대량의 코퍼스들로부터 정보를 얻고 또한 제공함을 통해 코퍼스의 재사용성(reusability)을 높이는데 유용하게 사용된다. 본 논문은 포항공대 자연언어처리 연구실의 자연언어처리 엔진(SKOPE)의 품사 태거(POSTAG)에서 사용되는 태그세트와 한국전자통신연구원의 표준 태그세트 간의 양방향 태그세트 매핑을 다룬다. 매핑을 통해 표준태그세트로 태깅된 코퍼스로부터 POSTAG를 위한 대용량 학습자료를 얻고 POSTAG 가 두 가지 태그세트로 결과를 출력할 수 있다. 특히 한국어 태그세트 매핑에서 발생할 수 있는 여러 가지 문제점들, 즉 사전 표제어 차이 (형태소 분할 차이), 태그 할당 차이, 축약 처리 차이 등과 그것들의 기계적인 해결책을 살펴보고, 태그세트 매핑의 정확도를 측정하기 위해서 매핑 전과 후의 태깅 시스템의 정확도를 서로 비교함으로써 매핑의 정확도를 측정하는 실험을 수행하였다. 본 자동 매핑 방법을 반영한 POSTAG 는 제 1회 형태소 분석기 평가 대회(MATEC'99)에 적용되어 성공적으로 사용되었다.

  • PDF

Robust Part-of-Speech Tagger using Statistical and Rule-based Approach (통계와 규칙을 이용한 강인한 품사 태거)

  • Shim, Jun-Hyuk;Kim, Jun-Seok;Cha, Jong-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.60-75
    • /
    • 1999
  • 품사 태깅은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 부분인 구문 분석, 의미 분석의 전처리로 사용되고, 독립된 응용으로 언어의 정보를 추출하거나 정보 검색 등의 응용에 사용되어 진다. 품사 태깅은 크게 통계에 기반한 방법, 규칙에 기반한 방법, 이 둘을 모두 이용하는 혼합형 방법 등으로 나누어 연구되고 있다. 포항공대 자연언어처리 연구실의 자연 언어 처리 엔진(SKOPE)의 품사 태깅 시스템 POSTAG는 미등록어 추정이 강화된 혼합형 품사 태깅 시스템이다 본 시스템은 형태소 분석기, 통계적 품사 태거, 에러 수정 규칙 후처리기로 구성되어 있다. 이들은 각각 단순히 직렬 연결되어 있는 것이 아니라 형태소 접속 테이블을 기준으로 분석 과정에서 형태소 접속 그래프를 생성하고 처리하면서 상호 밀접한 연관을 가진다. 그리고, 미등록어용 패턴사전에 의해 등록어와 동일한 방법으로 미등록어를 처리함으로써 효율적이고 강건한 품사 태깅을 한다. 한편, POSTAG에서 사용되는 태그세트와 한국전자통신연구원(ETRI)의 표준 태그세트 간에 양방향으로 태그세트 매핑을 함으로써, 표준 태그세트로 태깅된 코퍼스로부터 POSTAC를 위한 대용량 학습자료를 얻고 POSTAG에서 두 가지 태그세트로 품사 태깅 결과 출력이 가능하다. 본 시스템은 MATEC '99'에서 제공된 30000어절에 대하여 표준 태그세트로 출력한 결과 95%의 형태소단위 정확률을 보였으며, 태그세트 매핑을 제외한 POSTAG의 품사 태깅 결과 97%의 정확률을 보였다.

  • PDF

Korean Head-Tail POS-Tagger by using Transformer (Transformer를 이용한 한국어 Head-Tail 품사 태거)

  • Kim, Jung-Min;Suh, Hyun-Jae;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.544-547
    • /
    • 2021
  • 한국어의 품사 태깅 문제는 입력 어절의 형태소 분석 후보들로부터 통계적으로 적절한 품사 태그를 가지는 후보들을 찾는 방식으로 해결하여 왔다. 어절을 형태소 단위로 분리하고 품사를 부착하는 기존의 방식은 품사태그 정보를 딥러닝 feature로 사용할 때 문장의 의미를 이해하는데 복잡도를 증가시키는 요인이 된다. 본 연구에서는 품사 태깅 문제를 단순화 하여 한 어절을 Head와 Tail이라는 두 가지 유형의 형태소 토큰으로 분리하여 Head와 Tail에 대해 품사를 부착한다. Head-Tail 품사 태깅 방법을 Sequence-to-Sequence 문제로 정의하여 Transformer를 이용한 Head-Tail 품사 태거를 설계하고 구현하였다. 학습데이터로는 KCC150 말뭉치의 품사 태깅 말뭉치 중에서 788만 문장을 사용하고, 실험 데이터로는 10만 문장을 사용하였다. 실험 결과로 토큰 정확도는 99.75%, 태그 정확도는 99.39%, 토큰-태그 정확도는 99.31%로 나타났다.

  • PDF

Improving Korean Part-of-speech tagging by Part-of-Speech specific features (품사별 자질을 이용한 한국어 품사부착의 성능 향상)

  • Choi Won-Jong;Lee Do-Gil;Rim Hae-Chang
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.16-18
    • /
    • 2006
  • 한국어 형태소분석 및 품사부착에서 일부 품사는 높은 중의성으로 인하여 오류가 많으며, 일부 품사가 전체 오류의 대부분을 차지한다. 본 연구에서는 높은 중의성으로 인하여 오류가 많은 품사를 대상으로, 각 품사에 적합한 자질을 이용하여 학습한, 정확률이 높은 분류기를 통계적 방식의 태거와 순차 결합하여 형태소분석/품사부착 성능을 향상하였다. 2003년 세종계획 품사 부착 말뭉치 200만 어절에서 학습하여 평가를 한 결과 기존 통계적 품사 부착기에 비해 정확도는 0.62% 향상되었으며, 오류는 13.12% 감소하였다.

  • PDF

A Morph Analyzer For MATES/CK (중한 기계 번역 시스템을 위한 형태소 분석기)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높히기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태킹 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태킹 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

KTAG99: Highly-Adaptable Koran POS tagging System to New Environments (KTAG99: 새로운 환경에 쉽게 적응하는 한국어 품사 태깅 시스템)

  • Kim, Jae-Hoon;Sun, Choong-Nyoung;Hong, Sang-Wook;Lee, Song-Wook;Seo, Jung-Yun;Cho, Jeong-Mi
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.99-105
    • /
    • 1999
  • 한국어 정보처리를 위한 언어정보는 응용 분야에 따라 큰 차이를 보인다. 특히 말뭉치를 이용한 연구에서는 언어정보가 달라질 때마다 시스템을 새로 구성해야 하는 어려움이 있다. 본 논문에서는 이와 같은 어려움을 다소 완화시키기 위해 새로운 환경에 잘 적응할 수 있는 한국어 품사 태깅 시스템에 관해서 논한다. 본 논문에서는 이 시스템을 KTAG99라고 칭한다. KTAG99는 크게 실행부와 학습부로 구성되었다. 한국어 품사 태깅을 위한 실행부는 고유명사 추정기, 한국어 형태소 분석기, 통계기반 품사 태거, 품사 태깅 오류교정기로 구성되었으며, 실행부에서 필요한 언어정보를 추출하는 학습부는 고유명사 추정규칙 추출기, 형태소 배열규칙 추출기, 사전 추출기, 확률정보 추정기, 품사 태깅 오류수정 규칙 추정기로 구성되었다. KTAG99에서 필요한 언어정보의 대부분은 학습 말뭉치로부터 추출되거나 추정되기 때문에 아주 짧은 시간 내에 새로운 환경에 적응할 수 있다.

  • PDF

The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction (품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치)

  • Park, Young-C.;Kim, Nam-Il;Huh, Wook;Nam, Ki-Chun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF