• 제목/요약/키워드: 표지 부착 말뭉치

검색결과 14건 처리시간 0.022초

품사 표지 부착 말뭉치 검증 (Verification of POS tagged Corpus)

  • 이미경;정한민;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2005
  • 본 논문에서는 자연어 처리 연구에서 이용되는 품사 표지 부착 말뭉치의 오류 검증 방안에 대해 제안한다. 현재까지의 품사 표지 부착 말뭉치들은 정제보다는 구축에 중점을 두고 있으며, 기존의 오류 검출과 정정 방안에 관련된 연구들은 기 구축된 말뭉치를 대상으로 한 것이 아니라, 품사 표지 부착 시스템의 후 처리에 집중하고 있다. 형태소 분석기나 품사 표지 부착 시스템의 학습에 이용되는 품사 표지 부착 말뭉치가 오류 검증 단계를 거친다면 이 시스템들은 좀 더 높은 신뢰성을 가지게 될 것이다. 본 논문에서는 품사 표지부착 말뭉치 검증을 위한 어절 분할 오류, 철자 오류, 표지 부착 오류, 형식 오류, 일관성 오류의 5가지 오류 유형과 검증 방안을 제안한다. 또한 제안한 방법에 따라 세종 계획의 형태소 분석 말뭉치의 오류를 검증해 보았으며, 그 결과 말뭉치 오류 정제가 말뭉치의 신뢰도를 향상시킬 수 있음을 보인다.

  • PDF

한국어 의미 표지 부착 말뭉치 구축 작업 (Korean Semantic Tagged Corpus Construction working)

  • 이민지;이윤정;이정국;김종대;박찬영;송혜정;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF

한국어 PropBank 및 세종 의미 표지 부착 말뭉치 구축을 위한 도구 (Annotation Tool for Construction Korean PropBank and Sejong Semantic Tagged Corpus)

  • 한대용;최한길;이정국;김종대;박찬영;송혜정;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-39
    • /
    • 2012
  • 의미역 결정에 있어 의미 표지 부착 말뭉치는 필수적이지만 한국어 의미 표지 부착 말뭉치는 영어나 중국어와 같은 언어에 비하여 구축이 미비한 상황이다. 본 논문에서는 한국어 의미 분석을 위한 한국어 Proposition Bank(이하 PropBank)와 세종 의미 표지 부착 말뭉치의 구축을 위한 소프트웨어 도구를 개발하였다. 본 논문에서 구현한 도구는 문장 성분의 의존관계를 이용하여 주어진 술어에 대한 논항을 찾아주고, PropBank 프레임 파일과 세종 용언 격틀 사전을 활용하여 사용자가 능률적으로 한국어 PropBank와 세종 의미 표지 부착 말뭉치를 구축할 수 있도록 하였다.

  • PDF

은닉 마르코프 모델을 이용한 한국어 개체명 말뭉치 생성 (Generating Korean NER Corpus using Hidden Markov Model)

  • 김재균;김창현;천민아;박호민;윤호;남궁영;최민석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.357-361
    • /
    • 2019
  • 기계학습을 이용하여 개체명 인식을 수행하기 위해서는 많은 양의 개체명 말뭉치가 필요하다. 이를 위해 본 논문에서는 문장 자동 생성을 통해 개체명 표지가 부착된 말뭉치를 구축하는 방법을 제안한다. 기존의 한국어 문장 생성 연구들은 언어모델을 이용하여 문장을 생성하였다. 본 논문에서는 은닉 마르코프 모델을 이용하여 주어진 표지열에 기반 하여 문장을 생성하는 시스템을 제안한다. 제안하는 시스템을 활용하여 자동으로 개체명 표지가 부착된 3,286개의 새로운 문장을 생성할 수 있었다. 학습말뭉치 문장과 약 70%의 차이를 보이는 새로운 문장을 생성하였다.

  • PDF

한국어 PropBank 프레임 파일 확장 도구 설계 (A Design of Frame File Extension Tool for Korean PropBank)

  • 이정국;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.126-129
    • /
    • 2011
  • 본 논문에서는 한국어 PropBank의 구축을 위한 동사의 프레임 파일 확장 및 구축에 대한 연구를 논한다. 문장 단위의 의미 분석에 있어서 가장 중요하다고 볼 수 있는 의미 역 결정을 위해서 필요한 언어자원중, PropBank는 동사의 술어-논항 구조를 태그해 놓은 말뭉치로써 가장 널리 쓰이는 언어자원 중 하나이다. PropBank는 크게 술어-논항 구조를 태그한 말뭉치와 개별 동사들의 논항 구조를 기술한 프레임 파일로 이루어져 있다. 한국어 PropBank 구축을 위해서는 구문 표지 부착 말뭉치에 술어-논항 구조의 표지 부착 작업 및 한국어 동사의 프레임 파일의 구축 및 확장이 이루어져야 하는데, 본 논문에서는 세종 계획에서 발표한 용언 격틀 파일을 사용하여 기존의 한국어 PropBank 프레임 파일을 확장하는 도구를 설계하였다.

  • PDF

GMM을 이용한 품사 부착 말뭉치의 오류 탐지 (Detecting errors on Korean POS tagged corpus using GMM)

  • 최민석;김창현;천민아;박호민;윤호;남궁영;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-251
    • /
    • 2019
  • 품사 부착 말뭉치란 문장에 포함된 각 단어에 품사 표지를 부착한 말뭉치를 말한다. 이런 말뭉치에는 다양한 형태의 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 학습 자료로 사용하는 자연언어처리 시스템의 좋은 성능을 기대할 수 없다. 따라서 말뭉치의 일관성이나 정확도는 자연언어처리 시스템의 성능에 많은 영향을 준다. 하지만 말뭉치 구축 과정에서 작업자의 실수가 발생하고 여러 작업자가 작업을 수행하다 보니 일관성을 유지하기가 쉽지 않다. 본 논문에서는 이러한 문제를 해결하기 위해서 GMM을 이용한 군집화를 수행하여 오류 후보를 추출한다. 이를 통해서 말뭉치 구축 과정에서 작업자의 실수를 방지하고 일관성을 유지하고자 한다. 세종품사부착 말뭉치를 대상으로 임의로 오류를 유발시켜 실험한 결과, 재현율 84.74%의 성능으로 오류를 탐지하였다. 향후에 좀 더 높은 재현율을 위해서 자질 확장이나 회귀 분석 방법 등을 추진할 계획이다.

  • PDF

대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템 (A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus)

  • 박준혁;이성욱;임윤섭;최종석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.213-222
    • /
    • 2019
  • 지능형 음성 대화 인터페이스 구현에 있어 핵심어의 의미표지는 사용자 의도 파악을 위한 중요한 요소이다. 대화시스템은 사용자 발화의 의도를 파악하기 위해 핵심어와 그 의미표지를 이용하여 발화의 의도를 결정한다. 하나의 핵심어는 여러 개의 의미표지를 가질 수 있는 중의성을 지닌다. 이러한 중의성을 지닌 핵심어를 사용자의 의도와 일치하는 의미표지로 결정하는 것은 단어 의미 분별 문제와 유사하다. 우리는 전사된 대화 말뭉치의 약 23%를 수동으로 의미를 부착하여 핵심어에 대한 의미표지 사전, 유의어 사전, 문맥벡터 사전을 먼저 구축한 후, 나머지 77% 대화 말뭉치에 존재하는 핵심어의 의미를 자동으로 부착한다. 중의성을 가진 핵심어는 문맥벡터 사전으로부터 문맥 벡터 유사도를 계산하여 의미를 결정한다. 핵심어가 미등록어인 경우에는 유의어 사전을 이용하여 가장 유사한 핵심어를 찾아 그 핵심어의 의미를 부착한다. 중의성을 가진 고빈도 핵심어 3개와 저빈도 핵심어 3개를 말뭉치에서 선정하여 제안 시스템의 성능을 평가하였다. 실험결과, 수동으로 구축한 말뭉치를 사용하였을 때 약 54.4%의 정확도를 얻었고, 반자동으로 확장한 말뭉치를 사용하였을 때 약 50.0%의 정확도를 얻었다.

한국어 의미역 결정을 위한 자질 정보 확장 (Expansion of Feature Information for Korean Semantic Role Labeling)

  • 조병철;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-186
    • /
    • 2015
  • 의미역 결정은 주어진 술어와 의존 관계에 있는 여러 논항들과 그 술어간의 의미 관계를 결정하는 것이다. 의미역 결정은 보통 대량의 말뭉치를 이용하여 분류의 관점에서 문제를 해결하고자 한다. 본 논문에서는 한국어 구문 표지 부착된 말뭉치에 구축한 의미역 표지 부착 말뭉치 10,000 문장을 이용한 자동 의미역 결정 방법을 제안한다. 특히, 한국어는 그 특성상 조사와 어미가 문법 관계뿐만 아니라 의미 관계 설정에도 매우 중요한 역할을 하기 때문에 기존의 의미역 결정 연구에서 미비했던 부분인 조사와 어미 정보를 개선하여 새로운 자질 (features) 로 설계하여 의미역 결정을 시도하였다. 기존의 다른 언어에서의 의미역 결정 연구에서 사용된 자질에 본 논문에서 제시된 접사 정보에 기반한 자질을 추가하게 되면 약 77.9%의 F1 점수를 얻을 수 있었는데, 이는 기존 연구에 비하여 약 10% 포인트 향상된 결과이다.

  • PDF

술어와 조사 정보를 이용한 논항의 의미역 변환 (Semantic Role Transformation of Arguments using Predicate and Josa Information)

  • 서민정;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.51-55
    • /
    • 2014
  • 의미역 결정 (Semantic Role Labeling) 은 문장 내의 술어와 이들의 논항들의 의미 관계를 결정하는 과정을 뜻한다. 의미역 결정을 하기 위해서는 대량의 말뭉치와 다양한 언어 자원이 필요한데, 많은 경우에 PropBank 말뭉치가 사용된다. 한국어 PropBank는 다른 언어에 비해 자료가 적어 그것만을 가지고 의미역 결정을 하기에 적절하지 않다. 또한 한국어 의미 분석을 위해서 지금까지는 세종 말뭉치나 의미역이 활용되어 오기도 하였다. 따라서 한국어 의미역 결정에서는 한국어 PropBank 뿐만 아닌 세종 의미역 표지 부착 말뭉치의 구축 역시 요구되는데 말뭉치 구축 작업이 수동 부착 작업이기 때문에 많은 시간과 비용이 소모된다. 본 논문에서는 이러한 문제점을 해결하기 위해 이미 구축되어 있는 한국어 PropBank 의미역을 세종 의미역으로 자동 변환하는 방법을 제시한다. 자동 변환을 위해서는 먼저 PropBank 의미역의 변환 후보 의미역을 구하여 이들 중에서 가장 적절한 의미역으로 변환한다. 자동 변환을 위해서는 크게 3 가지 특징을 활용하는데, 첫째는 변환 대상 논항의 의미 유사성이고, 둘째는 논항과 의미 관계를 가지고 있는 술어, 그리고 셋째는 논항과 결합되어 있는 조사이다. 이 세 가지 특징을 사용하여 정확한 의미역 변환을 위해 술어, 조사의 의미역 결합 확률 테이블을 구축한다.

  • PDF

형태소 기분석 사전과 DBMS를 이장한 형태소 분석 말뭉치 구축의 한 방법 (The Method for the Construction of POS Tagged Corpus based on Morpheme Ready Made Dictionary and RDBMS)

  • 조진현;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-40
    • /
    • 2001
  • 본 논문은 1999년도에 구축된 '150만 세종 형태소 분석 말뭉치'를 바탕으로 형태소 기분석 사전을 구축하고, 이를 토대로 후처리의 수작업을 고려한 반자동 태거를 구축하는 방법론에 대해 연구한 것이다. 분석말뭉치 구축에 있어 기존 자동 태거에 의한 자동 태깅의 문제점을 분석하고, 이미 구축된 형태분석 말뭉치를 이용해 후처리 작업이 보다 용이한 1차 가공말뭉치를 구축하는 반자동 태거의 개발과 그 방법론을 제시하는데 목적을 두고 있다. 이와 같은 논의에 따라 분석 말뭉치의 구축을 위한 태거는 일반적인 언어 처리를 위한 태거와는 다르다는 점을 주장하였고, 태거에 전적으로 의존하는 태깅 방식보다는 수작업의 편의를 제공할 수 있는 태깅 방식이 필요함을 강조하였다. 본 연구에서 제안된 반자동 태거는 전체적인 태깅 성공률과 정확도가 기존의 태거에 비해 떨어지지만 정확한 단일 분석 결과를 텍스트의 장르에 따른 편차 없이 50% 이상으로 산출하고, 해결이 어려운 어절 유형에 대해서 완전히 작업자의 판단에 맡김으로써 오류의 가능성을 줄인다. 또한 분석 어절에 대해 여러 표지를 부착함으로써 체계적이고 단계적인 후처리 작업이 가능하도록 하였다.

  • PDF