• 제목/요약/키워드: 의미역부착말뭉치

검색결과 17건 처리시간 0.018초

한국어 의미 표지 부착 말뭉치 구축 작업 (Korean Semantic Tagged Corpus Construction working)

  • 이민지;이윤정;이정국;김종대;박찬영;송혜정;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF

한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용 (Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique)

  • 배장성;오준호;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-47
    • /
    • 2014
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계 학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에서 사용되는 Korean PropBank는 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank의 1/8 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역 부착 말뭉치와 동사 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 의미역 부착 말뭉치를 만드는 일은 많은 자원과 시간이 소비되는 작업이다. 본 논문에서는 도메인 적응 기술을 적용해보고 기존의 학습 데이터를 활용하여, 적은 양의 새로운 학습 말뭉치만을 가지고 성능 하락을 최소화 할 수 있는지 실험을 통해 알아보고자 한다.

  • PDF

한국어 격틀사전 기반 의미역 반자동 부착 도구 (Semi-automatic Semantic Role Labelling Tool based on Korean Case Frame)

  • 김완수;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-254
    • /
    • 2014
  • 의미역 결정은 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제로, 기계학습에 의한 의미역을 부착하기 위해서는 의미역 부착 말뭉치를 필요로 한다. 본 논문에서 격틀 사전을 사용하여 각 서술어의 논항의 의미역을 제한하여 작업자가 빠르게 의미역 말뭉치를 구축할 수 있도록 하는 의미역 반자동 부착 도구(UTagger-SR)를 개발하였다.

  • PDF

술어와 조사 정보를 이용한 논항의 의미역 변환 (Semantic Role Transformation of Arguments using Predicate and Josa Information)

  • 서민정;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.51-55
    • /
    • 2014
  • 의미역 결정 (Semantic Role Labeling) 은 문장 내의 술어와 이들의 논항들의 의미 관계를 결정하는 과정을 뜻한다. 의미역 결정을 하기 위해서는 대량의 말뭉치와 다양한 언어 자원이 필요한데, 많은 경우에 PropBank 말뭉치가 사용된다. 한국어 PropBank는 다른 언어에 비해 자료가 적어 그것만을 가지고 의미역 결정을 하기에 적절하지 않다. 또한 한국어 의미 분석을 위해서 지금까지는 세종 말뭉치나 의미역이 활용되어 오기도 하였다. 따라서 한국어 의미역 결정에서는 한국어 PropBank 뿐만 아닌 세종 의미역 표지 부착 말뭉치의 구축 역시 요구되는데 말뭉치 구축 작업이 수동 부착 작업이기 때문에 많은 시간과 비용이 소모된다. 본 논문에서는 이러한 문제점을 해결하기 위해 이미 구축되어 있는 한국어 PropBank 의미역을 세종 의미역으로 자동 변환하는 방법을 제시한다. 자동 변환을 위해서는 먼저 PropBank 의미역의 변환 후보 의미역을 구하여 이들 중에서 가장 적절한 의미역으로 변환한다. 자동 변환을 위해서는 크게 3 가지 특징을 활용하는데, 첫째는 변환 대상 논항의 의미 유사성이고, 둘째는 논항과 의미 관계를 가지고 있는 술어, 그리고 셋째는 논항과 결합되어 있는 조사이다. 이 세 가지 특징을 사용하여 정확한 의미역 변환을 위해 술어, 조사의 의미역 결합 확률 테이블을 구축한다.

  • PDF

한국어 의미역 결정을 위한 자질 정보 확장 (Expansion of Feature Information for Korean Semantic Role Labeling)

  • 조병철;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-186
    • /
    • 2015
  • 의미역 결정은 주어진 술어와 의존 관계에 있는 여러 논항들과 그 술어간의 의미 관계를 결정하는 것이다. 의미역 결정은 보통 대량의 말뭉치를 이용하여 분류의 관점에서 문제를 해결하고자 한다. 본 논문에서는 한국어 구문 표지 부착된 말뭉치에 구축한 의미역 표지 부착 말뭉치 10,000 문장을 이용한 자동 의미역 결정 방법을 제안한다. 특히, 한국어는 그 특성상 조사와 어미가 문법 관계뿐만 아니라 의미 관계 설정에도 매우 중요한 역할을 하기 때문에 기존의 의미역 결정 연구에서 미비했던 부분인 조사와 어미 정보를 개선하여 새로운 자질 (features) 로 설계하여 의미역 결정을 시도하였다. 기존의 다른 언어에서의 의미역 결정 연구에서 사용된 자질에 본 논문에서 제시된 접사 정보에 기반한 자질을 추가하게 되면 약 77.9%의 F1 점수를 얻을 수 있었는데, 이는 기존 연구에 비하여 약 10% 포인트 향상된 결과이다.

  • PDF

한국어 PropBank 및 세종 의미 표지 부착 말뭉치 구축을 위한 도구 (Annotation Tool for Construction Korean PropBank and Sejong Semantic Tagged Corpus)

  • 한대용;최한길;이정국;김종대;박찬영;송혜정;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-39
    • /
    • 2012
  • 의미역 결정에 있어 의미 표지 부착 말뭉치는 필수적이지만 한국어 의미 표지 부착 말뭉치는 영어나 중국어와 같은 언어에 비하여 구축이 미비한 상황이다. 본 논문에서는 한국어 의미 분석을 위한 한국어 Proposition Bank(이하 PropBank)와 세종 의미 표지 부착 말뭉치의 구축을 위한 소프트웨어 도구를 개발하였다. 본 논문에서 구현한 도구는 문장 성분의 의존관계를 이용하여 주어진 술어에 대한 논항을 찾아주고, PropBank 프레임 파일과 세종 용언 격틀 사전을 활용하여 사용자가 능률적으로 한국어 PropBank와 세종 의미 표지 부착 말뭉치를 구축할 수 있도록 하였다.

  • PDF

한국어 PropBank 프레임 파일 확장 도구 설계 (A Design of Frame File Extension Tool for Korean PropBank)

  • 이정국;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.126-129
    • /
    • 2011
  • 본 논문에서는 한국어 PropBank의 구축을 위한 동사의 프레임 파일 확장 및 구축에 대한 연구를 논한다. 문장 단위의 의미 분석에 있어서 가장 중요하다고 볼 수 있는 의미 역 결정을 위해서 필요한 언어자원중, PropBank는 동사의 술어-논항 구조를 태그해 놓은 말뭉치로써 가장 널리 쓰이는 언어자원 중 하나이다. PropBank는 크게 술어-논항 구조를 태그한 말뭉치와 개별 동사들의 논항 구조를 기술한 프레임 파일로 이루어져 있다. 한국어 PropBank 구축을 위해서는 구문 표지 부착 말뭉치에 술어-논항 구조의 표지 부착 작업 및 한국어 동사의 프레임 파일의 구축 및 확장이 이루어져야 하는데, 본 논문에서는 세종 계획에서 발표한 용언 격틀 파일을 사용하여 기존의 한국어 PropBank 프레임 파일을 확장하는 도구를 설계하였다.

  • PDF

레벨 기반의 유사도 계산을 이용한 PropBank 의미역과 Sejong 의미역 간의 자동 변환 (Automatic Transformation of Semantic Roles between PropBank and Sejong using Similarity Estimation based on Tree Level)

  • 윤영신;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2014
  • 의미 표지 부착 작업은 구문 표지 부착된 문장의 술어-논항 구조를 파악하여 논항에 적절한 의미역을 부착하는 과정이다. 이 작업을 통하여 생성되는 의미 표지 부착 말뭉치는 의미역 결정에 있어서 절대적으로 필요한 자원이 된다. 의미 표지 부착 말뭉치로는 세계적으로 PropBank가 널리 활용되고 있는데 이를 한국어에 적용시키기 위해서는 PropBank 의미역과 Sejong 의미역 간의 자동 변환이 필요하다. 이전에 제안되었던 이종 의미역 간의 자동변환 방법에서는 명사 계층의 구조 정보를 반영하지 않았다는 문제점이 있었다. 본 논문에서는 이러한 문제점을 보강하기 위하여 명사 계층구조를 반영하여 한국어 PropBank 의미역을 Sejong 의미역으로 자동 변환하는 방법을 제안한다. 제안하는 방법은 PropBank와 Sejong의 맵핑관계 중에서 1:N으로 맵핑되는 PropBank 의미역을 기준으로 명사 계층구조에서 변환 대상 의미역을 가지고 있는 단어와 변환 후보 의미역을 가진 단어들의 개념번호를 뽑아 두 단어 간의 거리를 측정한다. 그리고 레벨 당 가중치를 주어 유사도 계산을 하여 유사도가 적은 값으로 의미역을 자동 변환한다. 본 논문에서 제안하는 방법은 0.8의 성능을 보인다.

  • PDF

한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용 (Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique)

  • 배장성;이창기
    • 인지과학
    • /
    • 제26권4호
    • /
    • pp.377-392
    • /
    • 2015
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에 사용되는 Korean PropBank는 의미역이 부착된 용언과 용언 격틀이 PropBank에 비해 각각 1/5, 1/2 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역이 부착된 용언과 용언 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 대부분의 의미역 결정 시스템은 학습 도메인에 의존적이기 때문에 적용 도메인 변경에 따른 성능 하락이 나타날 수 있다. 본 논문에서는 기존의 학습 말뭉치와 적은 양의 새로운 학습 말뭉치를 활용하여 새로운 도메인에 대해 의미역 결정 시스템의 성능 하락을 최소화 할 수 있는 도메인 적응 기술을 Structural SVM(S-SVM)과 Deep Neural Network(DNN) 기반 한국어 의미역 결정 시스템에 적용하여 그 실효성을 알아보고자 한다.

XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지 (Detecting Errors in Dependency Treebank through XGBoost and Cross Validation)

  • 최민석;김창현;천민아;박혁로;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF