• 제목/요약/키워드: 구문 정보

검색결과 954건 처리시간 0.03초

격조사 복원: 구문분석 전처리 (Case Particle Restoration as Preprocessing for Syntactic Analysis)

  • 서형원;권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2012
  • 본 논문은 구문분석의 전처리로서 생략된 한국어 격조사의 복원 방법을 제안한다. 격조사 생략은 체언과 용언 사이의 관계가 아주 밀접하여 생략하여도 의사 전달에 문제가 없을 경우에 자주 발생한다. 이렇게 생략된 조사는 구문분석의 복잡도를 크게 높일 뿐 아니라 구문 분석의 오류의 원인이 되기도 한다. 본 논문에서는 구문구조 부착 말뭉치를 분석하여 생략된 조사는 그 체언과 용언 사이의 거리가 매우 가깝다는 사실을 발견하였고 이 성질을 이용해서 기계학습 방법을 이용해서 생략된 조사를 복원하는 방법을 제안한다. 본 논문에서는 ETRI 구문구조 부착 말뭉치를 이용해서 실험한 결과, 생략된 조사의 81%를 정확하게 복원할 수 있었다.

  • PDF

구문분석기의 어휘확장 (Lexical Expansion of Sentence Parsers)

  • 김민찬;김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.755-758
    • /
    • 2005
  • 본 논문에서는 구문분석기의 어휘확장을 통해 구문분석의 성공률을 높이고자 하였다. 구문분석은 문장내 구성성분들이 가지는 통사적인 관련성을 파악하는 작업이다. 구문분석 실패의 가장 빈번한 원인 중의 하나는 미등록 어휘의 출현이다. 결여된 어휘문제를 해결하는 것은 구문분석의 성공률을 높이고, 원문이해 시스템을 보다 더 견고하게 하는데 관건으로 작용한다. 이를 위하여, 본 논문에서는 구분분석기 LGPI+ 의 어휘 사전에 존재하지 않는 단어들을 또 다른 어휘자원인 WordNet을 이용하여 해결하고자 하였다. 구체적으로는, (1) 미등록 어휘를 WordNet에서 찾고, (2) 그 유의어 정보를 파악하여, (3) LGPI+ 어휘사전에 추가한다. 실험을 통하여 구문분석의 실패를 해결하고, 정확도와 성공률을 높일 수 있음을 확인하였다.

  • PDF

기계학습 기법을 이용한 한국어 구문분석 (Korean Parsing using Machine Learning Techniques)

  • 이용훈;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.285-288
    • /
    • 2008
  • 최근의 구문분석 연구는 컴퓨터 성능 향상과 사용 가능한 대량의 구문분석 말뭉치 증가, 견고한 기계학습 기법 개발 등에 힘입어 통계적인 모델 연구가 꾸준히 증가하고 있다. 본 논문에서는 기존에 개발된 다양한 기계학습 기법 중 ME(Maximum Entropy) 모델과 SVM(Support vector machine) 모델을 이용한 한국어 구문분석 방법을 제안한다. 국어정보베이스(KIBS) 구문분석 말뭉치를 가지고 실험한 결과 SVM 모델을 이용한 한국어 구문분석기가 기존의 확률 기반 통계적 한국어 구문분석기의 성능보다도 최대 1.84% 높은 87.46%의 의존관계 결정 정확률을 보였다. 추후 언어지식을 반영한 다양한 자질들을 이용할 경우 성능 향상이 기대된다.

  • PDF

영한 기계번역 시스템의 개선을 지원하는 영어 구문 규칙 관리 도구 (English Syntactic Rule Management Tool for Improving English-Korean Machine Translation System)

  • 김성동;김창희;김태완
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-101
    • /
    • 2013
  • 규칙 기반의 영한 기계번역을 위해서는 많은 영어 구문 규칙을 구축하고 관리해야 하는데, 이는 매우 많은 노력과 시간을 요구한다. 이 문제에 대한 해결방안으로 본 논문에서는 영어 구문 규칙의 효율적인 관리를 도와주는 도구를 제안한다. 영한 기계번역 시스템의 성능 개선 과정에서 영어 구문 규칙의 검색과 수정이 빈번하게 이루어지는데, 이러한 작업을 쉽게 할 수 있도록 제안하는 도구는 다양한 키를 이용한 규칙 검색과 규칙 수정 기능을 제공한다. 제안하는 도구는 영어 구문 규칙을 관리하는데 필요한 사람의 노력을 줄여 지속적인 영한 기계번역 시스템의 성능 개선 과정을 보다 손쉽게 할 수 있게 할 것이다.

  • PDF

문장 수준 관계 추출을 위한 개체 중심 구문 트리 기반 모델 (Entity-centric Dependency Tree based Model for Sentence-level Relation Extraction)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 2021
  • 구문 트리의 구조적 정보는 문장 수준 관계 추출을 수행하는데 있어 매우 중요한 자질 중 하나다. 기존 관계 추출 연구는 구문 트리에서 최단 의존 경로를 적용하는 방식으로 관계 추출에 필요한 정보를 추출해서 활용했다. 그러나 이런 트리 가지치기 기반의 정보 추출은 관계 추출에 필요한 어휘 정보를 소실할 수도 있다는 문제점이 존재한다. 본 논문은 이 문제점을 해소하기 위해 개체 중심으로 구문 트리를 재구축하고 모든 노드의 정보를 관계 추출에 활용하는 모델을 제안한다. 제안 모델은 TACRED에서 F1 점수 74.9 %, KLUE-RE 데이터셋에서 72.0%로 가장 높은 성능을 보였다.

  • PDF

한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현 (Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation)

  • 박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

구간 분할과 논항정보를 이용한 구문분석시스템 구현에 관한 연구 (A Study of Parsing System Implementation Using Segmentation and Argument Information)

  • 박용욱;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제16권3호
    • /
    • pp.366-374
    • /
    • 2013
  • 본 논문에서는 한국어 구문분석에서 발생하는 중의성을 해결하기 위하여 구간분할 방법과 논항정보를 사용하여 개선한 구문분석시스템을 소개한다. 본 논문에서 제안하는 구문분석 시스템은 어절대신 형태소를 입력으로 사용하고, 또한 주어진 형태소에 대하여 가능한 모든 구문 분석 구조를 생성하는 알고리즘을 사용한다. 따라서 많은 중의성을 포함한 구문 분석 결과를 생성한다. 이러한 중의성 구조 결과를 해결하기 위하여 세 가지 방법을 사용했다. 첫째 방법은 형태소분석 결과에서 중의성을 제거하는 방법이고 두 번째는 구문 분석시 구간 분할하는 방법, 세 번째 방법은 논항정보를 이용하는 것이다. 이러한 방법을 사용하여 많은 중의성을 제거할 수 있었다. 실험을 통하여 약 53%의 중의성을 제거할 수 있었음을 보여준다.

문형을 제약 조건으로 하는 CFG 기반의 한국어 구문분석 (Syntax analysis of Korean based on CFG using Sentence Pattern Information as a constraint)

  • 이현영;황이규;배우정;이용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.190-192
    • /
    • 1999
  • 한국어는 용언이 의미적 제약을 통해 문장을 지배하는 SOV 구조의 언어이다. 또한, 조사나 어미와 같은 기능어의 발달은 물론 관형절은 내포하는 문장이 주류를 이룬다. 따라서 한국어의 구문분석은 부착에 따른 많은 구문 모호성이 발생하게 된다. 본 논문에서는 조건단일화 기반의 CFG문법을 기술하고 문형을 구문 제약으로 하여 구문모호성을 해결하는 방안을 제시한다. 문형은 한국어의 특성을 용언의 하위범주화에 맞게 재분류한 문장의 구조적 유형을 말한다. 본 논문에서 제안하는 문형은 동사와 형용사를 구분하여 39가지로 설정하였다. 이런 문형 정보를 이용하여 관형형 어미를 갖는 용언이 최대의 정보를 가지도록 함으로써 관형절에서 발생하는 부사 및 체언구 부착의 문제가 해결된다. 또한 문형은 이중주어나 이중 목적어 문장을 처리할 수가 있어 한국어에서 발생하는 많은 구문모호성을 해결할 수 있다.

  • PDF

부사 정보를 이용한 한국어 구조 중의성 해소 (Korean Structural Disambiguation using Adverb Information)

  • 신승은;서영훈
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.110-115
    • /
    • 2000
  • 자연 언어 처리의 구문 구조 분석에서는 중의성 있는 결과가 많이 생성된다. 이러한 중의성을 해소하는데 어휘정보가 유용하다는 것은 잘 알려져 있으며, 이러한 어휘정보와 이를 이용한 중의성 해소에 관한 연구가 많이 이루어지고 있다. 본 논문은 한국어의 구문 구조 분석 시 부사에 의해 발생되는 중의성을 해소하기 위해 수식어 사전을 이용하여 구문 분석에서의 구조 중의성을 해소하였다. 수식어 사전의 어휘정보와 대상 말뭉치를 통해 각각의 부사에 대한 문법을 구성하고, 이를 이용하여 한국어 구문 구조 분석에서 부사에 의해 발생되는 중의성을 줄일 수 있다.

  • PDF

점진적 LL(1) 구문분석에서의 재사용 시점의 계산 (Computation of Reusable Points in Incremental LL(1) Parsing)

  • 이경옥
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권11호
    • /
    • pp.845-850
    • /
    • 2010
  • 점진적 구문분석은 기존 입력 문자열에 대한 구문분석 정보를 새로운 문자열의 구문분석 시에 재사용하고자 하는 취지로 연구 개발되었다. 기존 점진적 LL(1) 구문분석에서는 미리 재사용 시점을 계산하여 이를 구문분석 시에 이용하였다 본 논문에서는 기존의 재사용 시점 계산을 인수분해하여 불필요한 중복 계산 없이 효율적으로 수행하는 방법을 제안한다. 또한 기존의 재사용 시점 파악을 위해서 사용되었던 공통심볼 저장방법과 거리저장방법을 결합하여 공통심볼까지의 거리저장방법을 제안한다. 이에 기반한 효율적인 점진적 LL(1) 구문분석기를 생성한다.