• Title/Summary/Keyword: 구문 분석

Search Result 831, Processing Time 0.03 seconds

Robust Korean Dependency Analysis Based on CRFs (CRFs를 이용한 강건한 한국어 의존구조 분석)

  • Oh, Jin-Young;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.23-28
    • /
    • 2008
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 Conditional Random Fields(CRFs)를 이용하여 최적의 결과를 얻는다. 98,412문장 세종 구문 코퍼스로 학습하고 1,430문장(평균 14.59어절)으로 실험한 결과 87.30%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.

  • PDF

Dependency Parsing by Chunks (단위(Chunks) 분석과 의존문법에 기반한 한국어 구문분석)

  • 김미영;강신재;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.327-329
    • /
    • 2000
  • 기존의 구문분석 방법은 구구조문법과 의존문법에 기반한 것이 대부분이다. 이러한 구문분석은 다양한 분석 결과들이 분석되는 동안 많은 시간이 소요되며, 잘못된 분석 결과를 찾아 내어 삭제하기(pruning)도 어렵다. 본 논문은 구문분석에 필요한 의존문법을 적용하기 이전에, 단위화(Chunking) 방법을 사용하는 것을 제안한다. 이렇게 함으로써, 의존문법에 적용하는 차트의 수를 줄이게 되고, 의존관계의 설정 범위(scope)도 제한을 가할 수 있으며, 구문분석 속도 또한 빨라지게 된다.

  • PDF

Korean Syntactic Rules using Composite Labels (복합 레이블을 적용한 한국어 구문 규칙)

  • 김성용;이공주;최기선
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.2
    • /
    • pp.235-244
    • /
    • 2004
  • We propose a format of a binary phrase structure grammar with composite labels. The grammar adopts binary rules so that the dependency between two sub-trees can be represented in the label of the tree. The label of a tree is composed of two attributes, each of which is extracted from each sub-tree so that it can represent the compositional information of the tree. The composite label is generated from part-of-speech tags using an automatic labeling algorithm. Since the proposed rule description scheme is binary and uses only part-of-speech information, it can readily be used in dependency grammar and be applied to other languages as well. In the best-1 context-free cross validation on 31,080 tree-tagged corpus, the labeled precision is 79.30%, which outperforms phrase structure grammar and dependency grammar by 5% and by 4%, respectively. It shows that the proposed rule description scheme is effective for parsing Korean.

Computation of Reusable Points in Incremental LL(1) Parsing (점진적 LL(1) 구문분석에서의 재사용 시점의 계산)

  • Lee, Gyung-Ok
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.11
    • /
    • pp.845-850
    • /
    • 2010
  • Incremental parsing has been developed to reuse the parse result of the original string during the parsing of a new string. The previous incremental LL(1) parsing methods precomputed the reusable point information before parsing and used it during parsing. This paper proposes an efficient reusable point computation by factoring the common part of the computation. The common symbol storing method and the distance storing method were previously suggested to find the reusable point, and by combining the methods, this paper gives the storing method of the distance to common symbols. Based on it, an efficient incremental LL(1) parser is constructed.

Lexical Expansion of Sentence Parsers (구문분석기의 어휘확장)

  • Kim, Min-Chan;Kim, Gon;J. Bae, Jae-Hak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.755-758
    • /
    • 2005
  • 본 논문에서는 구문분석기의 어휘확장을 통해 구문분석의 성공률을 높이고자 하였다. 구문분석은 문장내 구성성분들이 가지는 통사적인 관련성을 파악하는 작업이다. 구문분석 실패의 가장 빈번한 원인 중의 하나는 미등록 어휘의 출현이다. 결여된 어휘문제를 해결하는 것은 구문분석의 성공률을 높이고, 원문이해 시스템을 보다 더 견고하게 하는데 관건으로 작용한다. 이를 위하여, 본 논문에서는 구분분석기 LGPI+ 의 어휘 사전에 존재하지 않는 단어들을 또 다른 어휘자원인 WordNet을 이용하여 해결하고자 하였다. 구체적으로는, (1) 미등록 어휘를 WordNet에서 찾고, (2) 그 유의어 정보를 파악하여, (3) LGPI+ 어휘사전에 추가한다. 실험을 통하여 구문분석의 실패를 해결하고, 정확도와 성공률을 높일 수 있음을 확인하였다.

  • PDF

Head-Percolation Rules of Constituent-to-Dependency Conversion in Korean (한국어 구절 구문 코퍼스의 의존 구문 구조 트리로의 변환에서 중심어 전파 규칙)

  • Choi, Yong-seok;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.514-519
    • /
    • 2018
  • 본 연구에서는 세종 구문 코퍼스를 의존 구문 코퍼스로 변환할 때 사용되는 중심어 전파(Head-Percolation) 규칙에 대하여 논의한다. 한국어는 중심어-후위 언어이기 때문에 의존 구문 트리를 구축할 때 지배소를 의존소 뒤에 배치시키는 것을 원칙으로 하였다. 그러나 의존 관계에 있는 단어 사이에 지배소를 앞쪽으로 설정하는 것이 더 자연스러운 경우가 있다. 본 연구에서는 지배소를 앞쪽으로 배치시키는 것을 허용하는 중심어 전파 규칙을 채택하여 의존 구문 코퍼스를 구축해 보고 중심어 전파 규칙이 구문 분석기의 성능에 어떤 영향을 미치는지 살펴본다. 실험 결과 지배소를 앞쪽으로 설정하는 것을 허용한 경우, 0.43%의 성능 저하가 있었으나 학습 코퍼스의 일관성을 유지한다면 성능 저하의 차이를 좀 더 줄일 수 있을 것이다.

  • PDF

Korean Parsing using Machine Learning Techniques (기계학습 기법을 이용한 한국어 구문분석)

  • Lee, Yong-Hun;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.285-288
    • /
    • 2008
  • 최근의 구문분석 연구는 컴퓨터 성능 향상과 사용 가능한 대량의 구문분석 말뭉치 증가, 견고한 기계학습 기법 개발 등에 힘입어 통계적인 모델 연구가 꾸준히 증가하고 있다. 본 논문에서는 기존에 개발된 다양한 기계학습 기법 중 ME(Maximum Entropy) 모델과 SVM(Support vector machine) 모델을 이용한 한국어 구문분석 방법을 제안한다. 국어정보베이스(KIBS) 구문분석 말뭉치를 가지고 실험한 결과 SVM 모델을 이용한 한국어 구문분석기가 기존의 확률 기반 통계적 한국어 구문분석기의 성능보다도 최대 1.84% 높은 87.46%의 의존관계 결정 정확률을 보였다. 추후 언어지식을 반영한 다양한 자질들을 이용할 경우 성능 향상이 기대된다.

  • PDF

Rules-based Korean Dependency Parsing using Sentence Pattern Informations. (문형 정보를 이용한 규칙 기반 한국어 의존구문분석)

  • Kim, Sung-Tae;Kim, Min-Ho;Kim, Hyuna;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.139-143
    • /
    • 2019
  • 본 논문에서 제안하는 구문분석기는 품사 태거를 사용하지 않고 문장에서 나오는 모든 형태소 분석 후보에 의존관계를 부여하는 광범위 의존구문분석기이다. 중의성이 발생할 수 있는 문장에 대해 나오는 모든 후보 구문분석 트리를 출력하며 규칙을 통해 순위화를 진행한다. 또한 문형 정보 말뭉치의 적절한 사용을 위해 이전 연구의 한계점을 극복한 규칙과 알고리즘을 구현하고 문형 정보를 통해 후보 구문분석 트리의 순위화를 강화하였다. 뿐만 아니라 순위화가 어려운 [명사-관형사구] 자질에 대해 문형 정보를 사용하여 순위화를 강화하였다. 그 결과, 1순위의 구문 분석 트리에 대한 UAS(Unlabeled Attachment Score)가 0.52% 향상되었고, 후보트리에 대한 평균 정답 순위는 12.2%의 성능향상을 보였다.

  • PDF

Correction Method for Korean Dependency Parsing using Projectivity and Re-searching (투사성과 재탐색을 이용한 결정적 한국어 의존구조 분석의 보정기법)

  • Park, Young-Min;Seo, Jung-Yun
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.4
    • /
    • pp.429-447
    • /
    • 2011
  • In this paper, we propose a modified deterministic Korean dependency parser using a projectivity. The modified parser is improved by finding errors, such as cross dependency, from the original parsing results and correcting them according to the projectivity and head-final principles. Our parser also uses parsing history information in addition to rich features, which only a deterministic algorithm can use. Results on the modified parser for ETRI(2005) corpus, that consists of complex sentences, show that our parser outperforms other parsers.

  • PDF

Korean Dependency Parsing Using Statistical/Semantic Information (통계/의미 정보를 이용한 한국어 의존 파싱)

  • Jang, Myung-Gil;Ryu, Pum-Mo;Park, Jae-Deuk;Park, Dong-In;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.313-319
    • /
    • 1997
  • 한국어 의존 파싱에서는 불필요한 의존관계의 과다한 생성과 이에 따른 다수의 구문분석 결과 생성에 대처하는 연구가 필요하다. 본 논문에서는 한국어 의존 파싱 과정에서 생기는 불 필요한 의존관계에 따른 다수의 후보 의존 트리들에 대하여 통계/의미 정보를 활용하여 최적 트리를 결정하는 구문 분석 방법을 제안한다. 본 논문의 구문 분석에서 사용하는 통계/의미 정보는 구문구조부착 말뭉치(Tree Tagged Corpus)를 이용하여 구축한 술어 하위범주화 정보 사전에서 얻었으며, 이러한 정보를 활용한 구문 분석은 한국어 구문 분석의 모호성 해소에 적용되어 한국어 구문 분석의 정확도를 높인다.

  • PDF