• 제목/요약/키워드: 부분구문분석

검색결과 94건 처리시간 0.023초

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

구문 의존 경로에 기반한 단백질의 세포 내 위치 인식 (Detection of Protein Subcellular Localization based on Syntactic Dependency Paths)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.375-382
    • /
    • 2008
  • 단백질의 세포 내 위치를 인식하는 것은 생물학 현상의 기술에 있어서 필수적이다. 생물학 문서의 양이 늘어남에 따라, 단백질의 세포 내 위치 정보를 문서 내용으로부터 얻기 위한 연구들이 많이 이루어졌다. 기존의 논문들은 문장의 구문 정보를 이용하여 정보를 얻고자 하였으며, 언어학적 정보가 단백질의 세포 내 위치를 인식하는 데 유용하다고 주장하고 있다. 그러나, 이전의 시스템들은 구문 정보를 얻기 위해 부분 구문분석기만을 사용하였고 재현율이 좋지 못했다. 그러므로 단백질의 세포 내 위치 정보를 얻기 위해 전체 구문분석기를 사용할 필요가 있다. 또한, 더 많은 언어학적 정보를 위해 의미 정보 또한 사용이 가능하다. 단백질의 세포 내 위치 정보를 인식하는 성능을 향상시키기 위하여, 본 논문은 전체 구문분석기와 어휘망(WordNet)을 기반으로 한 방법을 제안한다. 첫 번째 단계에서, 각 단백질 단어로부터 그 단백질의 위치후보에까지 이르는 구문 의존 경로를 구축한다. 두 번째 단계에서, 구문의존 경로의 루트 정보를 추출한다. 마지막으로, 단백질 부분트리와 위치 부분트리의 구문-의미 패턴을 추출한다. 구문 의존 경로의 루트와 부분트리로부터 구문태그와 구문방향을 구문 정보로서 추출하고, 각 노드 단어의 의미태그를 의미 정보로서 추출한다. 의미태그로는 어휘망의 동의어 집합(synset)을 사용한다. 학습데이터에서 추출한 루트 정보와 부분트리의 구문-의미 패턴에 따라서, 실험데이터에서 (단백질, 위치) 쌍들을 추출했다. 어떤 생물학적 지식 없이, 본 논문의 방법은 메드라인(Medline) 요약 데이터를 사용한 실험 결과에서 학습데이터에 대해 74.53%의 조화평균(F-measure), 실험데이터에 대해서는 58.90%의 조화평균을 보였다. 이 실험은 기존의 방법들보다 12-25%의 성능향상을 보였다.

대량의 한국어 구문 트리 태깅 코퍼스 구축을 위한 구문 트리 태깅 워크벤치의 설계 및 구현 (Design and Implementation of Tree Tagging Workbench To Build a Large Tree Tagged Corpus of Korean)

  • 장병규;이공주;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.421-429
    • /
    • 1997
  • 한국어 구문 트리 태깅 코퍼스는 한국어 문장의 구문 구조가 구문 트리 형태로 태깅된 코퍼스이다. 코퍼스 구축은 사람(annotator)에 의하여 수작업으로 이루어지므로, 많은 시간과 인력을 소모하는 작업이다. 그렇기 때문에 코퍼스 구축을 도와주는 구문 트리 태깅 워크벤치는 코퍼스 구축에 필수적인 요소이다. 본 논문에서는 대량의 구문 트리 태깅 코퍼스를 일관되고 빠르게 구축하기 위한 워크벤치 설계시의 고려 사항을 제시한다. 이러한 고려 사항을 기반으로, 다소 정확한 부분에 대한 태깅만을 수행하는 부분 구문 분석, 태깅한 결과에 대한 검증 과정인 일관성 검사, 편한 구문 트리 태깅을 고려한 사용자 인터페이스, 플랫폼 독립적인 구현 등과 같은 워크벤치의 실제 구현에 대하여 설명한다. 또한, 구문 트리 태깅 워크벤치의 앞으로의 연구 방향을 제시한다.

  • PDF

스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.235-242
    • /
    • 2021
  • 본 연구에서는 포인터 네트워크 모델을 의존 구문 분석에 맞게 확장한 스택-포인터 네트워크 모델을 이용하여 한국어 의존 구문 분석기를 구현한다. 스택-포인터 네트워크 모델 기반 의존 구문 분석기는 인코더-디코더로 구성되어 있으며 다른 의존 구문 분석기와 달리 내부 스택을 갖고 있어 루트부터 시작하는 하향식 구문 분석이 가능하다. 디코더의 각 단계에서는 의존소를 찾기 위해 부모 노드뿐만 아니라 이미 파생된 트리 구조에서 조부모와 형제 노드를 참조할 수 있다. 기존 연구에서는 단순하게 해당 노드들의 합을 계산하여 입력으로 사용하였고, 형제 노드의 경우에는 가장 최근에 방문했던 것만을 사용할 수 있었다. 본 연구에서는 그래프 어텐션 네트워크를 도입하여 이미 파생된 부분 트리를 표현하고 이를 스택-포인터 네트워크의 입력으로 사용하도록 구문 분석기를 수정한다. 세종 코퍼스와 모두의 코퍼스를 대상을 실험한 결과 레이어 2의 그래프 어텐션 네트워크를 이용하여 부분 트리를 표현했을 때 특히 문장 단위의 구문 분석 정확도에서 많은 성능 향상을 확인할 수 있었다.

두 단계 구문 규칙을 이용한 후-실패 완화 기법 (A Post-Fail Softening Mechanism Using Two-level Syntactic Grammar)

  • 정한민;최승권;김영길;심철민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.180-182
    • /
    • 1998
  • 웹 상에서의 자연어 처리 응용에 관한 연구가 활발히 진행되면서, 웹 문서에서 자주 나타나는 특징인 문장 표현에 있어서의 자유로움은 문장 처리의 기술적인 어려움을 가중시킨다. 특히, 문장 내의 부분적인 비정형적 표현이 흔히 나타남으로 인해 구문 분석이 자주 실패하게 되는데, 이에 대한 강건성 확보를 위해서 실패에 대한 복구 작업이 필요하다. 우리는 두 단계 구문 규칙을 사용하여 1 단계에서 정형적 표현의 문장들을 처리하고, 2 단계에서 구문 규칙의 제약을 완화하여 부분적인 비정형적 표현까지도 포용할 수 있도록 한다. 후-실패 완화과정에서 일관성 있게 구문 규칙을 사용함으로써 효율적인 구조적 파스 트리의 구조도 가능하게 하며, 차트의 재사용을 통해 구조적 애매성과 분석 시간의 단축을 가져온다.

  • PDF

구묶음을 반영한 한국어 의존 구조 말뭉치 생성 (Building Korean Dependency Treebanks Reflected Chunking)

  • 남궁영;김창현;천민아;박호민;윤호;최민석;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-138
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 요소의 위치에 제약이 적고 생략에도 유연하게 대처할 수 있어 한국어 구문 분석에 적합하다. 하지만 의존 구문 분석을 수행할 때 지배소를 결정해야 할 노드 수가 많으면 계산의 복잡도가 올라가고, 각 노드의 지배소를 결정할 때 방향성 문제가 있어 구문 분석에 모호함을 더한다. 이때 지배소 후위 원칙을 엄격하게 적용할 경우 구문적 중심어와 의미적 중심어가 불일치하는 문제가 발생한다. 이러한 문제들을 해소하기 위해 구묶음을 수행한 문장으로 구문 분석을 수행할 수 있다. 따라서, 본 논문에서는 기존의 의존 구문 말뭉치를 말덩이 기반의 의존 구문 말뭉치로 변환하는 알고리즘을 기술하고, 이에 따라 구축한 말뭉치와 기존의 말뭉치를 정량적으로 비교한다.

  • PDF

절 경계와 트리 거리를 사용한 2단계 부분 의미 분석 시스템 (A Two-Phase Shallow Semantic Parsing System Using Clause Boundary Information and Tree Distance)

  • 박경미;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.531-540
    • /
    • 2010
  • 본 논문은 최대 엔트로피 모형에 기반한 두 단계 부분 의미 분석 방법을 제안한다. 먼저, 의미 논항의 경계를 인식하고, 그 다음 단계에서 확인된 논항에 적절한 의미역을 할당한다. 두 단계 부분 의미 분석에서는 두 번째 단계인 논항 분류가 논항 확인 단계의 결과에 기반하여 수행되기 때문에 논항 확인의 성능이 매우 중요하다. 본 논문은 논항 확인의 성능을 향상시키기 위하여 논항 확인의 전처리 단계에 구문 지식을 통합한다. 구체적으로, 절 인식 결과로부터 술어의 인접절 및 상위절들을 확인하고, 구문 분석 결과로부터 술어의 부모 노드로부터 구문 구성 요소의 부모 노드까지의 트리 거리를 추출하여 전처리 단계에서 활용한다. 실험을 통해, 구문 지식을 활용하는 것이 부분 의미 분석 성능에 기여함과 제안하는 두 단계 방법이 한 단계 방법보다 우수한 성능을 낼 수 있음을 보인다.

문장성분의 다양한 자질을 이용한 한국어 구문분석 모델 (Korean Parsing Model using Various Features of a Syntactic Object)

  • 박소영;김수홍;임해창
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.743-748
    • /
    • 2004
  • 본 논문에서는 효과적인 구문 중의성 해결을 위해 문장성분의 구문자질, 기능자질, 내용자질, 크기자질을 활용하는 확률적 한국어 구문분석 모델을 제안한다. 그리고, 제안하는 구문분석 모델은 한국어의 부분자유어순과 생략현상을 잘 처리할 수 있도록 문법규칙을 이진형식으로 제한한다. 실험을 통해 제안하는 구문분석 모델의 성능을 각 자질조합별로 분석한다. 분석결과는 서로 다른 특징을 갖는 자질의 조합이 서로 유사한 특징을 갖는 자질의 조합보다 구문중의성 해결에 더 유용하다는 것을 보여준다. 또한, 단일자질인 기능자질이 내용자질과 크기자질의 조합보다 성능이 더 우수함을 알 수 있다.

패턴-액션 규칙을 이용한 한국어 구문 분석 (Syntax Analysis of Korean Using Pattern-Action Rules)

  • 나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.131-140
    • /
    • 1992
  • 전문가 시스템은 인공지능 분야에서 가장 성공적인 사례로 꼽히고 있다. 본 논문에서는 전문가 시스템에서 채용하고 있는 핵심기술인 패턴-액션 규칙이 자연어 구문 분석 작업에도 성공적으로 적용될 수 있음을 보이고자 한다. 자연어의 문법 규칙을 전문가 시스템의 생성 규칙 형태로 표현하고, 전문가 시스템의 추론 엔진에서 이용하는 알고리즘(특히 전향 추론 방식)을 이용하여 구문 분석을 진행하도록 한다. 이 방법이 부분 자유 어순과 중심어 후행과 같은 특징을 가진 한국어의 분석에도 적용될 수 있음을 보였다.

  • PDF

동적 오라클을 이용한 한국어 의존 구문분석 (Korean Dependency Parsing using Dynamic Oracle)

  • 이경호;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-91
    • /
    • 2017
  • 구문분석은 자연언어처리의 오랜 관심 분야로 다양한 접근방법과 알고리즘이 시도되어 계속 발전하고 있다. 하지만 기존의 접근방법은, 학습단계에서는 정답으로부터 추출된 이전 정보를 사용하고 평가 단계에서는 예측으로 이루어진 정보를 활용한다는 근본적인 차이가 있다. 이러한 차이를 극복하기 위한 다양한 시도가 있었고 그 중 동적 오라클 기법이 합리적인 시간 증가와 성능향상을 보였다. 본 연구에서는 이러한 동적 오라클 기법을 한국어 구문분석에 적용하였다. 동적 오라클 기법을 한국어에 적용할 때 고려해야하는 부분에 대해 탐구하고 실험을 통해 동적 오라클 기법을 한국어 구문분석에 적용하여 결과를 살펴보았다.

  • PDF