• 제목/요약/키워드: Parsing Method

검색결과 150건 처리시간 0.033초

Proper Noun Embedding Model for the Korean Dependency Parsing

  • Nam, Gyu-Hyeon;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Multimedia Information System
    • /
    • 제9권2호
    • /
    • pp.93-102
    • /
    • 2022
  • Dependency parsing is a decision problem of the syntactic relation between words in a sentence. Recently, deep learning models are used for dependency parsing based on the word representations in a continuous vector space. However, it causes a mislabeled tagging problem for the proper nouns that rarely appear in the training corpus because it is difficult to express out-of-vocabulary (OOV) words in a continuous vector space. To solve the OOV problem in dependency parsing, we explored the proper noun embedding method according to the embedding unit. Before representing words in a continuous vector space, we replace the proper nouns with a special token and train them for the contextual features by using the multi-layer bidirectional LSTM. Two models of the syllable-based and morpheme-based unit are proposed for proper noun embedding and the performance of the dependency parsing is more improved in the ensemble model than each syllable and morpheme embedding model. The experimental results showed that our ensemble model improved 1.69%p in UAS and 2.17%p in LAS than the same arc-eager approach-based Malt parser.

개선된 점진적 LL(1) 파싱 방법 (An Improved Incremental LL(1) Parsing Method)

  • 이경옥
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.486-490
    • /
    • 2010
  • 점진적 파싱은 기존의 입력 문자열에 대한 파싱 정보를 새로운 문자열의 파싱시에 이용하고자 하는 취지로 연구 개발되었다. 본 논문은 기존에 제안된 비단말 심볼을 미리보기(lookahead) 심볼로 포함시킨 점진적 LL(1) 파서를 개선시킨 방법을 제안한다. 기존 연구에서는 오류가 발생한 상황에서 불필요한 작업을 반복적으로 수행하기에 시간적으로 비효율적이다. 본 논문에서는 이에 대한 해결 방안을 제공한다.

한국어에서 의존 구문분석을 위한 구묶음의 활용 (Exploiting Chunking for Dependency Parsing in Korean)

  • 남궁영;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권7호
    • /
    • pp.291-298
    • /
    • 2022
  • 본 논문은 한국어에 대해서 구묶음을 수행한 후에 의존구조를 분석하는 방법을 제안한다. 의존구조 분석은 단어의 지배어를 결정하는 과정이다. 지배어를 정할 때, 문법적인 지배어를 정할 것인지 의미적인 지배어를 정할 것인지가 고질적인 문제이다. 일반적으로는 문법적인 지배어를 정하고 있다. 예를 들면 문장 "밥을 먹고 싶다"에서 어절 "먹고"의 지배어로 "싶다"를 정한다. 그러나 "싶다"는 보조용언으로 의미적으로 지배어가 될 수 없다. 이와 같은 방법으로 구문을 분석하면 의미분석을 위해서 또 다른 변환이 있어야 한다. 본 논문에서는 이런 문제를 다소 완화하기 위해서 구묶음을 수행한 후에 구문을 분석하는 방법을 제안한다. 구묶음은 문장을 구성성분 단위로 분할하는 과정이며 구성성분은 내용어 말덩이와 기능어 말덩이로 구성된다. 구묶음을 수행하면 구문 분석의 입력이 되는 문장 성분의 수가 줄어들므로 구문 분석 속도가 개선될 수 있으며, 문장에서 중심어를 중심으로 하나의 말덩이로 묶이므로 말덩이에 대해서만 그 의존 관계를 파악할 수 있어 구문 분석의 효율성을 높일 수 있다. 본 논문은 세종의존말뭉치를 사용해서 성능을 분석했으며 UAS와 LAS가 각각 86.48%와 84.56%였으며 입력의 노드 수도 약 22% 정도 줄일 수 있었다.

전자계산기에 의한 필기체 한글 인식에 관한 연구 (A study on the Automatic Recognition of Hand Printed Hangeul patterns by the Computer)

  • 남궁재찬;김영건
    • 한국통신학회논문지
    • /
    • 제5권1호
    • /
    • pp.44-48
    • /
    • 1980
  • 본 논문에서는 필기체 한글인식을 위한 한 방법을 제안했다. 기본 자모를 대상으로 하였으며, 임의의 Pattern에 대하여 접합보상및 정형 Algorithm을 제안하므로써 본래의 표준 한글 pattern으로 정형화하였다. 인식에는 Tree grammar를 사용하였으며, 새로운 Parsing 방법을 제안하므로써 종래의 방법보다 처리를 간단화시켰으며 error를 감소시켰다. 제한된 필기체에 대하여는 매우 효과적이었으며 on line 필기체 인식에도 유용성이 있음을 보였다.

  • PDF

핵심개념 기반의 강건한 한국어 대화체 파싱 (A Robust Korean Spoken Language Parsing Based on Core Concept)

  • 노서영;정천영;서영훈
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2113-2123
    • /
    • 1999
  • 부분 자유어순 특성을 가지는 한국어를 CFG형태의 문법으로 기술했을 때 문법이 방대해지고 CFG형태의 문법을 파서가 이용할 때는 자연발화문의 특징인 간투어, 중복발화 등 때문에 불필요 성분을 따로 처리해야 하므로 파서의 부담이 커진다. 이러한 문제점을 해결하기 위해 본 논문에서는 발화문에서 중요한 의미를 가지는 요소를 '핵심개념'이라 정의하고 핵심개념만을 문법에 기술하여 문법이 방대해지는 것을 막고 문법에 기술된 핵심개념을 파싱요소로 선택함으로써 불필요 성분처리에 대한 파서의 부담을 줄였으며 이렇게 단순화된 문법만으로도 정확한 파싱결과를 내줄 수 있음으로 보인다. 실험결과 '여행안내'영역 자연발화문에 대해서 평균 98%이상의 올바른 파싱결과를 얻어낼 수 있었다.

  • PDF

점진적 LR 파싱 : 리덕션 골의 예상을 이용한 방법 (Incremental LR Parsing: Methods Using Reduction Goal Prediction)

  • 이경옥
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.651-657
    • /
    • 2004
  • 본 논문에서는 LR 파싱 시에 미리 예상 가능한 리덕션 골의 정보를 이용한 점진적 LR 파서를 제안한다. 이 방법은 기존의 연구들에 비해 상대적으로 적은 메모리 공간과 컴퓨팅 시간을 필요로 한다.

영한 기계번역에서 구문 분석 정확성 향상을 위한 구문 범주 예측 (Syntactic Category Prediction for Improving Parsing Accuracy in English-Korean Machine Translation)

  • 김성동
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.345-352
    • /
    • 2006
  • 실용적인 영한 기계번역 시스템은 긴 문장을 빠르고 정확하게 번역할 수 있어야 한다. 보다 빠른 번역을 위해 문장 분할을 이용한 부분 파싱 방법이 제안되어 속도 향상에 기여하였다. 본 논문에서는 보다 정확한 분석을 위해 결정 트리를 이용한 구문 범주 예측 방법을 제안한다. 문장 분할을 적용한 영어 분석에서 각각의 분할된 부분은 개별적으로 분석되며 각 분석 결과들이 결합되어 문장의 구조가 생성된다. 여기서 각 분할의 구문 범주를 미리 예측하여 부분 파싱 후에 보다 정확한 분석 결과를 선정하고 예측된 구문 범주에 근거하여 올바르게 다른 문장의 분할결과와 결합함으로써 문장 분석의 정확도를 향상시키는 것이 본 논문에서 제안한 방법의 목적이다. 본 논문에서는 Wall Street Journal의 파싱된 말뭉치에서 구문 범주 예측에 필요한 특성을 추출하고 결정 트리를 이용하여 구문 범주 예측을 위한 결정 트리를 생성하였다. 실험에서는 사람이 구축한 규칙을 이용한 방법, trigram 확률을 이용한 방법, 신경망을 이용한 방법 등에 의한 구문 범주 예측 성능을 측정, 비교하였으며 제안된 구문 범주 예측이 번역의 품질 향상에 기여한 정도를 제시하였다.

리덕션 골을 이용한 LR 파서의 개선 (Improvement of LR Parser using Reduction Goals)

  • 손윤식;오세만
    • 한국멀티미디어학회논문지
    • /
    • 제11권5호
    • /
    • pp.703-709
    • /
    • 2008
  • 컴파일러의 구성 방법론은 파싱 기법의 정립과 자동화 도구의 개발을 통해 많은 발전을 이루었으며, 이를 통해 다양한 컴파일러를 효과적으로 제작할 수 있는 환경이 마련되었다. 특히, 최근에는 임베디드/모바일 기기의 사용과 콘텐츠 산업이 활성화되고 있으며, 이에 따라 각 시스템과 콘텐츠에 적합한 컴파일러 개발 요구가 늘어나고 있다. 컴파일러의 모듈화와 자동적인 구성을 통해 이러한 수적인 요구는 해결되고 있지만, 개발도구로서의 컴파일러를 최적화하기 위해서는 경험적인 방법론의 사용과 이에 따른 매우 큰 비용이 필요하다. 본 논문에서는 LR 파서의 특징을 분석하여, 불필요한 reduce 행동을 경감할 수 있는 파싱기법을 제시한다. 개선된 파싱 기법은 파싱과정에서 lookahead/상태 정보와 도달 가능한 리덕션 골의 정보를 이용하여 연속적인 reduce를 하나의 reduce로 변환하여 효율성을 높인다. 또한, 임베디드 ANSI C컴파일러의 전단부에 적용하여 실제 모바일 콘텐츠 대한 파싱 성능을 분석하였다.

  • PDF

Empirical Comparison of Deep Learning Networks on Backbone Method of Human Pose Estimation

  • Rim, Beanbonyka;Kim, Junseob;Choi, Yoo-Joo;Hong, Min
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.21-29
    • /
    • 2020
  • Accurate estimation of human pose relies on backbone method in which its role is to extract feature map. Up to dated, the method of backbone feature extraction is conducted by the plain convolutional neural networks named by CNN and the residual neural networks named by Resnet, both of which have various architectures and performances. The CNN family network such as VGG which is well-known as a multiple stacked hidden layers architecture of deep learning methods, is base and simple while Resnet which is a bottleneck layers architecture yields fewer parameters and outperform. They have achieved inspired results as a backbone network in human pose estimation. However, they were used then followed by different pose estimation networks named by pose parsing module. Therefore, in this paper, we present a comparison between the plain CNN family network (VGG) and bottleneck network (Resnet) as a backbone method in the same pose parsing module. We investigate their performances such as number of parameters, loss score, precision and recall. We experiment them in the bottom-up method of human pose estimation system by adapted the pose parsing module of openpose. Our experimental results show that the backbone method using VGG network outperforms the Resent network with fewer parameter, lower loss score and higher accuracy of precision and recall.

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.