• 제목/요약/키워드: CRFs

검색결과 68건 처리시간 0.03초

CRF를 이용한 복수 의미역 문제 해결 (Multiple Semantic Role Labeling Problems Solving using CRFs)

  • 박태호;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.276-279
    • /
    • 2016
  • 의미역 결정에서 하나의 의미 논항이 둘 이상의 의미역을 가지는 경우는 복수의 레이블을 할당하기 때문에 어려운 문제이다. 본 논문은 복수의 의미역을 가지는 항의 의미역 결정을 위한 새로운 자질을 제안한다. 복수의 의미역을 결정하기 위해서 체언보다 선행되어 나타나는 용언에 대한 자질을 추가하였다. 또한 문장의 용언에 따라 의미역을 결정하기 위해서 문장 내의 용언 수만큼 각각에 용언에 대한 의미역을 결정할 수 있도록 반복적으로 레이블링하는 방법을 제시하였다. 본 논문의 실험 결과로 제안한 방법은 74.90%의 성능(F1)을 보였다.

  • PDF

Active Learning과 군집화를 이용한 고정키어구 추출 (Keyphrase Extraction Using Active Learning and Clustering)

  • 이현우;차정원
    • 대한음성학회지:말소리
    • /
    • 제66호
    • /
    • pp.87-103
    • /
    • 2008
  • We describe a new active learning method in conditional random fields (CRFs) framework for keyphrase extraction. To save elaboration in annotation, we use diversity and representative measure. We select high diversity training candidates by sentence confidence value. We also select high representative candidates by clustering the part-of-speech patterns of contexts. In the experiments using dialog corpus, our method achieves 86.80% and saves 88% training corpus compared with those of supervised method. From the results of experiment, we can see that the proposed method shows improved performance over the previous methods. Additionally, the proposed method can be applied to other applications easily since its implementation is independent on applications.

  • PDF

Highway BiLSTM-CRFs 모델을 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling with Highway BiLSTM-CRFs)

  • 배장성;이창기;김현기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.159-162
    • /
    • 2017
  • Long Short-Term Memory Recurrent Neural Network(LSTM RNN)는 순차 데이터 모델링에 적합한 딥러닝 모델이다. Bidirectional LSTM RNN(BiLSTM RNN)은 RNN의 그래디언트 소멸 문제(vanishing gradient problem)를 해결한 LSTM RNN을 입력 데이터의 양 방향에 적용시킨 것으로 입력 열의 모든 정보를 볼 수 있는 장점이 있어 자연어처리를 비롯한 다양한 분야에서 많이 사용되고 있다. Highway Network는 비선형 변환을 거치지 않은 입력 정보를 히든레이어에서 직접 사용할 수 있게 LSTM 유닛에 게이트를 추가한 딥러닝 모델이다. 본 논문에서는 Highway Network를 한국어 의미역 결정에 적용하여 기존 연구 보다 더 높은 성능을 얻을 수 있음을 보인다.

  • PDF

오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅 (A typing error-robust Korean POS tagging using Hangul Jamo combination-based embedding)

  • 서대룡;정유진;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.203-208
    • /
    • 2017
  • 본 논문은 한글 자모 조합 임베딩을 이용하여 오타에 강건한 한국어 품사 태깅 시스템을 구축하는 방법에 대해 기술한다. 최근 딥 러닝 연구가 활발히 진행되면서 자질을 직접 추출해야 하는 기존의 기계학습 방법이 아닌, 스스로 자질을 찾아서 학습하는 딥 러닝 모델을 이용한 연구가 늘어나고 있다. 본 논문에서는 다양한 딥 러닝 모델 중에서 sequence labeling에 강점을 갖고 있는 bidirectional LSTM CRFs 모델을 사용하였다. 한국어 품사 태깅 문제에서 일반적으로 사용되는 음절 임베딩은 약간의 오타에도 품사 태깅 성능이 크게 하락하는 한계가 있었다. 따라서 이를 개선하기 위해 본 논문에서는 한글 자모 임베딩 값을 조합시킨 음절 임베딩 방식을 제안하였다. 강제로 오타를 발생시킨 테스트 집합에서 실험한 결과, 자모 조합 임베딩 기법이 word2vec 음절 임베딩 방식에 비해 형태소 분할은 0.9%, 품사 태깅은 3.5% 우수한 성능을 기록하였다.

  • PDF

CRFs를 이용한 강건한 한국어 의존구조 분석 (Robust Korean Dependency Analysis Based on CRFs)

  • 오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.23-28
    • /
    • 2008
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 Conditional Random Fields(CRFs)를 이용하여 최적의 결과를 얻는다. 98,412문장 세종 구문 코퍼스로 학습하고 1,430문장(평균 14.59어절)으로 실험한 결과 87.30%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.

  • PDF

CRF를 이용한 복수 의미역 문제 해결 (Multiple Semantic Role Labeling Problems Solving using CRFs)

  • 박태호;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.276-279
    • /
    • 2016
  • 의미역 결정에서 하나의 의미 논항이 둘 이상의 의미역을 가지는 경우는 복수의 레이블을 할당하기 때문에 어려운 문제이다. 본 논문은 복수의 의미역을 가지는 항의 의미역 결정을 위한 새로운 자질을 제안한다. 복수의 의미역을 결정하기 위해서 체언보다 선행되어 나타나는 용언에 대한 자질을 추가하였다. 또한 문장의 용언에 따라 의미역을 결정하기 위해서 문장 내의 용언 수만큼 각각에 용언에 대한 의미역을 결정할 수 있도록 반복적으로 레이블링하는 방법을 제시하였다. 본 논문의 실험 결과로 제안한 방법은 74.90%의 성능(F1)을 보였다.

  • PDF

CRFs 기반의 한국어 의미역 결정 (Korean Sematic Role Labeling Using CRFs)

  • 박태호;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.11-14
    • /
    • 2015
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 구구조 정보와 의존 구조 정보 등의 다양한 자질에 대한 실험이 있었다. 논항은 구문 구조에서 얻을 수 있는 서술어와 논항 관계에 많은 영향을 받지만 구문 구조가 변경되어도 변하지 않는 논항의 의미로 인해 의미역 결정에 어려운 점이 있다. 본 논문에서는 한국어 의미역 결정 문제를 위해 Korean Propbank 말뭉치와 직접 구축한 의미역 말뭉치를 학습 말뭉치로 사용하였다. 본 논문에서는 이전에 연구된 구문 정보와 그 외의 자질들에 대한 성능을 검증하였다. 본 논문에서 제시하는 자질들의 성능을 검증하기 위해 CRF를 사용하였고, 제시된 새로운 자질을 사용하여 논항의 인식 및 분류에서 76.25%(F1)의 성능을 보였다.

  • PDF

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식 (Named Entity Recognition with Structural SVMs and Pegasos algorithm)

  • 이창기;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2010
  • 개체명 인식은 정보 추출의 한 단계로서 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 본 논문에서는 structural Support Vector Machines(structural SVMs) 및 수정된 Pegasos 알고리즘을 이용한 한국어 개체명 인식 시스템에 대하여 기술하고 기존의 Conditional Random Fields(CRFs)를 이용한 시스템과의 성능을 비교한다. 실험결과 structural SVMs과 수정된 Pegasos 알고리즘이 기존의 CRFs 보다 높은 성능을 보였고(신뢰도 99%에서 통계적으로 유의함), structural SVMs과 수정된 Pegasos 알고리즘의 성능은 큰 차이가 없음(통계적으로 유의하지 않음)을 알 수 있었다. 특히 본 논문에서 제안하는 수정된 Pegasos 알고리즘을 이용한 경우 CRFs를 이용한 시스템보다 높은 성능 (TV 도메인 F1=85.43, 스포츠 도메인 F1=86.79)을 유지하면서 학습 시간은 4%로 줄일 수 있었다.

  • PDF

음절 바이그램과 CRFs를 이용한 의학 전문 용어 추출 (Biomedical Terminology Extraction using Syllable Bigram and CRFs)

  • 송수민;신준수;김학수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.505-507
    • /
    • 2010
  • 웹(Web)상에 전문용어를 포함한 문서가 증가함에 따라 전문용어를 자동으로 추출하는 연구가 계속해서 이루어지고 있다. 기존 연구에서는 전문용어를 추출하는 단계에서 대부분 형태소 분석기를 이용한다. 그러나 전문용어의 특성으로 인해 형태소 분석 단계에서 오분석 되는 경우가 발생한다. 이러한 문제를 해결하기 위해서 본 논문에서는 음절 바이그램과 CRFs(Conditional Random Fields)를 이용하여 의학 전문 용어를 추출하는 방법을 제안한다. 네이버 지식인의 의사 답변 문서 2000개로부터 5-fold cross validation을 이용하여 실험하였다. 실험 결과 정확률은 평균 68.91%, 재현율은 평균 71.25%로 나타났으며 F-measure는 70.06%로 나타났다.

CRFs와 TBL을 이용한 자동화된 음성인식 후처리 방법 (An Automatic Post-processing Method for Speech Recognition using CRFs and TBL)

  • 선충녕;정형일;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권9호
    • /
    • pp.706-711
    • /
    • 2010
  • 음성 인식기의 오류는 음성기반 응용 시스템들의 성능에 크게 영향을 주기 때문에 오류를 줄이기 위한 효과적인 처리 방법이 필요하다. 기존의 후처리 기법들은 수동 작업을 통한 코퍼스나 규칙으로 후처리를 수행하는 것이 일반적이다. 본 논문에서는 문제나 인식기의 특성에 무관하게 자동으로 학습할 수 있는 후처리 모델을 제안한다. 후처리의 문제를 오류의 인식과 수정으로 구분하고 오류 검출 문제는 순차적인 분류 문제로 간주하여 conditional random fields(CRFs)를 사용하고 오류 수정 규칙은 transformation-based learning(TBL)을 이용하여 자동 생성하여 적용하였다. 제안한 방법을 여행 예약 영역의 음성 인식기에 적용한 결과 삽입, 삭제, 치환 오류를 각각 25.85%, 3.57%, 7.42%을 수정하였으며, 이로 인해 인식기의 어휘 오류율을 2% 감소시킬 수 있었다.