• 제목/요약/키워드: ETRI 말뭉치

검색결과 42건 처리시간 0.025초

CRF에 기반한 한국어 형태소 분할 및 품사 태깅 (CRFs for Korean Morpheme Segmentation and POS Tagging)

  • 나승훈;양성일;김창현;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.12-15
    • /
    • 2012
  • 본 논문은 한국어 형태소 분할 및 품사 태깅을 위해 조건부 랜덤 필드 (CRF: conditional random field)에 기반한 방식을 제안한다. 제안 방법은 1) 형태소 분할 단계 2) 품사 태깅 단계 3) 복합형태소 분할 및 태깅 단계의 세 단계로 이루어진다. 처음 두 단계는 CRF방법에 기반을 두고, 세 번째 단계에서는 일반화된 HMM (lattice-HMM)을 활용한다. 제안 방법은 세종 말뭉치 코퍼스에서 5-fold cross-validation로 평가한 결과, 약 96%의 품사 태깅 성능을 보여주었다.

  • PDF

아바타 수어 서비스를 위한 한국어-한국수어 변환 기술 연구 (Study on Korean-Korean Sign language Translation Technology for Avatar Sign language Service)

  • 최지훈;이한규;안충현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.459-460
    • /
    • 2020
  • 한국수화언어가 2016년 2월 제정된 한국수화언어법(약칭, 한국수어법)을 통해 한국어와 동일한 대한민국 공식 언어로 인정받았지만, 사회적 인식 부족과 서비스 비용 문제로 널리 사용되지 못하고 있다. 그리고 일상생활에서 접하는 많은 한국어 정보들 조차도 농인들은 쉽게 이해하기 어렵기 때문에 정보 접근에 대한 차별성 문제가 지속적으로 언급되고 있다. 이를 해결하기 위한 대안으로 아바타를 이용한 수어 서비스가 대두되고 있지만, 한국어-한국수어 번역을 위한 자연어처리 기술의 한계로 인해 일기예보와 같이 탬플릿 기반의 서비스에 국한되거나 비수지신호 표현에 대한 기술 부족으로 인해서 서비스 상용화까지 도달하지 못하고 있는 상황이다. 본 논문에서는 딥러닝 기반으로 한국어에서 한국수어로 변환하기 위한 병렬 말뭉치 데이터 전사 및 변환 시스템 설계 방법을 제안하고자 한다.

  • PDF

격조사 복원: 구문분석 전처리 (Case Particle Restoration as Preprocessing for Syntactic Analysis)

  • 서형원;권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2012
  • 본 논문은 구문분석의 전처리로서 생략된 한국어 격조사의 복원 방법을 제안한다. 격조사 생략은 체언과 용언 사이의 관계가 아주 밀접하여 생략하여도 의사 전달에 문제가 없을 경우에 자주 발생한다. 이렇게 생략된 조사는 구문분석의 복잡도를 크게 높일 뿐 아니라 구문 분석의 오류의 원인이 되기도 한다. 본 논문에서는 구문구조 부착 말뭉치를 분석하여 생략된 조사는 그 체언과 용언 사이의 거리가 매우 가깝다는 사실을 발견하였고 이 성질을 이용해서 기계학습 방법을 이용해서 생략된 조사를 복원하는 방법을 제안한다. 본 논문에서는 ETRI 구문구조 부착 말뭉치를 이용해서 실험한 결과, 생략된 조사의 81%를 정확하게 복원할 수 있었다.

  • PDF

동적 오라클을 이용한 뉴럴 전이기반 한국어 형태소 분석 및 품사 태깅 (Dynamic Oracle for Neural Transition-based Morpheme Segmentation and POS Tagging of Korean)

  • 민진우;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.413-416
    • /
    • 2018
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 알맞은 품사를 결정하는 것은 매우 중요하다. 기존의 형태소 분석은 [B, I]등의 태그를 포함된 품사를 음절 단위로 결정하는 방식으로 주로 연구되었다. 본 논문에서는 의존 파싱 분야에서 널리 활용되는 전이 기반 방식을 이용하여 딥러닝 모델을 통해 형태소 분석을 수행한다. 이에 나아가 학습 단계에서 정답으로부터 추출된 정보를 사용하고 평가 단계에서는 예측으로부터 추출된 정보를 사용함으로써 발생하는 차이점을 극복하기 위한 방법론인 동적 오라클을 적용하였다. 실험 결과, 세종 품사 부착 말뭉치 셋에 적용하여 형태소 F1 97.93%, 어절 정확도 96.70%로 기존의 성능을 더욱 향상시켰다.

  • PDF

상용 API 의 감정에 따른 음성 인식 성능 비교 연구 (A Study on the Comparison of the Commercial API for Recognizing Speech with Emotion)

  • 양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.52-54
    • /
    • 2023
  • 최근 인공지능 기술의 발전에 따라서 다양한 서비스에서 음성 인식을 활용한 서비스를 제공하면서 음성 인식에 대한 중요성이 증가하고 있다. 이 논문에서는 국내에서 많이 사용되고 있는 대표적인 인공지능 서비스 API 를 제공하는 구글, ETRI, 네이버에 대해서 감정 음성 관점에서 그 차이를 평가하였다. AI Hub 에서 제공하는 감성 대화 말뭉치 데이터 셋의 일부인 음성 테스트 데이터를 사용하여 평가한 결과 ETRI API 가 문자 오류율 (1.29%)과 단어 오류율(10.1%)의 성능 지표에 대해서 가장 우수한 음성 인식 성능을 보임을 확인하였다.

다단계 기계학습 기법을 이용한 구묶음 성능향상 (Performance Improvement of Chunking Using Cascaded Machine Learning Methods)

  • 전길호;서형원;최명길;남유림;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-109
    • /
    • 2011
  • 기계학습은 학습말뭉치로부터 문제를 해결하기 위한 규칙을 학습하여 모델을 생성한다. 생성된 모델의 성능을 높이기 위해서는 문제에 적합한 자질들을 많이 이용해야 하지만 많은 자질들을 사용하면 모델의 생성시간은 느려지는 것이 사실이다. 이 문제를 해결하기 위해 본 논문에서는 다단계 기법을 적용한 기계학습으로 구묶음 시스템을 제작하여 학습모델의 생성시간을 단축하고 성능을 높이는 기법을 제안한다. 많은 종류의 자질들을 두 단계로 분리하여 학습하는 기법으로 1단계에서 구의 경계를 인식하고 2단계에서 구의태그를 결정한다. 1단계의 학습자질은 어휘 정보, 품사 정보, 띄어쓰기 정보, 중심어 정보를 사용하였으며, 2단계 학습자질은 어휘 정보와 품사 정보 외에 1단계 결과에서 추출한 구의 시작 품사 정보와 끝 품사 정보, 구 정보, 구 품사 정보를 자질로 사용하였다. 평가를 위해서 본 논문에서는 ETRI 구문구조 말뭉치를 사용하였다.

  • PDF

한영 자동 번역을 위한 보조 용언 생성 (English Auxiliary Verb Generation for Korean-to-English Machine Translation)

  • 신종훈;양성일;서영애;김창현;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-147
    • /
    • 2011
  • 본 논문에서는 한국어로 입력된 문장을 분석한 결과로부터 그에 해당하는 영어 대역문을 생성하는 과정에서, 어떻게 한국어의 보조용언을 영어 대역문에 반영 할 것인가를 다룬다. 특히 대화체 분야를 다루는 한영 자동번역 시스템에서는 한국어의 보조용언 생성이 대역문의 품질을 향상시키는데 중요한 위치를 차지하기 때문에, 한영 자동 번역에서의 자연스러운 영어 보조용언 생성을 위한 방법론을 제안한다. 첫째, 기존 패턴 기반 한영 자동 번역 엔진과 한국어 말뭉치를 형태소 분석한 결과를 살펴보고, 자연스러운 보조 용언 대역어 생성의 어려움을 살펴본다. 둘째, 자연스러운 보조용언 생성에 필요한 양상을 규칙화 한 지식을 기반으로 자연스러운 단일 보조용언 생성을 위한 방법을 제시한다. 셋째, 두 개 이상의 보조용언이 연속해서 나타나는 다중 보조용언의 생성 방법을 제시한다. 마지막으로, 실험과 결론을 통하여 본 논문이 제안하는 방법론을 사용했을 때, 자동 번역 엔진의 성능 평가 지표 중 하나인 BLEU와 NIST점수의 변화를 나타내봄으로 그 성능을 보인다.

  • PDF

병렬 말뭉치를 이용한 CEFR 기반 문장 작문 평가 (CEFR-based Sentence Writing Assessment using Bilingual Corpus)

  • 최승권;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.54-57
    • /
    • 2023
  • CEFR(Common European Framework of Reference for Language)는 유럽 전역의 교육기관에서 언어구사 능력을 평가하는 평가 기준이다. 본 논문은 학습자가 문장 작문한 것을 CEFR 에 기반하여 평가하는 모델을 기술하는 것을 목표로 한다. CEFR 기반 문장 작문 평가는 크게 전처리 단계, 작문 단계, 평가 단계로 구성된다. CEFR 기반 문장 작문 평가 모델의 평가는 CEFR 수준별로 분류한 문장들이 전문가의 수동 분류와 일치하는 지의 정확도와 학습자가 작문한 결과의 자동 평가로 측정되었다. 실험은 독일어를 대상으로 하였으며 독일어 전공 41 명의 대학생에게 CEFR 6 등급별로 5 문장씩 총 30 문장의 2 세트를 만들어 실험을 실시하였다. 그 결과 CEFR 등급별 자동 분류는 전문가의 수동 분류와 61.67%로 일치하는 정확도를 보였다.

딥러닝을 이용한 전이 기반 한국어 형태소 분석 및 품사 태깅 (A Transition based Joint Model for Korean Morpheme Segmentation and POS Tagging Using Deep Learning)

  • 민진우;나승훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.305-308
    • /
    • 2017
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 맞는 알맞은 품사를 결정하는 것은 매우 중요하다. 형태소의 품사를 태깅하는 대표적인 방법은 크게 음절 단위 형태소 분석과 단어 단위 형태소 분석의 두 가지로 나눌 수 있다. 본 논문에서는 의존 파싱 분야에서 널리 활용되고 있는 전이 기반 방식을 적용하여 전이 기반 단어 단위 한국어 형태소 분석 모델을 제안하고 해당 모델을 한국어 형태소 분석 데이터인 세종 품사 부착 말뭉치 셋에 적용하여 F1 97.77 %로 기존의 성능을 더욱 향상시켰다.

  • PDF

딥러닝을 이용한 전이 기반 한국어 형태소 분석 및 품사 태깅 (A Transition based Joint Model for Korean Morpheme Segmentation and POS Tagging Using Deep Learning)

  • 민진우;나승훈;김영길
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.305-308
    • /
    • 2017
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 맞는 알맞은 품사를 결정하는 것은 매우 중요하다. 형태소의 품사를 태깅하는 대표적인 방법은 크게 음절 단위 형태소 분석과 단어 단위 형태소 분석의 두 가지로 나눌 수 있다. 본 논문에서는 의존 파싱 분야에서 널리 활용되고 있는 전이 기반 방식을 적용하여 전이 기반 단어 단위 한국어 형태소 분석 모델을 제안하고 해당 모델을 한국어 형태소 분석 데이터인 세종 품사 부착 말뭉치 셋에 적용하여 F1 97.77 %로 기존의 성능을 더욱 향상시켰다.

  • PDF