• 제목/요약/키워드: 언어훈련

검색결과 249건 처리시간 0.022초

MovieDic 말뭉치를 이용한 대화 참여 모델의 구성 (Construction of Dialog Engagement Model using MovieDic Corpus)

  • 구상준;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.249-251
    • /
    • 2016
  • 다중 화자 대화 시스템에서, 시스템의 입장에서 어느 시점에 참여해야하는지를 아는 것은 중요하다. 이러한 참여 모델을 구축함에 있어서 본 연구에서는 다수의 화자가 대화에 참여하는 영화 대본으로 구축된 MovieDic 말뭉치를 사용하였다. 구축에 필요한 자질로써 의문사, 호칭, 명사, 어휘 등을 사용하였고, 훈련 알고리즘으로는 Maximum Entropy Classifier를 사용하였다. 실험 결과 53.34%의 정확도를 기록하였으며, 맥락 자질의 추가로 정확도 개선을 기대할 수 있다.

  • PDF

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

Feed-Forward Neural Network를 이용한 문맥의존 철자오류 교정 (Context-sensitive Spelling Error Correction using Feed-Forward Neural Network)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-128
    • /
    • 2015
  • 문맥의존 철자오류는 해당 단어만 봤을 때에는 오류가 아니지만 문맥상으로는 오류인 문제를 말한다. 이러한 문제를 해결하기 위해서는 문맥정보를 보아야 하지만, 형태소 분석 단계에서는 자세한 문맥 정보를 보기 어렵다. 본 논문에서는 형태소 분석 정보만을 이용한 철자오류 수정을 위한 문맥으로 사전훈련(pre-training)된 단어 표현(Word Embedding)를 사용하고, 기존의 기계학습 알고리즘보다 좋다고 알려진 딥 러닝(Deep Learning) 기술을 적용한 시스템을 제안한다. 실험결과, 기존의 기계학습 알고리즘인 Structural SVM보다 높은 F1-measure 91.61 ~ 98.05%의 성능을 보였다.

  • PDF

COAT: 시맨틱 어노테이션 말뭉치 구축 지원 도구 (COAT: Manual Semantic Annotation Support Toolkit)

  • 최동현;김은경;고은비;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-89
    • /
    • 2011
  • 수동 어노테이션을 통한 말뭉치 구축 작업은 많은 시간과 노력이 필요한 작업이지만, 자동화된 정보 추출 도구의 훈련 및 실험, 평가를 위해서는 꼭 필요한 작업이기도 하다. 본 논문에서는, 수동 시맨틱 어노테이션을 통한 말뭉치 구축 작업을 지원하는 수동 시맨틱 어노테이션 지원 도구 COAT를 소개한다. COAT는 각 어노테이터의 작업 효율을 높이기 위하여 GUI 기반 인터페이스를 제공하고, 작업의 대부분을 단축키만 이용하여 수행 가능하도록 설계되었다. 또한 최종 결과로 얻어지는 데이터의 신뢰성을 높이기 위하여, 최소 두 명 이상의 어노테이터가 같은 문서에 대하여 작업하면 고참 어노테이터가 각 결과물들을 통합하는 컨쥬게이션 도구를 구축하였으며, 각 어노테이터들의 작업 및 데이터들을 관리 감독하기 위한 관리자 도구를 개발하였다. 본 도구를 직접 사용하여 어노테이션 작업을 수행한 결과, 본 도구를 사용하지 않고 작업을 수행할 때와 비교하여 약 87%의 비용 절감 효과를 얻을 수 있었다.

  • PDF

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

LyriKOR: 음절을 맞춘 영한 노래 가사 번역 모델 (LyriKOR: English to Korean Song Translation with Syllabic Alignment)

  • 조혜진;홍은빈;오지민;박정환;이병준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.510-516
    • /
    • 2023
  • 세계화가 진행됨에 따라 다양한 문화의 음악을 즐기는 사람들이 늘어나고, 해외 팬들이 외국 노래를 이해하고 따라 부를 수 있는 접근성을 확보하는 것이 중요해졌다. 이를 위해 본 논문에서는 노래 가사 데이터에 특화된 영어-한국어 번역 모델 리리코(LyriKOR)를 제시한다. 리리코는 영어 노래를 한국어로 번역하여 그 의미를 담아낼 뿐만 아니라, 번역 결과물이 원곡의 선율과 리듬에 어느 정도 부합하도록 하여 한국어로 바로 따라 부를 수 있도록 하는 것을 목표로 한다. 이를 위해 번역과 음절 조정의 두 단계(two-stage)를 거쳐 제한된 데이터로 음절 정렬된 번역 모델을 훈련하는 새로운 방법을 소개한다. 모델 코드는 여기에서 볼 수 있다.

  • PDF

오차배제훈련을 병행한 시간차 회상훈련이 경도인지장애 환자의 기억력에 미치는 효과와 수단적 일상생활(IADL) 및 우울에 미치는 영향: 단일대상연구 (The Effects of Spaced Retrieval Training with Errorless Learning on Memory, IADL, Depression in Mild Cognitive Impairment: Single-Subject Design)

  • 김연주;박혜연
    • 재활치료과학
    • /
    • 제4권2호
    • /
    • pp.73-83
    • /
    • 2015
  • 목적 : 본 연구는 오차배제훈련을 병행한 시간차회상훈련이 경도인지장애(Mild Cognitive Impairment; MCI) 환자의 기억력에 미치는 효과와 수단적 일상생활(Instrumental Activities of Daily Living; IADL) 및 우울에 미치는 영향을 알아보고자 하였다. 연구방법 : 주간보호시설에 등록된 78세 MCI 노인을 대상으로 단일 대상 실험 연구 중 ABA 설계를 사용하여 실험을 진행하였다. 연구를 진행한 총 16회기 중 기초선 A는 총 3회기, 중재기간 B는 총 10회기, 기초선 A'는 총 3회기였다. 기억력을 측정하기 위한 회기별 평가로 Rey-Kim 언어 기억 검사(K-Auditory Verbal Learning Test; K-AVLT)를 사용하였고, 인지기능, IADL 수행 능력, 우울을 측정하기 위하여 각각 한국판 몬트리올 인지평가(Korean version of Montreal Cognitive Assessment; MoCA-K), 필라델피아 노인 센터 IADL 도구(Philadelphia Geriatric Center Instrumental Activities Daily Living; PGC IADL), 한국판 노인우울척도(Geriatric Depression Scale Korean Version; GDS-K)를 사용하였다. 결과 : 대상자는 기초선 A기간에 비하여 중재를 제공한 B기간에서의 즉시회상 및 지연회상이 현저히 증가하였다. 또한, 즉시회상과 지연회상 모두 B 기간에서 증가하던 측정값의 경향이 중재를 제거한 후인 기초선 A'구간에서 감소하는 경향을 보였다. MoCA-K 점수는 향상을 보였으며, PGC IADL 점수는 중재 전과 후가 같았고 GDS-K의 점수는 감소하였다. 결론 : 본 연구의 결과를 통하여 MCI 환자를 대상으로 실시한 오차배제훈련을 병행한 시간차 회상훈련의 근거를 확고히 하였다. 나아가 MCI 환자들이 기억력과 함께 어려움을 겪는 요인을 향상시키기 위한 중재 및 기억력과 다른 기능적 요소들에 대한 상관관계에 대하여 추가적인 연구가 필요할 것이다.

클라우드 기반 음성인식 서비스 활용도 향상을 위한 음성인식 공통 인터페이스 표준 포맷 (Common ASR Interface format for increasing usability of cloud-based ASR services.)

  • 오정섭;이병훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.423-425
    • /
    • 2022
  • 음성인식은 컴퓨터가 사람의 언어를 이해하여, 소리로 발화하는 사람의 음성을 인식하여 텍스트로 바꾸는 과정을 의미하며, 최근 활용도가 높아지고 있다. 음성인식 엔진은 얼마나 많은 학습데이터를 기반으로 훈련을 했느냐에 따라서 그 성능이 결정되기 때문에, 자신의 서비스 에 맞는 음성인식 엔진을 적절히 선택할 수 있어야 한다. 음성인식 엔진의 성능이 수시로 변경될 수 있기 때문에 표준 인터페이스를 빠른 개발을 진행할 수 있도록 표준 포맷을 제안하였다.

인공 신경망을 이용한 한국어 문장단위 운율 발생에 관한 연구 (A study on the Prosody Generation of Korean Sentences using Artificial Neural networks)

  • 이일구;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.105-108
    • /
    • 1999
  • TTS(Text-To-Speech) 시스템 합성음성의 자연감을 개선하기 위해 하나의 언어에 대해 존재하는 운율 법칙을 정확히 구현해야 한다. 존재하는 운율 법칙을 추출하기 위해서는 방대한 분량의 언어 자료 구축이 필요하다. 그러나 이 방법은 존재하는 운율 현상이 포함된 언어자료에 대해 완벽한 운율을 파악할 수 없으므로 합성음성의 질을 좋게 할 수 없다. 본 논문은 한국어 음성의 운율을 학습하기 위해 2개의 인공 신경망을 제안한다. 하나의 신경망으로 문장의 각 음소에 대한 피치 변화를 학습시키는 것이며, 다른 하나는 에너지 변화를 학습하도록 하였다. 신경망은 BP 신경망을 이용하며 11개의 음소를 나타내기 위해 11개의 입력과, 중간 음소의 피치와 에너지 변화곡선을 근사하는 다항식 계수를 출력하도록 하였다. 신경망시스템의 학습과 평가에 앞서, 음성학적 균형잡힌 고립단어를 기반으로 의미있는 문장을 구성하였다. 문장을 남자 화자로 하여금 읽게 하고 녹음하여 음성 DB를 구축하였다. 음성 DB에 대해 각 음소의 운율 정보를 수집하여 신경망에 맞는 목표 패턴과 훈련 패턴을 작성하였다. 이 목표 패턴은 회귀분석을 통한 추세선을 이용해 피치와 에너지에 대한 2차 다항식계수로 구성하였다. 본 논문은 목표패턴에 맞는 신경망을 학습시켜 좋은 결과를 얻었다.

  • PDF

한국어 의미 표지 부착 말뭉치 구축 작업 (Korean Semantic Tagged Corpus Construction working)

  • 이민지;이윤정;이정국;김종대;박찬영;송혜정;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF