• 제목/요약/키워드: Dialogue Corpus

검색결과 26건 처리시간 0.019초

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

발화 속도와 말차례 교체 빈도에 따른 운율 단위 변화에 관한 연구 (A study on the change of prosodic units by speech rate and frequency of turn-taking)

  • 원유권
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.29-38
    • /
    • 2022
  • 이 연구는 국립국어원 일상 대화 음성 코퍼스(2020)에서 나타나는 발화를 분석하여 발화 속도 및 말차례 교체 빈도가 운율 단위 변화에 어떤 영향을 끼치는지 밝히는 것을 목적으로 하였다. 분석 결과, 발화 속도가 증가할수록 억양구, 어절 빈도, 발화 길이가 증가하는 양의 상관관계를 보였으나 상관관계가 낮았고, 회귀모형의 적합도는 3%-11%로 설명력이 약했다. 말차례 교체 빈도에 따른 평균 발화 속도는 유의미한 차이가 있었고, 말차례 교체 빈도가 증가할수록 발화 속도는 감소하였다. 또한 말차례 교체 빈도가 증가할수록 억양구 및 어절 빈도와 발화 길이는 감소하였으며 높은 음의 상관관계가 있는 것으로 나타났다. 회귀 모형의 적합도는 27%-32%로 계산되었다. 말차례 교체 빈도가 발화 속도와 운율 단위를 변화시키는 요인으로 작용했을 수 있다. 이는 대화체에서 나타나는 비유창성, 말차례 교체 특성, 화자 간 활발한 상호작용 등이 영향을 미쳤을 것이라 추측된다.

대화 시스템의 말뭉치 구축을 위한 Object-Action 반자동 추출기 (Semi-Automatic Object-Action Extractor to Build the Utterance Corpus for the Dialogue System)

  • 윤정민;황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.220-223
    • /
    • 2015
  • 본 논문은 대화 시스템에서 사용되는 말뭉치의 구축을 위해 Object와 Action을 반자동으로 추출하는 도구에 대해 기술한다. 제안하는 추출 도구는 형태소 분석과 의존 구문 분석의 결과를 기반으로 적절한 Object와 Action을 추출하는 것에 목표를 두고 있다. 그러나 형태소 분석과 의존 구문 분석의 결과는 여러 가지 오류가 포함될 수 있다. 이러한 오류는 잘못된 Object와 Action의 추출로 이어질 수 있다. 그리고 Object의 추출에 있어 해당 명사의 격이 중요한 정보를 가진다. 하지만 한국어의 특성한 조사의 생략 등으로 인해 격 태깅의 모호성이 발생하게 된다. 따라서 본 논문에서 제안하는 반자동 추출기는 형태소 분석과 의존 구문 분석의 잘못된 결과를 사용자가 손쉽게 수정할 수 있도록 하고 모호성이 발생할 수 있는 Object를 사용자에게 알려주어 올바른 Object와 Action의 추출을 가능하게 한다. 추출기를 이용한 말뭉치의 구축은 1) 형태소 분석 2) 의존 구문 분석 3) Object-Action 추출의 단계로 진행된다. 실험에서 사용된 발화는 관광 회화용 대화 시스템의 숙박, 공항 영역의 500개의 발화이며, 이 중 259개의 발화가 태깅 시 모호성이 발생하는 발화이다. 반자동 추출기를 통해 모호성이 발생한 발화를 태깅한 결과 전체 발화 중 51.8%의 발화를 빠르고 정확하게 태깅할 수 있었다.

  • PDF

자질 선택 기법을 이용한 한국어 화행 결정 (Decision of the Korean Speech Act using Feature Selection Method)

  • 김경선;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.278-284
    • /
    • 2003
  • 화행(speech act)이란 화자의 발화를 통해 나타나는 화자의 의도를 가르키며 자연어로 된 발화를 이해하고 이에 대한 응답을 생성하기 위해 중요한 요소이다. 본 논문에서는 한국어 화행 결정의 성능을 높이기 위해 두 단계 방법을 제안한다. 첫 번째 단계는 형태소 분석결과만을 이용하여 추출된 문장자질과 이전 화행을 이용하여 추출된 문맥자질 중 정보량이 높은 자질을 선택하는 단계이다. 이 단계에서는 형태소 분석 시스템을 사용하여 전체 자질을 구성하고 문서분류 분야의 자질 선택에서 높은 성능을 보인 카이제곱 통계량을 이용하여 효과적인 자질 선택한다. 두 번째 단계는 선택된 자질과 신경망을 이용하여 화행을 분석하는 단계이다. 본 논문에서 제시한 방법은 형태소 분석 결과만을 이용하여 자동적으로 화행을 결정할 수 있는 가능성을 제시하였으며 효과적인 자질 선택을 통해 자질의 수를 감소시키고 정보량이 높은 자질을 사용하여 속도와 성능을 향상 시켰다 본 논문은 제안된 시스템을 실제 영역에서 수집되어 전사된 10,285개의 발화와 17개의 화행으로 이루어진 대화 코퍼스에 대해 실험하였다. 본 논문은 이 코퍼스에서 8,349개 발화를 학습 코퍼스로 사용하여, 실험 코퍼스의 1,936개 발화에 대해 1,709개에 대해 정확한 화행을 제시하여, 88.3%의 정확도를 보였다. 이는 자질 선택을 하지 않았을 때 보다 약 8%가 증가된 결과이다.

언어 모델 기반 페르소나 대화 모델 (Personalized Chit-chat Based on Language Models)

  • 장윤나;오동석;임정우;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-494
    • /
    • 2020
  • 최근 언어 모델(Language model)의 기술이 발전함에 따라, 자연어처리 분야의 많은 연구들이 좋은 성능을 내고 있다. 정해진 주제 없이 인간과 잡담을 나눌 수 있는 오픈 도메인 대화 시스템(Open-domain dialogue system) 분야에서 역시 이전보다 더 자연스러운 발화를 생성할 수 있게 되었다. 언어 모델의 발전은 응답 선택(Response selection) 분야에서도 모델이 맥락에 알맞은 답변을 선택하도록 하는 데 기여를 했다. 하지만, 대화 모델이 답변을 생성할 때 일관성 없는 답변을 만들거나, 구체적이지 않고 일반적인 답변만을 하는 문제가 대두되었다. 이를 해결하기 위하여 화자의 개인화된 정보에 기반한 대화인 페르소나(Persona) 대화 데이터 및 태스크가 연구되고 있다. 페르소나 대화 태스크에서는 화자마다 주어진 페르소나가 있고, 대화를 할 때 주어진 페르소나와 일관성이 있는 답변을 선택하거나 생성해야 한다. 이에 우리는 대용량의 코퍼스(Corpus)에 사전 학습(Pre-trained) 된 언어 모델을 활용하여 더 적절한 답변을 선택하는 페르소나 대화 시스템에 대하여 논의한다. 언어 모델 중 자기 회귀(Auto-regressive) 방식으로 모델링을 하는 GPT-2, DialoGPT와 오토인코더(Auto-encoder)를 이용한 BERT, 두 모델이 결합되어 있는 구조인 BART가 실험에 활용되었다. 이와 같이 본 논문에서는 여러 종류의 언어 모델을 페르소나 대화 태스크에 대해 비교 실험을 진행했고, 그 결과 Hits@1 점수에서 BERT가 가장 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

비핵심어 모델의 가중치 기반 핵심어 검출 성능 향상에 관한 연구 (A Study of Keyword Spotting System Based on the Weight of Non-Keyword Model)

  • 김학진;김순협
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.381-388
    • /
    • 2003
  • 본 논문에서는 핵심어 검출기의 성능 향상을 위해 가베지 클라스 클러스터링과 함께 필러 모델에 가중치론 부여하는 방안 및 태스크 도메인 이용자들의 발화 음성의 성향 분석을 통해 핵심어 천이 확률을 계산하여 핵심어 검출기반 대화 음성처리 시스템의 처리 시간 단축 방안을 제안한다. 제안한 방법은 음성학적으로 유사한 음소끼리 묶어서 사용함으로써 하나의 음소는 잘 표현하지 못하지만 비슷한 음소 그룹의 표현에는 유용한 방법으로 본 논문에서는 한국어 형태론과 태스크 도메인으로 선정한 증권거래 대화음성처리 시스템에서 활용되는 발화 문장을 분석하여 5 음소군을 제시한다. 또한 이들 음소군에 태스크 종속적인 필러 모델 가중치를 부여하며, 두 번째로는 시스템의 처리시간 단축을 위해 연속 발화 문장 속에 포함되어 있는 핵심어 천이 확률을 계산하여 시스템에 적용 실험한다. 제안한 시스템의 성능 평가를 위해 태스크 도메인에 활용되는 4,970 문장의 코퍼스를 구축하고, 이용자 중 20대∼30대 5명이 발성하게 하여 실험한 결과, 제안한 5 음소군에 가중치를 부여한 방법의 FOM은 87.5%로 Yapanel[1]의 7음소군 85.5%보다 우수한 성능을 보였으나, LVCSR의 89.8%보다는 약간 뒤지는 성능을 확인하였다. 계산시간에 있어서도 0.70초로 7음소군의 0.72초보다 우수한 성능을 보였다. 핵심어 천이 확률 분석을 통한 인식 시간 단축 실험에서는 천이 확률을 적용했을 때 약 0.04초∼0.07초의 처리 시간을 단축하는 것을 확인하였다.