• 제목/요약/키워드: Syllable Model

검색결과 77건 처리시간 0.022초

모바일 환경을 고려한 규칙기반 음성인식 오류교정 (Rule-based Speech Recognition Error Correction for Mobile Environment)

  • 김진형;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.25-33
    • /
    • 2012
  • 본 논문에서는 모바일 환경에서 음성인식한 결과에 포함된 오류를 교정하는 규칙기반 접근방법을 제안한다. 제안하는 방법은 처리시간이나 메모리에 제약을 받는 모바일 환경을 고려하여 다음과 같이 구성된다. 오류 교정 속도를 최소화하기 위해서, 음절 해체 및 조합 과정이나 형태소 분석 등의 처리를 줄이고, 최장일치 규칙 선택기준을 바탕으로 오류 발생 추정 지점에서 교정 후보도 하나만 생성한다. 제안하는 방법은 메모리를 효율적으로 사용하기 위해서, 어절사전이나 형태소분석기를 사용하지 않고, 규칙도 유형별로 따로 구분하지 않고 통합하여 저장한다. 제안하는 방법은 모델의 수정 및 유지보수가 용이하도록, 오류교정규칙을 학습말뭉치에서 자동으로 추출하여 구축한다. 실험결과 제안하는 방법은 음성인식 결과에 대하여 정확률을 5.27% 정도 재현율을 5.60% 정도 개선하였다.

복사 방법론과 입력 추가 구조를 이용한 End-to-End 한국어 문서요약 (End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding)

  • 최경호;이창기
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.503-509
    • /
    • 2017
  • 본 논문에서는 copy mechanism과 input feeding 추가한 RNN search 모델을 end-to-end 방식으로 한국어 문서요약에 적용하였다. 또한 시스템의 입출력으로 사용하는 데이터를 음절단위, 형태소단위, hybrid 단위의 토큰화 형식으로 처리하여 수행한 각각의 성능을 구하여, 모델과 토큰화 형식에 따른 문서요약 성능을 비교한다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, 형태소 단위로 토큰화 하였을 때 우수한 성능을 확인하였으며, GRU search에 input feeding과 copy mechanism을 추가한 모델이 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

미등록어 거절을 이용한 오류 보정 방법 개선 시스템 (Error Correction Methode Improve System using Out-of Vocabulary Rejection)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권8호
    • /
    • pp.173-178
    • /
    • 2012
  • 어휘 인식을 위한 모델 생성에서 준비하지 않은 트라이폰이 생성된다. 이는 모델 파라미터의 초기 추정치를 생성하지 못하는 원인으로 어휘 모델을 구성할 수 없는 단점으로 나타난다. 결과적으로 가우시안 모델의 정교함이 떨어지게 되어 인식률을 저하시키게 된다. 이를 개선하기 위한 방법으로 미등록 어휘 거절 알고리즘을 이용한 오류 보정 시스템을 제안한다. 이 방법은 어휘 인식 모델 생성 시 등록되지 않은 어휘를 거절하여 인식률을 향상시킨다. 또한 확률 분포를 이용하여 어휘 분석과 의미를 파악하고 음운 변동이 적용되기 전의 문자열로 복원시킨다. 시스템 분석은 음소 유사율과 신뢰도를 이용하여 오류 보정율을 확인하였고 성능 평가를 위해 에러 패턴, 오류 패턴, 의미 패턴 방법을 이용하여 평가하였다. 성능 평가 결과 2.8%의 오류 보정률의 향상을 보였다.

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

한국어 방송 음성 인식에 관한 연구 (A Study on the Korean Broadcasting Speech Recognition)

  • 김석동;송도선;이행세
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.53-60
    • /
    • 1999
  • 이 논문은 한국 방송 음성 인식에 관한 연구이다. 여기서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 주요 관점은 언어 모델과 탐색 방법이다. 사용된 음성 모델은 기본음소 Semi-continuous HMM이고 언어 모델은 N-gram 방법이다. 탐색 방법은 음성과 언어 정보를 최대한 활용하기 위해 3단계의 방법을 사용하였다. 첫째로, 단어의 끝 부분과 그에 관련된 정보를 만들기 위한 순방향 Viterbi Beam탐색을 하였으며, 둘째로 단어 의 시작 부분과 그에 관련된 정보를 만드는 역방향 Viterbi Beam탐색, 그리고 마지막으로 이들 두 결과와 확률적인 언어 모델을 결합하여 최종 인식결과를 얻기 위해 A/sup */ 탐색을 한다. 이 방법을 사용하여 12,000개의 단어에 대한 화자 독립으로 최고 96.0%의 단어 인식률과 99.2%의 음절 인식률을 얻었다.

  • PDF

Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

  • Jin, Hye-won;Lee, A-Hyeon;Chae, Ye-Jin;Park, Su-Hyun;Kang, Yu-Jin;Lee, Soowon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.1-7
    • /
    • 2021
  • 현재 대부분의 음성인식 오류 교정에 관한 연구는 영어를 기준으로 연구되어 한국어 음성인식에 대한 연구는 미비한 실정이다. 하지만 영어 음성인식에 비해 한국어 음성인식은 한국어의 언어적인 특성으로 인해 된소리, 연음 등의 발음이 있어, 비교적 많은 오류를 보이므로 한국어 음성인식에 대한 연구가 필요하다. 또한, 기존의 한국어 음성인식 연구는 주로 편집 거리 알고리즘과 음절 복원 규칙을 사용하기 때문에, 된소리와 연음의 오류 유형을 교정하기 어렵다. 본 연구에서는 된소리, 연음 등 발음으로 인한 한국어 음성인식 오류를 교정하기 위하여 LSTM을 기반으로 한 인공 신경망 모델 Sequence-to-Sequence와 Bahdanau Attention을 결합하는 문맥 기반 음성인식 후처리 모델을 제안한다. 실험 결과, 해당 모델을 사용함으로써 음성인식 성능은 된소리의 경우 64%에서 77%, 연음의 경우 74%에서 90%, 평균 69%에서 84%로 인식률이 향상되었다. 이를 바탕으로 음성인식을 기반으로 한 실제 응용 프로그램에도 본 연구에서 제안한 모델을 적용할 수 있다고 사료된다.

텍스트의 언어적 난이도 측정 공식 비교 연구 - 초중고 교과서를 중심으로 - (A Comparative Study on Modelling Readability Formulas: Focus on Primary and Secondary Textbooks)

  • 최인숙
    • 정보관리학회지
    • /
    • 제22권4호통권58호
    • /
    • pp.173-195
    • /
    • 2005
  • 본 연구는 언어적 난이도에 영향을 주는 요인들로 텍스트수준점수 측정공식을 구성하는 방법론이 초등학교 텍스트는 물론 중고등학교 텍스트까지 확장 ·적용될 수 있는지 확인하고 텍스트가 확장됨에 따라 나타나는 새로운 특성을 설명할 수 있는 요인들을 규명하고자 한다. 초중고 텍스트 통합공식, 중고등학교 텍스트 전용공식, 초등학교 텍스트 전용공식을 구성하여 각 공식들의 특징을 비교한 결과 텍스트의 범위를 넓게 잡아 통합 공식을 구성하는 것보다는 소규모 집단으로 분리한 후 전용공식을 구성하는 것이 해당 집단의 특성을 잘 반영하는 우수한 공식을 도출할 수 있는 것으로 확인되었다. 중고등학교 텍스트의 점수를 측정하려면 단락내문장수요인, 문장수 $\cdot$ 단락수요인을 사용하고 초등학교 텍스트의 점수를 측정하려면 이형어절수요인, 이형어절수$\cdot$새어절출현비율요인을 사용하는 것이 효율적이었다.

NB 모델을 이용한 형태소 복원 (Morpheme Recovery Based on Naïve Bayes Model)

  • 김재훈;전길호
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.195-200
    • /
    • 2012
  • 한국어는 교착어이어서 형태소 분석 없이 품사 부착이 어려울 뿐 아니라 형태소를 분석할 때 다양한 어형 변화가 복원되어야 한다. 이것은 한국어 형태소 분석의 고질적인 문제 중 하나이며, 주로 규칙을 이용해서 해결한다. 규칙을 이용할 경우 주어진 문맥에 가장 적합한 복원을 어려워 여러 형태의 모호성을 생성하며, 이는 품사 부착에 의해서 해결된다. 본 논문에서는 이 문제를 기계학습 방법(Na$\ddot{i}$ve Bayes 모델)을 이용하여 해결한다. 기계학습 모델의 입력 자질은 어형 변화가 발생하는 주변 음절이며 출력 범주는 복원된 음절이다. ETRI 구문 말뭉치를 이용한 실험에서 제안된 형태소 복원 모델을 사용한 형태소 단위의 품사 부착 성능은 97.5%의 $F_1$점수를 보였으며 이 모델이 형태소 복원에 매우 유용함을 알 수 있었다.

한국어 어휘 처리 과정에서 글짜 정보와 발음 정보의 연결성 (Orthographic and phonological links in Korean lexical processing)

  • 김지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-214
    • /
    • 1995
  • At what level of orthographic representation is phonology linked in thelexicon? Is it at the whole word level, the syllable level, letter level, etc? This question can be addressed by comparing the two scripts used in Korean, logographic Hanmoon and alphabetic/syllabic Hangul, on a task where judgements must be made about the phonology of a visually presented word. Four experiments are reported using a "homophone decision task" and manipulating the sub-lexical relationship between orthography and phonology in Hanmoon and Hangul, and the lexical status of the stimuli. Hangul words showed a much higher error rate in judging whether there was another word identically pronounced than both Hangul nonwords and Hanmoon words. It is concluded that the relationship between orthography and phonology in the lexicon differs according tn the type of script owing to the availability of sub-lexical information: the process of making a homophone derision is based on a spread of activation exclusively among lexical entries, from orthography to phonology and vice versa (called "Orthography-Phonology-Orthography Rebound" or "OPO Rebound"). The results are explained within the mulitilevel interactive activation model with orthographic units linked to phonological units at each level.

  • PDF

음절과 형태소 정보를 이용한 한국어 문장 띄어쓰기 교정 모델 (Korean sentence spacing correction model using syllable and morpheme information)

  • 최정명;오병두;허탁성;정영석;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.141-144
    • /
    • 2020
  • 한국어에서 문장의 가독성이나 맥락 파악을 위해 띄어쓰기는 매우 중요하다. 또한 자연 언어 처리를 할 때 띄어쓰기 오류가 있는 문장을 사용하면 문장의 구조가 달라지기 때문에 성능에 영향을 미칠 수 있다. 기존 연구에서는 N-gram 기반 통계적인 방법과 형태소 분석기를 이용하여 띄어쓰기 교정을 해왔다. 최근 들어 심층 신경망을 활용하는 많은 띄어쓰기 교정 연구가 진행되고 있다. 기존 심층 신경망을 이용한 연구에서는 문장을 음절 단위 또는 형태소 단위로 처리하여 교정 모델을 만들었다. 본 연구에서는 음절과 형태소 단위 모두 모델의 입력으로 사용하여 두 정보를 결합하여 띄어쓰기 교정 문제를 해결하고자 한다. 모델은 문장의 음절과 형태소 시퀀스에서 지역적 정보를 학습할 수 있는 Convolutional Neural Network와 순서정보를 정방향, 후방향으로 학습할 수 있는 Bidirectional Long Short-Term Memory 구조를 사용한다. 모델의 성능은 음절의 정확도와 어절의 정밀도, 어절의 재현율, 어절의 F1 score를 사용해 평가하였다. 제안한 모델의 성능 평가 결과 어절의 F1 score가 96.06%로 우수한 성능을 냈다.

  • PDF