• 제목/요약/키워드: Syllable-Unit Processing

검색결과 15건 처리시간 0.022초

반음절기반의 한국어 연속숫자음인식과 그 후처리에 대한 연구 (A Study on Korean Connected Digit Recognizer Based on Semi-syllable and Post-processing)

  • 정재부;정훈;정익주
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.1-15
    • /
    • 2001
  • This paper describes the effect of new recognition unit, a unit based on semisyllable, and its post processing method. A recognition unit based on semi-syllable expresses Korean connected digit's coarticulation effect. An existing method using semi-syllable limits next models, derived from current recognized models, to make complete connected digit sequence. However, this paper uses a new method to make complete connected digit sequence. The new post-processing method recognizes isolated digit words which include digits sequence from the digit combinations being able to occur from current recognized semi-syllable sequence. This method gives an improved accuracy rate than that of existing method. This new post processing provides two advantages. 1) It corrects current mis-recognized semi-syllable unit. 2) When people say each digit, they say it without regard to saying duration.

  • PDF

한글 낱말의 처리 단위 (The Processing Unit in Korean Words)

  • 이준석;김경린
    • 인지과학
    • /
    • 제1권2호
    • /
    • pp.221-239
    • /
    • 1989
  • 한글 낱말의 처리단의를 검증하기 위해 3개의 실험을 실시 하였다.예비 실험과 실험1은 한음절 글자, 실험 2는 2음절 이상 글자에서의 처리단위를 밝혀보고자 하였다.예비실험에서,자음유형효과는 통계적으로 유의미하지 않았으나 낱말 위치 효과는 유의미했다.Newman-Keuls 검증결과 초성조건과 중성조건간 차이는 유의미하지 않았으나 중성조건과 중성조건간의 차이는 유의미했다.실험 1에서는 낱자수가 증가함에 따라 반응시간도 증가했다.낱말 위치 효과는 예비실험과 동일했다.실험 2에서는 종성유무와는 관계없이 음절이 증가함에 따라 반응시간이 증가했다.본 연구의 시사점은 다음과 같다:(1)한 음절의 글자에서는 초성과 종성으로만 구성된 음절을 단위로 정보처리가 이루어지나 (2) 두 음절이상의 글자에서는 종성이 포함된 음절을 단위로 정보처리가 이루어진다.

한글 단어 재인에 영향을 미치는 변인: 음절 형태를 중심으로 (Variables affecting Korean word recognition: focusing on syllable shape)

  • 민수영;이창환
    • 인지과학
    • /
    • 제29권4호
    • /
    • pp.193-220
    • /
    • 2018
  • 시각 단어 재인에 영향을 미치는 변인으로는 단어 빈도, 단어 길이, 이웃단어, 단어 형태 등이 밝혀진 바 있다. 단어 형태 변인은 한글이 영어와는 글자 체계가 다르기 때문에 형태 정보가 단어 처리에 다른 방식으로 영향을 미칠 수 있다. 본 연구는 게스탈트의 연속성 원리를 한글에 적용하여 한글 단어의 처리 단위를 알아보고, 음절 형태가 한글 단어 재인에 영향을 미치는지 검증하고자 하였다. 실험 1에서는 3음절 단어를 사용하여 음절 유형(평소 읽기방향이 연속성 원리에 부합하는 '가로집자'형(예: "가"), 부합하지 않는 '세로집자'형(예: "고")과 글자 제시 방향(가로, 세로)을 조작하였다. 어휘 판단 시간의 분석 결과, 제시 방향에 상관없이 '가로집자'형의 처리 속도가 '세로집자'형보다 빨랐다. 실험 2에서는 차폐 점화를 사용하여 음절유형('가로집자'와 '세로집자'형) 및 점화 자극과 목표 자극의 시각적 관계(동일, 유사, 상이)를 조작하였다. 점화자극과 목표자극의 음절집자 형태에 따라서 수행에 차이가 있었으며 이는 음절 형태가 단어 재인에 미친다는 것을 시사한다.

Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델 (A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.121-128
    • /
    • 2018
  • Sequence-to-sequence(Seq2seq) 모델은 입력열과 출력열의 길이가 다를 경우에도 적용할 수 있는 모델로 한국어 형태소 분석에서 많이 사용되고 있다. 일반적으로 Seq2seq 모델을 이용한 한국어 형태소 분석에서는 원문을 음절 단위로 처리하고 형태소와 품사를 음절 단위로 출력한다. 음절 단위의 형태소 분석은 사전 미등록어 문제를 쉽게 처리할 수 있다는 장점이 있는 반면 형태소 단위의 사전 정보를 반영하지 못한다는 단점이 있다. 본 연구에서는 Seq2seq 모델의 후처리로 재순위화 모델을 추가하여 형태소 분석의 최종 성능을 향상시킬 수 있는 모델을 제안한다. Seq2seq 모델에 빔 서치를 적용하여 K개 형태소 분석 결과를 생성하고 이들 결과의 순위를 재조정하는 재순위화 모델을 적용한다. 재순위화 모델은 기존의 음절 단위 처리에서 반영하지 못했던 형태소 단위의 임베딩 정보와 n-gram 문맥 정보를 활용한다. 제안한 재순위화 모델은 기존 Seq2seq 모델에 비해 약 1.17%의 F1 점수가 향상되었다.

시청각 코퍼스 기반의 립싱크 알고리듬 개발 (Development of a Lipsync Algorithm Based on Audio-visual Corpus)

  • 김진영;하영민;이화숙
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.63-69
    • /
    • 2001
  • 본 논문에서는 자연스러운 얼굴 합성을 위한 코퍼스 기반의 립싱크 알고리듬을 제안한다. 립싱크 알고리듬을 개발하기 위하여 여성 아나운서의 시청각 코퍼스를 구축하였다 코퍼스 구축시, 입술파라미터 추출하기 위하여 여성화자의 얼굴에 스티커를 붙이고, 이의 위치를 영상처리기법에 의하여 얻었다. 그리고 길이, 세기 그리고 피치의 운율정보를 얻기 위하여 음성을 HTK (hidden Markov tool kit)를 사용하여 레이블 하였다. 립싱크의 기본단위로는 자음-모음-자음의 음절단위를 사용하였는데, 구축된 시청각 코퍼스는 입술의 정보 그리고 음운론적, 운율적 정보를 포함하는 음절들로 구성된다. 입술합성시에는 입력된 텍스트로부터 음절의 열을 만들고 각 음절에 적절한 대표들을 코퍼스로부터 N개씩 선정후, 최적의 열은 비터비탐색을 통하여 얻었다. 이를 위하여 음운론적 거리와 운율거리 함수가 정하였다. 컴퓨터 모의실험결과 제안된 알고리듬이 좋은 성능을 보임을 확인할 수 있었으며, 특히 립싱크에서는 길이정보뿐 아니라 길이와 피치의 정보도 유용함을 밝혔다.

  • PDF

음절 복원 후보 집합의 생성과 후보 감소에 관한 연구 (A Study on a Generation of a Syllable Restoration Candidate Set and a Candidate Decrease)

  • 김규식;김경징;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권12호
    • /
    • pp.1679-1690
    • /
    • 2002
  • 본 논문에서는 음성 인식의 후처리를 위한 음절 복원 규칙의 생성과 복원 후보의 감소에 관한 연구를 수행하였다. 대화체 연속 음성 인식의 성능 향상을 위하여 음절 단위를 인식하는 음성인식 시스템의 후처리를 통하여 인식된 로 발음되는 복원 후보를 생성하는 음절 복원 규칙을 생성하였다. 또한 복원 집합의 후보수를 줄이기 위한 방안으로 복원 규칙에서 실생활에서 사용되지 않는 표기를 생성하는 규칙을 제거하는 방안을 제시하였다. 음절 복원 규칙이 올바른 복원 후보 집합을 생성함을 보이기 위하여 복원 후보 집합 생성기를 설계 구현하고, 표준 발음법 예제와 발음법 사전에서 무작위로 추출된 단어에 대하여 실험한 결과 발성 이전의 표기가 포함된 올바른 표기 집합이 생성됨을 입증하였다.

  • PDF

Fake News Detection Using Deep Learning

  • Lee, Dong-Ho;Kim, Yu-Ri;Kim, Hyeong-Jun;Park, Seung-Myun;Yang, Yu-Jun
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1119-1130
    • /
    • 2019
  • With the wide spread of Social Network Services (SNS), fake news-which is a way of disguising false information as legitimate media-has become a big social issue. This paper proposes a deep learning architecture for detecting fake news that is written in Korean. Previous works proposed appropriate fake news detection models for English, but Korean has two issues that cannot apply existing models: Korean can be expressed in shorter sentences than English even with the same meaning; therefore, it is difficult to operate a deep neural network because of the feature scarcity for deep learning. Difficulty in semantic analysis due to morpheme ambiguity. We worked to resolve these issues by implementing a system using various convolutional neural network-based deep learning architectures and "Fasttext" which is a word-embedding model learned by syllable unit. After training and testing its implementation, we could achieve meaningful accuracy for classification of the body and context discrepancies, but the accuracy was low for classification of the headline and body discrepancies.

한국어 단어재인에 있어서 빈도와 길이 효과 탐색 (The exploration of the effects of word frequency and word length on Korean word recognition)

  • 이창환;이윤형;김태훈
    • 한국산학기술학회논문지
    • /
    • 제17권1호
    • /
    • pp.54-61
    • /
    • 2016
  • 단어는 언어의 기초적인 의미 단위이기 때문에 단어재인에 대한 연구는 언어 연구에서 중요하며 단어처리에 기여하는 변인이 무엇인지에 관한 연구가 이루어져 왔다. 본 연구에서는 한국어 단어재인 과정의 주요 변인 중 단어 빈도와 단어길이의 영향을 탐색하였다. 먼저 단어 빈도와 관련하여, 한국어의 특징 중 하나인 한자어로 이루어진 단어에서도 기존의 연구와 동일한 양상의 빈도 효과가 나타나는지를 탐색하였다. 이를 위해 순 한글 단어와 한자어로 이루어진 단어를 비교하였으며, 그 결과 한자어로 이루어진 단어에서는 빈도 효과가 나타나지 않았다. 한편 단어 길이 효과의 경우, 단음절로 구성된 단어의 양상을 확인해 보고자, 음절의 개수를 변화시켜 단어 길이 효과를 측정하였다. 그 결과 단음절 단어는 이음절 단어에 비해 느리게 처리되었다. 특정 유형의 단어에 대한 빈도 효과의 부재 및 단음절 단어의 느린 처리는 한국어의 특징을 반영한 결과라 할 수 있으며 추후 연구를 통해 이에 대한 좀더 자세한 탐색이 필요할 것이다.

한국어 음운 변동 처리를 위한 효율적인 Rule Base System의 구성 (Implementation of an Effective Rule Base System for the Change of Korean Vocal Sound)

  • 이규영;이상범
    • 전자공학회논문지B
    • /
    • 제28B권12호
    • /
    • pp.9-18
    • /
    • 1991
  • In this Paper, a rule-based method for the phenomenon of Korean vocal sound change is proposed. This method could be used to solve a problem between symbolic(Hangul)and phonetic language(Korean) for the study of Korean speech processing. A rule on the phenomenon of vocal sound rearranged for the rule base with a end-consonents on the authority of standard pronunciation rule. The proposed rule base system is simplified by the implementation for the vocal sound change. Also, it is useful to create the data base with phonetic value for the Korean voice processing by syllable unit.

  • PDF

한국어 인식을 위한 인식 단위와 학습 데이터 분류 방법에 대한 연구 (A Study on Recognition Units and Methods to Align Training Data for Korean Speech Recognition))

  • 황영수
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.40-45
    • /
    • 2003
  • 본 연구는 한국어 분절음 인식을 위한 인식 단위 설정과 학습시 학습 데이터 분할 방법에 대한 연구이다 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화와 학습시 학습 데이터 분할 방법에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식 단위 설정과 현대어 발음에 기초한 인식 단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였으며, 학습 데이터 분할 방법에 따른 인식 결과는 손으로 분할한 방법이 자동 분할 방법보다 약 2-3%의 인식 향상을 보였다. 또한 인식 단위의 설정에 있어서 독립된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(bipbone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다.

  • PDF