• 제목/요약/키워드: lexicon

검색결과 276건 처리시간 0.022초

한국어 대어휘 연속음성 인식용 발음사전 자동 생성 및 최적화 (Building a Morpheme-Based Pronunciation Lexicon for Korean Large Vocabulary Continuous Speech Recognition)

  • 이경님;정민화
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.103-118
    • /
    • 2005
  • In this paper, we describe a morpheme-based pronunciation lexicon useful for Korean LVCSR. The phonemic-context-dependent multiple pronunciation lexicon improves the recognition accuracy when cross-morpheme pronunciation variations are distinguished from within-morpheme pronunciation variations. Since adding all possible pronunciation variants to the lexicon increases the lexicon size and confusability between lexical entries, we have developed a lexicon pruning scheme for optimal selection of pronunciation variants to improve the performance of Korean LVCSR. By building a proposed pronunciation lexicon, an absolute reduction of $0.56\%$ in WER from the baseline performance of $27.39\%$ WER is achieved by cross-morpheme pronunciation variations model with a phonemic-context-dependent multiple pronunciation lexicon. On the best performance, an additional reduction of the lexicon size by $5.36\%$ is achieved from the same lexical entries.

  • PDF

Maximum Likelihood-based Automatic Lexicon Generation for AI Assistant-based Interaction with Mobile Devices

  • Lee, Donghyun;Park, Jae-Hyun;Kim, Kwang-Ho;Park, Jeong-Sik;Kim, Ji-Hwan;Jang, Gil-Jin;Park, Unsang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4264-4279
    • /
    • 2017
  • In this paper, maximum likelihood-based automatic lexicon generation using mixed-syllables is proposed for unlimited vocabulary voice interface for East Asian languages (e.g. Korean, Chinese and Japanese) in AI-assistant based interaction with mobile devices. The conventional lexicon has two inevitable problems: 1) a tedious repetition of out-of-lexicon unit additions to the lexicon, and 2) the propagation of errors during a morpheme analysis and space segmentation. The proposed method provides an automatic framework to solve the above problems. The proposed method produces a level of overall accuracy similar to one of previous methods in the presence of one out-of-lexicon word in a sentence, but the proposed method provides superior results with the absolute improvements of 1.62%, 5.58%, and 10.09% in terms of word accuracy when the number of out-of-lexicon words in a sentence was two, three and four, respectively.

발음 변이의 발음사전 포함 결정 조건을 통한 발음사전 최적화 (Pronunciation Lexicon Optimization with Applying Variant Selection Criteria)

  • 전재훈;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.24-27
    • /
    • 2006
  • This paper describes how a domain dependent pronunciation lexicon is generated and optimized for Korean large vocabulary continuous speech recognition(LVCSR). At the level of lexicon, pronunciation variations are usually modeled by adding pronunciation variants to the lexicon. We propose the criteria for selecting appropriate pronunciation variants in lexicon: (i) likelihood and (ii) frequency factors to select variants. Our experiment is conducted in three steps. First, the variants are generated with knowledge-based rules. Second, we generate a domain dependent lexicon which includes various numbers of pronunciation variants based on the proposed criteria. Finally, the WERs and RTFs are examined with each lexicon. In the experiment, 0.72% WER reduction is obtained by introducing the variants pruning criteria. Furthermore, RTF is not deteriorated although the average number of variants is higher than that of compared lexica.

  • PDF

관용 표현과 어휘부, 그리고 문장의 형성 (The Idiom, the Lexicon, and the Formation of a Sentence)

  • 황화상
    • 한국어학
    • /
    • 제65권
    • /
    • pp.295-320
    • /
    • 2014
  • The idiom is listed in the lexicon, because it's meaning cannot be inferred from it's constituents. And the idiom is a single semantic unit. Thus the idiom is inserted to the syntax in the quality of a word. But the idiom is not always inserted to the syntax as a word. In the process generating the sentence, we can recognize the categorial property of the idiom that it is formally equal to the syntactic phrase. Then each of the constituents of the idiom can be inserted to the syntax. This is why the syntactic operation(as modification, topicalization, relativization, etc) can be applied to the constituent of the idiom. In this respect the idiom is a flexible construction as the listeme of a lexicon. The flexible property of the idiom is related to the dynamicity of a lexicon. The formal or semantic transformation of the idiom is the good example to show the dynamicity of a lexicon.

음소변동규칙의 발견빈도에 기반한 음성인식 발음사전 구성 (Generating Pronunciation Lexicon for Continuous Speech Recognition Based on Observation Frequencies of Phonetic Rules)

  • 나민수;정민화
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.137-153
    • /
    • 2007
  • The pronunciation lexicon of a continuous speech recognition system should contain enough pronunciation variations to be used for building a search space large enough to contain a correct path, whereas the size of the pronunciation lexicon needs to be constrained for effective decoding and lower perplexities. This paper describes a procedure for selecting pronunciation variations to be included in the lexicon based on the frequencies of the corresponding phonetic rules observed in the training corpus. Likelihood of a phonetic rule's application is estimated using the observation frequency of the rule and is used to control the construction of a pronunciation lexicon. Experiments with various pronunciation lexica show that the proposed method is helpful to improve the speech recognition performance.

  • PDF

감성 분석을 위한 어휘 통합 합성곱 신경망에 관한 연구 (A Study on Lexicon Integrated Convolutional Neural Networks for Sentiment Analysis)

  • 윤주성;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.916-919
    • /
    • 2017
  • 최근 딥러닝의 발달로 인해 Sentiment analysis분야에서도 다양한 기법들이 적용되고 있다. 이미지, 음성인식 분야에서 높은 성능을 보여주었던 Convolutional Neural Networks (CNN)은 최근 자연어처리 분야에서도 활발하게 연구가 진행되고 있으며 Sentiment analysis에도 효과적인 것으로 알려져 있다. 기존의 머신러닝에서는 lexicon을 이용한 기법들이 활발하게 연구되었지만 word embedding이 등장하면서 이러한 시도가 점차 줄어들게 되었다. 그러나 lexicon은 여전히 sentiment analysis에서 유용한 정보를 제공한다. 본 연구에서는 SemEval 2017 Task4에서 제공한 Twitter dataset과 다양한 lexicon corpus를 사용하여 lexicon을 CNN과 결합하였을 때 모델의 성능이 얼마큼 향상되는지에 대하여 연구하였다. 또한 word embedding과 lexicon이 미치는 영향에 대하여 분석하였다. 모델을 평가하는 metric은 positive, negative, neutral 3가지 class에 대한 macroaveraged F1 score를 사용하였다.

감정점수의 전파를 통한 한국어 감정사전 생성 (Generating a Korean Sentiment Lexicon Through Sentiment Score Propagation)

  • 박호민;김창현;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.53-60
    • /
    • 2020
  • 감정분석은 문서 또는 대화상에서 주어진 주제에 대한 태도와 의견을 이해하는 과정이다. 감정분석에는 다양한 접근법이 있다. 그 중 하나는 감정사전을 이용하는 사전 기반 접근법이다. 본 논문에서는 널리 알려진 영어 감정사전인 VADER를 활용하여 한국어 감정사전을 자동으로 생성하는 방법을 제안한다. 제안된 방법은 세 단계로 구성된다. 첫 번째 단계는 한영 병렬 말뭉치를 사용하여 한영 이중언어 사전을 제작한다. 제작된 이중언어 사전은 VADER 감정어와 한국어 형태소 쌍들의 집합이다. 두 번째 단계는 그 이중언어 사전을 사용하여 한영 단어 그래프를 생성한다. 세 번째 단계는 생성된 단어 그래프 상에서 레이블 전파 알고리즘을 실행하여 새로운 감정사전을 구축한다. 이와 같은 과정으로 생성된 한국어 감정사전을 유용성을 보이려고 몇 가지 실험을 수행하였다. 본 논문에서 생성된 감정사전을 이용한 감정 분류기가 기존의 기계학습 기반 감정분류기보다 좋은 성능을 보였다. 앞으로 본 논문에서 제안된 방법을 적용하여 여러 언어의 감정사전을 생성하려고 한다.

예비교사와 현직교사가 바라보는 한국의 수학교실수업: 국제 교실수업 어휘 프로젝트를 기반으로 (What Do Pre-service Teachers and In-service Teachers See from Korean Mathematics Classroom?: International Classroom Lexicon Project)

  • 조형미;김희정
    • 한국학교수학회논문집
    • /
    • 제24권1호
    • /
    • pp.107-126
    • /
    • 2021
  • 본 연구는 국제 교실수업 어휘 프로젝트의 일환으로 이미 조사된 한국의 교수학적 어휘를 바탕으로 현직교사와 예비교사의 교수학적 어휘에 대한 인식 차이를 비교하는 것을 목적으로 한다. 국제 교실수업 어휘 프로젝트는 호주를 중심으로 독일, 미국, 일본, 중국, 체코, 칠레, 프랑스, 핀란드, 한국의 총 10개국이 참여하는 국제공동연구이다. 각 국가에서는 자국의 수학교실에서 나타나는 교수학적 용어를 확인하고 정리하며 이를 기반으로 수학 교실 수업과 관련한 연구를 확장하거나 10개국 내에서의 국제 비교연구를 진행하고 있다. 본 논문에서는 한국의 교수학적 용어로 정리된 103개의 용어에 대하여 현직교사 136명의 응답과 예비교사 127명의 응답을 비교하여 해당 용어에 대한 친숙도와 수업에서 발생하는 정도에 대한 인식의 차이를 분석하였다. 분석 결과에서 우리나라 현직교사들과 예비교사들은 공통적으로 '교수·학습 활동'과 '평가' 범주에 있는 용어에 대한 친숙도가 높은 것으로 나타났다. 그러나 예비교사들은 현직교사의 응답과 비교하였을 때, 국가 주도로 제안된 용어의 친숙도가 현저히 낮은 것으로 조사되었다. 또한, 수업에서 발생하는 정도에 대한 인식 조사 분석 결과, 교사의 수학 수업에 대한 교수학적 노력이 학습자의 관점에서는 명시적으로 드러나지 않는 어휘와 그에 대한 차이점이 드러났다. 이러한 분석 결과를 바탕으로 우리나라의 수학교실 관행에 대해 성찰하고 그와 관련하여 논의 및 제언하였다.

한국어 Lexicon에 의존한 문자 인식의 후처리 (A Postprocessing of Character Recognition Based on Korean Lexicon)

  • 임한규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.371-377
    • /
    • 1993
  • 본 논문에서는 문자 인식이 끝난 한국어 원문에 대해 한국어 Lexicon에 기반을 둔 후처리의 구현을 보여주는 것을 목적으로 한다. 빈번하게 오인식되는 음절에 대해 이의 옳은 음절을 대응시킨 테이블을 만들어 놓고, 오인식이라고 정의된 음절이 출현했을 때는 이를 원래의 옳은 음절로 대체시킨 어절과 오인식된 음절이 포함된 어절에 대해 한국어 형태소 분석을 행함으로써, 올바른 형태소가 분석될 경우, 이를 옳은 음절로 간주한다. 실험결과 약 90%에서 95%에 달하는 인식율이 이 후처리 방법에 의해서 95%에서 99%로 높아졌다.

  • PDF

Extracting Multiword Sentiment Expressions by Using a Domain-Specific Corpus and a Seed Lexicon

  • Lee, Kong-Joo;Kim, Jee-Eun;Yun, Bo-Hyun
    • ETRI Journal
    • /
    • 제35권5호
    • /
    • pp.838-848
    • /
    • 2013
  • This paper presents a novel approach to automatically generate Korean multiword sentiment expressions by using a seed sentiment lexicon and a large-scale domain-specific corpus. A multiword sentiment expression consists of a seed sentiment word and its contextual words occurring adjacent to the seed word. The multiword sentiment expressions that are the focus of our study have a different polarity from that of the seed sentiment word. The automatically extracted multiword sentiment expressions show that 1) the contextual words should be defined as a part of a multiword sentiment expression in addition to their corresponding seed sentiment word, 2) the identified multiword sentiment expressions contain various indicators for polarity shift that have rarely been recognized before, and 3) the newly recognized shifters contribute to assigning a more accurate polarity value. The empirical result shows that the proposed approach achieves improved performance of the sentiment analysis system that uses an automatically generated lexicon.