• Title/Summary/Keyword: 음운 정보

Search Result 124, Processing Time 0.031 seconds

Observation Probability Weighting Method for Text-Dependent Speaker Verification (문장종속형 화자확인에서의 관측확률 가중기법)

  • Kim Se-Hyun;Jang Gil-Jin;Oh Yung-Hwan
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.28-31
    • /
    • 1999
  • 기존의 문장종속형 화자인식 방법들은 대부분 음성인식에서 사용되는 방법을 그대로 적용하기 때문에, 화자의 개인성 정보보다 음운정보에 더 민감한 단점이 있다. 화자인식 시스템의 성능향상을 위해서는 음운정보보다는 화자의 개인성 정보가 잘 반영되도록 하는 것이 중요하다. 본 논문에서는 HMM(hidden Maxkov model)을 기반으로 한 문장종속형 화자확인 시스템의 성능향상을 위한 관측확률 가중 반법을 제안한다. 먼저 주어진 학습자료에서 화자의 개인성이 잘 반영된 프레임들을 예측한다. 임의의 입력음성에 대한 인식점수는 화자의 특징이 잘 반영된 프레임의 관측확률에 가중치를 주어 구한다. 제안한 방법을 적용한 결과 기존의 우도비(likelihood ratio) 정규화 점수를 사용하는 방법에 비해 동일오류율(EER, equal error rate)을 $2\~3\%$정도 줄여 인식율 향상을 얻을 수 있었다.

  • PDF

A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews (강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법)

  • Shin, Jun-Soo;Kim, Hark-Soo
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.12
    • /
    • pp.946-950
    • /
    • 2010
  • Many sentiment categorization systems based on machine learning methods use morphological analyzers in order to extract linguistic features from sentences. However, the morphological analyzers do not generally perform well in a customer review domain because online customer reviews include many spacing errors and spelling errors. These low performances of the underlying systems lead to performance decreases of the sentiment categorization systems. To resolve this problem, we propose a feature extraction method based on simple longest matching of Eojeol (a Korean spacing unit) and phoneme patterns. The two kinds of patterns are automatically constructed from a large amount of POS (part-of-speech) tagged corpus. Eojeol patterns consist of Eojeols including content words such as nouns and verbs. Phoneme patterns consist of leading consonant and vowel pairs of predicate words such as verbs and adjectives because spelling errors seldom occur in leading consonants and vowels. To evaluate the proposed method, we implemented a sentiment categorization system using a SVM (Support Vector Machine) as a machine learner. In the experiment with Korean customer reviews, the sentiment categorization system using the proposed method outperformed that using a morphological analyzer as a feature extractor.

A Generation of Hangul Index Term from Hanja Term (한자용어로부터 한글색인어의 생성)

  • Choi, Suk-Doo
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.51-58
    • /
    • 1996
  • 한자(漢子)로 기술된 용어를 한글로 자동변환하여 색인어로 사용하는 경우에 한글의 음운체계나 해당 시스템의 색인정책에 맞지 않는 일이 생기게 된다. 이런 문제가 생기는 원인은 해당 한자에 대응하는 정확한 한글을 입력하지 않고 변환하였을 경우, 해당 한자의 음이 없거나 한자와의 음운체계가 달라 생기는 경우 및 별도의 색인정책이 있는 경우 등을 생각할 수 있다. 본고에서는 KS C 5601 표준코드(이하 표준코드라 한다)를 기준으로 한자(漢子)의 다음자(多音子)를 조사하였다. 다음자(多音子)가 포함되어 있는 사전용어와 다음자(多音子)파일을 이용하여 매핑파일을 구축함과 동시에 매핑파일을 보완함으로써 한자(漢子)로 기술된 용어의 바른 한글음을 자동생성하여 색인어로 사용할 수 있는 방안에 대하여 논한다.

  • PDF

문장음성 변환시스템 글소리II를 위한 읽기규칙

  • Choe, Un-Cheon;Ji, Min-Je;Lee, Yong-Ju
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.201-210
    • /
    • 1992
  • 이 논문은 문장음성 변환시스템인 글소리II를 위한 읽기규칙에 관한 것이다. 읽기규칙이란 텍스트를 소리나는대로 읽어주는 모든 처리를 말한다. 읽기규칙의 가장 대표적인 음운변동규칙을 비롯하여 모음의 발음, 장음처리, 숫자읽기, 약어 및 기호읽기 등이 포함된다. 이 논문에서는 음운변동규칙을 6개의 대규칙과 22개의 소규칙으로 정리하고, 대규칙들 사이의 적용순서를 정의하였다. 그리고 단어의 장단이 중시되는 우리말의 특성을 반영할 수 있도록 장음처리부분을 추가하였다. 위의 읽기규칙으로 처리할 수 없는 부분에 대해서는 예외발음사전을 이용하고 있다.

  • PDF

DAC (Divide-And- Conquer) Based Segmentation Algorithm (DAC(Divide-And-Conquer) 기반 분할 알고리즘)

  • Koo, Chan-Mo;Wang, Gi-Nam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.781-784
    • /
    • 2001
  • 본 논문은 음운 및 음향학적인 정보를 최대한 이용하고 분할에러를 줄이기 위해서 조절 메카니즘의 하나로 DAC(Divide And Conquer)개념을 사용하여 음성을 speechlet으로 나누고(signal localization) 나누어진 음성구간에 대해서 레이블링을 시도(case study)하는 DAC기반 분할알고리즘을 제안한다. HMM과 같은 통계학적인 방법을 이용하지 않고 음운학적, 음향학적 지식만을 이용하는 신뢰할 수 있는 분할 알고리즘이며 대용량 음성DB에 대한 레이블링 작업을 단시간에 수행할 수 있고 일관성이 있으며 효과적인 음성엔진 구현 및 음성합성, 화자인증에도 이용 가치가 높다.

  • PDF

The effect of eueing technique in acquired Hangul dyslexia (후천성 한글 난독증에서의 단서 주기 효과)

  • 조경덕;이광오
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.292-296
    • /
    • 2000
  • 뇌손상에 기인하는 한글 난독증의 어휘처리 양상을 분석하여 한글정보처리의 특성을 알아보고자 하였다. 피험자 PSK의 한글 어휘처리에서 특히 주목되는 점은 단어의 음독은 가능하나, 비단어의 음독은 불가능하였다는 것이다. PSK의 한글 어휘처리는, 자소-음소변환(grapheme-phoneme conversion)경로가 선택적으로 손상되어, 심성어휘집(mental lexicon)의 발음정보를 이용하는 직접경로에 의해서 이루어진다고 판단된다. 읽기(reading)와 그림명명(picture naming)에서 나타난 오류들에 대하여, 음운적 단서(phonological cueing)를 제시하였다. 그 결과, 읽기 수행에서는 단서 주기 효과가 나타나지 않았으나 그림명명에서는 수행상의 향상이 나타났다. 또한, 1음절어의 읽기 수행에서는 규칙효과가 나타나지 않았으나 2음절어의 읽기 수행에서는 빈도와 규칙성의 상호작용이 나타났다. 이것은, PSK의 1음절어와 2음절어에 대한 읽기 수행이 상이한 경로에서 이루어질 가능성을 시사한다.

  • PDF

An Implementation of Hangul Romanization System Based on Korean Phonotactic Rules and Categories of Words (한국어 음운 현상과 단어 유형을 고려한 한글-로마자 변환 시스템 구현)

  • ;;Robert J. Fouser
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.376-378
    • /
    • 2001
  • 본 논문은 새로 개정된 국어의 로마자 표기법(2000.7.7. 고시)에 따른 로마자 자동 변한 시스템의 구조와 변환 알고리즘을 제시한다. 특히 새 로마자 표기에 따른 규칙을 반영하여 사용자가 쉽고 편리하게 사용할 수 있도록 인명, 고유명사, 행정구역, 일반, 학술응용의 5개 항목으로 나누어 변환할 수 있게 했다. 또한 로마자표기에 적용한 표준 한글 음운변동 규칙과 로마자 표기의 원칙에 따른 5가지 변환 규칙을 도움말로 보여준다. 그리고 로마자 표기 원칙에 따라 발음상 혼동의 우려가 있는 부호의 규칙성을 조사하여 로마자 자동 변한 시스템에 적용함으로써 새 로마자 표기에서 발생할 수 있는 혼동을 제거하여 로마자 변환 시스템의 정확성을 높였다.

  • PDF

A Study on the Korean Accentuation Rule for the Korean text to speech conversion (문장-언어 변환을 위한 한국어 액센트에 관한 연구)

  • 진달복;김성곤
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.4
    • /
    • pp.804-806
    • /
    • 2004
  • this paper is to propose the formative Korean accentuation rule for the korean tort to speech conversion. The accentuation rule is as following: (1) If the rhyme of first syllable is -v, then accent is on the next syllable. (2) If the rhyme of first syllable is not -v, then accent is on the first syllable.

Hangul Word-Frequency in Semantic Categorization Task (범주화 과제에서의 한글단어 빈도효과)

  • Cho, Jeung-Ryeul
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.351-358
    • /
    • 1999
  • Two experiments were conducted to investigate effects of word-frequency on semantic processing of Hangul. Stimuli were two syllable words, and exemplars and target words were different in the final consonant of the second syllable in the Exp 1 and in the final consonant of the first syllable in the Exp2. Exp 1 shows the results that subjects made more errors on low frequency target words and took longer times on high frequency exemplars than on controls. In Exp 2 subjects took longer times on high frequency examplar-low frequency target word conditions than on controls. These results support the predictions of dual process models and suggest that the use of phonological and visual information depends on word frequency. Phonological activation appears to be an optional rather than obligatory process.

  • PDF

The syllable recovery rule-base system for the post-processing of a continuous speech recognition (연속음성인식 후처리를 위한 음절 복원 rule-base시스템)

  • Park, Mi-Seong;Kim, Mi-Jin;Lee, Mun-Hui;Choi, Jae-Hyeok;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.379-385
    • /
    • 1998
  • 한국어가 연속적으로 발음될 때 여러 가지 음운 변동현상이 일어난다. 이것은 한국어 연속음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문은 음운변동현상이 반영된 음성 인식 문자열을 규칙에 의거하여 text 기반 문자열로 다시 복원시키고 복원 결과 후보들을 형태소 분석하여 유용한 문자열만을 최종 결과로 생성하게 하는 시스템을 구성하였다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule, 끝음절 중성 복원 rule, 한 음절처리 rule에 따라 이루어진다. 규칙 적용 과정중에 효과적인 복원을 위해 x-clustering정보를 정의 하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제한하기 위해 postfix음절 빈도정보를 구하여 사용한다.

  • PDF