• Title/Summary/Keyword: 어휘 데이터

Search Result 313, Processing Time 0.025 seconds

Performance Evaluation of Acoustic Models According to Differences between Vocabularies in Training and Test Phases of Speech Recognition (음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가)

  • 김회린;이항섭;권오욱
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.22-27
    • /
    • 1998
  • 본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.

  • PDF

Improving Clustered Sense Labels for Word Sense Disambiguation (단어 의미 모호성 해소를 위한 군집화된 의미 어휘의 품질 향상)

  • Jeongyeon Park;Hyeong Jin Shin;Jae Sung Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.268-271
    • /
    • 2022
  • 단어 의미 모호성 해소는 동형이의어의 의미를 문맥에 맞게 결정하는 일이다. 최근 연구에서는 희소 데이터 처리를 위해 시소러스를 사용해 의미 어휘를 압축하고 사용하는 방법이 좋은 성능을 보였다[1]. 본 연구에서는 시소러스 없이 군집화 알고리즘으로 의미 어휘를 압축하는 방법의 성능 향상을 위해 두 가지 방법을 제안한다. 첫째, 의미적으로 유사한 의미 어휘 집합인 범주(category) 정보를 군집화를 위한 초기 군집 생성에 사용한다. 둘째, 다양하고 많은 문맥 정보를 학습해 만들어진 품질 좋은 벡터를 군집화에 사용한다. 영어데이터인 SemCor 데이터를 학습하고 Senseval, Semeval 5개 데이터로 평가한 결과, 제안한 방법의 평균 성능이 기존 연구보다 1.5%p 높은 F1 70.6%를 달성했다.

  • PDF

The Application and Evaluation of Verbal Lexical-Semantic Network Using Automatic Word Clustering (단어클러스터링을 이용한 동사 어휘의미망의 활용 및 평가)

  • Kim, Hae-Gyung;Yoon, Ae-Sun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.1-7
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사어휘의미망을 포함하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘들의 세 번째 층위까지의 노드 동일성 여부로 정확률 검수를 하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF

다변량해석기법을 활용한 감성 데이터베이스 구축에 관한 연구

  • 박정호;한성배;양선모;김형범;이순요
    • Proceedings of the ESK Conference
    • /
    • 1996.04a
    • /
    • pp.136-140
    • /
    • 1996
  • 제품개발의 개념이 기능이나 성능중심에서 인간의 감성중심으로전환되고 있다. 그러나 인간의 감 성은 정성적 언어로 표현되며 이것을 물리적 디자인요소로 전환하는 것이 필요하다. 이를 위하여는 우선적으로 인간의 감성을 정량화하는 것이 선결되어야한다. 따라서 본 연구의 목적은 다변량해석기법 을 활용하여 고객의 제품에 대한 정성적 이미지를 정량적 데이터로 변환하여 이를 감성 데이터베이스로 구축하는데 있다. 감성 데이터베이스는 감성어휘와 이의 제품에 대한 정량적 수치 데이터로 구성되고, 이를 위해서는 감성어휘 선정, 디자인 요소에 의한 제품의 분류, 감성어휘와 디자인요소간의 상관도 도출 등이 필요하다. 감성어휘는 요인분석에 의해 선정하고, 제품은 아이템/카테고리에 의해 분류하며, 감성어휘와 디자인요소간의 상관성에 대해서는 다변량해석기법 특히, 수량화이론 1류를 사용해서 정량화 한다. 이렇게 구축된 감성 데이터베이스는 감성공학적 디자인 요소변환 지원시스템의 감성데이터 처리 서브시스템의 핵심 역활을 한다.

  • PDF

The Method of the Evaluation of Verbal Lexical-Semantic Network Using the Automatic Word Clustering System (단어클러스터링 시스템을 이용한 어휘의미망의 활용평가 방안)

  • Kim, Hae-Gyung;Song, Mi-Young
    • Korean Journal of Oriental Medicine
    • /
    • v.12 no.3 s.18
    • /
    • pp.1-15
    • /
    • 2006
  • For the recent several years, there has been much interest in lexical semantic network. However, it seems to be very difficult to evaluate the effectiveness and correctness of it and invent the methods for applying it into various problem domains. In order to offer the fundamental ideas about how to evaluate and utilize lexical semantic networks, we developed two automatic word clustering systems, which are called system A and system B respectively. 68,455,856 words were used to learn both systems. We compared the clustering results of system A to those of system B which is extended by the lexical-semantic network. The system B is extended by reconstructing the feature vectors which are used the elements of the lexical-semantic network of 3,656 '-ha' verbs. The target data is the 'multilingual Word Net-CoreNet'.When we compared the accuracy of the system A and system B, we found that system B showed the accuracy of 46.6% which is better than that of system A, 45.3%.

  • PDF

The Study of Developing Korean SentiWordNet for Big Data Analytics : Focusing on Anger Emotion (빅데이터 분석을 위한 한국어 SentiWordNet 개발 방안 연구 : 분노 감정을 중심으로)

  • Choi, Sukjae;Kwon, Ohbyung
    • The Journal of Society for e-Business Studies
    • /
    • v.19 no.4
    • /
    • pp.1-19
    • /
    • 2014
  • Efforts to identify user's recognition which exists in the big data are being conducted actively. They try to measure scores of people's view about products, movies and social issues by analyzing statements raised on Internet bulletin boards or SNS. So this study deals with the problem of determining how to find the emotional vocabulary and the degree of these values. The survey methods are using the results of previous studies for the basic emotional vocabulary and degree, and inferring from the dictionary's glosses for the extended emotional vocabulary. The results were found to have the 4 emotional words lists (vocabularies) as basic emotional list, extended 1 stratum 1 level list from basic vocabulary's glosses, extended 2 stratum 1 level list from glosses of non-emotional words, and extended 2 stratum 2 level list from glosses' glosses. And we obtained the emotional degrees by applying the weight of the sentences and the emphasis multiplier values on the basis of basic emotional list. Experimental results have been identified as AND and OR sentence having a weight of average degree of included words. And MULTIPLY sentence having 1.2 to 1.5 weight depending on the type of adverb. It is also assumed that NOT sentence having a certain degree by reducing and reversing the original word's emotional degree. It is also considered that emphasis multiplier values have 2 for 1 stratum and 3 for 2 stratum.

A Study on Words Representing Human Visual Sensibility in Residential Environment (주거환경이 시각적 감성어휘)

  • 윤정선;신미경;이강의;구아현
    • Science of Emotion and Sensibility
    • /
    • v.3 no.2
    • /
    • pp.67-74
    • /
    • 2000
  • 본 연구는 주거환경에 대한 시각 감성을 대표하는 어휘를 선발하기 위해 수행되었다. 어휘수집의 첫 단계에서는 주거환경 중 시각 환경에 대한 감성을 표현하는 어휘 235개를 수집하였다. 두 번째 단계에서는 수집된 어휘를 다른 피험자들에게 제시하여 주거 환경의 분위기를 나타내는 어휘 로서 적절함의 정도를 7점 척도로 표시하도록 하여 매우 적절하다고 판단된 24개의 어휘를 선발하였다. 세 번째 단계에서는 이들 어휘를 무선 적으로 두 개씩 짝을 지어 두 단어가 유사한 정도를 7점 척도로 평가하도록 하였다. 이 설문으로부터 나온 데이터에 대해 요인분석, 군집분석, 다차원분석을 실시하여 시각적 주거환경에 대한 9개의 감성어휘를 추출하였다. 이와 함께 최종 단계에서 연구자들이 400여장의 실물 사진 열람을 통해 추출된 9개의 감성 어휘가 실제 시각적 주거환경을 나타내는 데에 적함한지를 다시 한번 검증하여 다음과 같은 10개의 어휘를 선발하였다. ‘안락한’, ‘개방적인’, ‘세련된’, ‘경쾌한’, ‘개성적인’, ‘단순한’, ‘화려한’, ‘중후한’, ‘고풍스로운’, ‘전원적인’.

  • PDF

Development of Context and Vocabulary Group-Based Intelligent English Vocabulary Learning System (문맥 및 어휘 그룹 기반의 지능형 영어 어휘 학습 시스템의 개발)

  • Do-Hyeon Kim;Hong-Jun Jang;Byoungwook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.19-20
    • /
    • 2023
  • 영어 교육 시장 확대로 다양한 영어 학습 시스템이 개발되고 있다. 그러나 어휘의 문맥적 이해와 효과적인 학습 방법을 결합한 지능형 어휘 학습 시스템에 대한 연구는 미비하다. 본 연구에서는 임의의 n 개 영어 단어가 한 그룹으로 제시되고, 이들을 모두 포함한 예문을 제공하는 지능형 영어 어휘 학습 시스템을 개발한다. 본 연구에서는 임의의 n 개 영어 단어가 주어졌을 때 문맥에 맞는 영어 예문을 자동으로 생성하는 모델을 개발하였다. 어휘 평가를 바탕으로 자동으로 취약 어휘를 선정하며 학습자들이 해당 어휘를 학습 할 수 있도록 진행한다. 본 연구에서 개발한 지능형 영어 어휘 학습 시스템의 사용성 평가를 위해 설문 검사를 실시하였다. 설문 결과는 문맥 및 어휘 그룹 기반의 지능형 영어 학습 시스템은 사용자들이 사용하기 편리하고 어휘 능력을 향상시키는데 도움이 될 수 있음을 보여준다.

Learning English Vocabulary Using Synonyms And Antonyms System Design (동의어와 반의어를 활용한 영어 어휘 학습 시스템 설계)

  • Jun-Hyeok Ok;Hong-Jun Jang;Byoungwook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.21-22
    • /
    • 2023
  • 영어 공인 시험에서 영어 어휘는 가장 중요한 요소 중 하나이다. 그러나 기존 영어 어휘 학습 시스템은 단순히 어휘 교재의 콘텐츠를 디지털화한 것에 그치고 있다. 영어 어휘 학습에서 동의어에 대한 학습은 언어 능력을 향상시키고 다양한 상황에서 효과적으로 의사소통할 수 있는 능력 향상에 도움이 된다. 본 연구에서는 학습자들이 영어 어휘 학습을 효과적으로 할 수 있도록 동의어 및 반의어를 활용할 수 있는 학습 시스템을 제안한다. 본 시스템은 동의어와 반의어에 대한 정보가 필요한 영어 어휘를 입력으로 받아 생성형 AI에서 동의어 및 반의어에 대한 정보를 생성한 후에 반환하는 기능을 수행한다. 본 시스템은 학습자들이 어휘 평가에서 오답으로 답한 어휘에 대해 동의어 및 반의어에 대한 추가적인 어휘와 예문을 제공하여 영어 어휘 학습의 효율성을 높일 수 있을 것이다.

Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary (감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석)

  • Jang, Yeonji;Choi, Jiseon;Park, Seoyoon;Kang, Yejee;Kang, Hyerin;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF