• 제목/요약/키워드: voice frequency

검색결과 546건 처리시간 0.022초

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

언어재활을 위한 한국어의 음향적 분석과 선율화 (Acoustic Analysis and Melodization of Korean Intonation for Language Rehabilitation)

  • 최진희;박정미
    • 인간행동과 음악연구
    • /
    • 제21권1호
    • /
    • pp.49-68
    • /
    • 2024
  • 본 연구의 목적은 한국어의 특성을 음향학적으로 분석하고, 해당 분석 결과를 음악적 요소로 변환하여 생성된 선율의 예시를 제시함으로써, 근거 기반 음악-언어재활 프로그램 개발을 위한 기초 자료를 마련하는 데 있다. 이를 위해 19-25세의 남성과 여성 각각 30명으로부터 3음절의 두 강세구로 이루어진 6음절 한국어의 음성자료를 수집하였으며, 평서문과 의문문을 포함하였다. 이를 Praat 프로그램으로 분석하여 음절별로 음향적 속성을 추출하고, 각 음향적 속성, 문장 유형, 성별, 조사의 유무에 대한 통계분석을 실시하였다. 분석 결과 강세구, 억양구에 따라 각 음절의 주파수와 지속시간에 유의미한 차이가 발견되었고(p < .001), 의문문이 평서문보다 주파수가 유의미하게 높았으며(p < .001), 평서문이 유의미하게 긴 경향을 보였다(p < .001). 여성 집단이 남성 집단보다 주파수가 유의미하게 높았으며(p < .001), 지속시간도 유의미하게 긴 경향을 보였다(p < .001). 또한 조사인 음절의 강도가 유의미하게 세게 나타났다(p < .001). 마지막으로 본 연구에서는 문장 유형, 성별, 조사의 유무에 따라 나타난 음향적 속성을 음악적 요소인 음고, 음가, 악센트로 변환한 선율들을 악보로 제시하였다. 본 연구에서는 6음절 한국어문장을 대상으로 한 분석을 제시하였으며, 이 연구를 통해 얻은 통찰을 바탕으로 후속 연구에서는 대규모 한국어 음성 데이터의 선율화 시스템 개발 연구를 진행하려 하며, 이는 음악을 활용한 언어재활 분야의 기초 자료로서 중요한 역할을 할 수 있을 것으로 기대한다.

텍스트 마이닝 기반 사용자 경험 분석 및 관리: 스마트 스피커 사례 (User Experience Analysis and Management Based on Text Mining: A Smart Speaker Case)

  • 연다인;박가연;김희웅
    • 경영정보학연구
    • /
    • 제22권2호
    • /
    • pp.77-99
    • /
    • 2020
  • 스마트 스피커는 인공지능을 활용하여 음악, 일정, 날씨, 상품 등 다양한 정보와 콘텐츠들을 검색, 이용할 수 있는 대화형 음성 기반 서비스를 제공하는 기기이다. 인공지능 기술은 데이터가 축적될수록 이를 활용하여 더욱 정교하고 최적화된 서비스를 이용자에게 제공한다. 따라서 스마트 스피커 제조사들은 초기에 공격적인 마케팅을 통해 플랫폼 구축에 힘썼다. 하지만 스마트 스피커의 사용빈도는 월 1회 미만이 전체의 3분의 1 이상을 차지하고, 사용자 만족도도 49%에 그치는 것으로 나타났다. 이에 지속적인 이용활성화와 만족도 증진을 위해 스마트 스피커의 사용자 경험을 강화할 필요성이 대두되었다. 이에 본 연구에서는 스마트 스피커의 사용자 경험을 분석하고, 이를 바탕으로 스마트 스피커의 사용자 경험 강화 방안을 제시하고자 한다. 본 연구는 사용자가 직접 작성한 실제 리뷰 데이터를 수집하여 스마트 스피커 사용자 경험 차원을 기반으로 분석 결과를 해석했다는 점에서 의의가 있다. 또한 스마트 스피커 사용자 경험 차원을 개발하여 텍스트 마이닝 결과를 해석한 것에서 학술적 의의가 있다. 본 연구 결과를 통해 스마트 스피커 제조사에게 실무적으로 사용자 경험 강화를 위한 전략을 제안할 수 있다.

SANET-CC : 해상 네트워크를 위한 구역 IP 할당 프로토콜 (SANET-CC : Zone IP Allocation Protocol for Offshore Networks)

  • 배경율;조문기
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.87-109
    • /
    • 2020
  • 현재 육상에서는 유무선 통신의 발전으로 다양한 IT 서비스를 제공받고 있다. 이러한 변화는 육상을 넘어서서 해상에서 항해 중인 선박에서도 다양한 IT 서비스가 제공되어야 하며 육상에서 이용하는 것과 마찬가지로 양방향 디지털 데이터 전송, Web, App 등과 같은 다양한 IT 서비스들의 제공에 대한 요구가 증가될 것으로 예상하고 있다. 하지만 이러한 초고속 정보통신망은 AP(Access Point)와 기지국과 같은 고정된 기반 구조를 바탕으로 네트워크를 구성하는 지상에서는 쉽게 사용할 수 있는 반면 해상에서는 고정된 기반 구조를 이용하여 네트워크를 구성할 수 없다. 그래서 전송 거리가 긴 라디오 통신망 기반의 음성 위주의 통신 서비스를 사용하고 있다. 이러한 라디오 통신망은 낮은 전송 속도로 인해 매우 기본적인 정보만을 제공할 수 있었으며, 효율적인 서비스 제공에 어려움이 있다. 이를 해결하기 위해서 디지털 데이터 상호교환을 위한 추가적인 주파수가 할당되었으며 이 주파수를 사용하여 활용할 수 있는 선박 애드 혹 네트워크인 SANET(ship ad-hoc network)이 제안되었다. SANET은 높은 설치비용과 사용료의 위성 통신을 대신하여 해상에서 IP 기반으로 선박에 다양한 IT 서비스를 제공할 수 있도록 개발되었다. SANET에서는 육상 기지국과 선박의 연결성이 중요하다. 이러한 연결성을 갖기 위해서는 선박은 자신의 IP 주소를 할당 받아 네트워크의 구성원이 되어야 한다. 본 논문에서는 선박 스스로 자신의 IP 주소를 할당 받을 수 있는 SANET-CC(Ship Ad-hoc Network-Cell Connection) 프로토콜을 제안한다. SANET-CC는 중복되지 않는 다수의 IP 주소들을 육상기지국에서 선박들에 이어지는 트리 형태로 네트워크 전반에 전파한다. 선박은 IP 주소를 할당할 수 있는 육상 기지국 또는 나누어진 구역의 M-Ship(Mother Ship)들과 간단한 요청(Request) 및 응답(Response) 메시지 교환을 통해 자신의 IP 주소를 할당한다. 따라서 SANET-CC는 IP 충돌 방지(Duplicate Address Detection) 과정과 선박의 이동에 의해 발생하는 네트워크의 분리나 통합에 따른 처리 과정을 완전히 배제할 수 있다. 본 논문에서는 SANET-CC의 SANET 적용가능성을 검증하기 위해서 다양한 조건의 시뮬레이션을 수행하였으며 기존 연구와 비교 분석을 진행하였다.

성대마비와 양성 성대점막질환의 음향학적 특성비교 (Comparative Study on Acoustic Characteristics of Vocal Fold Paralysis and Benign Mucosal Disorders of Vocal Fold)

  • 공일승;조영주;이명희;김종승;양윤수;홍기환
    • 대한후두음성언어의학회지
    • /
    • 제18권2호
    • /
    • pp.122-128
    • /
    • 2007
  • This study aims to analyze the voices of the patients with voice disorders including vocal fold paralysis, vocal fold cyst and vocal nodule/polyp in the aspect of acoustic phonetics. This study intends to collect subsidiary acoustic data in order to make a speech treatment and an standardization of vocal disorders. Subjects and Methods: The subjects of this study were 64 adult patients who underwent indirect laryngoscopy and laryngostroboscopy, and were diagnosed as vocal fold paralysis, vocal fold cyst or vocal nodule/polyp. Experimental group consisted of 20 patients who were diagnosed as vocal fold paralysis, 21 patients who were diagnosed as vocal fold cyst and had the average age of 42.0 $({\pm}10.03)$ ; and 23 patients who were diagnosed as vocal nodule/polyp and had the average age of 40.9 $({\pm}13.75)$. For the methodology of this study, the patients listed above were asked to sit in a comfortable position at intervals of 10cm apart from the patient's mouth and a microphone, and subsequently to phonate a vowel sound /e/ for the maximum phonation time with natural tone and vocal volume then the sound was directly inputted on a computer. During recording, sampling rate was set to 44,100Hz and the 1-second area corresponding to stable zone except the first and the last stage of waveform of the vowel sound /e/ vocalized by the individual patients was analyzed. Results: First, there was no statistically significant difference in jitter and shimmer between vocal fold paralysis and vocal fold cyst, while there was highly statistically significant difference in them between vocal fold paralysis and vocal nodule/polyp. Second, looking into the mean values obtained from NNE, HNR and SNR results associated with noise ratio, the disease showing the most abnormal characteristics was vocal fold paralysis, followed by cyst and nodule/polyp in order. For NNE, there was statistically significant difference between vocal nodule/polyp, and cyst or paralysis. In other words, it was found that the NNE of vocal nodule/polyp was weaker than that of cyst or paralysis. Similarly, HNR and SNR also showed the same characteristics; there was statistically significant difference between vocal fold paralysis and vocal fold cyst or nodule/polyp, and HNR and SNR values of vocal fold paralysis were lower than those of vocal fold cyst or nodule/polyp. Conclusion: For vocal fold paralysis, the abnormal values of acoustic parameters associated with frequency, amplitude and noise ratio were statistically significantly higher than those of vocal fold cyst and nodule/polyp. This finding suggests that the voices of the patients with vocal fold paralysis are the most severely injured due to less stability of vocal fold movement, asymmetry and incomplete glottic closure. In addition, there was no statistically significant difference in the acoustic parameters of tremor among vocal fold paralysis, vocal fold cyst and vocal nodule/polyp. Further studies need to ascertain reasonable acoustic parameters with various vocal disorders as well as to clarify the correlation between acoustics-based objective tools and subjective evaluations.

  • PDF

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.