Search | Korea Science

Standardization of XML based Meta-data for Industrial Speech Databases (산업용 음성 DB 메타데이터 표준화)

Joo, Young-Hee;Hong, Ki-Hyung
- Proceedings of the KSPS conference
- /
- 2005.11a
- /
- pp.211-214
- /
- 2005
본고에서는 산업용 음성 DB를 위한 XML 기반 메타데이터의 표준화에 대한 현재 상황과 표준화 활동에 대하여 소개한다. 산업용 음성 DB는 구축에 많은 시간과 비용을 요구하며, 양질의 음성 처리 시스템 (인식/합성/인증)의 개발을 위해서는 가능한 많은 양의 음성 데이터가 필요하다. 산업용 음성 DB 메타데이터 표준화는 서로 다른 기관에서 구축한 음성 DB의 공유와 재사용을 원활히 하기 위하여, 2004년 9월부터 요구사항 분석을 시작하여, 2005년 3월 초안이 완성되었다. 본 표준안은 음성 DB 메타데이터의 구조를 XML 기반으로 정의한 것이며, 음성 파일 이름, 화자 식별자, 음소 기호와 같은 구조 외의 표준화 대상에 대해서는 다루지 않는다. 이미 ETRI와 SiTEC [5]에서 XML 기반의 메타데이터 구조와 내용 표준안을 제안한 바 있으나. [5]에서 제안한 구조는 평면 구조를 취하고 있어 내용의 중복성등의 단점이 있어, 이를 보완하여 음성 DB 데이터 모델을 객체지향 방식으로 설계하였다.
PDF

Analysis of the durational characteristics of monosyllabic interjections in Natural spoken language (자연발화상에 나타난 단음절 단일간투사의 길이특성 분석)

김기호
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1994.06c
- /
- pp.95-98
- /
- 1994
자연발화상에 포함되어, 음성언어 인식에 장애를 초래하는 간투사의 음성적 특성 중 가장 뚜렷이 구별되는 길이특성얼 분석하여 음성언어 인식에 도움을 주는 것을 목적으로 한다. 이 연구에서는 간투사의 대부분을 차지하는 단음절 단일 간투사에 한정하여, 실제 대화의 녹음자료에서 나타나는 간투사의 빈도수와, 그 길이특성을 신분별, 성별, 간투사 유형별로 분석하였다. 또 간투사를 위치에 따라, 음운구초 간투사, 음운구말 간투사로 나누고, 그 길이를 음절 평균, 음운 구초 음절이나 음운구말 음절의 길이와 비교하여 간투사의 증가율을 측정하였다. 분석결과 가장 높은 빈도수를 보이는 단음절 단일 간투사는 어 이며, 간투사 길이 증가율은, 음절평균에 대해서는 그가, 음운구초 평균에 대해서는 응이 가장 큰 증가율을 나타낸다. 전체적을 음운구초 음절길이에 대한 간투사 길이 증가율이 음절평균 길이에 대한 간투사 길이 증가율보다 더 크게 나타났다. 이러한 분석결과를 통해 하위레벨에서 제거할 수 있는 간투사와, 통사적 또는 의미론적 분석이 필요한 상위레벨에서 처리해야할 간투사를 구별할 수 있다. 이와 같은 길이 특성외에 간투사에 대한 다양한 음성적 특성과, 다음절 단일 간투사와, 이중 간투사에 대한 연구가 진척된다면 음성언어 인식에 장애가 되는 간투사의 효과적 배제가 가능할 것으로 보인다.
PDF

Enhanced 2.4kbps Harmonic Stochastic Excitation Coding (향상된 2.4kbps 하모닉 스토케스틱 여기 음성 부호화 방법)

김종학;신경진;이인성
- Proceedings of the IEEK Conference
- /
- 2000.09a
- /
- pp.831-834
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR(Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

Performance Analysis of Voice over ATM using AAL2 based on Packet Delay Evaluation (ATM망에서 AAL2를 이용한 음성패킷 전송에 관한 성능분석)

김원순;김태준;홍석원;오창석
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.24 no.10B
- /
- pp.1852-1860
- /
- 1999
This paper studied performance of the AAL2 for variable rate real time services in ATM network with discrete-time simulation model. In this simulation, input parameters are packet fill delay for AAL2 PDU generation, guard time for ATM cell generation, burstness and number of channels. Though variation of the above mentioned parameters, we obtained end-to end delay variations and throughput, analyzed performance effect of the each parameter for voice packet service.
PDF

Enhaced 2.4 kbps Harmonic Stochastic Excitation Coding for Time/Frequency Transitional Speech (시간/주파수 전이신호를 위한 향상된 2.4 kbps 하모닉 스토케스틱 여기 음성 부호화 방법)

김종학;이인성
- The Journal of the Acoustical Society of Korea
- /
- v.19 no.7
- /
- pp.53-58
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4 kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR (Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4 kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

Development of Speech recognition emotion analysis program using machine learning (기계학습을 활용한 음성인식 감정분석 프로그램 개발)

Lee, Sangwoo;Yoon, Yeongjae;Lee, KyungHee;Cho, Jungwon
- Proceedings of The KACE
- /
- 2018.08a
- /
- pp.71-73
- /
- 2018
사람의 음성이 가진 고유한 특성을 이용하여 그 안에 담긴 감정을 분석하여 파악할 수 있다면 효과적인 의사소통이 가능할 것이다. 본 연구에서는 음성이 가진 피치 값과, 속도의 변화와 같은 요소를 데이터화 하여 그 안에 담긴 감정을 기계학습을 통해 분류 및 예측하는 과정을 거친다. 감정 별 음성 데이터 분석을 위해 다양한 기계학습 알고리즘을 활용하며 선행 연구들보다 높은 정확도로 신뢰할 수 있는 측정 결과를 제공해 줄 수 있을 것이다. 이를 통해 음성만으로 사람의 감정을 파악하여 효과적인 의사소통 및 다양한 분야에 활용될 수 있을 것으로 기대한다.
PDF

Market Response of Household IP Telephony Services and Implications (가정용 인터넷전화 시장 반응분석 및 시사점)

Kim, H.
- Electronics and Telecommunications Trends
- /
- v.21 no.2 s.98
- /
- pp.149-160
- /
- 2006
본 고에서는 2005년 11월 실시된 시장조사결과를 바탕으로 가정용 VoIP 서비스의 시장 반응 분석 및 전망과 함께 시사점을 제시한다. 본 고에서 실시한 시장조사는 가정용으로 사용될 070 번호가 인터넷전화로서, 전용 IP 폰을 이용한 음성전화서비스, 기존전화에 모뎀만 추가 혹은 교체함으로써 가능한 음성전화서비스, 그리고 영상전화로 구분하여 제시하였다. 이들 각 서비스에 대해 가입의향, 가입/비가입 사유, 그리고 요금의지불의향 등을 조사하여 제시하였다. 결과를 요약하면 음성전용 전화의 주 가입이 유가경제성으로 나타난 반면 영상전화의 주 가입이유는 영상통화에 대한 기대로 나타났으며, 가입의향은 영상전화가 25.4%, 모뎀을 이용한 음성전화가 13.3%, 그리고 IP 폰을 이용한 음성전화가 6.5%로 나타나 영상전화에 대한 기대가 높게 나타났다. 또한 최대지불의향의 경우 현재 인터넷전화사업자들이 제시하고 있는 수준에서 지불의향이 형성되고 있는 것으로 조사되어 상기 가입의향의 과대추정은 미미한 것으로 보인다. 예상 가입 사업자는 KT가 67.3%로 나타나 인터넷전화 시장의 형성과 보급률의 증가는KT의 적극적 진입시점에 의해 크게 영향을 받을 것으로 예상된다.
https://doi.org/10.22648/ETRI.2006.J.210214 인용 PDF

Analysis of Vocal Cord Function by Humidity Change Based on Voice Signal Analysis (음성신호 분석 기반의 습도 변화에 따른 성대 기능 분석)

Kim, Bong-Hyun;Cho, Dong-Uk
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.37A no.9
- /
- pp.792-798
- /
- 2012
Network Quotient, an important figure in modern society, the intelligibility of speech as a conversation partner to maximize pulling up feeling of liking it as much as possible has become an important issue. The humidity of air in the intelligibility of speech have many influences. Therefore, in this paper, we carried out experiment to apply voice signal analysis techniques which to analyze influenced vocal cords in 30%, 50% and 80%, maintaining a constant humidity of the environment. With this in mind, we carried out experiments on intensity and pitch of voice signal on twenty male 20s in maintaining a constant humidity 30%, 50% and 80% of humidity. Finally, we carried out study to draw a significance through statistical analysis measuring characteristic parameter of vocal cord function to change of humidity.
https://doi.org/10.7840/kics.2012.37A.9.792 인용 PDF KSCI

Investigating the Relationship Between Vehicle Front Images and Voice Assistants (자동차 전면부와 음성 어시스턴트의 스타일 관계 분석)

Min-Jung Park;So-Yeong Min;Tae-Su Kim;Hyeon-Jeong Suk
- Science of Emotion and Sensibility
- /
- v.25 no.4
- /
- pp.129-138
- /
- 2022
In the context of the increasing applications of voice assistants in vehicles, we focused on the association between the visual appeal of the cars and the acoustic characteristics of the voice assistants. This study aimed to investigate the relationship between the visual appeal of the vehicle and the voice assistant based on their emotional characteristics. A total of 15 adjectives were used to assess the emotional characteristics of 12 types of cars and six types of voices. An online interview was carried out, instructing participants to match three adjectives with the presented car images or voices. This was followed with a brief interview to allow the participants to reflect on the adjective matches. Based on the assessments, we performed principal component analysis (PCA) to determine factors. We aimed to deploy the cars and voices and analyze the patterns of clustering. The PCA analysis revealed two factors profiled as "Light-Heavy" and "Comfortable-Radical." Both car and voice stimuli were deployed in a two-dimensional space showing the internal relationship within and between the two substances. Based on the coordination data, a hierarchical cluster grouped the 18 stimuli into four groups labeled as challenge, elegance, majesty, and vigor. This study identified two latent factors describing the emotional characteristics of both car images and voice types clustered into four groups based on their emotional characteristics. The coherent matches between car style and voice type are expected to address the design concept more successfully.
https://doi.org/10.14695/KJSOS.2022.25.4.129 인용 PDF KSCI

Implementation of Real Time Facial Expression and Speech Emotion Analyzer based on Haar Cascade and DNN (Haar Cascade와 DNN 기반의 실시간 얼굴 표정 및 음성 감정 분석기 구현)

Yu, Chan-Young;Seo, Duck-Kyu;Jung, Yuchul
- Proceedings of the Korean Society of Computer Information Conference
- /
- 2021.01a
- /
- pp.33-36
- /
- 2021
본 논문에서는 인간의 표정과 목소리를 기반으로 한 감정 분석기를 제안한다. 제안하는 분석기들은 수많은 인간의 표정 중 뚜렷한 특징을 가진 표정 7가지를 별도의 클래스로 구성하며, DNN 모델을 수정하여 사용하였다. 또한, 음성 데이터는 학습 데이터 증식을 위한 Data Augmentation을 하였으며, 학습 도중 과적합을 방지하기 위해 콜백 함수를 사용하여 가장 최적의 성능에 도달했을 때, Early-stop 되도록 설정했다. 제안하는 표정 감정 분석 모델의 학습 결과는 val loss값이 0.94, val accuracy 값은 0.66이고, 음성 감정 분석 모델의 학습 결과는 val loss 결과값이 0.89, val accuracy 값은 0.65로, OpenCV 라이브러리를 사용한 모델 테스트는 안정적인 결과를 도출하였다.
PDF

Search Result 3,062, Processing Time 0.029 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)