통합 검색 | Korea Science

산업용 음성 DB 메타데이터 표준화 (Standardization of XML based Meta-data for Industrial Speech Databases)

주영희;홍기형
- 대한음성학회:학술대회논문집
- /
- 대한음성학회 2005년도 추계 학술대회 발표논문집
- /
- pp.211-214
- /
- 2005
본고에서는 산업용 음성 DB를 위한 XML 기반 메타데이터의 표준화에 대한 현재 상황과 표준화 활동에 대하여 소개한다. 산업용 음성 DB는 구축에 많은 시간과 비용을 요구하며, 양질의 음성 처리 시스템 (인식/합성/인증)의 개발을 위해서는 가능한 많은 양의 음성 데이터가 필요하다. 산업용 음성 DB 메타데이터 표준화는 서로 다른 기관에서 구축한 음성 DB의 공유와 재사용을 원활히 하기 위하여, 2004년 9월부터 요구사항 분석을 시작하여, 2005년 3월 초안이 완성되었다. 본 표준안은 음성 DB 메타데이터의 구조를 XML 기반으로 정의한 것이며, 음성 파일 이름, 화자 식별자, 음소 기호와 같은 구조 외의 표준화 대상에 대해서는 다루지 않는다. 이미 ETRI와 SiTEC [5]에서 XML 기반의 메타데이터 구조와 내용 표준안을 제안한 바 있으나. [5]에서 제안한 구조는 평면 구조를 취하고 있어 내용의 중복성등의 단점이 있어, 이를 보완하여 음성 DB 데이터 모델을 객체지향 방식으로 설계하였다.
PDF

자연발화상에 나타난 단음절 단일간투사의 길이특성 분석 (Analysis of the durational characteristics of monosyllabic interjections in Natural spoken language)

김기호
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
- /
- pp.95-98
- /
- 1994
자연발화상에 포함되어, 음성언어 인식에 장애를 초래하는 간투사의 음성적 특성 중 가장 뚜렷이 구별되는 길이특성얼 분석하여 음성언어 인식에 도움을 주는 것을 목적으로 한다. 이 연구에서는 간투사의 대부분을 차지하는 단음절 단일 간투사에 한정하여, 실제 대화의 녹음자료에서 나타나는 간투사의 빈도수와, 그 길이특성을 신분별, 성별, 간투사 유형별로 분석하였다. 또 간투사를 위치에 따라, 음운구초 간투사, 음운구말 간투사로 나누고, 그 길이를 음절 평균, 음운 구초 음절이나 음운구말 음절의 길이와 비교하여 간투사의 증가율을 측정하였다. 분석결과 가장 높은 빈도수를 보이는 단음절 단일 간투사는 어 이며, 간투사 길이 증가율은, 음절평균에 대해서는 그가, 음운구초 평균에 대해서는 응이 가장 큰 증가율을 나타낸다. 전체적을 음운구초 음절길이에 대한 간투사 길이 증가율이 음절평균 길이에 대한 간투사 길이 증가율보다 더 크게 나타났다. 이러한 분석결과를 통해 하위레벨에서 제거할 수 있는 간투사와, 통사적 또는 의미론적 분석이 필요한 상위레벨에서 처리해야할 간투사를 구별할 수 있다. 이와 같은 길이 특성외에 간투사에 대한 다양한 음성적 특성과, 다음절 단일 간투사와, 이중 간투사에 대한 연구가 진척된다면 음성언어 인식에 장애가 되는 간투사의 효과적 배제가 가능할 것으로 보인다.
PDF

향상된 2.4kbps 하모닉 스토케스틱 여기 음성 부호화 방법 (Enhanced 2.4kbps Harmonic Stochastic Excitation Coding)

김종학;신경진;이인성
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
- /
- pp.831-834
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR(Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

ATM망에서 AAL2를 이용한 음성패킷 전송에 관한 성능분석 (Performance Analysis of Voice over ATM using AAL2 based on Packet Delay Evaluation)

김원순;김태준;홍석원;오창석
- 한국통신학회논문지
- /
- 제24권10B호
- /
- pp.1852-1860
- /
- 1999
본 논문에서는 음성 패킷을 전송하기 위해 새로 제시되어 표준화된 AAL2의 성능을 이산 시간 시뮬레이션 모형(discrete-time simulation model)을 통해 분석하였다. 시뮬레이션의 입력 파라메터로는 AAL2 PDU를 만들기 위한 패킷 필 지연 시간(packet fill delay), 여러 AAL2 PDU로부터 ATM 셀을 만들기 위한 셀 생성 지연(guard time), 음성 트래픽의 특성을 정의하는 버스트 정도(burstness), 그리고 사용자 수(number of channels)로 하였으며 이 값의 변화에 따른 음성 패킷의 양종단 지연 시간 변이(end-to-end delay variation)을 계산하여 각각의 파라미터가 음성 패킷의 성능에 미치는 영향을 분석하였다.
PDF

시간/주파수 전이신호를 위한 향상된 2.4 kbps 하모닉 스토케스틱 여기 음성 부호화 방법 (Enhaced 2.4 kbps Harmonic Stochastic Excitation Coding for Time/Frequency Transitional Speech)

김종학;이인성
- 한국음향학회지
- /
- 제19권7호
- /
- pp.53-58
- /
- 2000
본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4 kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR (Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4 kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.
PDF

기계학습을 활용한 음성인식 감정분석 프로그램 개발 (Development of Speech recognition emotion analysis program using machine learning)

이상우;윤영재;이경희;조정원
- 한국컴퓨터교육학회 학술대회
- /
- 한국컴퓨터교육학회 2018년도 하계학술대회
- /
- pp.71-73
- /
- 2018
사람의 음성이 가진 고유한 특성을 이용하여 그 안에 담긴 감정을 분석하여 파악할 수 있다면 효과적인 의사소통이 가능할 것이다. 본 연구에서는 음성이 가진 피치 값과, 속도의 변화와 같은 요소를 데이터화 하여 그 안에 담긴 감정을 기계학습을 통해 분류 및 예측하는 과정을 거친다. 감정 별 음성 데이터 분석을 위해 다양한 기계학습 알고리즘을 활용하며 선행 연구들보다 높은 정확도로 신뢰할 수 있는 측정 결과를 제공해 줄 수 있을 것이다. 이를 통해 음성만으로 사람의 감정을 파악하여 효과적인 의사소통 및 다양한 분야에 활용될 수 있을 것으로 기대한다.
PDF

가정용 인터넷전화 시장 반응분석 및 시사점 (Market Response of Household IP Telephony Services and Implications)

김호
- 전자통신동향분석
- /
- 제21권2호통권98호
- /
- pp.149-160
- /
- 2006
본 고에서는 2005년 11월 실시된 시장조사결과를 바탕으로 가정용 VoIP 서비스의 시장 반응 분석 및 전망과 함께 시사점을 제시한다. 본 고에서 실시한 시장조사는 가정용으로 사용될 070 번호가 인터넷전화로서, 전용 IP 폰을 이용한 음성전화서비스, 기존전화에 모뎀만 추가 혹은 교체함으로써 가능한 음성전화서비스, 그리고 영상전화로 구분하여 제시하였다. 이들 각 서비스에 대해 가입의향, 가입/비가입 사유, 그리고 요금의지불의향 등을 조사하여 제시하였다. 결과를 요약하면 음성전용 전화의 주 가입이 유가경제성으로 나타난 반면 영상전화의 주 가입이유는 영상통화에 대한 기대로 나타났으며, 가입의향은 영상전화가 25.4%, 모뎀을 이용한 음성전화가 13.3%, 그리고 IP 폰을 이용한 음성전화가 6.5%로 나타나 영상전화에 대한 기대가 높게 나타났다. 또한 최대지불의향의 경우 현재 인터넷전화사업자들이 제시하고 있는 수준에서 지불의향이 형성되고 있는 것으로 조사되어 상기 가입의향의 과대추정은 미미한 것으로 보인다. 예상 가입 사업자는 KT가 67.3%로 나타나 인터넷전화 시장의 형성과 보급률의 증가는KT의 적극적 진입시점에 의해 크게 영향을 받을 것으로 예상된다.
https://doi.org/10.22648/ETRI.2006.J.210214 인용 PDF

음성신호 분석 기반의 습도 변화에 따른 성대 기능 분석 (Analysis of Vocal Cord Function by Humidity Change Based on Voice Signal Analysis)

김봉현;조동욱
- 한국통신학회논문지
- /
- 제37A권9호
- /
- pp.792-798
- /
- 2012
네트워크 지수가 중요한 현대 사회에서 음성을 통한 전달력 극대화로 대화 상대자로 하여금 호감도를 최대한 끌어 올리는 것이 중요한 사안이 되었다. 이때 공기 중에 포함된 습도는 음성의 전달력에 많은 영향을 미친다. 따라서 본 논문에서는 30%, 50%, 80%의 습도를 일정하게 유지한 환경에서 성대에 미치는 영향을 분석하기 위한 음성신호 분석 기술을 적용한 실험을 수행하여 습도가 음성의 전달력에 미치는 영향을 정량적으로 규명해 보고자 한다. 이를 위해 20대 남성 20명을 대상으로 30%, 50%, 80% 습도 환경을 유지하고 있는 공간에서 1시간동안 노출된 상태에서 음성을 수집하고 성대 진동 변화 및 음성 에너지 크기를 측정한 실험을 수행하였다. 최종적으로 습도 변화에 따른 성대 기능의 특징 요소를 측정하고 통계 분석을 통해 추출된 실험 결과가 통계적 유의성을 갖는지에 대해 분석해 보고자 한다.
https://doi.org/10.7840/kics.2012.37A.9.792 인용 PDF KSCI

자동차 전면부와 음성 어시스턴트의 스타일 관계 분석 (Investigating the Relationship Between Vehicle Front Images and Voice Assistants)

박민정;민소영;김태수;석현정
- 감성과학
- /
- 제25권4호
- /
- pp.129-138
- /
- 2022
음성 어시스턴트가 차량에 탑재되기 시작하면서, 차량의 조형적 특징과 음성 어시스턴트간의 연관성이 중요해지고 있다. 본 연구는 자동차에 적용된 음성 어시스턴트와 외관의 조화스러움에 대하여 공통된 감성적 특징을 기반으로 살펴보고자 하였다. 12가지 차량 이미지와 6가지의 음성 어시스턴트에 대해 15종의 형용사를 바탕으로 감성 평가를 실시하였다. 실험은 온라인 개별 인터뷰로 진행되었으며, 총 24명의 대학생이 참여하였다. 참여자들은 각 자극물을 대표하는 감성 형용사 3종을 1, 2, 3위로 평가하고, 선정 이유에 대한 간단한 인터뷰를 진행하였다. 설문 결과에 대해 주성분분석을 수행하여 2개의 주요 요인을 추출한 뒤, 각 요인을 축으로 하여 자극물을 분포시켰다. 분포도를 바탕으로 감성적 특징을 도출하고자 계층적 군집 분석을 수행하였다. 주성분 분석 결과 자동차 이미지와 음성 어시스턴트를 설명하는 감성적 차원으로 "편안한-급진적인"과 "가벼운-무거운"이 추출되었다. 두 차원을 바탕으로 자극물들을 분포시킨 결과, 자동차와 음성 어시스턴트가 동일한 축을 바탕으로 다양하게 분포해 두 요인이 자극물간 감성적 특징을 도출하기에 적합하다고 판단되었다. 자극물들의 분포도를 바탕으로 계층적 군집분석을 수행하여 17개의 자극물을 4가지 군집으로 추렸다. 각 군집은 도전적인, 우아한, 위엄있는, 활기찬 그룹으로 도출되었다. 본 연구에서는 차량의 조형적 특징과 음성 어시스턴트의 감성적 이미지를 동시에 설명할 수 있는 두 축을 도출하였다. 도출된 축을 바탕으로 그려진 분포도에 군집 분석을 수행해 감성적 특징을 분류하였으며, 총 4개의 감성적 특징이 도출되었다. 본 연구는 자동차의 조형적 특징에 맞춘 음성 어시스턴트 제안을 위한 디자인 품평 가이드로 활용되어, 추후 출시되는 차량에서 사용자들의 자동차 음성 어시스턴트 감성 경험이 증진될 것으로 기대한다.
https://doi.org/10.14695/KJSOS.2022.25.4.129 인용 PDF KSCI

Haar Cascade와 DNN 기반의 실시간 얼굴 표정 및 음성 감정 분석기 구현 (Implementation of Real Time Facial Expression and Speech Emotion Analyzer based on Haar Cascade and DNN)

유찬영;서덕규;정유철
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
- /
- pp.33-36
- /
- 2021
본 논문에서는 인간의 표정과 목소리를 기반으로 한 감정 분석기를 제안한다. 제안하는 분석기들은 수많은 인간의 표정 중 뚜렷한 특징을 가진 표정 7가지를 별도의 클래스로 구성하며, DNN 모델을 수정하여 사용하였다. 또한, 음성 데이터는 학습 데이터 증식을 위한 Data Augmentation을 하였으며, 학습 도중 과적합을 방지하기 위해 콜백 함수를 사용하여 가장 최적의 성능에 도달했을 때, Early-stop 되도록 설정했다. 제안하는 표정 감정 분석 모델의 학습 결과는 val loss값이 0.94, val accuracy 값은 0.66이고, 음성 감정 분석 모델의 학습 결과는 val loss 결과값이 0.89, val accuracy 값은 0.65로, OpenCV 라이브러리를 사용한 모델 테스트는 안정적인 결과를 도출하였다.
PDF

검색결과 3,062건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)