• 제목/요약/키워드: voice image

검색결과 293건 처리시간 0.057초

Program Development of Emotional Human and Computer Interface

  • Jung, Seul;Cho, Kiho
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.102.3-102
    • /
    • 2002
  • $\textbullet$ Human and computer interface(HCI) $\textbullet$ Voice recognition $\textbullet$ Image recognition $\textbullet$ Neural network $\textbullet$ Hopfield net

  • PDF

음성/데이타 집적서비스를 위한 CDMA 셀룰러 시스템의 성능 연구 (Performance of cellular CDMA system for voice/data integrated service)

  • 강군화;조동호
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1748-1758
    • /
    • 1994
  • 최근에 이동통신의 수요가 급격히 증가하고 있으며, 음성뿐만 아니라 종합정보통신망(ISDN)에서 제공되는 데이터, 팩스, 영상 등의 비음성계 서비스가 요구되고 있다. 따라서 본 논문에서는 PCS 시스템의 기본 핵심기술로 활용될 수 있는 디지털 셀룰러 CDMA 시스템용 음성/데이터 집적 서비스 방안들을 제시하고 컴퓨터 심뮬레이션을 통하여 각 집적 서비스 방안의 성능을 비교 분석한다. 컴퓨터 시뮬레이션 결과, CDMA의 한 논리채널을 여러 단말기가 할당받아 PRMA 방식으로 경쟁하는 PR-CDMA 음성/데이타 집적 서비스 방안이 CDMA 방식의 단점인 고정 채널갯수의 한계와 채널이용율의 저하를 극복할 수 있어 전용단말기나 음성/데이타 집적단말기를 이용한 광대역 CDMA 음성/데이타 집적서비스 방안 보다 모든 면에서 우수한 성능을 나타냄을 알 수 있었다.

  • PDF

멀티 모달 감정인식 시스템 기반 상황인식 서비스 추론 기술 개발 (Development of Context Awareness and Service Reasoning Technique for Handicapped People)

  • 고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.34-39
    • /
    • 2009
  • 사람의 감정은 주관적인 인식 작용으로서 충동적인 성향을 띄고 있으며 무의식중의 사람의 욕구와 의도를 표현하고 있다. 이는 유비쿼터스 컴퓨팅 환경이나 지능형 로봇의 사용자가 처한 환경의 상황정보 중에서 사용자의 의도를 가장 많이 포함하고 있는 정보라고 할 수 있다. 이러한 사용자의 감정을 파악할 수 있는 지표는 사람의 얼굴 영상에서의 표정과 음성신호에서의 Spectrum 통계치 및 생체신호(근전위, 뇌파, 등)등 이다. 본 논문에서는 감정인식 활용의 편의와 효율성 향상을 주목적으로 하여 사용자의 얼굴 영상과 음성을 이용한 감정인식에 대하여 개별 결과물만을 산출하고 그 인식률을 검토한다. 또한 임의의 상황에서의 인식률 향상을 위하여 영상과 음성의 특징을 기반으로 최적의 특징 정보들을 구별해 내고, 각각의 개별 감정 특징에 대한 융합을 시도하는 특징 융합 기반의 Multi-Modal 감정인식 기법을 구현한다. 최종적으로 감정인식 결과를 이용하여 유비쿼터스 컴퓨팅 환경에서 발생 가능한 상황 설정 시나리오와 베이지만 네트워크를 통해 유비쿼터스 컴퓨팅 서비스의 확률 추론 가능성을 제시하고자 한다.

PSK 변조방식이 수중통신에 미치는 영향에 관한 연구 (Effects of PSK Modulation Methods in Underwater Acoustic Communication)

  • 조진수;정승백;심태보
    • 한국음향학회지
    • /
    • 제26권7호
    • /
    • pp.366-374
    • /
    • 2007
  • 수중에서 무선통신이 기존에는 초음파를 이용한 단거리통신에 국한되었으나 최근 고주파를 이용한 장거리 통신의 필요성이 증가되고 음성뿐만이 아니라 각종 데이터나 고화질 영상자료의 송수신 수요가 늘어나고 있다. 본 연구에서는 수중에서 디지털 변조방식의 차이에 따라 실제 수중통신에 미치는 영향에 대하여 연구하였다. 모의 환경 하에서 PSK기반의 변조방식(BPSK, QPSK, MSK, GMSK)에 대한 시뮬레이션을 통해 실험한 결과 GMSK만이 큰 차이를 보였다. 위 결과를 바탕으로 SNR을 35dB이하로 하고 부산 남방에 위치한 207-선(한국해양자료센타)의 15Km 구간을 모의하여 음성통신과 영상자료를 전송실험한 결과 음성통신시($10^{-2}$BER, 채널용량 1Kbps기준)는 약 8Km의 거리 차이를, 그리고 영상자료($3{\times}10^5$ 화소, 화소 당 정보량 4bit) 전송시는 BPSK, QPSK, MSK 는 60Kbps, GMSK는 45Kbps의 전송율을 확보하여 약 7초의 전송시간 차이가 생김을 확인하였다.

Voice Expression using a Cochlear Filter Model

  • Jarng, Soon-Suck
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권1E호
    • /
    • pp.20-28
    • /
    • 1996
  • Speech sounds were practically applied to a cochlear filter which was simulated by an electrical transmission line. The amplitude of the basilar membrane displacement was calculated along the length of the cochlea in temporal response. And the envelope of the amplitude according to the length was arranged for each discrete time interval. The resulting time response of the speech sound was then displayed as a color image. Five vowels such as a, e, I, o, u were applied and their results were compared. The whole procedure of the visualization method of the speech sound using the cochlear filter is described in detail. The filter model response to voice is visualized by passing the voice through the cochlear filter model.

  • PDF

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 김동수;남기환;한준희;배철수;나상동
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1998년도 추계종합학술대회
    • /
    • pp.181-185
    • /
    • 1998
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 높은 독순(lipreading)을 PC에서 구현하고자 한다. 간 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 독순(lipreading)을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형상 모델을 입력 동영상에 정합시키고 정합된 3차원모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식 단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의한다. 인식은 다차원(multi-dimensional), 다단계 라벨링 방법을 사용하여 3차원 특징벡터를 입력으로 한 이산 HMM을 사용하였다.

  • PDF

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 남기환;배철수
    • 한국정보통신학회논문지
    • /
    • 제6권5호
    • /
    • pp.783-788
    • /
    • 2002
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 논은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형살 모델을 입력 동영상에 정합시키고 정합된 3차원 형상모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차인 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다.

음성변화를 주증상으로 내원한 유방암의 경부연조직 전이환자 1례 (Neck metastasis of invasive ductal carcinoma of breast causing voice change: a case report)

  • 이형민;박지훈;김진환;김정원;이동진
    • 대한두경부종양학회지
    • /
    • 제33권2호
    • /
    • pp.67-70
    • /
    • 2017
  • We present a metastatic carcinoma from the breast to the neck soft tissue around common carotid artery, with a rare finding of voice change. A 60 year-old female patient presented with voice change for 7 months. Neck ultrasound revealed a soft tissue mass between internal jugular vein and common carotid artery. Result of fine needle aspiration biopsy was a metastatic carcinoma. Computed tomography and magnetic resonance image revealed $2.5{\times}3.0cm$ sized irregular marginated soft tissue mass in right lower neck encasing common carotid artery and internal jugular vein. Surgical resection was performed and pathologic result with immunohistochemical analysis confirmed the diagnosis of a metastatic invasive ductal carcinoma originated from breast.

딥러닝 기반 가창 음성합성(Singing Voice Synthesis) 모델링 (Deep Learning based Singing Voice Synthesis Modeling)

  • 김민애;김소민;박지현;허가빈;최윤정
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.127-130
    • /
    • 2022
  • 본 논문은 생성자 손실함수를 이용한 가창 음성합성 모델링에 대한 연구로서 기존 이미지 생성에 최적화된 딥러닝 알고리즘 중 BEGAN모델을 오디오 생성모델(SVS모델)에 적용시킬 때 발생할 수 있는 여러 요인에 대해 분석하고 최적의 품질을 도출하기 위한 실험을 수행하였다. 특히 BEGAN 기반 모델에서 제안된 L1 loss가 어느 시점에서 감마(𝛾)파라미터의 역할을 상실하게 한다는 점을 개선하고자 알파(𝛼)파라미터를 추가한 후 각 파라미터 값들의 구간별 실험을 통해 최적의 값을 찾아냄으로써 가창합성 생성물의 품질향상에 기여할 수 있음을 확인하였다.

  • PDF