• 제목/요약/키워드: Audio clustering

검색결과 15건 처리시간 0.023초

모바일 환경에서의 시각 음성인식을 위한 눈 정위 기반 입술 탐지에 대한 연구 (A Study on Lip Detection based on Eye Localization for Visual Speech Recognition in Mobile Environment)

  • 송민규;;김진영;황성택
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.478-484
    • /
    • 2009
  • 음성 인식 기술은 편리한 삶을 추구하는 요즘 추세에 HMI를 위해 매력적인 기술이다. 음성 인식기술에 대한 많은 연구가 진행되고 있으나 여전히 잡음 환경에서의 성능은 취약하다. 이를 해결하기 위해 요즘은 청각 정보 뿐 아니라 시각 정보를 이용하는 시각 음성인식에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 모바일 환경에서의 시각 음성인식을 위한 입술의 탐지 방법을 제안한다. 시각 음성인식을 위해서는 정확한 입술의 탐지가 필요하다. 우리는 입력 영상에서 입술에 비해 보다 찾기 쉬운 눈을 이용하여 눈의 위치를 먼저 탐지한 후 이 정보를 이용하여 대략적인 입술 영상을 구한다. 구해진 입술 영상에 K-means 집단화 알고리듬을 이용하여 영역을 분할하고 분할된 영역들 중 가장 큰 영역을 선택하여 입술의 양 끝점과 중심을 얻는다. 마지막으로, 실험을 통하여 제안된 기법의 성능을 확인하였다.

미래 홈 멀티미디어 가전을 위한 디지털 컨버젼스 플랫폼 구현 (Implementation of a Digital Convergence Platform for Future Home Multimedia Appliances)

  • 오화용;김동환;이은서;장태규
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.983-986
    • /
    • 2005
  • This paper describes a digital convergence platform(DCP) whice is implemented based on the MPEG-21 multimedia framework. The DCP is a newly proposed solution in this research for the convergence service of future home multimedia environment. The DCP is a common platform designed to have the feature of configurability, via means of S/W, which is needed for the convergence service of diverse digital media. A distributed peer to peer service and transaction model is also a new feature realized in the DCP using the MPEG-21 multimedia framework. A prototype DCP is implemented to verify its functions of multimedia service and transactions. The developed DCPs are networked with IP clustering storage systems for the distributed service of multimedia. Successful streaming services of the MPEG-2/4 video and audio are verified with the implemented test-bed system of the DCP.

  • PDF

비음수 행렬 분해 (NMF)를 이용한 악보 전사 (Music Transcription Using Non-Negative Matrix Factorization)

  • 박상하;이석진;성굉모
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.102-110
    • /
    • 2010
  • 악보 전사란, 오디오 파일로부터 음고 (음표의 높낮이)와 리듬 (음표의 길이) 정보를 추출하여 악보를 만드는 것이다. 본 논문에서는 음원 분리 및 데이터 분류에 자주 사용되는 Non-Negative Matrix Factorization (NMF)와 Non-Negative Sparse Coding (NNSC) 방식을 사용하여 오디오 파일을 주파수와 리듬 성분으로 분류하였다. 또한 배음 통합 (subharmonic summation) 방법으로 분류된 주파수들로부터 기본 진동 주파수를 계산하였고, 이로써 악보를 야루는 음표의 높낮이를 정확히 얻을 수 있었다. 제안한 방식으로 악보 전사거 성공적으로 이루어졌고, NMF 혹은 NNSC만 사용하여 악보 전사를 하였던 기존의 논문들에 비해 향상된 결과를 얻을 수 있었다.

LIBS 분광기를 이용한 폐소형가전 플라스틱 패턴 분류기의 설계 (Design of Pattern Classifier for Electrical and Electronic Waste Plastic Devices Using LIBS Spectrometer)

  • 박상범;배종수;오성권;김현기
    • 한국지능시스템학회논문지
    • /
    • 제26권6호
    • /
    • pp.477-484
    • /
    • 2016
  • 선풍기, 오디오, 전기밥솥 등의 소형 산업가전제품들은 대부분 ABS, PP, PS 등의 재질로 이루어져 있다. 색깔이 있는 플라스틱은 근적외선(NIR) 분광기에 의해 분류가 가능하지만, 반면에 검은색 플라스틱은 빛을 흡수하는 특성으로 인해 분류하기가 어렵다. 그래서 본 연구에서는 LIBS(Laser Induced Breakdown Spectroscopy) 분광기를 통해 폐소형가전 플라스틱을 선별하는 RBFNNs(Radial Basis Function Neural Networks) 패턴 분류기를 소개한다. 전처리부분에는 차원축소 알고리즘 중 하나인 PCA(Principal Component Analysis)를 사용해 처리 속도를 향상시킬 뿐만 아니라 효과적인 데이터의 특성을 추출한다. 조건부에는 FCM(Fuzzy C-Means) 클러스터링을 사용한다. 결론부에는 다항식의 형태 중 하나인 1차 선형식을 연결가중치로서 사용한다. PSO와 5-fold cross validation은 성능의 신뢰도를 향상시키고, 분류율을 높이는데 사용된다. 제안된 분류기의 성능은 최적화한 것과 최적화하지 않은 것 두 가지의 관점에서 보여준다.

리얼 서버의 실시간 서버 모니터에 의한 최적 로드 밸런싱 알고리즘에 관한 연구 (A Study for an Optimal Load Balancing Algorithm based on the Real-Time Server Monitor of a Real Server)

  • 한일석;김완용;김학배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.201-204
    • /
    • 2003
  • At a consequence of WWW large popularity, the internet has suffered from various performance problems, such as network congestion and overloaded servers. These days, it is not uncommon to find servers refusing connections because they are overloaded. Web server performance has always been a key issue in the design and operation of on-line systems. With regard to Internet, performance is also critical, because users want fast and easy access to all objects (e.g., documents, graphics, audio, and video) available on the net. To solve this problem, a number of companies are exploring the benefits of having multiple geographically or locally distributed Internet sites. This requires a comprehensive scheme for traffic management, which includes the principle of an optimal load balancing of client requests across multiple clusters of real servers. This paper focuses on the performance analysis of Web server and we apply these results to load balancing in clustering web server. It also discusses the mam steps needed to carry out a WWW performance analysis effort and shows relations between the workload characteristics and system resource usage. Also, we will introduce an optimal load balancing algorithm base on the RTSM (Real-Time Server Monitor) and Fuzzy Inference Engine for the local status of a real server, and the benefits is provided with of the suggested method.

  • PDF