• 제목/요약/키워드: DTW(Dynamic Time Warping)

검색결과 132건 처리시간 0.027초

화자의도예측 파라미터를 이용한 조타명령 음성인식 시스템의 개선 (Enhancement of Ship's Wheel Order Recognition System using Speaker's Intention Predictive Parameters)

  • 문성배
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제32권5호
    • /
    • pp.791-797
    • /
    • 2008
  • The officer of the deck(OOD) may sometimes have to carry out lookout as well as handling of auto pilot without a quartermaster at sea. The purpose of this paper is to develop the ship's auto pilot control module using speech recognition in order to reduce the potential risk of one man bridge system. The feature parameters predicting the OOD's intention was extracted from the sample wheel orders written in SMCP(IMO Standard Marine Communication Phrases). We designed a pre-recognition procedure which could make some candidate words using DTW(Dynamic Time Warping) algorithm, a post-recognition procedure which made a final decision from the candidate words using the feature parameters. To evaluate the effectiveness of these procedures the experiment was conducted with 500 wheel orders.

음성인식을 이용한 주관평가의 자동화에 관한 기초연구 (A Basic Study on Automation of the Subjective Evaluation using Speech Recognition)

  • 한화영;고한우;윤용현;조택동
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2000년도 추계학술대회 논문집
    • /
    • pp.113-117
    • /
    • 2000
  • 수작업으로 이루어지고 있는 환경의 영향이나 작업의 영향에 따른 정신피로나 신체피로의 주관적인 평가를 자동화하기 위한 방법에 대하여 논하였다. 사람의 가장 자연스러운 의사소통인 평가어를 척도로 하여 평가가 이루어지는 음성인식기술을 응용한 주관평가법에 대하여 연구하였다. 주관평가의 자동화를 위하여 우선, 평가어에 대한 음성 인식을 한 후 인식된 평가 결과 데이터를 이용하여 설문지를 자동 생성시킴과 동시에 파일 형태로 저장시켰다. 음성 인식 알고리즘으로는 DTW(Dynamic Time Warping)인식 알고리즘을 사용하였고. 설문지 질의 내용은 집중도 평가를 이용하였다. 인식실험은 설문에 대한 응답에 필요한 평가어를 대상으로 하였다.

  • PDF

음성을 이용한 화자 검증기 설계 및 구현 (Design and Implementation of Speaker Verification System Using Voice)

  • 지진구;윤성일
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.91-98
    • /
    • 2000
  • 본 논문은 음성을 이용하여 개인의 신원을 확인할 수 있는 화자 검증시스템을 설계, 구현하였다. 특징 파라메터로는 선형 예측 계수나 고속 후리에 변환보다 안정적이고 계산량이 적은 장점이 있는 필터뱅크(filterbank)를 사용했으며 추출된 파라메터들을 LBG 알고리즘을 이용하여 각 개인의 코드북을 작성하였다. 작성된 코드북에 의해 특징 파라메터를 벡터양자화하여 얻어진 코드열로 화자 검증의 참조 패턴 및 입력 패턴을 생성, 이들을 동적시간 정합법을 이용하여 유사도를 측정하여 얻어진 유사도와 임계값을 비교하여 음성 의뢰자(client speaker)인지, 사칭자(impostor)인지 결정하는 화자 검증기를 설계, 구현하였다.

  • PDF

한국어 고립단어인식을 위한 고속 알고리즘 (Fast Algorithm for Recognition of Korean Isolated Words)

  • 남명우;박규홍;정상국;노승용
    • 한국음향학회지
    • /
    • 제20권1호
    • /
    • pp.50-55
    • /
    • 2001
  • 본 논문에서는 청각모델을 이용하여 음성신호로부터 추출한 특징벡터를 2차원 DCT (discrete cosine transform)방법을 사용하여 가공한 후, 새로운 거리측정 방법에 적용하여 한국어 고립단어 인식 실험을 행하였다. 고립단어 인식은 기존에 많은 방법들이 제안되어졌으나, 본 논문에서 제안한 방법은 고립단어 인식을 위한 특징 파라미터로 2차원 DCT 계수를 사용한 것으로 구현이 간단하며, 간단한 계산식으로 인하여 빠른 인식 시간을 가지는 장점이 있다. 제안한 방식의 타당성 검토를 위하여, 고립단어 인식에서 좋은 인식결과를 나타내는 DTW (Dynamic Time Warping)방법을 사용하여 인식률을 비교하였다[5][6]. 실험결과 제안한 방식은 DTW를 사용한 인식방법에 비하여 화자종속 고립단어 인식에서는 거의 유사한 인식결과를, 화자독립 고립단어 인식에서는 더 높은 인식결과를 얻을 수 있었다. 또한, DTW에 비해 패턴비교를 위한 계산시간에 있어서는 200배 이상의 감소효과를 볼 수 있었다. 제안된 방법은 비교 방법에 비하여 잡음환경에서도 강한 특성을 보였다.

  • PDF

인간과 로봇 협력작업을 위한 로봇 지능제어알고리즘 개발에 관한 연구 (A Study on Intelligent Control Algorithm Development for Cooperation Working of Human and Robot)

  • 이우송;정양근;박인만;정종교;김희진;김민성;한성현
    • 한국산업융합학회 논문집
    • /
    • 제20권4호
    • /
    • pp.285-297
    • /
    • 2017
  • This study proposed a new approach to develop an Intelligent control algorithm for cooperative working of human and robot based on voice recognition. In general case of speaker verification, Gaussian Mixture Model is used to model the feature vectors of reference speech signals. On the other hand, Dynamic Time Warping based template matching techniques were presented for the voice recognition about several years ago. We converge these two different concepts in a single method and then implement in a real time voice recognition enough to make reference model to satisfy 95% of recognition performance. In this paper it was illustrated the reliability of voice recognition by simulation and experiments for humanoid robot with 18 joints.

다성음원 기반 QbSH 시스템을 위한 매칭엔진의 설계 및 구현 (Design and Implementation of Matching Engine for QbSH System Based on Polyphonic Music)

  • 박성주;정광수
    • 한국멀티미디어학회논문지
    • /
    • 제15권1호
    • /
    • pp.18-31
    • /
    • 2012
  • 본 논문은 다성음원에서 추출된 특성정보 기반 QbSH (Query-by-Singing/ Humming) 시스템의 매칭엔진에 대해 제안하였다. 다성음원 기반 QbSH 시스템은 사람의 노래나 허밍에서 추출된 특성정보와 MP3 파일과 같은 다성음원에서 추출된 특성정보를 비교하여, 가장 유사한 음원을 검색하는 시스템이다. 제안된 매칭엔진에는 다성음원에서 특성 추출시 발생하는 오류를 줄이고, 매칭성능을 향상시키기 위해 크로마-스케일 표현기법 (Chroma-Scale Representation), 보상기법 (Compensation) 및 비대칭적 DTW (Asymmetric Dynamic Time Warping) 알고리즘을 적용하였다. 또한 다양한 거리 함수 (Distance Metric)를 적용하여 매칭엔진의 성능향상을 확인하였다. 1,000개의 허밍 질의와 450곡의 다성음원 데이터베이스를 기반으로 제안한 QbSH 시스템의 성능 실험을 수행하다. 성능 평가를 통해 제안한 QbSH 시스템이 MRR (Mean Reciprocal Rank) 0.718의 정확도를 가지는 것으로 확인되었다.

안드로이드 환경의 다중생체인식 기술을 응용한 인증 성능 개선 연구 (Enhancement of Authentication Performance based on Multimodal Biometrics for Android Platform)

  • 최성필;정강훈;문현준
    • 한국멀티미디어학회논문지
    • /
    • 제16권3호
    • /
    • pp.302-308
    • /
    • 2013
  • 본 논문은 모바일 환경에서의 다중생체인식을 통한 개인인증 시나리오에서 false acceptance rate (FAR)가 향상된 시스템을 제안한다. 다중생체인식을 위하여 얼굴인식과 화자인식을 선택하였으며, 시스템의 인식 시나리오는 다음을 따른다. 얼굴인식을 위하여 Modified census transform (MCT) 기반의 얼굴검출과 k-means 클러스터 분석 (cluster analysis) 알고리즘 기반의 눈 검출을 통해 얼굴영역 전처리를 수행하고, principal component analysis (PCA) 기반의 얼굴인증 시스템을 구현한다. 화자인식을 위하여 음성의 끝점추출과 Mel frequency cepstral coefficient (MFCC) 특징을 추출하고, dynamic time warping (DTW) 기반의 화자 인증 시스템을 구현한다. 그리고 각각의 생체인식을 본 논문에서 제안된 방법을 기반으로 융합하여 인식률을 향상시킨다. 본 논문의 실험은 Android 환경에서 수행하였으며, 구현한 다중생체인식 시스템과 단일생체인식 시스템과의 FAR을 비교하였다. 단일 얼굴인식의 FAR은 4.6%, 단일 화자인식의 FAR은 6.7%로 각각 나타났으며, 제안된 다중생체인식 시스템의 FAR은 1.8%로 크게 감소하였다.

A Novel Query-by-Singing/Humming Method by Estimating Matching Positions Based on Multi-layered Perceptron

  • Pham, Tuyen Danh;Nam, Gi Pyo;Shin, Kwang Yong;Park, Kang Ryoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권7호
    • /
    • pp.1657-1670
    • /
    • 2013
  • The increase in the number of music files in smart phone and MP3 player makes it difficult to find the music files which people want. So, Query-by-Singing/Humming (QbSH) systems have been developed to retrieve music from a user's humming or singing without having to know detailed information about the title or singer of song. Most previous researches on QbSH have been conducted using musical instrument digital interface (MIDI) files as reference songs. However, the production of MIDI files is a time-consuming process. In addition, more and more music files are newly published with the development of music market. Consequently, the method of using the more common MPEG-1 audio layer 3 (MP3) files for reference songs is considered as an alternative. However, there is little previous research on QbSH with MP3 files because an MP3 file has a different waveform due to background music and multiple (polyphonic) melodies compared to the humming/singing query. To overcome these problems, we propose a new QbSH method using MP3 files on mobile device. This research is novel in four ways. First, this is the first research on QbSH using MP3 files as reference songs. Second, the start and end positions on the MP3 file to be matched are estimated by using multi-layered perceptron (MLP) prior to performing the matching with humming/singing query file. Third, for more accurate results, four MLPs are used, which produce the start and end positions for dynamic time warping (DTW) matching algorithm, and those for chroma-based DTW algorithm, respectively. Fourth, two matching scores by the DTW and chroma-based DTW algorithms are combined by using PRODUCT rule, through which a higher matching accuracy is obtained. Experimental results with AFA MP3 database show that the accuracy (Top 1 accuracy of 98%, with an MRR of 0.989) of the proposed method is much higher than that of other methods. We also showed the effectiveness of the proposed system on consumer mobile device.

Development of Audio Melody Extraction and Matching Engine for MIREX 2011 tasks

  • 송재종;장달원;이석필;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.164-166
    • /
    • 2012
  • In this paper, we proposed a method for extracting predominant melody of polyphonic music based on harmonic structure. Harmonic structure is an important feature parameter of monophonic signal that has spectral peaks at the integer multiples of its fundamental frequency. We extract all fundamental frequency candidates contained in the polyphonic signal by verifying the required condition of harmonic structure. Then, we combine those harmonic peaks corresponding to each extracted fundamental frequency and assign a rank to each after calculating its harmonic average energy. We run pitch tracking based on the rank of extracted fundamental frequency and continuity of fundamental frequency, and determine the predominant melody. For the query by singing/humming (QbSH) task, we proposed Dynamic Time Warping (DTW) based matching engine. Our system reduces false alarm by combining the distances of multiple DTW processes. To improve the performance, we introduced the asymmetric sense, pitch level compensation, and distance intransitiveness to DTW algorithm.

  • PDF

Exploring Environmental Factors Affecting Strawberry Yield Using Pattern Recognition Techniques

  • 조완현;박유하;나명환;최돈우
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.39-46
    • /
    • 2019
  • This paper investigates the importance of various environmental factors that have a strong influence on strawberry yields grown in greenhouse using the pattern recognition methods. The environmental factors influencing the production of strawberries were six factors such as average inside temperature, average inside humidity, average $CO_2$ level, average soil temperature, cumulative solar radiation, and average illumination. The results of analyzing the observed data using Dynamic Time Warping (DTW) showed that the most significant factor influencing the strawberry production was average soil temperature, average inside humidity, and cumulative solar radiation. Second, the results of analyzing the observed data using Multidimensional Scaling (MDS) showed that the most influential factors on the strawberry yields, such as average $CO_2$ level, average inside humidity, and average illumination were differently given for each farms. However, these results are based on the distance in 3D space and can be deduced from the fact that there is not a large difference between these distances. Therefore, in order to increase the harvest of strawberries cultivated in the farms, it is necessary to manage the environmental factors such as thoroughly controlling the humidity and maintaining the concentration of $CO_2$ constantly by ventilation of the greenhouse.