• 제목/요약/키워드: Multiple Pitch Candidates

검색결과 4건 처리시간 0.017초

허밍 질의를 이용한 오류에 강한 악곡 정보 검색 기법 (Error-Tolerant Music Information Retrieval Method Using Query-by-Humming)

  • 정현열;허성필
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.488-496
    • /
    • 2004
  • 본고에서는 악곡정보 검색을 위한 검색키로써 허밍을 이용한 검색 방법에 관한 내용을 기술하였다. 고정도의 악곡 검색 시스템은 사용자의 불안정한 음정 및 템포 그리고 애매한 기억에 의한 음표의 삽입 및 탈락에 대응이 가능해야 한다. 또한 입력된 음향신호로부터 검색에 필요한 정확한 특징량의 추출과 효과적인 멜로디 표현 기법이 요구된다. 일반적으로 사용자의 허밍으로부터 음고 정보를 얻기 위해 입력된 음향신호로부터 피치정보를 추출하지만, 피치 추출 알고리즘은 이러한 입력 허밍으로부터 때때로 하모닉 피치를 추출한다. 이러한 문제점을 고려하여, 본 논문에서는 음고 정보의 특징량으로 복수 피치 후보를 고려한 방법을 제안한다. 게다가 복수 피치 후보에 신뢰도라는 파라미터를 도입하여 신뢰도가 높은 피치후보의 선택 가능성을 높였다. 검색엔진에서는 제안하는 복수 피치 후보의 수용을 위해 DP알고리즘을 3차원으로 확장하였다. 또한 제안하는 알고리즘은 DP패스에 따라 음표의 삽입/탈락에 다이내믹하게 대응이 가능하도록 멜로디 표현 방법을 변경하였다. 성능 평가를 위해 종래 기법과의 비교 실험 결과 보다 높은 검색 결과를 얻었다.

하모닉 구조를 이용한 다성 음악의 주요 멜로디 검출 (Extracting Predominant Melody from Polyphonic Music using Harmonic Structure)

  • 윤제열;이석필;서경학;박호종
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.109-116
    • /
    • 2010
  • 본 논문에서는 하모닉 구조를 이용하여 다성 음악의 주요 멜로디를 검출하는 방법을 제안한다. 다성 음악은 다수의 음원을 동시에 포함하므로 주요 멜로디를 검출하기 위하여 다중 기본 주파수를 추출하고 각 기본 주파수의 성질을 기반으로 주요 멜로디를 구하는 과정으로 구성된다. 하모닉 구조는 기본 주파수의 배음관계를 나타내고 단일 음원 신호의 중요한 특성 파라미터이다. 따라서 제안하는 방법은 하모닉 구조의 정확도를 기준으로 다성 음악에 존재하는 모든 기본 주파수 후보를 추출하고, 추출된 기본 주파수 후보에 대하여 하모닉 성분을 조합하여 하모닉 평균 에너지를 구하여 기본 주파수 후보의 중요도 순위를 결정한다. 마지막으로 기본 주파수 후보의 순위와 기본 주파수의 연속성을 기반으로 피치 트래킹을 진행하여 최종 주요 멜로디에 해당하는 기본 주파수를 검출한다. 제안한 방법의 성능을 ADC 2004 DB와 가요 100곡에 대하여 MIREX 2005 측정 방법에 따라 측정하였으며, ADC 2004 DB에 대하여 90.42%의 검출 정확도를 가진다.

Development of Audio Melody Extraction and Matching Engine for MIREX 2011 tasks

  • 송재종;장달원;이석필;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.164-166
    • /
    • 2012
  • In this paper, we proposed a method for extracting predominant melody of polyphonic music based on harmonic structure. Harmonic structure is an important feature parameter of monophonic signal that has spectral peaks at the integer multiples of its fundamental frequency. We extract all fundamental frequency candidates contained in the polyphonic signal by verifying the required condition of harmonic structure. Then, we combine those harmonic peaks corresponding to each extracted fundamental frequency and assign a rank to each after calculating its harmonic average energy. We run pitch tracking based on the rank of extracted fundamental frequency and continuity of fundamental frequency, and determine the predominant melody. For the query by singing/humming (QbSH) task, we proposed Dynamic Time Warping (DTW) based matching engine. Our system reduces false alarm by combining the distances of multiple DTW processes. To improve the performance, we introduced the asymmetric sense, pitch level compensation, and distance intransitiveness to DTW algorithm.

  • PDF

대용량 운율 음성데이타를 이용한 자동합성방식 (Automatic Synthesis Method Using Prosody-Rich Database)

  • 김상훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.87-92
    • /
    • 1998
  • In general, the synthesis unit database was constructed by recording isolated word. In that case, each boundary of word has typical prosodic pattern like a falling intonation or preboundary lengthening. To get natural synthetic speech using these kinds of database, we must artificially distort original speech. However, that artificial process rather resulted in unnatural, unintelligible synthetic speech due to the excessive prosodic modification on speech signal. To overcome these problems, we gathered thousands of sentences for synthesis database. To make a phone level synthesis unit, we trained speech recognizer with the recorded speech, and then segmented phone boundaries automatically. In addition, we used laryngo graph for the epoch detection. From the automatically generated synthesis database, we chose the best phone and directly concatenated it without any prosody processing. To select the best phone among multiple phone candidates, we used prosodic information such as break strength of word boundaries, phonetic contexts, cepstrum, pitch, energy, and phone duration. From the pilot test, we obtained some positive results.

  • PDF