• 제목/요약/키워드: Sound Segmentation

검색결과 29건 처리시간 0.025초

Performance Comparison Between the Envelope Peak Detection Method and the HMM Based Method for Heart Sound Segmentation

  • Jang, Hyun-Baek;Chung, Young-Joo
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권2E호
    • /
    • pp.72-78
    • /
    • 2009
  • Heart sound segmentation into its components, S1, systole, S2 and diastole is the first step of analysis and the most important part in the automatic diagnosis of heart sounds. Conventionally, the Shannon energy envelope peak detection method has been popularly used due to its superior performance in locating S1 and S2. Recently, the HMM has been shown to be quite suitable in modeling the heart sound signal and its use in segmenting the heart sound signal has been suggested with some success. In this paper, we compared the two methods for heart sound segmentation using a common database. Experimental tests carried out on the 4 different types of heart sound signals showed that the segmentation accuracy relative to the manual segmentation was 97.4% in the HMM based method which was larger than 91.5% in the peak detection method.

음성 분리를 위한 스펙트로그램의 마루와 골을 이용한 시간-주파수 공간에서 소리 분할 기법 (A Method of Sound Segmentation in Time-Frequency Domain Using Peaks and Valleys in Spectrogram for Speech Separation)

  • 임성길;이현수
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.418-426
    • /
    • 2008
  • 본 논문에서는 스펙트로그램에서 마루와 골을 이용한 주파수 채널 분할 알고리즘을 제안한다. 주파수 채널 분할 문제는 동일한 음원으로부터 발생한 음성이 포함된 주파수 채널들을 하나의 그룹으로 묶는 것을 의미한다. 제안된 알고리즘은 입력 신호의 평탄화된 스펙트럼에 기반한 알고리즘이다. 평탄화된 스펙트럼에서 마루와 골은 각각 세그먼트의 중심과 경계를 판단하기 위해 사용된다. 각 세그먼트를 하나의 소리로 묶는 그룹핑 단계 이전에 제안된 알고리즘에 의한 세그멘테이션 결과가 유용함을 평가하기 위하여 이상적인 마스크에 의한 세그멘테이션 결과와 제안된 방법을 비교한다. 제안된 방법을 협대역 잡음, 광대역 잡음, 다른 음성신호와 혼합된 음성신호에 대하여 실험하였다.

Application of Speech Recognition with Closed Caption for Content-Based Video Segmentations

  • Son, Jong-Mok;Bae, Keun-Sung
    • 음성과학
    • /
    • 제12권1호
    • /
    • pp.135-142
    • /
    • 2005
  • An important aspect of video indexing is the ability to segment video into meaningful segments, i.e., content-based video segmentation. Since the audio signal in the sound track is synchronized with image sequences in the video program, a speech signal in the sound track can be used to segment video into meaningful segments. In this paper, we propose a new approach to content-based video segmentation. This approach uses closed caption to construct a recognition network for speech recognition. Accurate time information for video segmentation is then obtained from the speech recognition process. For the video segmentation experiment for TV news programs, we made 56 video summaries successfully from 57 TV news stories. It demonstrates that the proposed scheme is very promising for content-based video segmentation.

  • PDF

통계적 모델링 기법을 이용한 연속심음신호의 자동분류에 관한 연구 (Automatic Classification of Continuous Heart Sound Signals Using the Statistical Modeling Approach)

  • 김희근;정용주
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.144-152
    • /
    • 2007
  • 기존의 심음분류를 위한 연구들은 인공신경망을 이용하여 주로 이루어졌다. 그러나 심음신호의 통계적 특성을 분석 한 결과 HMM의 의한 신호모델링이 적합한 것으로 나타났다. 본 연구에서는 다양한 질병을 나타내는 심음신호를 HMM을 이용하여 모델링 하고 인식성능이 심음신호의 클러스터링에 따라서 많이 좌우되는 것을 알 수 있었다. 또한 실제 환경에서의 심음신호는 그 시작과 끝나는 시점이 정해지지 않은 연속신호이다. 따라서 HMM을 이용한 심음분류를 위해서는 연속적인 심음신호로부터 한 사이클의 분할된 심음을 추출할 필요성이 있다. 일반적으로 수동분할은 분할오류를 발생시키며 실시간 심음인식에 적합하지 않으므로 분할과정이 필요치 않는 ergodic형 HMM을 변형하여 사용할 것을 제안하였다. 그리고 제안된 HMM은 연속심음을 이용한 분류실험에서 매우 높은 성능을 보임을 알 수 있었다.

자동 분할과 ELM을 이용한 심장질환 분류 성능 개선 (Performance Improvement of Cardiac Disorder Classification Based on Automatic Segmentation and Extreme Learning Machine)

  • 곽철;권오욱
    • 한국음향학회지
    • /
    • 제28권1호
    • /
    • pp.32-43
    • /
    • 2009
  • 본 논문은 자동 분할과 extreme learning machine (ELM)을 이용하여 연속 심음신호에 의한 심장질환 분류의 성능을 개선한다. 자동 분할을 위한 전처리 단계에서 비정상적인 심음신호는 심잡음 (murmur)과 클릭음 (click)을 포함하고 있기 때문에 제1음 (S1)과 제2음 (S2) 시작점 검출 결과가 부정확하거나 누락되어 기존의 심장질환 분류 시스템의 정확도를 저하시키게된다. 이러한 분할 오류에 의한 성능 저하를 감소하기 위해 S1 및 S2의 위치를 찾고, S1 및 S2의 시간 차이를 이용하여 부정확한 시작점을 교정한 다음 한 주기 심음 신호를 추출한다. 특징벡터로는 단일 주기의 심음 신호로부터 추출된 멜척도 필터뱅크 로그 에너지 계수와 포락선을 사용한다. 심장질환을 분류하기 위하여 한 개의 은닉층을 가진 ELM 알고리듬을 사용한다. 9가지 심장질환 분류 실험을 수행한 결과, 제안 방법은 81.6%의 분류 정확도를 나타내며, multi-layer perceptron(MLP), support vector machine (SVM), hidden Markov model (HMM) 중에서 가장 높은 분류 정확도를 보여준다.

5~6세 아동의 철자표상이 말소리분절 과제 수행에 미치는 영향 (Effects of the Orthographic Representation on Speech Sound Segmentation in Children Aged 5-6 Years)

  • 맹현수;하지완
    • 디지털융복합연구
    • /
    • 제14권6호
    • /
    • pp.499-511
    • /
    • 2016
  • 음운인식은 구어의 기본 단위인 말소리를 지각하고 조작하는 능력으로, 이것은 이후 문자습득에 영향을 주는 것으로 알려져 있다. 그러나 몇몇 연구에서는 문자의 기본 단위인 철자에 대한 지식이 반대로 음운인식에 영향을 준다고 주장한다. 본 연구에서는 5, 6세 아동을 대상으로 철자표상 과제와 말소리분절 과제를 실시한 후, 두 과제 수행력 간 상관관계, 철자표상 상위집단과 하위집단 간 말소리분절 과제의 정반응 점수, 그리고 오류유형을 비교 분석하였다. 그 결과 철자표상 과제와 말소리분절 과제 수행력은 자소-음소 일치 단어에서는 양의 상관, 불일치 단어에서는 음의 상관을 보였다. 자소-음소 일치 단어의 경우 두 집단 간 말소리분절 수행력에 차이가 없었지만, 자소-음소 불일치 단어의 경우 하위집단이 상위집단보다 말소리분절 수행력이 유의하게 좋았다. 두 집단 모두에서 가장 많이 나타난 오류는 철자화 오류였고, 이러한 경향은 상위집단에서 두드러졌다. 본 연구는 철자를 배우기 시작한 직후부터는 아동들이 말소리분절 과제 수행에 철자지식을 활용하고 있음을 시사한다.

적응 삼각형 빔 방법에 의한 실내음장 해석 (A Study on the Indoor Sound-field Analysis by Adaptive Triangular Beam Method)

  • 조대승;성상경;김진형;최재호;박일권
    • 한국소음진동공학회논문집
    • /
    • 제13권3호
    • /
    • pp.217-224
    • /
    • 2003
  • In this study, the adaptive triangular beam method(ATBM) considering different sound reflection coefficients and angles of a triangular beam on two or more planes as well as diffraction effect is suggested. The ATBM, subdividing a tracing triangular beam into multiple triangular beams on reflection planes, gives reliable and convergent sound-field analysis results without the dependancy on the number of initial triangular beam segmentation to search sound propagation paths from source to receiver. The validity of the method is verified by the comparison of numerical and experimental results for energy decay curve and steady-state sound pressure level of rooms having direct, reflective and diffractive sound paths.

약한 레이블을 이용한 확장 합성곱 신경망과 게이트 선형 유닛 기반 음향 이벤트 검출 및 태깅 알고리즘 (Dilated convolution and gated linear unit based sound event detection and tagging algorithm using weak label)

  • 박충호;김동현;고한석
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.414-423
    • /
    • 2020
  • 본 논문은 약한 레이블 기반 음향 이벤트 검출을 위한 시간-주파수 영역분할 맵 추출 모델에서 발생하는 희소성 및 수용영역 부족에 관한 문제를 완화 시키기 위해, 확장 게이트 선형 유닛(Dilated Convolution Gated Linear Unit, DCGLU)을 제안한다. 딥러닝 분야에서 음향 이벤트 검출을 위한 영역분할 맵 추출 기반 방법은 잡음 환경에서 좋은 성능을 보여준다. 하지만, 이 방법은 영역분할 맵을 추출하기 위해 특징 맵의 크기를 유지해야 하므로 풀링 연산 없이 모델을 구성하게 된다. 이로 인해 이 방법은 희소성과 수용영역의 부족으로 성능 저하를 보이게 된다. 이런 문제를 완화하기 위해, 본 논문에서는 정보의 흐름을 제어할 수 있는 게이트 선형 유닛과 추가의 파라미터 없이 수용영역을 넓혀 줄 수 있는 확장 합성곱 신경망을 적용하였다. 실험을 위해 사용된 데이터는 URBAN-SED와 자체 제작한 조류 울음소리 데이터이며, 제안하는 DCGLU 모델이 기존 베이스라인 논문들보다 더 좋을 성능을 보였다. 특히, DCGLU 모델이 자연 소리가 섞인 환경인 세 개의 Signal to Noise Ratio(SNR)(20 dB, 10 dB, 0 dB)에서 강인하다는 것을 확인하였다.

언어와 음악의 상관관계 고찰을 위한 연구 (A Harmony in Language and Music)

  • 이재강
    • 인문언어
    • /
    • 제2권1호
    • /
    • pp.287-301
    • /
    • 2002
  • Either in music or in language, sound plays its role by taking up the fixed multi-spaces in one's consciousness. Music space differs from auditory space whose aim Is to perceive the positions and identities of the outer things. While auditory space is based on the interests of the outer things, music space is based on the indifference. We discuss the notion of space because it is where symbols reside. Categorial perception about the phonemic restoration describes the ability of a listener how to use his own intelligence to acknowledge and fill the missing points; however, musical perception can be explained as a positive regression to avoid colloquial logic and danger of segmentation in the course of auditory experience and phonation acquisition by an infant. About the question on the difference of the listening to the language sound and other sound, auditory mechanism proceeds language sound the same as other types of sound. But there are another theories which claim that brain proceeds the farmer differently from the latter. The function of music has not been discovered as clear as that of language; music has much more meanings in comparison with language.

  • PDF

심음 포락선의 3차 모멘트를 이용한 심음의 주성분 검출 (Detection of Main Components of Heart Sound Using Third Moment Characteristics of PCG Envelope)

  • 전성일;배건성
    • 한국정보통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.3001-3008
    • /
    • 2013
  • 심음도(PCG, Phonocardiogram) 분석을 이용하여 심장의 판막과 관련된 질환을 진단하기 위해서는 먼저 심음 분할을 위해 심음의 주성분인 S1과 S2를 정확하게 찾아야 한다. 본 논문에서는 심음포락선의 모멘트 특성을 분석하고 이를 심음 분할에 적용하였다. 기존의 2차 모멘트를 이용한 심음 분할의 문제점을 분석하고, 심잡음이 있더라도 심음 주성분의 검출이 용이한 3차 모멘트에 기반한 방법을 제안하였다. 심음포락선은 심음 신호의 단구간 에너지를 이용하였으며, 3차 모멘트 궤적의 기울기 정보를 이용하여 심음 주성분을 검출하고 지속시간을 게이팅(gating) 하였다. 다양한 심잡음이 포함된 심음 신호에 대한 실험을 통해 제안한 방법이 기존의 2차 모멘트 기법보다 심잡음의 영향을 적게 받고 심음 주성분의 구간을 정확하게 검출 할 수 있음을 보였다.