• 제목/요약/키워드: background noises

검색결과 147건 처리시간 0.019초

주파수 영역에서의 Gaussian Mixture Model 기반의 동시통화 검출 연구 (Frequency Domain Double-Talk Detector Based on Gaussian Mixture Model)

  • 이규호;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.401-407
    • /
    • 2009
  • 본 논문에서는 주파수 영역에서의 가우시안 혼합 모델 (Gaussian Mixture Model, GMM) 기반의 새로운 동시통화 검출 (Double-talk Detection, DTD) 알고리즘을 제안한다. 구체적으로 주파수 영역에서의 음향학적 반향억제 (Acoustic Echo Suppression, AES)를 위한 동시 통화 검출 알고리즘을 구성하기 위해 기존의 시간 영역에서의 동시통화 검출에 사용되는 상호 상관계수를 이산 푸리에 변환을 통해 16개 채널의 주파수 영역으로 변환하였다. 이러한 주파수 영역에서의 상호 상관계수를 GMM의 보다 효과적인 구성을 위해 통계적 분류 특성에 근거하여 우수한 7개를 선별하였다. 본 논문은 이러한 특징 벡터로 패턴인식에서 우수한 성능을 보이는 GMM을 구성하였으며 원단화자만 있는 구간, 동시통화 구간, 근단 화자만 있는 구간을 우도 (Likelihood) 비교에 따라 분류함으로써 별도의 원단 화자 신호에 대한 음성 검출기 (Voice Activity Detector, VAD)의 사용 없이 잡음환경과 반향 경로 변화에서 강인한 동시통화 검출 알고리즘을 제안한다. 다양한 실험 결과 제안된 방법은 기존의 상호 상관계수를 고정된 문턱 값과 가부 비교하여 동시 통화 구간을 검출하는 hard decision 방법에 비해 검출 오류 확률 (Detection Error Probability)을 비교한 결과 우수한 성능을 보였다.

허프 변환과 convolutional neural network 모델 기반 선박 소음의 로파그램 분석 및 식별 (Lofargram analysis and identification of ship noise based on Hough transform and convolutional neural network model)

  • 조준범;하용훈
    • 한국음향학회지
    • /
    • 제43권1호
    • /
    • pp.19-28
    • /
    • 2024
  • 본 논문은 Convolutional Neural Network(CNN) 모델을 이용하여 선박 소음의 로파그램 분석을 통한 선박 식별 시 허프 변환을 적용함으로써 성능을 향상시키는 방안을 제안한다. 수동소나에 수신된 신호를 처리하면 시간-주파수 영역인 로파그램이 생성된다. 로파그램에는 선박이 방사하는 기계류 소음이 토널 신호로 나타나고 이를 분석하면 선박의 클래스를 특정할 수 있다. 그러나 로파그램의 분석은 숙달된 인원에 의해 진행되는 전문적이고 오랜 시간이 소요되는 작업이다. 또한, 로파그램에는 수중환경 특성 상 다양한 배경소음이 같이 전시되기 때문에 표적 식별을 위한 분석이 매우 어렵다. 이 문제를 해결하기 위해 로파그램에 허프 변환을 적용하여 선을 추가함으로써 토널 신호를 강조하였다. 원본 로파그램과 허프 변환을 적용한 로파그램에 대해 CNN 모델을 이용해 식별을 시도한 결과, CNN 모델의 정확도와 매크로 F1 점수를 통해 허프 변환을 적용한 것이 로파그램 식별 성능을 향상시켰음을 보여주었다.

공간의존행렬과 신경망을 이용한 문서영상의 효과적인 블록분할과 유형분류 (An Efficient Block Segmentation and Classification Method for Document Image Analysis Using SGLDM and BP)

  • 김중수;이정환;최흥문
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.937-946
    • /
    • 1995
  • 본 논문에서는 공간의존행렬과 신경망을 이용하여 문서영상에서 인식대상 문자가 포함되어 있는 블록들을 좀더 세분해 낼 수 있는 효과적인 방법을 제시 하였다. 제안 된 방법은 명암도 문서블록에서 공간의존행렬을 구하고 7가지 질감 특징을 추출한 뒤 신경망을 이용해 문서블록을 9가지 유형으로 분류할 수 있도록 하였다. 특히 기존에는 비문자영역으로 분류되던 수식, 도표, 순서도 등 주로 문자가 포함되어 있는 블록들을 세분해 낼 수 있도록 하였다. 또한 신경망 학습알고리즘인 BP 를 사용함으로써 기존의 선형분류시에 요구되던 유형별 임계값과 선형면결정지수를 찾는 어려움을 해소하였다. 명암도영상을 이진화하기 전에 먼저 Sobel연산을 적용함으로써 문서 뒷면에 의한 배경 잡음의 영향을 줄일 수 있도록 하였고, 교차 문지르기 후 분할함으로써 블록이 작은 조각으로 나누어지는 것을 방지하도록 하였다. 실험결과 제안한 방법에서는 문자가 포 함되어 있는 블록은 큰 문자, 중간문자, 작은 문자블록 및 수식, 순서도, 도표블록의 6가지로, 그리고 비문자블록은 인물사진, 그래프 등 3가지 유형으로 상세하게 분류 할수 堞있었으며 전체적인 분류성능도 우수함을 확인할 수 있었다.

  • PDF

CASA 시스템의 청각장면과 PAR를 이용한 음성 영역 검출에 관한 연구 (A Study on Voice Activity Detection Using Auditory Scene and Periodic to Aperiodic Component Ratio in CASA System)

  • 김정호;고형화;강철호
    • 전자공학회논문지
    • /
    • 제50권10호
    • /
    • pp.181-187
    • /
    • 2013
  • 인간의 청각은 청각 장면 분석을 통해 배경 잡음이나 여러 사람들이 동시에 말하는 상황에서도 특정 목적을 가지는 음성 신호를 청취할 수 있는 능력을 가지고 있다. 인간의 청각 능력 시스템을 잘 반영한 CASA 시스템을 이용해 음성을 분리를 할 수 있다. 그러나 CASA 세그먼트에서 음성의 위치를 잘못 결정 했을 때 CASA 시스템의 성능은 감소된다. 본 논문에서는 CASA 시스템에서 잘못된 음성 영역 위치로 인해 발생되는 성능 감소를 개선하기 위하여 청각 장면, 그리고 주기 성분과 비주기 성분의 비율(PAR)을 결합한 음성 영역 검출 알고리즘을 제안한다. 음성 영역 검출의 성능을 평가하기 위하여 백색 잡음과 자동차 잡음 환경에서 신호 대 잡음비의 변화에 따라 실험을 수행하였다. 본 논문에서는 신호 대 잡음비 15~0dB에서 기존의 알고리즘(Pitch 와 Guoning Hu)과 제안한 알고리즘을 비교한 결과, 음성 영역 검출의 정확도가 백색잡음과 자동차 잡음에서 신호 대 잡음비 15dB 에서 최대 4%, 0dB에서 최대 34% 씩 각각 향상되었다.

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법 (Methods for Video Caption Extraction and Extracted Caption Image Enhancement)

  • 김소명;곽상신;최영우;정규식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.235-247
    • /
    • 2002
  • 디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.

제주 연안산 잿방어의 청각특성에 관한 기초적 연구 (A Fundamental Study on the Auditory Characteristics of Amberjack Seriola dumerili in the Coast of Jeju Island)

  • 서익조;김성호;김병엽;이창헌;서두옥
    • 수산해양기술연구
    • /
    • 제39권4호
    • /
    • pp.269-275
    • /
    • 2003
  • 제주도 연안 정치망의 여름철 주 어획대상인 잿방어를 실험어로 하여, 음향을 이용한 어군행동 제어, 음향순치 등 바다목장 조성을 위한 어군의 관리, 사육, 어획기술에 이용할 기초자료를 제공할 목적으로 육상수조에서 수중 가청 저주파음과 전기충격을 이용하여 음향 학습 시킨 후, 주파수와 음압을 변화시켜가면서 잿방어의 섬전도를 도출 하여 심박간격의 변화로부터 청각문턱치, 청각임계비를 측정하였다. 자연환경소음에서 잿방어의 청각문턱치는 측정 주파수 80∼800 HZ의 수중 가청음을 모두 인식하였고, 측정 주파수 200∼500 HZ 에서 청각 감도가 양호하였으며, 측정 주파수 300 Hz에서 평균 음압 94.5 dB, 표준편차 4.5 dB로 가장 낮은 청각문턱치를 보였다. 평균 음압을 65 dB, 70 dB, 75 dB의 3단계로 변화시킨 백색잡음 방성으로 측정한 잿방어의 청각임계비는 측정 주파수 80, 100, 200, 300, 400, 500, 800 HZ에서 각각 평균 음압 45.9, 52.8, 42.5, 36.4, 38.6, 39.4, 44.4 dB이었다. 측정 주파수 300 HZ, 400 HZ 그리고 500 HZ 에서는 백색잡음 중에서 측정음을 식별하는 능력이 다른 측정 주파수에 비하여 우수했다. 잿방어가 주파수 300 HZ의 수중 가청음을 충분히 인식하기 위해서는 최저 100 dB 이상의 음압 강도가 펼요하며 환경 소음이 존재하는 환경에서는 소음 스펙트럼 음압 레벨보다 약 35 dB 이상 크게 방성할 펼요가 있다.

Low Frequency Noise and It's Psychological Effects

  • Eom, Jin-Sup;Kim, Sook-Hee;Jung, Sung-Soo;Sohn, Jin-Hun
    • 대한인간공학회지
    • /
    • 제33권1호
    • /
    • pp.39-48
    • /
    • 2014
  • Objective: This entire study has two parts. Study I aimed to develop a psychological assessment scale and the study II aimed to investigate the effects of LFN (low frequency noise) on the psychological responses in humans, using the scale developed in the study I. Background: LFN is known to have a negative impact on the functioning of humans. The negative impact of LFN can be categorized into two major areas of functioning of humans, physiological and psychological areas of functioning. The physiological impact can cause abnormalities in threshold, balancing and/or vestibular system, cardiovascular system and, hormone changes. Psychological functioning includes cognition, communication, mental health, and annoyance. Method: 182 college students participated in the study I in development of a psychological assessment scale and 42 paid volunteers participated in the study II to measure psychological responses. The LFN stimuli consisted of 12 different pure tones and 12 different 1 octave-band white noises and each stimulus had 4 different frequencies and 3 different sounds pressure levels. Results: We developed the psychological assessment scale consisting of 17 items with 3 dimensions of psychological responses (i.e., perceived physical, perceived physiological, and emotional responses). The main findings of LFN on the responses were as follows: 1. Perceived psychological responses showed a linear relation with SPL (sound pressure level), that is the higher the SPL is, the higher the negative psychological responses were. 2. Psychological responses showed quadric relations with SPL in general. 3. More negative responses at 31.5Hz LFN than those of 63 and 125Hz were reported, which is deemed to be caused by perceived vibration by 31.5Hz. 'Perceived vibration' at 31.5Hz than those of other frequencies of LFN is deemed to have amplified the negative psychological response. Consequently there found different effects of low frequency noise with different frequencies and intensity (SPL) on multiple psychological responses. Conclusion: Three dimensions of psychological responses drawn in regard to this study differed from others in the frequencies and SLP of LFN. Negative psychological responses are deemed to be differently affected by the frequency, SPL of the LFN and 'feel vibration' induced by the LFN. Application: The psychological scale from our study can be applied in quantitative psychological measurement of LFN at home or industrial environment. In addition, it can also help design systems to block LFN to provide optimal conditions if used the study outcome, .i.e., the relations between physical and psychological responses of LFN.