• 제목/요약/키워드: 청각영역신호

검색결과 29건 처리시간 0.024초

스파이크그램과 심층 신경망을 이용한 음악 장르 분류 (Music Genre Classification using Spikegram and Deep Neural Network)

  • 장우진;윤호원;신성현;조효진;장원;박호종
    • 방송공학회논문지
    • /
    • 제22권6호
    • /
    • pp.693-701
    • /
    • 2017
  • 본 논문은 스파이크그램과 심층 신경망을 이용한 새로운 음악 장르 분류 방법을 제안한다. 인간의 청각 시스템은 최소 에너지와 신경 자원을 사용하여 최대 청각 정보를 뇌로 전달하기 위하여 입력 소리를 시간과 주파수 영역에서 부호화한다. 스파이크그램은 이러한 청각 시스템의 부호화 동작을 기반으로 파형을 분석하는 기법이다. 제안하는 방법은 스파이크그램을 이용하여 신호를 분석하고 그 결과로부터 장르 분류를 위한 핵심 정보로 구성된 특성 벡터를 추출하고, 이를 심층 신경망의 입력 벡터로 사용한다. 성능 측정에는 10개의 음악 장르로 구성된 GTZAN 데이터 세트를 사용하였고, 제안 방법이 기존 방법에 비해 낮은 차원의 특성 벡터를 사용하여 우수한 성능을 제공하는 것을 확인하였다.

저작권자의 음성 삽입을 위한 영상 워터마킹 방법 (An Image Watermarking Method for Embedding Copyrighter's Audio Signal)

  • 최재승;김정화;고성식
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.202-209
    • /
    • 2005
  • 디지털 미디어와 통신 네트워크의 급속한 발전으로 지적소유권 보호 기술이 절실히 요구된다. 본 논문에서 영상컨텐츠에 소유자의 음성신호를 삽입할 수 있는 새로운 영상 워터마킹 방법을 제안한다. 제안한 방법은 삽입할 워터마크로 음성신호를 이용하기 때문에 청각적으로 소유권을 주장하는데 매우 유리하다 그리고 LBX (Linear Bit expansion)에 의해 인터리빙하여 음성 워터마크를 삽입하기 때문에 공격에 의해 변형되거나 특히 제거된 음성신호를 복구할 수 있는 이점을 가진다. 본 방법은 다음세가지 기본 절차를 포함한다. 첫째, 아날그 소유자음성 신호를 PCM에 의해 부호화하고 새로운 디지털 워터마크를 생성한다. 둘째, 제안한 LBX에 의해 음성 워터마크를 인터리빙한다. 마지막으로 영상 컨텐츠를 이산 Haar 웨이브렛변환 (DHWT) 하고 저주파 영역을 마킹공간으로 하여 인터리빙 된 음성워터마크를 삽입한다. 실험 결과 본 연구에서 제안한 소유자 음성신호의 워터마크 삽입방법은 기존 워터마크 정보보다 눈에 보이지 않게 많은 정보량을 삽입할 수 있고 표준영상압축방식인 JPEG 손실압축과 특히 영상의 일부가 제거되는 영상절단과 영상회전 공격에 대해 강인성을 강건히 할 수 있었다.

음성로고 삽입을 위한 디지털 영상 워터마킹에 관한 연구 (A Study on Digital Image Watermarking for Embedding Audio Logo)

  • 조강석;고성식
    • 대한전자공학회논문지TE
    • /
    • 제39권3호
    • /
    • pp.21-27
    • /
    • 2002
  • 디지털 워터마킹 기술은 멀티미디어 데이터에 적용하여 소유물에 대한 불법 복제나 소유자의 저작권 보호 문제를 해결할 수 있는 방법 중의 하나이다. 그렇지만 디지털 영상, 비디오, 그리고 오디오와 같은 멀티미디어 보호 문제를 해결하기 위해서는 여전히 소유권 주장 방법에 대해서 극복해야할 문제점을 가지고 있다. 본 논문에서는 저작물 소유자의 음성신호(Audio signal)를 음성로고(Audio Logo)의 워터마크로 변환하고, 원 영상 내 픽셀 농도 값의 비선형적 특성를 이용하여 음성로고를 공간 영역에서 삽입한다. 그리고 추출된 음성로고를 음성신호로 변환하여 청각적으로 소유자의 음성신호를 스피커로 출력하여 소유권을 주장하는 방법을 제안한다. 실험 결과를 통해, 본 논문에서 제시하는 알고리즘이 일반적인 영상 처리나, 특히 손실 JPEG 등과 같은 다양한 공격에 대해서 강인성을 유지시킬 수 있어 음성로고를 이용해 저작물 보호를 확인할 수 있음을 검증하였다.

가변 임계값을 이용한 지각 필터의 적응적인 음질 개선 알고리즘 (Adaptive Enhancement Algorithm of Perceptual Filter Using Variable Threshold)

  • 차형태
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.446-453
    • /
    • 2004
  • 본 논문에서는 잡음에 의해 열화된 오디오 신호를 가변 임계값을 이용한 적응 지각 필터를 사용하여 음질을 개선하는 알고리즘을 제안한다. 제안된 적응 지각 필터는 신호 구간마다 달라지는 신호의 세기와 잡음의 영향 정도를 고려하여 임계값을 가변적으로 조정함으로써 잔여 잡음을 효과적으로 제어하는 방식으로 지각적으로 개선된 음질의 신호를 얻을 수 있다 제안한 방식은 잡음에 의해 열화된 오디오 신호를 주파수 영역으로 변환한 후 임계 대역 기반의 임계 대역 에너지 (Critical intensity energy)와 마스킹 영향이 고려된 청각 자극 에너지 (Excitation energy)를 계산한 다음, 지각 필터를 기반으로 한 적응 지각 필터 알고리즘으로 각 단계별 지각 필터 응답을 임계값으로 이용하여 가변 임계값이 재조정되는 단계를 결정하게 된다. 신호의 구간별 에너지 크기에 의한 잡음에 의해 열화된 정도의 차이를 가변 임계값을 이용하여 고려함으로써 잔여 잡음의 효과적인 제어가 가능하게 된다. 제안한 방법은 다양한 신호대 잡음비에서 열화된 오디오 신호를 입력으로 사용하였다. 입력 신호대 잡음비가 15dB, 20dB, 25dB와 30dB의 각각의 경우에 대하여 잡음대 마스킹비 (Noise-to-mask ratio, NMR)와 청감 테스트 (Mean opinion score, MOS Test)를 시행하였다. 그 결과, 잡음대 마스킹비의 개선 측면에서 각각의 경우에 대해 17.4dB, 15.3dB, 12.8dB, 9.8dB의 개선을 확인할 수 있었고, 청감 테스트의 개선 측면에서는 각각 2.9, 2.5, 2.3, 1.7의 개선된 음질을 확인할 수 있었다.

비음수 제약을 통한 일반 소리 분류 (Classification of General Sound with Non-negativity Constraints)

  • 조용춘;최승진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1412-1417
    • /
    • 2004
  • 전체관적인 표현방법인 희소 코딩 또는 독릴 성분 분해(ICA)는 이전의 청각의 처리와 소리 분류의 작업을 해명하는데 성공적으로 적용되었다. 반대로 부분 기반 표현법은 뇌에서 물체를 인식하는 방법을 이해하는 또 다른 방법이다. 이 논문에서, 우리는 소리 분류의 작업에 부분기반 표현법을 학습시키는 비음수화 행렬 분해(NMF)(1) 방법을 적용하였다. 잡음이 존재할 때와 존재하지 않을 때 두 가지 상황에서, NMF를 이용하여 주파수-시간영역의 소리로부터 특징을 추출하는 방법을 설명한다. 실험결과에서는 NMF에 기반을 둔 특징이 ICA에 기반을 두어 추출한 특징보다 소리 분류의 성능을 향상시킴을 보여준다.

시각 및 청각 자극 변화에 따른 기능성 게임의 효능 극대화 방안 연구 (A Study on the Measure to Maximize the Effects of Functional Games in Relation to the Changes in Visual and Auditory Stimulations)

  • 신정훈
    • 융합신호처리학회논문지
    • /
    • 제14권3호
    • /
    • pp.147-153
    • /
    • 2013
  • 기능성 게임은 놀이와 학습의 결합 형태이며 미래 지향적 도구로, 기존의 게임이 가지고 있는 역기능을 최소화하고 순기능을 최대화할 수 있으며 게임 산업 및 게임 문화를 바꿀 수 있는 새로운 대안으로 자리매김하고 있다. 최근의 게임 및 교육시장은 사용자의 자율성과 동기를 강조하는 보다 진보된 형태의 학습 콘텐츠 개발로 이동하고 있다. 이와 맞물려 게임 시장 또한 게임 중독 및 학업 부진과 같은 사회 역기능적인 요소를 배제하며, 정신과 육체의 건강을 중시하고 과학적인 교육 효과를 추구하는 인간 친화적 형태의 엔터테인먼트 사업으로의 확장을 다각화하고 있다. 또한, 기능성 게임은 의료보조 및 의료학습, 군사 시뮬레이션, 건강. 보조도구, 특수교육 및 학습 도구같은 전문적인 영역에서 일상적인 교육 및 정신 건강 등으로 확대되고 있으며, 시장도 꾸준히 성장하고 있는 추세이다. 그러나 이러한 시장 특수성에 부응하여 현재 기획 및 개발되고 있는 기능성 게임의 대부분은 그 기능에 대한 정확한 과학적 측정과 효과 검증이 이루어지지 못하고 있으며, 대부분 게임 개발자의 직관과 경험에 의존하여 개발되고 있다. 또한, 전반적으로 단순한 과제를 반복하거나 간단한 퍼즐 형태의 게임으로 실제적 재미 요소와 학습의 효과를 효과적으로 결합시키지 못하고 있으며, 인간기능의 측정보다는 막연한 기능 증진을 기대하는 비과학적인 방법의 게임이 대부분이다. 이에 본 논문에서는 시각 및 청각 자극 변화에 따른 기능성 게임의 몰입도 및 집중도 변화를 분석하여 기능성 게임의 효과적인 시청각 자극 제시 방안과 관련한 연구를 수행하였다. 이를 위하여 본 논문에서는 2D 형태의 기능성 게임(가청 주파수 대역의 게임 음향), 3D 형태의 기능성 게임(가청 주파수 대역의 게임 음향), 3D 형태의 기능성 게임(가청 주파수 대역의 게임 음향 및 초음파 영역 게임 보조 음향)을 활용한 3단계의 시각 및 청각 자극 변화 실험 수행하며 사용자의 뇌파를 측정 및 분석한 결과를 제시한다.

조현형 인격 성향을 가진 대학생의 P300 국소화 분석 (Analysis of source localization of P300 in college students with schizotypal traits)

  • 장경미;김보미;나은찬;안은지;김명선
    • 인지과학
    • /
    • 제28권1호
    • /
    • pp.1-26
    • /
    • 2017
  • 본 연구는 청각 oddball 방안, 사건관련전위와 sLORETA를 사용하여 조현형 인격 성향을 가지는 대학생의 P300 신호원을 조사하였다. 또한 P300 신호원의 전류밀도와 조현병 증상간의 관계를 조사하였다. Schizotypal personality questionnaire(SPQ)의 점수에 근거하여 조현형 인격성향군(n=37)과 정상통제군(n=42)을 선정하였다. P300은 자주 제시되는 표준 자극(1000Hz)과 드물게 제시되는 목표 자극(1500Hz)으로 구성되는 청각 oddball 과제를 사용하여 측정하였으며, 참여자들은 목표 자극이 몇 번 제시되었는지 횟수를 세어 실험 후 보고하는 것이 요구되었다. 행동분석 결과, Oddball 과제의 정확률에서는 두 집단 간 유의한 차이가 관찰되지 않았다. 사건관련전위를 분석한 결과, 조현형 인격성향군이 정상통제군에 비해 유의하게 감소된 P300 진폭을 보였다. P300의 신호원을 추정하기 위하여 sLORETA를 사용하여 분석한 결과, 두 집단 모두에서 좌우반구 전두엽, 두정엽, 측두엽, 후두엽에 분포되어 관찰되었다. 두 집단의 P300 신호원의 전류밀도를 비교한 결과, 조현형 인격성향군이 정상통제군에 비해 좌반구 상측두회와 우반구 중측두회에서 감소된 활성화를 보인 반면 좌반구 하전두회와 우반구 상전두회에서는 활성화 증가를 보였다. 이에 덧붙여, 조현형 인격성향군에서 우반구 상전두회의 전류밀도와 SPQ의 와해 점수 사이에 부적 상관이 관찰되었다. 이러한 결과는 P300 신호 원인 전두 및 측두 영역의 이상을 조현병 환자뿐만 아니라 경미한 증상을 가지고 있는 조현형 인격성향군도 가지고 있음을 시사한다. 이에 덧붙여 본 연구 결과는 조현병 고위험군의 선별에 사용되는 SPQ의 경우 총점보다는 와해 점수가 고위험군의 선별에 더 유용하게 사용될 수 있음을 시사한다.

시간-주파수 영역에서 음성/잡음 우세 결정에 의한 새로운 잡음처리 (A Novel Speech Enhancement Based on Speech/Noise-dominant Decision in Time-frequency Domain)

  • 윤석현;유창동
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.48-55
    • /
    • 2001
  • 가산적이고 비정상적인 잡음을 줄이는 새로운 방법이 제안되었다. 본 방법은 잡음에 대한 정보나 묵음구간에서의 잡음추정을 필요로 하지 않는다. 잡음처리는 각 시간 프레임에서 주파수대역을 기본으로 하여 수행된다. 어떤 프레임에서 특정한 주파수대역이 음성이 우세한지 혹은 잡음이 우세한지에 대한 결정과 인간청각기의 매스킹 성질을 기반으로 하여, 적절한 양의 잡음을 주파수 차감법을 이용하여 제거한다. 제안된 방법은 다양한 환경에서 (자동차 잡음, Fl6 잡음, 백색 잡음, 핑크 잡음, 탱크 잡음, 혼선잡음) 성능평가가 이루어졌다. 그리고 일반적인 주파수차감법과 비교하여 세그멘탈 신호대 잡음비 (SNR)를 구하고, 시각적 측정 척도인 스펙트로그램과 듣기평가를 통해, 음성왜곡은 줄이면서 효과적으로 잡음을 줄일 수 있음을 알 수 있다.

  • PDF

청각 스트레스가 3차원 시자극 유발전위에 미치는 영향 분석 (Audio Stress Effect on Visual ERP Stimulated by 3-dimensional Environment)

  • 박찬희;홍철운;김남균
    • 대한의용생체공학회:의공학회지
    • /
    • 제23권4호
    • /
    • pp.301-308
    • /
    • 2002
  • 연구는 인간에게 3차원 공간상에서 시청각 통합 환경을 만든 후 정신적 스트레스가 시각 자극을 통해 ERPs에 어떠한 영향을 미치는지를 정량적으로 분석하기 위하여 수행되었다. 이를 위하여, 정상 상태와 정신적 스트레스를 제시 상태를 구분하여 ERPs를 측정하였다. 실험은 정상상태의 남녀 10명의 피험자를 대상으로 하였고. 생체 신호는 Fpl, Fz, Cz. Pz, O1, O2의 영역에서 전자기적 영향을 받지 않는 차폐 공간에서 측정하였다. 그 결과 P300의 진폭은 스트레스를 제시한 경우에 좀더 커지고, 이때의 잠재기는 길어지는 결과를 얻었다 본 연구에서는 인간의 지각, 인지. 행동의 과정을 담당하는 뇌의 활동을 전위 변동으로 기록하여 정신적 스트레스의 영향을 측정하였다. 이러한 기초적 연구 검토를 통하여 인간의 제반 과정에 관한 뇌 기능의 이상을 평가 할 수 있을 것이라 기대된다.