• 제목/요약/키워드: 소리 인식

검색결과 212건 처리시간 0.032초

PNCC와 robust Mel-log filter bank 특징을 결합한 조류 울음소리 분류 (Bird sounds classification by combining PNCC and robust Mel-log filter bank features)

  • 알자흐라 바디;고경득;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.39-46
    • /
    • 2019
  • 본 논문에서는 합성곱 신경망(Convolutional Neural Network, CNN) 구조를 이용하여 잡음 환경에서 음향신호를 분류할 때, 인식률을 높이는 결합 특징을 제안한다. 반면, Wiener filter를 이용한 강인한 log Mel-filter bank와 PNCCs(Power Normalized Cepstral Coefficients)는 CNN 구조의 입력으로 사용되는 2차원 특징을 형성하기 위해 추출됐다. 자연환경에서 43종의 조류 울음소리를 포함한 ebird 데이터베이스는 분류 실험을 위해 사용됐다. 잡음 환경에서 결합 특징의 성능을 평가하기 위해 ebird 데이터베이스를 3종류의 잡음을 이용하여 4개의 다른 SNR (Signal to Noise Ratio)(20 dB, 10 dB, 5 dB, 0 dB)로 합성했다. 결합 특징은 Wiener filter를 적용한 log-Mel filter bank, 적용하지 않은 log-Mel filter bank, 그리고 PNCC와 성능을 비교했다. 결합 특징은 잡음이 없는 환경에서 1.34 % 인식률 향상으로 다른 특징에 비해 높은 성능을 보였다. 추가적으로, 4단계 SNR의 잡음 환경에서 인식률은 shop 잡음 환경과 schoolyard 잡음 환경에서 각각 1.06 %, 0.65 % 향상했다.

OnExpo HOT&COOL / COOL COMPANY 어뮤즈텍

  • 오숙현
    • 디지털콘텐츠
    • /
    • 12호통권127호
    • /
    • pp.78-79
    • /
    • 2003
  • 음악을 더 재미있게! 더 편리하게! 종이악보에도 디지털 바람이 불었다. 그리고 그 바람의 선두에는 뮤즈북 스코어(www.musebook.co.kr)가 있다. 뮤즈북 스코어는 최근 개발 된 태블릿 PC를 이용해 수만 장의 악보를 저장해 연주할 수 있는 프로그램으로 음악인식기술을 이용한‘음악인식 전자악보’이다. 피아노 악보대에 종이악보 대신 태블릿 PC를 올려놓고 하드디스크에 저장된 MusicXLM 전자악보들을 마음대로 불러서 사용하는 뮤즈북 스코어는 피아노를 연주 하면 태블릿 PC의 마이크로 소리를 듣고 분석해 자동으로 페이지를 넘겨준다. 사용자의 연주속도 가 빨라지거나 느려지더라도 현재 연주위치를 계 속 추적하기 때문에 사용자는 연주에만 집중할 수 있다.

  • PDF

동적 제스쳐 인식을 위한 지식 표현 기법 (Knowledge Representation Method for Dynamic Gesture Recognition)

  • 고일주;최형일
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1995년도 추계학술대회 학술발표 논문집
    • /
    • pp.293-299
    • /
    • 1995
  • 본 논문은 컴퓨터 시각을 이용하여 동적 제스쳐를 인식하기 위한 효율적인 지식 표 현 기법의 개발을 목표로 한다. 제스쳐란 시각적인 언어로서 소리를 대신하여 몸짓이나 손 짓을 통하여 자신의 생각이나 의도를 전달하는 보조적인 의사 전달 수단이다. 제안된 기법 은 여러 다양한 지식을 통합하여 총체적으로 표현하기에 적합한 프레임 구조를 기반으로 한 다. 프레임 지식을 물체의 특성을 표현하는 객체 지식, 물체의 움직임을 표현하는 행동 지 식, 그리고 객체 지식과 행동 지식의 순서화 된 집함으로써 동적인 제스쳐를 표현하는 스키 마로 분류한다.

  • PDF

사각영역이 없는 전방향 음원인식을 위한 QRAS 기반의 알고리즘 (QRAS-based Algorithm for Omnidirectional Sound Source Determination Without Blind Spots)

  • 김영언;박구만
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.91-103
    • /
    • 2022
  • 음원의 음량, 방향 및 음원까지의 거리와 같은 음원의 특성을 인식하는 것은 자율주행차, 로봇 시스템, AI 스피커 등 무인 시스템에서 중요한 기술 중의 하나이다. 음원의 방향이나 거리를 인식하는 방법은 레이다, 라이더, 초음파 및 고주파와 소리를 이용하는 방법이 있다. 그러나 이러한 방법은 신호를 발신하여야 하며, 장애물에 의한 비가시 영역에서 발생하는 음원은 정확하게 인식할 수 없다. 본 논문에서는 비가시 영역을 포함한 주변에서 발생하는 음원의 음량, 방향 및 음원까지의 거리를 인식하는 방법으로 가청 주파수 대역의 소리를 검출하여 인식하는 방법을 구현하고 평가하였다. 음원을 인식하기 위하여 주로 사용하는 교차형 기반의 음원인식 알고리즘은 음원의 음량과 방향을 인식할 수 있으나 사각영역이 발생하는 문제가 있다. 뿐만아니라 이 알고리즘은 음원까지의 거리를 인식할 수 없다는 제약이 있다. 이러한 기존 방법의 한계를 탈피하기 위하여, 본 논문에서는 교차형 기반의 알고리즘보다 더 발전된 직사각형 기법을 사용한 QRAS 기반의 알고리즘으로 음원의 음량, 방향 및 음원까지의 거리를 인식하여 음원의 특성을 파악할 수 있는 음원인식 알고리즘을 제안한다. 전방향 음원인식을 위한 QRAS 기반의 알고리즘은 직사각형으로 배치된 4개의 음향센서에 의하여 도출되는 6쌍의 음향 도착 시간차를 사용한다. QRAS 기반의 알고리즘은 기존 교차형 기반의 알고리즘으로 음원을 인식할 때 발생하는 사각영역과 같은 문제점을 해결할 수 있으며, 음원까지의 거리도 인식할 수 있다. 실험을 통하여 제안된 전방향 음원 인식을 위한 QRAS 기반의 알고리즘은 사각영역없이 음원의 음량, 방향 및 음원까지의 거리를 인식할 수 있음을 확인하였다.

조작 방식에 따른 음성과 소리 피드백의 할당 방법 가전제품과의 상호작용을 중심으로 (An Arrangement Method of Voice and Sound Feedback According to the Operation : For Interaction of Domestic Appliance)

  • 홍은지;황해정;강연아
    • 한국HCI학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-22
    • /
    • 2016
  • 가전제품과 사용자와의 상호작용 방식이 다양해지고 있다. 사용자는 리모컨, 터치스크린 등으로 기기를 제어할 수 있고, 기기 역시 사운드, 음성, 시각적 신호 등 다양한 방식으로 사용자에게 피드백을 줄 수 있게 되었다. 그러나 사용자의 조작 방식에 따른 피드백 방식을 배정하는 원칙이나 기준이 없어 각 브랜드, 기기 별로 임의로 배정되어 있는 상황이다. 본 연구에서는 사용자가 가전제품을 음성 명령을 통해 조작할 때와 버튼으로 조작할 때 가전제품에서 주어지는 피드백의 방식으로 음성, 소리 중 어떤 방식이 적절한지 실험을 통해 알아보았다. 본 연구에서는 조작 방식(음성 인식, 버튼), 피드백 방식(음성 안내, 소리)의 조합으로 구성 된 총 4가지($2{\times}2$) 셀을 갖는 요인 설계 실험을 진행하였고, 조작 방식과 피드백 방식의 조합에 따라 피 실험자가 느끼는 사용성, 만족도, 선호도, 적합도가 달라지는지 살펴보았다. 그 결과 가전제품을 음성 인식으로 조작 하는 것이 사용 용이성, 조작 만족도가 높았다. 하지만 버튼으로 조작 했을 때는 피드백 방식의 종류에 따라 사용 용이성, 조작 만족도가 달라지는 것으로 나타나, 조작 방식과 피드백 방식의 상호작용 효과가 검정되었다. 조작 방식, 피드백 방식의 조합이 가전에 적절한지에 대해서는 피드백 방식의 주효과가 검정되었다. 결론적으로 음성 인식으로 조작 할 때는 피드백이 소리(earcons)로 제시되는 것이 만족도가 높았으나 이는 통계적으로 검정 되는 정도는 아니었으며, 버튼을 조작 할 때는 피드백이 음성 안내로 제시되는 것이 만족도가 높았으며 이는 통계적으로 검정 되었다. 또한 가전에 어떠한 조작 방법이나 피드백 방법이 적절한지에 대해서는 피드백 방법이 주로 영향을 미치는 것으로 나타났다.

음성인식기술의 오늘과 내일

  • 현원복
    • 과학과기술
    • /
    • 제31권4호통권347호
    • /
    • pp.75-80
    • /
    • 1998
  • 기계가 말하고 알아듣는 시대가 빠른 걸음으로 다가오고 있다. 21세기 초에는 외국어를 모르는 사람들도 외국인과 대화할 때 거추장스럽게 통역관을 내세우지 않아도 된다. 통역용 소프트웨어가 내장된 전화기가 등장하는가 하면 포켓용 통역장치가 그때그때 대화내용을 우리말과 외국어로 옮겨 합성소리로 알려준다.

  • PDF

뉴밀레니엄의 비전(2) - 21세기의 사무실

  • 한국과학기술단체총연합회
    • 과학과기술
    • /
    • 제33권9호통권376호
    • /
    • pp.32-33
    • /
    • 2000
  • 21세기의 화이트칼라는 아침에 출근하면 보안이 잘 된 지능형 문으로 걸어 들어와서 데스크탑의 가상조수가 그날의 스케줄을 큰 소리로 읽는 것을 듣느다. 그리고 지능형 의자에 앉아서 그날의 할 일을 음성인식장치 PC로 챙긴다. 평판스크린으로 된 벽의 영상과 데이터를 보면서... 멀리 있는 동료들과 얘기하려면 실물 그대로 입체 비디오 회의시스템에 불러낸다.

  • PDF

디지털 경제를 주도할 디지털 컨텐츠 산업의 육성방향

  • 박영일
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1999년도 국제컨퍼런스 디지털컨텐츠 활용을 통한 지식경영의 확산
    • /
    • pp.1-11
    • /
    • 1999
  • o 디지털컨텐츠(멀티미디어컨텐츠)란 무엇인가\ulcorner 멀티미디어 : 기존 아날로그 기술에서 개별적으로 성장했던 문자, 음성, 사진, 비디오, 애니메이션의 미디어 영역들이 디지털 기술이 발달하면서 통합된 미디어를 말함. 디지털화는 글, 소리, 그림, 영상, 숫자 등의 온갖 정보들을 컴퓨터가 인식할 수 있는 신호(2진수 코드)로 바꾸는 것임. (중략)

  • PDF

동물모형 학습을 위한 유아교육 콘텐츠 개발 (A Development of Infant Education Content for Animal Study)

  • 이광형;김정재
    • 한국산학기술학회논문지
    • /
    • 제11권9호
    • /
    • pp.3510-3516
    • /
    • 2010
  • 본 논문은 유아에게 동물의 모습과 습성, 울음소리, 특징 및 한글과 영어 등을 학습하게 하기 위하여 다양한 동물이 있는 동물원을 대상으로 시스템을 개발하였다. 유아가 관심 있는 동물의 전면에 인형을 위치하면, 동물의 울음소리, 모습 등을 동물원 모형에 연결되어 있는 디스플레이 장치를 통하여 학습할 수 있다. 동물원은 현재의 동물원의 모양을 축소하여 각 동물 우리에 동물을 인식할 수 있는 센서를 부착한다. 부착된 센서는 각각 고유의 ID를 가지고 있으며, 유아인형이 접근 하게 되면 인식하고 처리기에 고유 ID를 전송하게 된다. 전송된 ID는 데이터베이스에서 전송된 ID값과 일치하는 콘텐츠를 검색하게 되고, 검색된 콘텐츠는 Output 장치를 통하여 출력되게 된다. 또한 인형이 동물우리에 근접하였을 경우 멀티미디어 효과를 통하여 동물의 울음소리 및 기본적인 학습을 할 수 있도록 하였으며, 한글, 영어, 수셈 학습을 동시에 할 수 있도록 구성하였다.

라즈베리파이 기반 소리인식 보안카메라 개발 (Development of Sound-sensible Security Camera based on Raspberry Pi)

  • 박대복;김선혁;김주영;노영주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1563-1566
    • /
    • 2015
  • 보안과 관련된 기술이 발전하여 대규모의 장소에 적합한 보안시스템들이 많이 개발되었다. 특히 CCTV를 이용한 감시카메라의 형태도 다양화되었다. 스마트폰의 어플리케이션이나 웹을 통해서 어디서든 감시할 수도 있어, 이를 통해 보안사고 시에 빠른 대처가 가능하다. 하지만 대규모 시스템이 아닌 경우에는 침입자 발견이 늦고, 뒤늦은 대처로 인해 큰 피해가 발생할 수 있다. 라즈베리파이, 실드 보드 등 기타 하드웨어들을 통하여 침입자를 스스로 감지하여 사용자에게 즉시 알림을 전송함으로써 보안사고에 대한 대처를 빠르고 효율적으로 할 수 있는 보안카메라를 구현하였다. 본 보안 시스템은 소리의 방향을 계산하고 정확한 방향으로의 보정을 통하여 최초 침입자를 인식한다. 이후 이미지트래킹을 통하여 침입자를 추적한다. 무선 네트워크를 이용하기 때문에 네트워크가 지원되는 어느 장소에서든지 사용이 가능하다. 대규모 보안시스템을 설치할 여건이 되기 어려운 작은 공장, 상가, 사무실 등에서 보안시스템으로 사용되면 유용할 것이다. 자세한 개발 내용은 본문에 기술한다.