• 제목/요약/키워드: 음성 검색

검색결과 355건 처리시간 0.039초

음성 입력에 의한 음곡선 검색 알고리즘 (A Pitch Contour Retrieval Algorithm Using Voice Input)

  • 이호선
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.339-347
    • /
    • 2000
  • 본 논문은 디지털 음악 도서관에서 입력된 음성을 인식하여 생성한 음곡선에 의해 임의의 음악정보를 효율적으로 검색하기 위한 알고리즘을 제안한다. 종래의 전형적인 음악정보 검색 항목인 제목이나 작곡자 또는 주제를 입력하는 것이 아니라, 사용자가 음악 데이터베이스로부터 검색하고자 하는 음악의 일부를 마이크를 통해서 노래한다. 그러면 입력된 음성에 대한 음 신호를 처리하여 음표정보를 인식하고, 이를 바탕으로 음정 곡선을 생성하여 이를 탐색 패턴으로 사용한다. 제안한 검색 알고리즘은 일반적으로 근사 탐색을 위해 많이 사용하는 동적 프로그래밍 방법과 함께 실험을 통해 탐색 시간을 비교하여 향상된 탐색 시간을 보인다.

적응형 다중 비트율 음성 부호화기를 위한 효율적인 대수코드북 검색법 (An Efficient Algebraic Codebook Search Method for ham Speech Coder)

  • 변경진;정희범;한민수
    • 한국음향학회지
    • /
    • 제22권2호
    • /
    • pp.129-134
    • /
    • 2003
  • 본 논문에서는 적응형 다중 비트율 (AMR: Adaptive Multi-Rate) 음성 부호화기의 구현 시 계산량을 가장 많이 차지하는 대수 코드북 검색과정의 계산량을 줄임으로써 효율적인 AMR 음성 부호화기를 구현하였다. 대수 코드북 검색의 계산량을 줄이기 위하여 기존의 AMR 음성 부호화기에서 사용하고 있는 깊이우선 가지 검색법 (depth first tree) 검색 방법을 개선한 고속 코드북 검색 알고리즘을 제안하였다. 제안된 방법은 검색과정에서 최적의 여기신호로 선택될 가능성이 적은 트리를 제거하여 검색의 복잡도를 줄이는 방법으로 트리 선택을 위한 추가의 계산량이 필요없으며 검색에 필요한 계산량은 기존의 깊이우선 가지 검색법에 비해 현저한 감소를 이루었으나 약간의 음질 저하가 있었다. 제안한 방법을 적용하여 AMR 음성 부호화기의 12.2 kbps 모드를 TeakLite DSP를 사용하여 구현한 결과 기존의 방법에 비해 약 40%의 계산량을 감소할 수 있었다.

음성을 이용한 수치지도정보 검색시스템의 구현 (Implementation of Digital Map Information Retrieval System Using Speech Recognition)

  • 김태수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.55-58
    • /
    • 1998
  • 본 논문에서는 음성인식기능을 이용하여 지리정보 검색시스템을 구현하고 그 성능 평가 결과에 관하여 보고한다. 성능평가실험을 위하여 사용한 수치지도 자료는 1:5,000의 대구광역시 수성구의 국가 기본도를 사용하였으며, 이 수치지도에서 속성단어와 제어단어를 포함한 68단어를 음성인식과 지도정보 검색의 대상으로 한다. 또한, 음성인식 결과와 지도자료와의 인터페이스는 OLE Automation 프로그래밍 기법을 이용하였으며, Pentium 150MHz, 64MB 메모리를 가진 개인용 컴퓨터 환경하에서 개발하였다. 성능평가 실험결과 남성 3인이 지도검색용 68단어를 실제 사무실 환경하에서 마이크를 통하여 on-line 테스트하여 평균 98.02%의 인식률을 얻었다. 이사의 결과로부터 음성인식기능을 이용한 수치지도 정보검색 시스템의 실용화 가능성을 확인할 수 있었다.

  • PDF

동영상에서 이미지와 음성신호를 이용한 검색 알고리즘 구현 (Search Algorithm Embodiment which uses the Image and Speech Signal from the Vido)

  • 신인경;이상범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.88-91
    • /
    • 2010
  • 정보통신망 및 멀티미디어 기술의 발전으로 인해 정보의 형태는 단순한 텍스트 데이터에서 멀티미디어 데이터로 전환되고 있다. 멀티미디어 기술은 저장, 재생, 압축 등 관련 기술의 빠른 발전과 미디어의 사회, 문화적 역할이 계속 증가함에 따라 우리 사회 전반에 걸쳐 매우 광범위하게 사용되고 있으며, 이로 인해 동영상 검색등의 많은 검색을 요구 하고 있으나, 동영상 검색의 문제점은 생산되는 컨텐츠에서 동영상이 가지고 있는 비중은 계속해서 높아지지만 쌓아진 데이터를 검색하기엔 몇 가지 문제점이 있다. 첫 번째는 데이터의 중복성이고 두 번째는 제목, 내용 그리고 Keyword가 일치하지 않으며, 세 번째는 저자권 침해 등이 있다. 본 연구에서는 본 논문에서는 빠르게 변화되고 있는 정보화 시대에 맞게 동영상에서 음성과 얼굴영역을 검출하여, 검색 시 효율적이고 정확한 데이터의 검색이 이루어 질 수 있도록 검색 알고리즘을 제안하고 소개하며, 이중 두 번째의 문제점인 제목, 내용 그리고 Keyword의 불일치한 점에 두어 검색 시 영상의 이미지 검색과 음성을 통하여 keyword를 찾아 효율적이고 검색율의 높일 방법을 연구한다.

  • PDF

인공지능 스피커의 교육적 활용 방안 고찰 (Review of Educational Applications of Artificial Intelligence Speakers)

  • 안정은;전영국
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2018년도 동계학술대회
    • /
    • pp.93-95
    • /
    • 2018
  • 음성인식 기술이 인공지능의 핵심 연구 분야로 떠오르면서 음성인식 기술은 인공지능(AI)과 결합하여 음성비서, 자율 주행차, 실시간 음성검색, 음성 통역 등 다양한 분야에서 활용될 것으로 기대되고 있다. 문자가 아닌 음성으로 검색하는 새로운 검색 시장이 확대되면서 '음성이용자인터페이스(VUI: Voice User Interface)' 인 음성비서 서비스 기능을 가진 인공지능(AI) 스피커 시장 경쟁이 시간이 갈수록 가열되고 있다. 이에 인공지능 스피커의 등장배경부터 현재 국내외 음성인식 기기 소개 그리고 앞으로의 교육의 방향에 맞는 음성인식 기기의 교육적 활용 방안에 대해서 알아보고자 한다.

  • PDF

검색 포털들의 모바일 검색 기능 분석 (Analysis of Mobile Search Functions of Korean Search Portals)

  • 박소연
    • 정보관리학회지
    • /
    • 제29권1호
    • /
    • pp.175-190
    • /
    • 2012
  • 본 연구에서는 국내 주요 검색 포털들인 구글 코리아, 네이버, 네이트, 다음, 야후 코리아의 모바일 검색 기능을 분석, 평가하고자 한다. 좀 더 구체적으로 이 연구에서는 유선 검색과 차별화되는 모바일 검색 기능인 음성 검색, 음악 검색, 코드 검색, 비주얼 검색(사물 검색) 등에 초점을 맞추고, 이러한 검색 기법의 특징을 포털별로 조사하고, 검색 성능을 인식의 정확도와 인식 속도에 근거하여 비교, 평가하고자 한다. 조사 결과, 네이버와 다음이 가장 다양한 모바일 검색 기능을 제공하고 있었으며, 구글은 음성 검색만을 제공하고 있었고, 네이트와 야후는 어떠한 특화된 기능도 제공하지 않고 있었다. 본 연구의 결과는 향후 포털의 효과적인 모바일 검색 기능의 개발에 활용될 수 있을 것으로 기대된다.

검색구간 조절에 의한 LSP 변환시간 감소에 관한 연구 (A Study on the Reduction of LSP Transformation Time by Adjustment of Search Band)

  • 민소연;배명진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 추계학술발표논문집
    • /
    • pp.208-211
    • /
    • 2006
  • 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형 보간이 용이하다는 장점을 갖는 LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 제안하는 알고리즘은 LSP 분포 특성에 따라 검색구간의 순서와 검색간격을 달리하며, 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 48.13% 단축되었다.

  • PDF

검색구간의 순서와 해상도 조절을 통한 LSP 계산량 감소에 관한 연구 (A Study on the Reduction of LSPComputation Using Adjustment of Search Band Sequence and Interval)

  • 임지선
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.245-248
    • /
    • 2010
  • 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하다는 장점을 갖는 LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 제안하는 알고리즘은 LSP 분포 특성에 따라 검색구간의 순서와 검색간격을 달리하며, 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 48.13% 단축되었다.

  • PDF

캡션정보 및 음성인식을 이용한 내용기반 비디오 정보 색인 및 검색에 관한 연구 (A Study on the Content-Based Video Information Indexing and Retrieval Using Closed Caption and Speech Recognition)

  • 손종목;김진웅;배건성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.141-145
    • /
    • 1999
  • 뉴스나 드라마, 영화 등의 비디오에 대한 검색 시 일반 사용자의 요구에 가장 잘 부합되는 결과를 얻기 위해 비디오 데이터의 의미적 분석과 색인을 만드는 것이 필요하다. 일반적으로 음성신호가 비디오 데이터의 내용을 잘 나타내고 비디오와 동기가 이루어져 있으므로, 내용기반 검색을 위한 비디오 데이터 분할에 효율적으로 이용될 수 있다 본 논문에서는 캡션 정보가 주어지는 방송뉴스 프로그램을 대상으로 효율적인 검색, 색인을 위한 비디오 데이터의 분할에 음성인식기술을 적용하는 방법을 제안하고 그에 따른 실험결과를 제시한다.

  • PDF

음성 언어 자료 확보를 위한 Workbench의 설계 및 구현 (Design and implementation of workbench for spoken language data acquisition)

  • 김태환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.375-379
    • /
    • 1998
  • 음성 언어 자료의 확보 및 활용을 위해서는 다양한 소프트웨어의 도움이 필요하다. 본 논문에서는 본 연구실에서 설계 및 개발한 PC용 Workbench에 대하여 기술한다. Workbench는 음성 언어 자료의 확보를 위한 텍스트 처리 모듈들과 음성 데이터의 처리를 위한 신호처리 모듈들로 구성되어 있다. Workbench에 포함된 모듈로는 텍스트를 자동 읽기 변환하는 철자 음운 변환기, 발성 목록 선정 모듈, 끝점 검출기를 이용한 음성 데이터 편집 모듈, 끝점 검출기를 이용한 음성 데이터 편집 모듈, 다단계 레이블링 시스템, 텍스트에서 원하는 음운 환경을 포함하고 있는 문자열을 다양한 조건으로 검색할 수 있는 음운 환경 검색기를 포함하고 있다.

  • PDF