• Title/Summary/Keyword: 음성 검색

Search Result 355, Processing Time 0.029 seconds

Feature Term Based Retrieval Method for Image Retrieval (이미지 검색을 위한 특징용어 기반 검색 기법)

  • Park, Sung-Hee;Hur, Jeung;Kim, Hyun-Jin;Jang, Myung-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.576-578
    • /
    • 2003
  • 본 논문에서는 이미지 검색을 위한 새로운 검색 기법을 제시한다. 기존의 특징기반 검색 기법이나 주석기반 검색 기법은 특징이나 주석에 대하여 색인 형태나 질의 형태가 동일하였다. 그러나, 제안하는 검색 기법은 위의 두 전형적인 검색기법을 혼합한 것으로, 텍스트로 질의하면 질의 텍스트를 질의처리를 통해 텍스트에 포함된 특징용어를 추출하고 특징용어를 이미지가 본질적으로 가지는 특징(color, shape, texture)으로 변환한 다음 그 특징을 질의로 이용하여 특징기반 검색을 하는 기법이다. 이러한 기법은 현재 사용자에게 친숙한 텍스트 질의를 유지할 수 있게 해 주며 앞으로 음성인식을 통한 음성 질의인터페이스가 적용될 경우 더욱 효과적으로 사용될 수 있을 것이다.

  • PDF

The Design and Implementation of Mobile Dictionary App based on Voice Recognition Server (음성 인식 서버를 이용한 모바일 사전 설계 및 구현)

  • Yu, Jae-Seung;Park, Hee-Tae;Park, Mi-So;Song, Min-kyu;Yun, Sung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1698-1701
    • /
    • 2012
  • 음성 인식은 사용자의 음성을 문자로 변환하는 기술로 최근 스마트폰의 사용자 인터페이스로 사용되면서 그 활용도가 높아지고 있다. 기존의 스마트폰용 사전 프로그램은 좁은 자판으로 인하여 입력과정에 오타가 많이 발생하고, 찾고자 하는 단어의 발음은 알고 있지만 철자를 알지 못 하는 경우에 검색할 수 없다. 본 논문에서는 음성 명령을 이용한 스마트폰용 영한사전 앱을 설계 및 구현하였다. 외부 음성 인식 서버를 이용하여 음성 명령을 이해하고 클라이언트에 SQLite를 이용하여 사전 데이터 베이스를 구축한다. 클라이언트는 서버로 사용자 음성을 전달하고, 서버는 음성 정보를 텍스트로 변환하여 클라이언트에게 제공한다[1]. 클라이언트는 서버로부터 전송받은 텍스트를 이용하여 사전 데이터베이스를 검색하고, 그 결과를 사용자에게 보여준다.

N-gram Adaptation using Information Retrieval and Dynamic Interpolation Coefficient (정보검색 기법과 동적 보간 계수를 이용한 N-gram 적응)

  • Choi, Joon-Ki;Oh, Yung-Hwan
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.107-112
    • /
    • 2005
  • 연속음성인식을 위한 언어모델 적응기법은 특정 영역의 정보만을 담고 있는 적응 코퍼스를 이용해 작성한 적응 언어모델과 기본 언어모델을 병합하는 방법이다. 본 논문에서는 추가되는 자료 없이 인식 시스템이보유하고 있는 코퍼스만을 사용하여 적응 코퍼스를 구축하기 위해 언어모델에 기반한 정보검색 기법을 사영하였다. 검색된 적응 코퍼스로 작성된 적응 언어모델과 기본 언어모델과의 병합을 위해 본 논문에서는 입력음성을 분할하여 각 구간에 최적인 동적 보간 계수를 구하는 방법을 제안하였다. 제안된 적응 코퍼스를 구하는 방법과 동적 보간 계수는 기본 언어모델 대비절대 3.6%의 한국어 방송뉴스 인식 성능 향상을 보여주었으며 기존의 검증자료를 이용한 정적 보간 계수에 비해 상대 13.6%의 한국어 방송뉴스 인식 성능 향상을 보여 주었다.

  • PDF

An Improved LSP Transformation Algorithm Using the LSP and Formant Distribution in a Speech Signal (LSP와 포만트 분포특성을 이용한 음성신호의 LSP 변환 알고리즘의 성능개선)

  • LEE HeeWon;NA Ducksu;KIM ManKi;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.29-32
    • /
    • 1999
  • LSP 파라미터는 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하여 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 본 논문에서는 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법의 계산 시간 단축방법을 제안한다. real root 방법은 다항식의 근을 구하여 LSP로 변환하는 방법이다. 그러나 이 방법은 관을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요된다. 제안하는 알고리즘은 LSP 파라미터의 분포도에 따라 검색구간의 순서를 주파수 별로 달리 한다. 그리고 제 1포만트와 제 2포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root방법과 제안한 방법을 비교한 결과 평균 $48\%$ 이상의 검색시간이 단축되었다.

  • PDF

Development of a Voice-activated Map Information Retrieval System based on MFC (MFC 기반 음성구동 수치지도정보 검색시스템의 구현)

  • Kim, Nag-Cheol;Kim, Tae-Soo;Jo, Myung-Hee;Chung, Hyun-Yeol
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.3 no.1
    • /
    • pp.69-77
    • /
    • 2000
  • In retrieving and analyzing digital map information using mouse or key strokes, it needs several times of repeated mouse operation for designating the range of study area. In this study, we proposed a voice activated map information retrieval system for eliminating such repetitions and we realized the system on the personal computer. The system was constructed in two ways - traditional OLE(object linking embedding) method and MFC(Microsoft fundamental class) method in controlling of window display for practical use. In the system performance evaluation, the retrieval data for digital map were consisted of 68 words uttered by 3 male persons which include attribute words and control words for Susung-gu area of Taegu city in a 1:5,000 map. As the results, we obtained the average 98.02% of recognition rate through on-line tests in the office environment and the operating speed of 5.39 seconds by OLE, 10.38 seconds by MFC. These results showed the possibility for practical use of information retrieval system using speech recognition in digital map.

  • PDF

Information Retrieval System Using Korean Speech Recognition on the Web Browser (웹 브라우저 상에서 한국어 음성인식을 이용한 정보검색 시스템)

  • 이항섭
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.35-38
    • /
    • 1998
  • 웹 브라우저 상에서 한국어 음성인식을 이용한 정보검색 시스템에 대한 것이다. 이 시스템의 특징은 웹 브라우저 상에서 보여지는 Hypertext Word를 인식할 수 있는 거승로 기존의 웹 브라우저를 마우스 click 대신 음성인식을 이용하여 사용할 수 있다는 것이다. 웹 브라우저를 통해서 보여지는 고정되지 않고 계속 하여 변화하는 인식후보를 인식하기 위해 당 연구실에서 개발한 가변 어휘 인식기를 사용하였다. 시스템은 windows 95/NT 환경에서 개발되었으며, 사용자가 새로운 인터페이스를 배울 필요 없이 바로 사용할 수 있도록 사용자 편의성 부분도 고려하여 개발되었다. 개발된 시스템은 독립 환경, 독립 화자에 대해 실험한 결과 130여개의 단어에 대해 편균 90% 정도의 인식성능을 보인다.

  • PDF

A Study Video using Image and Voice Search (음성과 이미지를 이용한 동영상 검색에 관한 연구)

  • Sin, In-Gyeong;Park, Sung-Hyun;Ahn, Hyo-Chang;Rhee, Sang-Burm
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.568-571
    • /
    • 2012
  • 정보화 사회의 정보 기반 구조로서, 고속 정보망의 구축, 개인용 컴퓨터의 급속한 보급, 멀티미디어 기술의 발전 등으로 인하여 정보 서비스의 새로운 장이 열리고 있다. 동영상 데이터는 텍스트만이 아니라 영상정보, 음성정보등 각종 의미있는 다양한 멀티미디어 정보를 포함하고 있다. 본 논문에서는 동영상에서 음성과 영상을 분리하여 음성을 이용하여 음성열을 분할 및 복원하여 음성을 텍스트로 변환하여 텍스트색인파일을 만들고 영상은 이미지를 분할 및 히스토그램을 사용하여 이미지 샷을 검출하여 두 색인파일을 이용하여 인덱싱을 하여 동영상 검색에 활용한다.

Efficient Codebook Search Method for AMR Wideband Speech Codec (광대역 AMR 음성 압축기를 위한 효율적인 코드북 검색 방법)

  • 김윤희;박호종
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.4
    • /
    • pp.308-314
    • /
    • 2003
  • Wideband speech communications with 7㎑ bandwidth can provide high-quality speech services that are almost impossible with current narrow-band speech communications with 3.4 ㎑ bandwidth, and AMR wideband codec was recently developed for these services. The performance of AMR wideband codec is excellent due to its wideband information and partially to ACELP structure, but it requires high computational complexity especially in codebook search. In this paper, to solve this problem, an efficient codebook search method for AMR wideband codec is proposed. The proposed method first determines the coarse initial codevector, then improves the performance of codevector by replacing a poor pulse in codevector with better one iteratively. Simulations show that AMR wideband codec with proposed codebook search method has higher performance with much less computational cost than conventional AMR wideband codec.

Development of a Stock Information Retrieval System using Speech Recognition (음성 인식을 이용한 증권 정보 검색 시스템의 개발)

  • Park, Sung-Joon;Koo, Myoung-Wan;Jhon, Chu-Shik
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.6 no.4
    • /
    • pp.403-410
    • /
    • 2000
  • In this paper, the development of a stock information retrieval system using speech recognition and its features are described. The system is based on DHMM (discrete hidden Markov model) and PLUs (phonelike units) are used as the basic unit for recognition. End-point detection and echo cancellation are included to facilitate speech input. Continuous speech recognizer is implemented to allow multi-word speech. Data collected over several months are analyzed.

  • PDF