• Title/Summary/Keyword: 음성 검색

Search Result 355, Processing Time 0.029 seconds

An Efficient Transcoding Algorithm For G.723.1 and EVRC Speech Coders (G.723.1 음성부호화기와 EVRC 음성부호화기의 상호 부호화 알고리듬)

  • 김경태;정성교;윤성완;박영철;윤대희;최용수;강태익
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.28 no.5C
    • /
    • pp.548-554
    • /
    • 2003
  • Interoperability is ole the most important factors for a successful integration of the speech network. To accomplish communication between endpoints employing different speech coders, decoder and encoder of each endpoint coder should be placed in tandem. However, tandem coder often produces problems such as poor speech quality, high computational load, and additional transmission delay. In this paper, we propose an efficient transcoding algorithm that can provide interoperability to the networks employing ITU-T G.723.1[1]and TIA IS-127 EVRC[2]speech coders. The proposed transcoding algorithm is composed of four parts: LSP conversion, open-loop pitch conversion, fast adaptive codebook search, and fast fixed codebook search. Subjective and objective quality evaluation confirmed that the speech quality produced by the proposed transcoding algorithm was equivalent to, or better than the tandem coding, while it had shorter processing delay and less computational complexity, which is certified implementing on TMS320C62x.

Technology and Standardization Trend of Mobile Visual Search (모바일 비주얼 검색: 기술과 표준화 동향)

  • Lee, S.J.;Lee, K.D.;Na, S.I.;Je, S.K.;Jung, D.U.;Oh, W.G.;Seo, Y.H.;Son, W.H.
    • Electronics and Telecommunications Trends
    • /
    • v.29 no.1
    • /
    • pp.61-71
    • /
    • 2014
  • 모바일 비주얼 검색(MVS: Mobile Visual Search) 기술은 스마트폰 환경에서 질의 영상의 특징을 검출하고 그 주변 영역의 정보를 이용하여 추출한 서술자를 미리 구축된 영상정보 DB와 비교하여 검색하는 기술로 스마트폰의 보급과 네트워크 환경발달에 따라 응용서비스의 범위와 가능성이 확대되고 있다. 본 동향에서는 기존의 텍스트, 음성, QR코드 등의 검색을 넘어 인간이 보는 그대로를 검색하고자 하는 모바일 비주얼 검색의 기술 및 표준화 동향을 분석하고 향후 전망에 대해서 살펴보고자 한다.

  • PDF

Similar Sequence Searching under Time Warping with Window constraint (윈도우 제약 조건을 가지는 시간 왜곡 변환 기반 유사 시퀸스 검색)

  • 김인태;송병호;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.214-216
    • /
    • 2001
  • 유사 시퀸스 검색에서 시간 왜곡 변환을 지원하기 위한 연구가 최근 활발히 이루어지고 있다. 음성 인식과 같은 몇몇 응용에서는 시간 왜곡 변환을 적용할 때 과도한 타이밍의 차이는 허용하지 않을 필요가 있다. 그래서 대부분의 경우 윈도우라는 제약 조건을 추가하게 된다. 이 논문에서는 윈도우 제약 조건이 있을 때 시간 왜곡 변환을 지원하는 유사 검색 방법으로 세그먼트 분할 기법(Segment Partition Approach:SFA)을 제안한다. SFA는 각 시퀸스를 세그먼트로 분할한 뒤 특징을 추출하여 다차원 인덱스를 구성한다. 유사 검색 질의를 수행할 때 이 인덱스를 검색하여 질의 시퀸스와 유사할 가능성이 큰 후보들을 빠르게 찾아낼 수 있고 찾아낸 후보들에 대해서만 정확한 시간 왜곡 변환 거리를 계산하기 때문에 전체 질의 처리 시간을 단축할 수 있다. SPA는 순차 검색에 비하여 좋은 성능을 보이며, 특히 거리 허용치가 작을 때 더욱 우수한 성능을 보인다.

  • PDF

A Mathematical Equation Retrieval System Based on Formula Patterns Expressed in Korean (한글화된 수식 패턴을 이용한 수학식 검색 시스템)

  • Kim, Shin-Il;Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.233-236
    • /
    • 2011
  • 일반적인 문서에 대한 정보 검색 연구는 활발히 진행되고 있으며, 일상 생활 속에서도 대중화되어 많이 사용되고 있다. 이에 따라 음성, 이미지 검색 등 특정 분야의 검색에 대한 연구도 활발히 진행되고 있지만, 수학식 검색에 대한 연구는 비교적으로 미비한 실정이다. 수학식 검색과 관련된 연구들은 대부분 MathML (Mathematical Markup Language), TeX 등으로 작성된 수학식을 대상으로 진행되었지만, 특정 언어나 별개의 수학 입력 툴들을 이용한 검색 방법은 일반 사용자들이 사용하기에는 쉽지 않다는 단점이 있다. 그래서, 본 논문에서는 일반 문서 검색과 마찬가지로, 수학식을 읽듯이 한글을 입력했을 때 색인어 추출 방법 및 검색 방법에 대해 제안한다. 실험을 위해서 수학 문제집에 나오는 1,432개의 수학식을 한글화 시켰고, 한글화된 결과에 대해 패턴 등을 추출하여 MRR (Mean Reciprocal Rank), $Rel_{EQ}$@N(Relevance evaluation at N)로 평가하였다. 100개의 한글 질의어에 대해 MRR@5로 계산된 수학식 검색 결과가 약 0.6 정도 되는 것을 확인할 수 있었고, 학습 데이터에 포함되지 않은 질의수학식 5개에 대해 $Rel_{EQ}$@5로 계산했을 때 평균 60% 의 정확률을 보였다.

A Systematic Review on Voice Characteristics and Risk Factors of Voice Disorder of Korea Teachers (우리나라 교사의 음성 특성과 음성장애 위험 요인에 관한 체계적 문헌고찰)

  • Cha, Seulki;Byeon, Haewon
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.8
    • /
    • pp.149-154
    • /
    • 2018
  • As the range of professional voice users are expanding, interest towards voice increases as well. Especially as teachers compose the occupational group, exposed to high risk of voice disorder, it is necessary to identify the cause of speech problems and speech disorders. The purpose of this study is to analyze the voice characteristics of teachers and to investigate the causes of voice disorders. From 2000 to 2018, 414 studies were found under a combinated set search words of 'profession', 'Teacher', 'Professional Voice User', 'Voice', 'Voice disorders', 'Risk' and out of them, 8 studies were selected as final focus analysis subjects. The qualitative evaluation was carried out by modifying the Quality: checklist for assessing the Risk of bias. The study confirmed that voice misuse frequently occurred to teachers when they used their voice and this feature was affected by the environment. These results suggest that environment improvement of teachers' speech abuse and consistent voice education are necessary.

Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering (색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델)

  • Lee, Hyeon-gu;Kim, Minkyoung;Kim, Jintae;Kim, Harksoo;Lee, Yeonsoo;Choi, Maengsik
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.197-200
    • /
    • 2017
  • 채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.

  • PDF

Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering (색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델)

  • Lee, Hyeon-gu;Kim, Minkyoung;Kim, Jintae;Kim, Harksoo;Lee, Yeonsoo;Choi, Maengsik
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.197-200
    • /
    • 2017
  • 채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.

  • PDF

A Study on the performance improvement of the CELP coder by the structure of dual codebook (2중 코드북 구조를 통한 CELP 음성부호화기의 성능 향상에 관한 연구)

  • 김종우;김응곤;한승조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.271-273
    • /
    • 1999
  • 본 논문에서는 CELP 부호화기의 계산량을 줄이면서도 고음질의 음성을 합성할 수 있는 코드북 구조를 제안한다. 제안한 코드북 구조는 불규칙 코드북과 희박 중첩형 코드북 두 개의 코드북의 합으로 여기 신호를 표현한다. codebook I에서 잔류신호와 오차가 적은 여기신호열을 구한 후, 이 여기신호열에 codebook II의 여기신호열을 합하여 최적의 여기신호열을 구한다. 또한 이로 인한 전송비트수의 증가를 막기위해 홀수 프레임에서는 두 개 코드북의 index를, 짝수 프레임에서는 codebook I의 여기신호열은 그대로 사용하고 codebook II에서만 검색하여 전송하는 방법을 사용하였다. 이러한 2중 코드북 구조는 두 개의 여신호열의 합으로 표현되고 각각의 서로 다른 코드북 이득을 사용하기 때문에 정확한 이득을 표현할 수 있어 기존의 개선 알고리듬보다 더 나은 음질을 제공할 수 있다. 검색시간이 빠르고, 본 코드북 구조를 갖는 4.8kbps CELP형 부호화기를 설계하여 컴퓨터 모의 실험한 결과, 같은 전송률을 갖는 DoD CELP 부호화기보다 segSNR가 0.53dB 더 높게 나타났다.

  • PDF

ASR (Automatic Speech Recognition)-based welfare information search model to prevent digital alienation of the elderly (고령층의 디지털 소외 방지를 위한 ASR(Automatic Speech Recognition, 음성 인식 기술) 기반 복지 정보 검색 모델 연구)

  • Jang-Won Ha;Hwa-Rang Im;Dong-Gue Jung;Hye-won Lee;Youngjong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.771-772
    • /
    • 2023
  • 복지 정보와 인터넷 사용에 대한 이해도가 낮은 고령층의 디지털 소외 문제를 해결하고자, 고령층 친화 UI/UX 및 음성 인식 기술 등의 기술을 활용한 <고령층의 디지털 소외 방지를 위한 ASR 기반 복지 정보 검색 모델>의 개발을 제안한다.

A Karaoke system based on the vocal characteristics (음성 특성을 고려한 가라오케 시스템)

  • Kim, Yu-Seung;Kim, Rin-Chul
    • Journal of Broadcast Engineering
    • /
    • v.13 no.3
    • /
    • pp.380-387
    • /
    • 2008
  • This paper presents a karaoke system employing a vocal region detection algorithm based on the vocal characteristics. In the proposed system, an input song is classified into vocal and instrumental regions using the vocal region detection algorithm. Then, a vocal removal method is applied only to the vocal region. To detect vocal region, a classification algorithm is designed based on the vocal characteristics in the TICFT (twice iterated composite Fourier transform) domain. For vocal removal, vocal components are extracted from a band pass filtered vocal region and they are subtracted from the original song, yielding a vocal removed song. The performance of the proposed method is measured on four different songs.