• Title/Summary/Keyword: 유효 음성

Search Result 183, Processing Time 0.022 seconds

A Frame Unit Based Adaptive Pruning Algorithm for the East Speech Recognition (음성인식의 고속화를 위한 프레임 단위 적응 프루닝 알고리즘)

  • Hwang Cheol-Jun;Oh Se-Jin;Kim Bum-Koog;Jung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.183-186
    • /
    • 2000
  • 본 논문에서는 인식이 진행되는 동안 탐색 공간을 효과적으로 줄임으로써 음성인식의 고속화를 달성할 수 있는 새로운 프레임 단위 적응 프루닝 알고리즘을 제안하고 실험을 통하여 그 유효성을 확인하였다. 이것은 앞 프레임과 뒤 프레임 사이의 최대확률은 높은 상관성을 가지므로 프루닝 문턱치를 앞 프레임의 최대 확률로부터 효과적으로 구할 수 있다는 사실에 근거를 두고있다. 이 방법에서는 앞 프레임의 최대 우도 확률과 후보 확률들의 조합으로 현재 프레임의 프루닝 문턱치를 갱신함으로써 현재 프레임의 문턱치를 인식 과정 중에 얻을 수 있기 때문에, 인식 태스크가 바뀌어도 문턱치를 구하기 위한 사전 실험을 수행할 필요가 없게 된다. 또한, 프레임 단위로 적응적으로 얻어진 문턱치는 다른 환경 하에서도 인식 속도의 향상을 가져올 수 있게 된다. 제안된 알고리즘의 유효성을 확인하여 위하여 한국어 주소 인식 시스템에 적용하였다. 본 시스템은 48개의 유사음소단위(PLUs)를 인식의 기본단위로 하고, 적응알고리즘으로는 최대사후확률추정법((MAP: Maximum A Posteriori Probability Estimation)을, 인식 알고리즘으로는 OPDP(One Pass Dynamic Programming)법을 이용하였다 남성화자 3인이 25개의 연결 주소명을 대상으로 인식 실험을 수행한 결과, 제안된 프레임단위 적응프루닝 문턱치를 적용한 경우를 기존의 고정 프루닝 문턱치와 가변 프루닝 문턱치를 적용한 경우와 비교하였을 때 인식률의 변화 없이 탐색공간이 상대적으로 각각 $14.4\%$9.14\%가 감소되어 제안된 프레임 단위 적응 프루닝 알고리즘의 유효성을 확인할 수 있었다. 시,공간적 분포 특성이 구체적으로 규명되면 보다 정확한 음장변화 추정이 이뤄져야 할 것으로 보인다. 또한 내부파와 음파의 상대적인 진행 방향에 따라 음장변화가 크게 다를 것이 예상되므로 이를 규명하기 위해서는 궁극적으로 3차원적인 음장분포 연구가 필요하다. 음향센서를 해저면에 매설할 경우 수충의 수온변화와 센서 주변의 수온변화 사이에는 어느 정도의 시간지연이 존재하게 되므로 이에 대한 영향을 규명하는 것도 센서의 성능예측을 위해서 필요하리라 사료된다.가지는 심부 가스의 개발 성공률을 증가시키기 위하여 심부 가스가 존재하는 지역의 지질학적 부존 환경 및 조성상의 특성과 생산시 소요되는 생산비용을 심도에 따라 분석하고 생산에 수반되는 기술적 문제점들을 정리하였으며 마지막으로 향후 요구되는 연구 분야들을 제시하였다. 또한 참고로 현재 심부 가스의 경우 미국이 연구 개발 측면에서 가장 활발한 활동을 전개하고 있으며 그 결과 다수의 신뢰성 있는 자료들을 확보하고 있으므로 본 논문은 USGS와 Gas Research Institute(GRI)에서 제시한 자료에 근거하였다.ऀĀ耀Ā삱?⨀؀Ā Ā?⨀ጀĀ耀Ā?돀ꢘ?⨀硩?⨀ႎ?⨀?⨀넆돐쁖잖⨀쁖잖⨀/ࠐ?⨀焆덐瀆倆Āⶇ퍟ⶇ퍟ĀĀĀĀ磀鲕좗?⨀肤?⨀⁅Ⴅ?⨀쀃잖⨀䣙熸ጁ↏?⨀

  • PDF

Influence of User Innovativeness and Knowledge Base on Acceptance of Voice Shopping (사용자의 혁신성 및 지식수준이 가상비서 기반 음성쇼핑의 이용에 미치는 영향)

  • Jo, Woong;Ahn, Suho;Chung, Doohee
    • Asia-Pacific Journal of Business Venturing and Entrepreneurship
    • /
    • v.15 no.2
    • /
    • pp.153-169
    • /
    • 2020
  • A new way of shopping based on virtual assistant, so called voice shopping, is drawing attention. The voice shopping market is growing around the world, and Korea is on the verge of full-scale commercialization of this new shopping. For the development of voice shopping-related industries, it is necessary to research on specific issues related to this new shopping methods, such as the quality of services, efficient processes tailored to new ways, and ways to build customer relationships. As part of such an attempt, the study seeks to determine the factors that affect consumers' perception and attitudes toward voice shopping. The study conducted the analysis based on survey response data of 171 online shopping users. In addition to the typical factors of the technology acceptability model(TAM) such as perceived usefulness and ease of use, the impact of perceived playfulness was included for analyzing the intention on the acceptance of voice shopping. In particular, this study focuses on the impact of user attributes. For the spread of voice shopping, it is necessary to set up a valid target customer and understand users for establishing an effective customer relationship. Therefore, this study tries to analyze how the perceptions on the voice shopping(perceived usefulness, ease of use, and perceived playfulness) are affected by users' attributes, such as user innovativeness and user knowledge level. The result of analysis shows that user innovativeness have a positive relationship with all of perceived usefulness, ease of use, and perceived playfulness. The user knowledge base, however, was not significant to all these three variables. The user knowledge base is shown to have a positive effect on user innovativeness which is the source of positively significant factor for the variable of the perceptions on the voice shopping. Meanwhile, among the variables of extended technology acceptance model, perceived usefulness and perceived playfulness have positive effects on the acceptance of voice shopping, while ease of use has no significant impact on the voice shopping acceptance. Ease of use has a positive relationship with perceived usefulness and playfulness. This study is meaningful in providing implications on the development of voice shopping platforms and related services, and establishment of customer relationship.

Improvement of AMR Data Compression Using the Context Tree Weighting Method (Context Tree Weighting을 이용한 AMR 음성 데이터 압축 성능 개선)

  • Lee, Eun-su;Oh, Eun-ju;Yoo, Hoon
    • Journal of Internet Computing and Services
    • /
    • v.21 no.4
    • /
    • pp.35-41
    • /
    • 2020
  • This paper proposes an algorithm to improve the compression performance of the adaptive multi-rate (AMR) speech coding using the context tree weighting (CTW) method. AMR is the voice encoding standard adopted by IMT-2000, and supports 8 transmission rates from 4.75 kbit/s to 12.2 kbit/s to cope with changes in the channel condition. CTW as a kind of the arithmetic coding, uses a variable-order Markov model. Considering that CTW operates bit by bit, we propose an algorithm that re-orders AMR data and compresses them with CTW. To verify the validity of the proposed algorithm, an experiment is conducted to compare the proposed algorithm with existing compression methods including ZIP in terms of compression ratio. Experimental results indicate that the average additional compression rate in AMR data is about 3.21% with ZIP and about 9.10% with the proposed algorithm. Thus our algorithm improves the compression performance of AMR data by about 5.89%.

Development and Evaluation of an Address Input System Employing Speech Recognition (음성인식 기능을 가진 주소입력 시스템의 개발과 평가)

  • 김득수;황철준;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.2
    • /
    • pp.3-10
    • /
    • 1999
  • This paper describes the development and evaluation of a Korean address input system employing automatic speech recognition technique as user interface for input Korean address. Address consists of cities, provinces and counties. The system works on a window 95 environment of personal computer with built-in soundcard. In the speech recognition part, the Continuous density Hidden Markov Model(CHMM) for making phoneme like units(PLUs) and One Pass Dynamic Programming(OPDP) algorithm is used for recognition. For address recognition, Finite State Automata(FSA) suitable for Korean address structure is constructed. To achieve an acceptable performance against the variation of speakers, microphones, and environmental noises, Maximum a posteriori(MAP) estimation is implemented in adaptation. And to improve the recognition speed, fast search method using variable pruning threshold is newly proposed. In the evaluation tests conducted for the 100 connected words uttered by 3 males the system showed above average 96.0% of recognition accuracy for connected words after adaption and recognition speed within 2 seconds, showing the effectiveness of the system.

  • PDF

Design and Implementation of a HTMLtoVoiceXML Converter (HTMLtoVoiceXML 변환기의 설계 및 구현)

  • Choi, Hoon-il;Jang, Young-Gun
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.7 no.6
    • /
    • pp.559-569
    • /
    • 2001
  • It is possible to access web contents by mobile terminals and telephones due to the evolution of voice and VoiceXML technologies. Nevertheless, because these days most of all the web contents are constructed by HTML, it is impossible to access them by using the new technology. Therefore, to access the contents through voices requires the conversion of the web document from HTML to VoiceXML, but its manual conversion process should be involved additional time and expenditure. In this paper, we design and implement HTMLtoVoiceXML converter, suggest a system structure of it and propose a practical identification algorithm of meaningful fragmented group of contents to solve the problem. To test the performance and validity of the converter, we apply it to more than 400 web pages in Korean web sites, it works well except for web pages which involve invalid HTML codes.

  • PDF

A Study on Construction of Acoustical Phoneme Models Using Hidden Markov Network (Hidden Markov Network를 이용한 음향학적 음소모델 작성에 관한 검토)

  • Oh Se-Jin;Lim Young-Choon;Hwang Cheol-Jun;Kim Bum-Koog;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.29-32
    • /
    • 2000
  • 본 논문에서는 음성인식 시스템의 음향모델 개선을 위한 기초적 연구로서, 문맥적인 요소를 필요로 하는 SSS(Successive State Splitting)와 필요로 하지 않는 SSS-free 알고리즘을 이용한 HMnet(Hidden Markov Network) 음향모델 작성방법에 대해 검토하고 작성한 음향모델을 한국어에 적용하여 그 유효성을 확인하였다. HMnet을 이용한 음소모델의 작성방법은 전체 학습 데이터에 대해서 각각 2개의 상태를 가지는 초기 모델을 작성한 후, 이를 시간과 문맥방향으로의 최대 분포를 가지는 상태를 재분할한 후 임의의 상태수가 될 때까지 상태분할을 계속적으로 수행케 하여 각 음소모델을 작성하게 된다. 작성한 HMnet 음향모델의 유효성을 확인하기 위해 ETRI 445 단어의 3인에 대한 화자종속 음소인식 실험을 수행하였다. 인식실험 결과, SSS 알고리즘을 이용한 화자종속실험의 경우 상태수 520에서 평균 $62.8\%$의 인식률을, SSS-free 알고리즘의 경우 상태수 420에서 평균 $64.2\%$의 인식률을 얻었다. 이 결과는 HMM을 이용한 경우(약$43.4\%$)보다 $20\%$이상의 인식률 향상을 보여 이 알고리즘의 유효성을 확인할 수 있었다. SSS와 SSS-free를 비교한 경우, SSS-free가 SSS보다 낮은 상태수에서 평균 $1.4\% 향상된 인식률을 보였다.

  • PDF

Noisy Environmental Adaptation for Word Recognition System Using Maximum a Posteriori Estimation (최대사후확률 추정법을 이용한 단어인식기의 잡음환경적응화)

  • Lee, Jung-Hoon;Lee, Shi-Wook;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.2
    • /
    • pp.107-113
    • /
    • 1997
  • To achive a robust Korean word recognition system for both channel distortion and additive noise, maximum a posteriori estimation(MAP) adaptation is proposed and the effectiveness of environmental adaptation for improving recognition performance is investigated in this paper. To do this, recognition experiments using MAP adaptation are carried out for the three different speech ; 1) channel distortion is introduced, 2) environmental noise is added, 3) both channel distortion and additive noise are presented. Theeffectiveness of additive feature parameters, such as regressive coefficients and durations, for environmental adaptation are also investigated. From the speaker independent 100 words recognition tests, we had 9.0% of recognition improvement for the case 1), more than 75% for the case 2), and 11%~61.4% for the case 3) respectively, resulting that a MAP environmental adaptation is effective for both channel distorted and noise added speech recognition. But it turned out that duration information used as additive feature parameter did not played an important role in the tests.

  • PDF

Typical Frame Etraction for Korean Phoneme Recognition (한국어 음소인식을 위한 기준 프레임 추출)

  • 김범국
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.121-124
    • /
    • 1994
  • 음소를 인식의 기본으로 하는 한국어 음성인식 시스템을 구현하기 위한 기초 연구의 일환으로서 각 음소의 특징 가장 잘 표현하는 기준프레임 추출을 위한 연구를 수행하였다. 이를 위하여 먼저 선행 실험과 분산비 분석을 통해서 인식에 필요로한 시간 패턴의 길이를 추출한 후 이를 바탕으로 통계적 인식방법인 베이즈 결정법칙을 이용하여 시단 프레임으로부터 3프레임씩 시점을 1프레임씩 옮기면서 인식 실험을 해?여, 각 음소별 특징이 가장 풍부한 기준 프레임을 추출하였다. 그리고 이 기준 프레임을 중심으로 각 음소군별 인식 실험을 수행하여 그 결과를 시단을 기준으로 한 경우와 비교 검토하고 한국어 전 음소별로 확장하여 인식 실험을 실시하였다. 이 실험 결과 모음의 경우 시단으로부터 5프레임, 파열음은 시단에서부터 5프레임사이, 마찰음은 3프레임에서부터 10프레임까지, 파찰음은 5프레임까지, 비음과 유음의 경우 초성은 시단 프레임에서 6프레임, 종성은 종단으로부터 전 4프레임 구간이 인식률이 높게 나타나 이 부분의 특징이 인식에 가장 유효함을 알 수 있었다.

  • PDF

A Study on VCCV Segmentation in Unrestricted Word Recognition System (무제한 단어인식 시스템을 위한 VCCV분할에 관한 연구)

  • Youn Jeh-Seon;Chung Kwang-Woo;Hong Kwang-Seok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.103-106
    • /
    • 2000
  • 무제한 인식 시스템을 구현하기 위해서는 적절한 인식단위, 훈련 데이터 베이스의 확보, 인식단위의 분할, 인식 알고리즘과 같은 문제점을 모두 해결하여야 한다. 따라서 본 논문에서는 무제한 음성인식 시스템의 인식의 기본 단위로 모음의 안정구간을 검출하여 분할하는 CV(Consonant-Vowel), VC(Vowel-Consonant), VC CV(Vowel-Consonant-Consonant-Vowel)단위와 분할 파라미터를 제안하고, 분할 실험을 통해 그 유효성을 확인하고자 한다.

  • PDF

VTS 통신량과 관제직무 분석에 관한 연구

  • Kim, Bong-Hyeon;Jo, Gyeong-Min;Park, Yeong-Su
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2014.06a
    • /
    • pp.297-299
    • /
    • 2014
  • 그동안 관제사의 업무량과 관제권 설정 연구는 해상교통량과 혼잡도를 기반으로 한 위험성 평가에 치중되어 왔으나 실제 관제사의 업무는 해상교통을 유효하게 모니터링하는 것 뿐만 아니라 음성교신을 통해 관제업무를 수행하고 이를 기록하는 범위에 이른다. 관제통신을 측정하고 분석, 평가하는 방식이 보다 효과적인 데이터로 활용된다면 관제 한계치를 가름할 수 있는 수단으로 활용될 뿐만 아니라 관제권역의 구성, 해상교통안전성 평가, 해양안전정책 수립 등, 활용될 수 있는 새로운 가치가 창출될 것이다.

  • PDF