• Title/Summary/Keyword: Speech sound

검색결과 628건 처리시간 0.021초

잡음제거 기능을 갖춘 시-청각 단서 제공 읽기 훈련 프로그램 (A Reading Trainning Program offering Visual-Auditory Cue with Noise Cancellation Function)

  • 방동혁;강현덕;길세기;이상민
    • 재활복지공학회논문지
    • /
    • 제2권1호
    • /
    • pp.35-43
    • /
    • 2009
  • 본 논문에서는 개발된 잡음제거 기능을 갖춘 시-청각 단서 제공 읽기 훈련 프로그램(이하 프로그램)을 소개한다. 프로그램은 시-청각 단서들을 지닌 훈련용 문장들을 제공한다. 말운동장애인들은 읽기훈련을 위해서 시각단서와 청각단서들을 각각 또는 동시에 사용 가능하다. 훈련 결과의 평가 편의성 제공을 위해서 잡음제거 알고리즘을 개발하였다. 알고리즘은 피험자가 컴퓨터화면에 제공된 문장을 읽을 때 읽는 말소리와 함께 녹음된 잡음과 청각단서 소리를 제거한다. 또한 피험자가 읽기 연습을 시작할 때 최초의 말소리 개시시간을 검출하는 기능을 구현하였다. 말소리의 녹음은 4가지 잡음환경(실내 잡음, 백색 잡음, 자동차 내부잡음, 배블 잡음)에서 성인 6명(남성 3 명, 여성 3명)으로부터 하였다. 잡음제거 전과 후에 대한 조건에서 녹음된 말소리의 실제 시작 시간과 프로그램상에서 찾은 시간과의 오차를 실험하였다. 잡음제거 전과 후에서의 시간오차가 $4.847{\pm}2.4235[ms]$ 향상되었다. 개발된 프로그램은 말운동장애인의 훈련 및 증상 평가에 도움이 될 수 있으리라 사료된다.

  • PDF

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

내전형 연축성 발성장애 감별진단 문항 개발과 임상적 유용성 평가 (Development of Differential Diagnosis Scale Items for Adductor Spasmodic Dysphonia and Evaluation of Clinical Availability)

  • 조재경;최성희;이상혁;진성민
    • 대한후두음성언어의학회지
    • /
    • 제30권2호
    • /
    • pp.112-117
    • /
    • 2019
  • Background and Objectives The purpose of this study was to develop the differential diagnosis scale containing items from adductor spasmodic dysphonia (ADSD) to muscle tension dysphonia (MTD) and the determine clinical utility of newly developed items. Materials and Method The four parts of pitch, redirected phonation, automatic speech and voiced sound were selected for analyzing the characteristics of ADSD in the literature. One part of tense voiceless sound was developed according to the Korean manner of articulation. The content validity was evaluated based on 5 scales (1-5 point) analysis from 30 experts. One hundred patients (50 ADSD and 50 MTD) were recorded in reading a sentence and sustained phonation. The two speech language pathologist evaluated recorded voices through a blind test using 4 scales (0-3 point) for newly developed items. Results As a result of verifying the content validity of items with experts, it was identified that the differentiated items were valid with 4.2 out of 5. Through the differential diagnosis between two groups according to the items, the correlation between sub-domains and total scores was shown as higher than 0.710. The result of analyzing the reliability on each diagnosis domain was 0.840-0.893, which showed the internal consistency of items was great. Newly developed five parts of ADSD were significantly higher than those of MTD with strong correlation (p<0.01). The reliability among the evaluators was analyzed as high with 0.892. Conclusion In this study, the differential diagnosis scale of ADSD was revealed as having validity and reliability. It is considered that it will be useful for differentiating ADSD and MTD in the clinical field.

웨이브렛 변환을 이용한 음성의 적응 잡음 제거 (Adaptive Noise Reduction of Speech using Wavelet Transform)

  • 임형규;김철수
    • 한국컴퓨터산업학회논문지
    • /
    • 제6권2호
    • /
    • pp.271-278
    • /
    • 2005
  • 본 논문은 잡음 환경의 음성 인식을 위하여 음성에 부가된 잡음을 제거하는 방법으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 첫 번째 스케일의 detail 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 세 번째 스케일의 approximation 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다. 또한 제안한 방법으로 잡음을 제거한 후에도 묵음구간에 잔여 잡음이 존재하게 되므로 묵음구간을 검출하여 묵음구간의 잔여 잡음을 제거하였다. 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE측면에서 향상됨을 확인 할 수 있었다.

  • PDF

다기능성을 가진 음성 인식 요람 연구 (Study on the multi-functional Cradle by Voice Recognitions)

  • 박광성;안상진;조경록;최시온;박용욱
    • 한국전자통신학회논문지
    • /
    • 제12권4호
    • /
    • pp.701-706
    • /
    • 2017
  • 본 연구에서는 요람을 기존의 리모컨이나 수동으로 구동하는 방식과 달리 APP을 통하여 사람의 음성을 인식하면 모터로 동작하도록 요람을 제작하였다. 또한 요람에 온습도센서를 장착하여 실시간으로 요람의 온도와 습도를 LCD를 통해서 확인할 수 있고, 또한 소리크기에 따라 결과 값을 가지는 사운드센서를 이용하여 결과 값을 a, b, c로 지정하여 이 결과 값의 합이 1150을 넘으면 아기의 울음소리로 인식하여 APP에 알림표시와 알림음이 작동하도록 하는 기능을 가지는 요람을 제작하였다.

승조원의 만족도를 고려한 함정의 함내소음 기준 분석 (Study of the Indoor Noise Limit for Naval Vessels Considering the Satisfaction of the Crew)

  • 한형석;박미유;조흥기
    • 대한조선학회논문집
    • /
    • 제47권4호
    • /
    • pp.589-597
    • /
    • 2010
  • The indoor noise of the naval vessel is very important considering hearing protection, improvement of working environment and easily communication between crews. When the environment of the naval vessel suffering from the noise is considered, it is very important to be quiet in the living area where the crews have a rest sufficiently. In addition, the noise of the working area should be reduced in order to increase working efficiency. Therefore, in this research, the satisfactions about the indoor noise are survey for crews working in a naval vessel. Through this survey, the relationship between the indoor noise and crew's satisfaction about it can be found. As a result, the limit of sound pressure level which almost all crew can be satisfied with the indoor noise about their living and working area is suggested base on the survey in this research.

융합 현상과 '(-고) 하-'의 관련성:[대]형 표현의 분석을 중심으로 (Fusion and (-ko) ha-: Focusing on the [tae]- type expressions)

  • 채희락
    • 한국언어정보학회지:언어와정보
    • /
    • 제10권1호
    • /
    • pp.1-20
    • /
    • 2006
  • We can distinguish two different groups of 'fusion expressions' depending on whether the verb (-ko) ha- 'do' can be recovered from the contracted expression concerned or not: recoverable and unrecoverable fusion expressions. Many expressions belonging to the former group show alternations between the [da]-type and the [dae]-type: e.g., o-nta-nta and o-ntae-nta '...says... is coming.' On the other hand, some expressions like ka-ntae can only be realized as the [dae]-type. The main purpose of this paper is to account for these [dae]-type expressions. First, we assume that they have an inaudible/invisible quotation $verb\;{\phi}-$, which takes as its complement a verb phrase with a neutral speech-level ending. This quotation verb is derived from the quotation verb ha-. Second, we assume that the quotation $verbs\;{\phi}-$ and ha- have the [j] sound as their stem-final element, which means that these verbs are actually represented as ${\phi}-j-$ and ha-j-, respectively. In this system, the [tae]-type expressions come out naturally from the behavior of the [j] sound. We do not employ any ad hoc phonological rules to derive the [dae]-type expressions from the corresponding [da]-type expressions.

  • PDF

경음화의 심리적 실체 (The Psychological Reality of Intensification)

  • 이미재
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.43-52
    • /
    • 1996
  • This paper deals with the nature and function of intensification in Korean in a wider scope of intensification which was not paid proper attention including intensification in the initial position as well as middle position. Unobserved new areas of intensification in the initial position are paid more attention like sound split of polysemy e.g. (s'eda), (kyongk'i) by means of intensification and north Korean application of intensification on (wonsu) and intensification of borrowed English. The recent phenomenon of ‘gwua’ intensification is experimented on two groups of people, young students and old people beyond 65 years old by means of sociolinguistic analysis. The result shows that its intensification is a form of student violent power and a mark of extreme solidarity among activist students. Thirty three university students(male 16, female 17) are asked to explained to write the meanings(feelings or when to use, etc.) of the words which have normal form and intensified forms. The results show intensification attaches the meaning of ‘emphasis,’ to bring the extremely polarized emotion: samll to the smallest, exact to the perfect exactness, bad to the worst feeling. Four words are being split to express different meaning with the word intensified. In conclusion, the nature of so called saisiot(t) e.g. intensification is voiceless tensed pause and its functions are the polarization of the original meaning of the word, sound split of polysemy and attachment of social values by intensification.

  • PDF

축소모형법을 이용한 흡음재와 확산체 배치조건별 교실의 음향성능 측정 및 평가 (The Measurements and Evaluations on the Configurations of Absorptive and Diffusing Treatments in Classrooms using a Scale Model)

  • 최영지
    • 교육시설 논문지
    • /
    • 제20권1호
    • /
    • pp.37-44
    • /
    • 2013
  • The present study examines the effects of periodic type diffusers for producing the preferred acoustics for speech and determines the more successful configurations of sound-absorbing and diffusing treatments for achieving good acoustics in classrooms. The measurements were carried out in a 1/10 scale model classroom systematically adding diffusers to one or more of four surfaces of the room. A total of 13 combination of diffusers with absorptive treatments were investigated. Adding diffusers on the ceiling were more effective to increasing the early-arriving reflection energy($G_{50}$) than adding absorptive materials on the entire ceiling. The late arriving reflection energy($G_{late}$) was decreased with increasing amounts of diffusing treatments of upper front or rear wall and this resulted in achieving higher early-to-late ratios($G_{50}$). Adding diffusers on the upper front wall($AC_{100}DUFW_{26}$) achieved more uniform acoustical conditions over the receiver positions than adding diffusers on the upper rear wall($AC_{100}DUFW_{26}$). Adding diffusers on the ceiling and absorptive materials on the lower front wall($AC_{75}DC_{25}ALFW_{26}$) achieved better acoustical conditions than adding the absorptive materials on the entire ceiling and lower front wall($AC_{100}ALFW_{26}$).

내러티브 프로세스 분류 모델 기반 애니메이션 OST의 음악적 요소 분석 (Animation OST Musical Element Analysis based on A Narrative Process Classification Model)

  • 장소은;성봉선;이장훈;김재호
    • 한국멀티미디어학회논문지
    • /
    • 제17권10호
    • /
    • pp.1239-1252
    • /
    • 2014
  • The OST (Original Sound Track) in the film plays a vital role in increasing consensus and concentration to the storyline. The selected 4 animations are classified into 17 Narrative Processes (NP) by using NP Classification Model [1]. For the NPs each having OSTs, the authors have investigated 6 kinds of objective musical elements of the OST such as sound (speech, music, effect), tonality, tempo, range, intensity, and instrumentation. It is found that there are 33.3% common musical elements among all of them for the NPs with OSTs commonly. Among them, it is also found that there are 71.9% of common properties of the musical element. This research is meaningful by firstly showing that there are common properties of objective musical elements in each NP and the corresponding OST.