• Title/Summary/Keyword: speech technology

Search Result 1,900, Processing Time 0.035 seconds

A Textsetting for Reading SprungRhythm

  • Kim Key-seop
    • MALSORI
    • /
    • no.31_32
    • /
    • pp.141-162
    • /
    • 1996
  • Hopkins의 도약률(Sprung Rhythm)은 영어의 운율자질인 강세에 의한 엄격한 정형률을 고수하고 있다. 즉 약강 5보격이나 약강 6보격의 정형률을 지킨다고 Hopkins는 주장한다. 일반 독자나 운율비평가는 이를 인정한다. 문제는 시인의 음량(quantity) 기준에 의하여 강, 약 자리를 어떻게 충족시키고 있느냐 하는 점이다. 모든 비평가는 Hopkins의 음량 기준의 지나친 편의성과 임의성, 및 응통성?에 대하여 그의 음량 이론을 수용하려하지 않는다. 그러나 Kiparsky는 Hopkins의 설명에 따라 시인의 도약률을 분석하면 시인의 음량 이론이 이유 있음을 설명해 보인다. Kiparsky의 분석에서 문제점은 없는가? 만약 있다면 그것은 바로 Hopkins의 음량이론의 문제점이 될 것이다. 이 연구에서는 Hopkins의 편지 속의 설명은 실제로 독자의 낭송 속에서 어떻게 실현될 것인가 즉 '귀로 듣고 감상(ear and taste)'할 때 나타날 리듬형, 즉 낭송의 틀에 의한 분석을 시도하였다. 그것은 도약률이야 말로 읽히기 위한 것이며 '보는 시'가 아니라는 전제에서이다. 여기에서는 낭송에서 나타날 도약률의 음량과 장단, 즉 지속시간을 하나의 '낭송보(Textsetting for Sprung Rhythm)'에서 투사해 보고자 했다. 그 낭송보는 Hayes & Kan(1994)의 '어린이의 민속노래 보(Textsetting for Children's Folk Songs)'를 원용하였다. 약강 4,5,6보격, 강약 4,5,6보격의 일정한 강세 모습과 일정한 지속시간을 보여주는 도약률의 '낭송보'는 다음과 같다('약'자리와 '강'자리의 간격은 일정하게 보고 '강'의 돋들림은 격자로 더 높게 표시하였다). 이와 같은 낭송보는 독자, 즉 낭송자의 낭송 가능 범위를 그려 준다. 즉 약자리의 두개나 그 이상의 음절을 한꺼번에 낭송할 수 있음을 보여 준다. 그 음은 자연히 연음(slurring)이 되기 마련이다. 그러므로 이 연구는 다음과 같은 사실을 규명해 준다. 첫째, 어떤 시행도 규칙적인 박으로 낭송된다. 둘째, 음량은 박자에 의하여 좌우된다. 즉 강과 약자리의 일정한 지속시간의 범위 내에서는 몇 개의 음절도 낭송이 가능하다. 그것은 일정한 간격의 자리를 나타내는 격자로 결정된다. 따라서 모라(morae)의 개념보다도 박자의 개념으로 도약률은 낭송된다. 셋째, 모든 약자리와 강자리는 일정한 간격과 실제의 박(묵박도 포함)에 의하여 규칙적이다. 넷째, 외율음보는 격자의 길이내에서 낭송된다. 그러나 이 연구의 기본은 시인과 독자의 율형(Metrical Pattern)에 대한 의식과 의도(intention)가 전제된다. 이것은 이 연구의 문제임과 동시에 장점이다. 시율의 분석은 보는 율형이 아니라 읽고 낭송하는 율형으로 분석되어야 함을 보여 준 것이 이 연구의 기여이다.

  • PDF

Research on Emotional Factors and Voice Trend by Country to be considered in Designing AI's Voice - An analysis of interview with experts in Finland and Norway (AI의 음성 디자인에서 고려해야 할 감성적 요소 및 국가별 음성 트랜드에 관한 연구 - 핀란드와 노르웨이의 전문가 인뎁스 인터뷰를 중심으로)

  • Namkung, Kiechan
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.9
    • /
    • pp.91-97
    • /
    • 2020
  • Use of voice-based interfaces that can interact with users is increasing as AI technology develops. To date, however, most of the research on voice-based interfaces has been technical in nature, focused on areas such as improving the accuracy of speech recognition. Thus, the voice of most voice-based interfaces is uniform and does not provide users with differentiated sensibilities. The purpose of this study is to add a emotional factor suitable for the AI interface. To this end, we have derived emotional factors that should be considered in designing voice interface. In addition, we looked at voice trends that differed from country to country. For this study, we conducted interviews with voice industry experts from Finland and Norway, countries that use their own independent languages.

Design and Implementation of Finger Language Translation System using Raspberry Pi and Leap Motion (라즈베리 파이와 립 모션을 이용한 지화 번역 시스템 설계 및 구현)

  • Jeong, Pil-Seong;Cho, Yang-Hyun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.9
    • /
    • pp.2006-2013
    • /
    • 2015
  • Deaf are it is difficult to communicate to represent the voice heard, so theay use mostly using the speech, sign language, writing, etc. to communicate. It is the best way to use sign language, in order to communicate deaf and normal people each other. But they must understand to use sign language. In this paper, we designed and implementated finger language translation system to support communicate between deaf and normal people. We used leap motion as input device that can track finger and hand gesture. We used raspberry pi that is low power sing board computer to process input data and translate finger language. We implemented application used Node.js and MongoDB. The client application complied with HTML5 so that can be support any smart device with web browser.

The Design of Temporal Bone Type Implantable Microphone for Reduction of the Vibrational Noise due to Masticatory Movement (저작운동으로 인한 진동 잡음 신호의 경감을 위한 측두골 이식형 마이크로폰의 설계)

  • Woo, Seong-Tak;Jung, Eui-Sung;Lim, Hyung-Gyu;Lee, Yun-Jung;Seong, Ki-Woong;Lee, Jyung-Hyun;Cho, Jin-Ho
    • Journal of Sensor Science and Technology
    • /
    • v.21 no.2
    • /
    • pp.144-150
    • /
    • 2012
  • A microphone for fully implantable hearing device was generally implanted under the skin of the temporal bone. So, the implanted microphone's characteristics can be affected by the accompanying noise due to masticatory movement. In this paper, the implantable microphone with 2-channels structure was designed for reduction of the generated noise signal by masticatory movement. And an experimental model for generation of the noise by masticatory movement was developed with considering the characteristics of human temporal bone and skin. Using the model, the speech signal by a speaker and the artificial noise by a vibrator were supplied simultaneously into the experimental model, the electrical signals were measured at the proposed microphone. The collected signals were processed using a general adaptive filter with least mean square(LMS) algorithm. To confirm performance of the proposed methods, the correlation coefficient and the signal to noise ratio(SNR) before and after the signal processing were calculated. Finally, the results were compared each other.

Communication Support System for Person with Language Disabilities (중증 언어장애인을 위한 의사소통 시스템)

  • Hong Seung-Wook;Park Su-Hyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2006.05a
    • /
    • pp.324-327
    • /
    • 2006
  • The person who gets a ALS(Amyotrophic Lateral Sclerosis) has language disability and physical disability together. A common first symptom is a painless weakness in a hand, foot, arm or leg, which occurs in more than half of all cases. Other early symptoms include muscle weakness of speech. In the early stage of this disease they can communicate with other persons, but it will become increasingly difficult. In our research we have designed and implemented communication tools for them. We have implemented Chunjiin(the Korean computer keyboard) at PDA(personal digital assistant). And we have also implemented software which is consisted of frequently used words.

  • PDF

A SPECTROGRAPHICAL STUDY OF KOREAN VOWELS

  • LEE H.B.;Zhi M.J.
    • MALSORI
    • /
    • no.6
    • /
    • pp.4-12
    • /
    • 1983
  • 이 논문은 음향 분석기를 이용하여 한국어의 단순모음 8개를 음향 음성학적으로 분석하고 그 결과를, 이 현복의 1971년 논문 "현대 서울말의 모음 음가"에서 기분 모음을 기준으로 하여 기술한 단순 모음의 소리값과 비교하는 데어 목적이 있다. 특히, 한국어의 모음 1)길고 세게 날 때, 2)짧고 세게 날 때, 그리고 3) 여리게 날 때의 세가지 환경에 따라 변이음의 음가가 달리 나타난다는 이 현복의 이론을 음향 음성학적으로 확인해 보는 것이 연구를 하는 주요 관심사이다. 이 실험에 사용된 자료는 위에 말한 이 현복의 논문과 "한국어 음성학"(김선기, 1937, 1971; 영문)에 제시된 낱말로 이루어져 있으며, 이를 스웨덴에 유학중인 지 민제가 자신의 목소리로 직접 녹음하여 위메오 대한 음성학과의 음향 음성학 실험실에서 음향분석기로 분석한 다음, 각 모음의 제1 및 제2포인트를 측정하여 리를 토대로 음향도를 만들었다. 이 실험 결과는 다음과 같이 요약할 수 있다. : 1)그림 2,3과 포먼트 표에서 보인 바와 같이, 모음 /이, 에, 오, 으/는 각각 이 현복의 주장대로 환경에 따라 세 개의 분명히 다른 음가를 나타내고 있다. 2) 한편 모음 /애, 아, 우, 어/는 모음의 길이에 따라 다만 두 종류의 음가 변동이 나타날 뿐이며 강세의 유무에 따른 음가 차이는 드러나지 않았다. 3) 이 현복의 주장대로 모음 /에/와 /애/mss 음가의 차이가 크지 않으므로 음운 대립이 무디어질 수 있음을 이번 실험 결과로 확인 하였다. 특히 강세가 없는 /에/는 강세가 있는 /애/와 소리값이 거의 같았다. 4) 이 현복은 표준말에서 /어/의 음가가 세대에 따라 다르며, 안정된 세대의 말씨에서는 /어:/가 /어/에 비해 높고 중앙화한 소리값을 지닌다는 주장을 하였다. 그러나 이 실험 연구에서는 녹음한 이가 젊은 세대이어서 인지 그러한 현상이 나타나지 않았고, 다만 /어:/는 /어/보다 높이만이 높은 것으로 나타났다. 5) 이번 실험 연구에서 모음의 소리값이 장단과 강세에 따라 달라진다는 이 현복의 주장이 대체로 증명된 셈이나, 종합적이고 확고한 결론을 내리려면 좀 더 광범한 실험 연구가 필요하다고 본다. 특히 안정된 세대의 말씨를 직접 녹음하여 음향 음성학적으로 분석함이 필요하다.

  • PDF

A Study on the Reliability of Voice Payment Interface (음성결제 인터페이스의 신뢰도에 관한 연구)

  • Gwon, Hyeon Jeong;Lee, Jee Yeon
    • Journal of the Korean Society for information Management
    • /
    • v.38 no.3
    • /
    • pp.101-140
    • /
    • 2021
  • As the payment service sector actively embraces artificial intelligence technology, "Voice Payments" is becoming a trend in contactless payment services. Voice payment services can execute payments faster and more intuitively through "voice," the most natural means of communication for humans. In this study, we selected richness, intimacy, and autonomy as factors for building trust with artificial intelligence agents. We wanted to determine whether the trust will be formed if the factors were applied to the voice payment services. The experiment results showed that the higher the richness and autonomy of the voice payment interface and the lower the intimacy, the higher the trust. In addition, the two-way interaction effects of richness and autonomy were significant. We analyzed and synthesized the collected short-answer system to identify users' anxiety when using voice payment services and proposed speech interface design ideas to increase their trust in the voice payment.

Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator

  • Park, Hyung Woo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.13 no.2
    • /
    • pp.962-977
    • /
    • 2019
  • The human voice is a convenient method of information transfer between different objects such as between men, men and machine, between machines. The development of information and communication technology, the voice has been able to transfer farther than before. The way to communicate, it is to convert the voice to another form, transmit it, and then reconvert it back to sound. In such a communication process, a vocoder is a method of converting and re-converting a voice and sound. The CELP (Code-Excited Linear Prediction) type vocoder, one of the voice codecs, is adapted as a standard codec since it provides high quality sound even though its transmission speed is relatively low. The EVRC (Enhanced Variable Rate CODEC) and QCELP (Qualcomm Code-Excited Linear Prediction), variable bit rate vocoders, are used for mobile phones in 3G environment. For the real-time implementation of a vocoder, the reduction of sound quality is a typical problem. To improve the sound quality, that is important to know the size and shape of noise. In the existing sound quality improvement method, the voice activated is detected or used, or statistical methods are used by the large mount of data. However, there is a disadvantage in that no noise can be detected, when there is a continuous signal or when a change in noise is large.This paper focused on finding a better way to decrease the reduction of sound quality in lower bit transmission environments. Based on simulation results, this study proposed a preprocessor application that estimates the SNR (Signal to Noise Ratio) using the spectral SNR estimation method. The SNR estimation method adopted the IMBE (Improved Multi-Band Excitation) instead of using the SNR, which is a continuous speech signal. Finally, this application improves the quality of the vocoder by enhancing sound quality adaptively.

Mild Cognitive Impairment Prediction Model of Elderly in Korea Using Restricted Boltzmann Machine (제한된 볼츠만 기계학습 알고리즘을 이용한 우리나라 지역사회 노인의 경도인지장애 예측모형)

  • Byeon, Haewon
    • Journal of Convergence for Information Technology
    • /
    • v.9 no.8
    • /
    • pp.248-253
    • /
    • 2019
  • Early diagnosis of mild cognitive impairment (MCI) can reduce the incidence of dementia. This study developed the MCI prediction model for the elderly in Korea. The subjects of this study were 3,240 elderly (1,502 men, 1,738 women) aged 65 and over who participated in the Korean Longitudinal Survey of Aging (KLoSA) in 2012. Outcome variables were defined as MCI prevalence. Explanatory variables were age, marital status, education level, income level, smoking, drinking, regular exercise more than once a week, average participation time of social activities, subjective health, hypertension, diabetes Respectively. The prediction model was developed using Restricted Boltzmann Machine (RBM) neural network. As a result, age, sex, final education, subjective health, marital status, income level, smoking, drinking, regular exercise were significant predictors of MCI prediction model of rural elderly people in Korea using RBM neural network. Based on these results, it is required to develop a customized dementia prevention program considering the characteristics of high risk group of MCI.

Factors Affecting Oral Examination in an Economically Active Population (경제활동 인구의 구강검진 수검에 영향을 미치는 요인)

  • Jung, Mi-Hee;An, So-Yeon;Jung, Sung-Woo;Kim, Bum-Soo;Ahn, Eunsuk
    • Journal of Korean Dental Hygiene Science
    • /
    • v.3 no.2
    • /
    • pp.51-58
    • /
    • 2020
  • Oral examination ensures early detection and treatment of oral diseases and improvement of quality of health-related life. This is imperative as it reduces individuals' dental medical expenses and social costs caused by diseases. However, as the low oral examination acceptance rate continues to be a problem, this study was conducted to identify the factors that influence the oral examination of an economically active population. In this study, 4,836 economically active individuals between the ages of 20 and 65 years were studied using data from the 7th National Health and Nutrition Survey in 2018. Logistic regression analysis was performed to determine the factors influencing demographic and sociological characteristics on oral examination after adjusting for complaints of mastication and speech discomfort. As a result of confirming the factors influencing the oral examination, increase in age tended to be inversely proportional to the oral examination. Income level, type of job, and job position were identified as factors that influenced oral examinations. Compared to the group with a high socioeconomic status, which is represented by a group with a high income level or a stable job type or job position, the group with low economic status was found to have a negative effect on oral examination. Oral management of vulnerable groups, who might not be considered while devising oral health management policies, should be promoted through the development and provision of oral health management policies that consider employment status and environment.