• 제목/요약/키워드: Automatic Speech Analysis

검색결과 74건 처리시간 0.025초

판소리 자동채보를 위한 구조분석 알고리즘 (Structural Analysis Algorithm for Automatic Transcription 'Pansori')

  • 주영호;김준철;서경숙;이준환
    • 한국콘텐츠학회논문지
    • /
    • 제14권2호
    • /
    • pp.28-38
    • /
    • 2014
  • 서양 음악의 경우 자동채보와 내용기반 음악검색을 위한 음악 정보 분석연구가 활발하게 진행되고 있다. 그러나 한국 전통음악에서는 유사한 연구사례를 찾아보기 어렵다. 본 논문에서는 한국의 전통음악인 판소리 구조를 자동으로 분석하기 위한 알고리즘들을 제안한다. 제안된 알고리즘은 음성과 비음성의 시간 간격비율을 이용하여 '소리' 부분과 '아니리' 부분을 자동으로 구분한다. 뿐만 아니라 알고리즘은 '장단'이라 칭하는 리듬을 템플릿 이용한 다수결 결정 방법으로 강건하게 구분한다. 또한 알고리즘은 칼만 필터를 이용하여 '소리' 부분의 마디 지점을 검지해낸다. 본 논문에서 제안된 알고리즘들은 판소리 샘플들에서 양호하게 동작하였으며 자동채보의 전단계의 구조분석에 유용할 수 있다.

한국 남성의 단모음 [아, 에, 이, 오, 우]에 대한 음향음성학적 기반연구 (Fundamental Acoustic Investigation of Korean Male 5 Monophthongs)

  • 최예린
    • 한국콘텐츠학회논문지
    • /
    • 제10권6호
    • /
    • pp.373-377
    • /
    • 2010
  • 영어의 경우는 모음포만트 분석이 질적이나 양적으로 이미 오래전부터 많이 이루어져 왔다. 그러나 한국어 모음이 음향음성학적으로는 제대로 분석되지 않고 있는 실정이다. 본 연구의 목적은 한국어 모음에 대한 음향음성학적 측면에서 정량적으로 충분한 자료 확보를 위한 과정의 일환으로 정상 남자 20대와 30대를 대상으로 한국어 모음의 음향학적 측면에서 정량적 자료를 얻고자 하였다. 한국어 표준어를 산출하는 20~30대의 남자 총 31명을 대상으로 기본 5 모음 인 /아, 에(애), 이, 오, 우/를 3회 반복산출한 것을 Cool edit에 녹음하여 MATLAB음향분석 프로그램을 이용하여 모음의 F1, F2, F3, F4를 구하였다. F1과 F2 모두에서 본 연구의 모음 포만트가 선행연구보다 전반적으로 낮은 경향을 보였으나 전체적인 패턴은 매우 유사하였다. 연령별, 어음재료에 따른 한국어 모음 자료들에 대한 연구가 더 요구될 것으로 사료된다.

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF

의사결정나무 모형을 이용한 주관적 음성장애 예측모형 (The Prediction Model for Self-Reported Voice Problem Using a Decision Tree Model)

  • 변해원
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3368-3373
    • /
    • 2013
  • 본 연구에서는 주관적 음성문제의 위험요인으로 구명된 주요 변수를 기반으로 주관적 음성장애를 예측할 수 있는 모형을 개발 하였다. 연구자료는 2008년도 국민건강영양조사이며, 이비인후검진을 완료한 전국의 19세 이상 지역사회 성인 3,600명(남 1,501명, 여 2,099명)을 분석대상으로 하였다. 분석방법은 주관적 음성장애 여부를 결과변수로 성, 연령, 흡연, 음주, 교육수준, 직업, 갑상선장애, 최근 2주간 급성 및 만성질환으로 인한 통증 및 불편감을 설명변수로 사용하였고, 예측모형은 의사결정나무 모형(Decision Tree)의 exhaustive CHAID(Chi Squared Automatic Interaction Detection) 알고리즘을 이용하였다. 주관적 음성 장애와 관련된 통계학적 분류 모형을 구축한 결과, 유의미한 예측 변수는 연령, 교육수준, 최장 직업, 갑상선 장애, 최근 2주 동안의 신체 불편 및 통증경험 여부였다. 이 연구의 모형을 기초로 음성장애 예방을 위해서 음성장애 고위험군에 대한 조기 관리의 필요성이 제기된다.

복합 레이블을 적용한 한국어 구문 규칙 (Korean Syntactic Rules using Composite Labels)

  • 김성용;이공주;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권2호
    • /
    • pp.235-244
    • /
    • 2004
  • 본 논문에서는 한국어 구문 분석 및 구문 트리 표현을 위한 복합 레이블 생성 방법을 제안한다. 기존의 구문 트리 표현에서는 미리 정의된 구문 트리 레이블을 사용하여 구문 정보를 표현하였다. 본 논문에서는 이진 규칙하에서 품사태그 정보만을 이용하여 구문 레이블을 자동으로 생성하는 방법을 제시한다. 제안된 구문 레이블은 두 개의 하위 구성체의 품사정보를 적절히 구성하여 형성되며, 동시에 현 구성체의 상태 및 역할 정보를 표현할 수 있도록 고안되었다. 이와 같이 함으로써 품사태그 정보가 가지고 있는 정보를 그대로 구문 트리에 반영시킬 수 있었다. 또한, 품사 정보와 이진규칙만을 이용하여 구문 트리를 표현하기 때문에, 다양한 구문 규칙을 채택하고 있는 서로 다른 구문 분석기의 결과를 정규화 하는 데 적용할 수 있을 것이며, 일본어와 같은 다른 언어에도 쉽게 적용 가능하다. 약 31,080 문장에 대한 구문 분석의 결과, 79.30%의 정확도를 얻을 수 있었으며, 이는 제안된 구문 트리 표현 방법이 구문 분석기의 효율에도 좋은 영향을 미침을 보이는 것이다.

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

영한 기계번역의 자연어 생성 연구 (A Study on the Natural Language Generation by Machine Translation)

  • 홍성룡
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권1호
    • /
    • pp.89-94
    • /
    • 2005
  • 기계번역에서 자연어 생성의 목적은 입력언어의 어구 분석을 이용하여 그 문장의 의미를 변환해주는 목적 언어를 생성하는 것이다. 그것은 언어적 구조 낱말 전사. 대화체 언어, 어휘적 정보 등을 포함해야 한다. 본 연구에서는 대화체 자동 기계번역 시스템 구현계획의 일부인 음성, 음운 분야에서 담당하게 될 음성인식과 음성합성 알고리듬을 확립하기 위한 한국어 특질에 대한 기초조사를 하고자 한다. 또한 기계번역의 단계를 분석하여 형태소 분석 단계와 구문 분석 단계, 의미 분석 단계로 구분한다. 형태소 분석은 입력 문장을 받아 분리된 형태소를 사전 내에서 검색하여·품사 정보를 얻고 이웃하는 단어와의 접속 관계가 문법적으로 올바르게 되었는지를 점검한다. 본 연구의 결과가 대화체 기계번역 시스템 구현계획의 종합적 입장에서는 단순한 기초조사일 수 있지만, 한국어의 교육 및 기계번역 이해의 측면에서는 그 자체로 가치를 지닌다고 할 수 있겠다. 따라서 교육적 측면에서의 직접적 활용을 여러 측면에서 고려할 수 있을 것이다.

  • PDF

화자 확인 시스템의 설계 제작 및 성능 분석 (Implementation and Performance Analysis of a Speaker Verification System)

  • 권석규;이병기
    • 전자공학회논문지B
    • /
    • 제30B권3호
    • /
    • pp.1-9
    • /
    • 1993
  • This paper discusses issues on the disign and implementation of real-time automatic speaker verification system, as well as the performance analysis of the implemented system. The system employs TI's TMS320C25 digital signal processor TMS320C25 and high speed SRAMs. The system is designed to be used stand-alone as well as via hand-shaking with IBM-PC. The speech parameters used for speaker verification are PARCOR and LPC-cepstrum coefficients, and the employed decision logics are those based on the generalized weighted distance comcept. The implemented system showed the performance of 5.3% error rate for the PARCOR coefficient, and 4.7% error rate for the LPG-cepstrum coefficient.

  • PDF

한국인 화자의 외래어 발음 변이 양상과 음절 기반 외래어 자소-음소 변환 (Pronunciation Variation Patterns of Loanwords Produced by Korean and Grapheme-to-Phoneme Conversion Using Syllable-based Segmentation and Phonological Knowledge)

  • 류혁수;나민수;정민화
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.139-149
    • /
    • 2015
  • This paper aims to analyze pronunciation variations of loanwords produced by Korean and improve the performance of pronunciation modeling of loanwords in Korean by using syllable-based segmentation and phonological knowledge. The loanword text corpus used for our experiment consists of 14.5k words extracted from the frequently used words in set-top box, music, and point-of-interest (POI) domains. At first, pronunciations of loanwords in Korean are obtained by manual transcriptions, which are used as target pronunciations. The target pronunciations are compared with the standard pronunciation using confusion matrices for analysis of pronunciation variation patterns of loanwords. Based on the confusion matrices, three salient pronunciation variations of loanwords are identified such as tensification of fricative [s] and derounding of rounded vowel [ɥi] and [$w{\varepsilon}$]. In addition, a syllable-based segmentation method considering phonological knowledge is proposed for loanword pronunciation modeling. Performance of the baseline and the proposed method is measured using phone error rate (PER)/word error rate (WER) and F-score at various context spans. Experimental results show that the proposed method outperforms the baseline. We also observe that performance degrades when training and test sets come from different domains, which implies that loanword pronunciations are influenced by data domains. It is noteworthy that pronunciation modeling for loanwords is enhanced by reflecting phonological knowledge. The loanword pronunciation modeling in Korean proposed in this paper can be used for automatic speech recognition of application interface such as navigation systems and set-top boxes and for computer-assisted pronunciation training for Korean learners of English.

선형 판별분석과 공통벡터 추출방법을 이용한 음성인식 (Speech Recognition Using Linear Discriminant Analysis and Common Vector Extraction)

  • 남명우;노승용
    • 한국음향학회지
    • /
    • 제20권4호
    • /
    • pp.35-41
    • /
    • 2001
  • 본 논문에서는 선형 판별분석 (LDA: Linear Discriminant Analysis)과 공통벡터 추출방법을 이용한 음성인식방법을 제안하였다. 음성신호는 화자의 성별, 나이, 출생지, 주위 잡음, 정신적 상태, 발성기관의 구조 등과 같은 다양한 정보를 포함하고 있다. 이로 인해 같은 음성신호라 할지라도 서로 다른 화자가 발성하게 되면 서로 다른 특성을 보이게 된다. 음성신호의 이러한 성질은 같은 음성군 (class)에 포함된 공통된 특성벡터를 추출하는 일을 상당히 어렵게 한다. 음성신호에서 공통된 특징 벡터를 추출하는 방법은 KLT (Karhunen-Loeve Transformation)와 같이 선형 대수적인 접근방법이 많이 사용되어지고 있으나, 본 논문에서는 M. Bilginer et al.이 제안한 공통벡터 추출 방법을 사용하였다. M. Bilginer et al.이 제안한 방법은 주어진 훈련 음성신호들에 대하여 최적의 공통 벡터를 추출하여 주면서 공통벡터 추출에 사용된 훈련 데이터에 대해서는 100%의 인식결과를 보여준다. 그러나 공통벡터 추출을 위한 훈련 음성신호의 수를 무한히 늘릴 수 없다는 점과 공통벡터들간의 구별정보 (discriminant information)가 정의되지 않았다는 단점이 있다. 본 논문에서는 단어그룹간 (class) 구별정보를 추출된 공통벡터와 결합해 단어간의 오인식률 (error rate)을 감소시킬 수 있는 방법과 공통벡터 추출방법에 적합한 파라미터 가공 방법을 제안하였다. 공통벡터 추출방법은 음성신호의 시간 축 정규화 방법과 벡터의 차원 크기에 따라 인식시간과 인식률에 영향을 받는다. 따라서 부적절한 시간 축 정렬과 너무 큰 벡터의 차원 수는 인식률 저하 등과 같이 알고리즘의 효율성을 떨어뜨린다. 본 논문에서 제안한 방법을 사용하여 실험한 결과 알고리즘의 효율성이 증가되었으며, 기존방법보다 약 2%정도의 향상된 인식률을 얻을 수 있었다.낮추는 효과를 나타내었다.다. 이상의 결과를 통하여 추출 온도와 용매 농도에 따른 수율의 차이가 있었으며 free radical 소거 활성에서는 종자 에탄을 추출물이 과피 에탄올 추출물 보다 145배 이상의 현저히 높은 활성을 나타내었다.을 나타내었다.'Lian(연)' : repeatability, continuance, plenty and intercommunicate, 2. 'Lian(연)'-'Lian(염)': integrity, 3. 'He (하)'-'He(화)' : peace, harmony and combination, 4. 'He(하)'-'He(하)' : clear river, 5.'He(하)'-'He(하)' ; all work goes well. When the Chinese use lotus patterns in lucky omen patterns, same pronunciation and pitch of Chinese language more prominent than natural properties or the image of Buddhism. I guess that it cause praying individual's peace and happiness more serious than philosophical meaning or symbol that base in Buddhism for ordinary people.ML., -9.00~12.49 and -19.81~19.81%, respectively). Therefore, it is concluded that the two formulations are bioequivalent for both the extent and the rate of absorption after single dose administration.ation.ion.ion.ation.ion.n. fibrosis, collagen bundle) was

  • PDF