• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.027초

G.723.1 음성 활동 검출 장치 성능 향상에 관한 연구 (On a Research of Improving the Performance of Voice Activity Detector in G.723.1)

  • 장경아;김정진;장영오;홍성훈;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.53-56
    • /
    • 1999
  • ITU-T 국제 표준화 기구에서 인터넷 폰과 화상회의를 목적으로 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다 이중 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 따라서 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과 평균 $46.8\%$ 정도의 전송율을 감소시킬 수 있었으며, 주관적인 음질평가의 경우 음질의 열하는 거의 발생하지 않았다.

  • PDF

음성 신호를 이용한 화자의 5가지 감성 인식 (Recognizing Five Emotional States Using Speech Signals)

  • 강봉석;한철희;우경호;양태영;이충용;윤대희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.101-104
    • /
    • 1999
  • 본 논문에서는 음성 신호를 이용해서 화자의 감정을 인식하기 위해 3가지 시스템을 구축하고 이들의 성능을 비교해 보았다. 인식 대상으로 하는 감정은 기쁨, 슬픔, 화남, 두려움, 지루함, 평상시의 감정이고, 각 감정에 대한 감정 음성 데이터베이스를 직접 구축하였다. 피치와 에너지 정보를 감성 인식의 특징으로 이용하였고, 인식 알고리듬은 MLB(Maximum-Likelihood Bayes)분류기, NN(Nearest Neighbor)분류기 및 HMM(Hidden Markov Model)분류기를 이용하였다. 이 중 MLB 분류기와 NN 분류기에서는 특징벡터로 피치와 에너지의 평균과 표준편차, 최대값 등 통계적인 정보를 이용하였고, TMM 분류기에서는 각 프레임에서의 델타 피치와 델타델타 피치, 델타 에너지와 델타델타 에너지 등 시간적 정보를 이용하였다. 실험은 화자종속, 문장독립형 방식으로 하였고, 인식 실험 결과는 MLB를 이용해서 $68.9\%, NN을 이용해서 $66.7\%를 얻었고, HMM 분류기를 이용해서 $89.30\%를 얻었다.

  • PDF

품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치 (The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction)

  • 박영찬;김남일;허욱;남기춘;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

HCI를 위한 오감정보처리에 관한 연구 (A Study on the Five Senses Information Processing for HCI)

  • 이현구;김동규
    • 디지털산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.77-85
    • /
    • 2009
  • In this paper, we propose data format for smell, taste, touch with speech and vision which can be transmitted and implement a floral scent detection and recognition system. We provide representation method of data of smell, taste, and touch. Also, proposed floral scent recognition system consists of three module such as floral scent acquisition module using Metal Oxide Semiconductor (MOS) sensor array, entropy-based floral scent detection module, and floral scent recognition module using correlation coefficients. The proposed system calculates correlation coefficients of the individual sensor between feature vector(16 sensors) from floral scent input point until the stable region and 12 types of reference models. Then, this system selects the floral scent with the maximum similarity to the calculated average of individual correlation coefficients. To evaluate the floral scent recognition system using correlation coefficients, we implemented an individual floral scent recognition system using K-NN with PCA and LDA that are generally used in conventional electronic noses. In the experimental results, the proposed system performs approximately 95.7% average recognition rate.

유비쿼터스 환경을 위한 하프미러형 인터페이스 시스템 개발과 응용 (Development of Half-Mirror Interface System and Its Application for Ubiquitous Environment)

  • 권영준;김대진;이상완;변증남
    • 제어로봇시스템학회논문지
    • /
    • 제11권12호
    • /
    • pp.1020-1026
    • /
    • 2005
  • In the era of ubiquitous computing, human-friendly man-machine interface is getting more attention due to its possibility to offer convenient services. For this, in this paper, we introduce a 'Half-Mirror Interface System (HMIS)' as a novel type of human-friendly man-machine interfaces. Basically, HMIS consists of half-mirror, USB-Webcam, microphone, 2ch-speaker, and high-speed processing unit. In our HMIS, two principal operation modes are selected by the existence of the user in front of it. The first one, 'mirror-mode', is activated when the user's face is detected via USB-Webcam. In this mode, HMIS provides three basic functions such as 1) make-up assistance by magnifying an interested facial component and TTS (Text-To-Speech) guide for appropriate make-up, 2) Daily weather information provider via WWW service, 3) Health monitoring/diagnosis service using Chinese medicine knowledge. The second one, 'display-mode' is designed to show decorative pictures, family photos, art paintings and so on. This mode is activated when the user's face is not detected for a time being. In display-mode, we also added a 'healing-window' function and 'healing-music player' function for user's psychological comfort and/or relaxation. All these functions are accessible by commercially available voice synthesis/recognition package.

한국어 음가의 표기 복원을 위한 표기 후보 생성 및 감소에 관한 연구 (A Study On Generation and Reduction of the Notation Candidate for the Notation Restoration of Korean Phonetic Value)

  • 이상범;박성현
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.99-106
    • /
    • 2004
  • 음절 복원은 음성 인식 장치에서 인식된 음가열을 발성 이전의 표기 형태로 복원하는 과정이다. 본 논문에서는 음절 복원 과정을 위하여 표준 발음법을 기반으로 음절 복원 규칙을 작성하였다. 음절 복원 규칙을 이용하여 표기 후보 집합의 생성 방법을 연구하였다. 또한 생성된 표기후보의 수를 감소시키기 위하여, 비 표기 음절을 포함한 표기 후보 감소, 비 어휘 음절을 포함한 표기 후보 감소, 비어간 음절을 포함한 표기 후보 감소의 3단계 감소 과정을 제안하였다. 제안된 방법을 통하여 실험한 결과 평균 74%의 표기 후보 감소율을 나타내었다.

모호성을 포함하고 있는 시계열 패턴인식을 위한 새로운 모델 RFAM과 그 응용 (A Novel Model, Recurrent Fuzzy Associative Memory, for Recognizing Time-Series Patterns Contained Ambiguity and Its Application)

  • 김원;이중재;김계영;최형일
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.449-456
    • /
    • 2004
  • 본 논문에서는 모호성을 포함하고 있는 시계열 패턴인식을 위한 새로운 인식모델인 순환퍼지기억장치를 제안한다. 순환퍼지기억장치는 기존의 퍼지기억장치에 순차적인 입력패턴를 처리하고 시간적 관련성을 표현할 수 있는 순환층을 추가함으로써 확장된 모델이다. 본 논문에서 제안하는 순환퍼지기억장치는 입력과 출력사이의 관련정도를 설정하기 위해 헤비안 방식의 학습알고리즘을 사용한다. 그리고 순환퍼지기억장치의 순환층에 필요한 가중치를 학습하기 위해서 오류역전파 알고리즘을 이용한다. 본 논문에서는 제안하는 모델을 음성신호의 경계를 추출하는 문제에 적용하여 성능을 평가한다.

DTW를 이용한 향상된 문맥 제시형 화자인식 (An Enhanced Text-Prompt Speaker Recognition Using DTW)

  • 신유식;서광석;김종교
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.86-91
    • /
    • 1999
  • 본 연구에서는 문맥 종속 또는 문맥 독립형 화자 인식에서의 단점을 개선하는 방법으로 문맥 제시형 화자 인식 실험을 수행하였다. 화자 인식 알고리즘으로는 개선된 Dynamic Time Warping(DTW)을 사용하였고 실시간 처리를 위하여 전체 계산량을 증가시키지 않는 아주 간단한 끝점검출알고리즘을 사용하였으며, 여러 가지 다양한 특징 파라미터를 이용하여 인식실험을 행한 결과 weighted cepstrum을 이용했을 때 가장 좋은 인식성능을 얻을 수 있었다. 실험결과 세 개의 단어를 제시하였을 경우 화자식별오류는 0.02%를 보였고, 화자확인은 문턱값을 적절히 정했을 때 사용자 거부율 1.89%, 사칭자 허용률 0.77%, 총 확인 오류0.97%를 보였다.

  • PDF

임펄스응답을 이용한 실내음향 측정 시스템 (Room Acoustic Measurement System Using Impulse Response)

    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.63-67
    • /
    • 1999
  • 최근 들어 실내음향 특성의 측정과 평가를 위해 백색잡음을 이용한 잔향시간 측정법 대신에 임펄스응답을 이용한 측정법이 널리 이용되고 있다. 이 방법은 재현성이 우수하고 다양한 실내음향 특성치들을 한꺼번에 산출할 수 있어 전통적인 잔향시간 측정법에 비해 여러 가지 장점을 가지고 있다. 본 연구에서는 MLS(Maximum Length Sequence) 신호를 이용하여 실내에서의 임펄스 응답을 측정하고 이를 후처리(post-processing) 하여 잔향시간(EDT, RT), 명료도 지수(C50, C80, D, U50, U80, AI), 음의 크기 지수(G) 등, 주로 실의 음성음향 성능을 측정하는 시스템을 구축하였다. 본 연구에서는 측정시스템과 후처리 프로그램의 구성, 몇몇 실내공간에 대한 시험 측정의 결과 및 고찰 등에 대해 소개하고자 한다.

  • PDF

Lessons from Developing an Annotated Corpus of Patient Histories

  • Rost, Thomas Brox;Huseth, Ola;Nytro, Oystein;Grimsmo, Anders
    • Journal of Computing Science and Engineering
    • /
    • 제2권2호
    • /
    • pp.162-179
    • /
    • 2008
  • We have developed a tool for annotation of electronic health record (EHR) data. Currently we are in the process of manually annotating a corpus of Norwegian general practitioners' EHRs with mainly linguistic information. The purpose of this project is to attain a linguistically annotated corpus of patient histories from general practice. This corpus will be put to future use in medical language processing and information extraction applications. The paper outlines some of our practical experiences from developing such a corpus and, in particular, the effects of semi-automated annotation. We have also done some preliminary experiments with part-of-speech tagging based on our corpus. The results indicated that relevant training data from the clinical domain gives better results for the tagging task in this domain than training the tagger on a corpus form a more general domain. We are planning to expand the corpus annotations with medical information at a later stage.