• 제목/요약/키워드: Speech Web

검색결과 101건 처리시간 0.028초

비모수적 상관계수를 이용한 시맨틱 온톨로지 음성 정보 추출 (Semantic Ontology Speech Information Extraction using Non-parametric Correlation Coefficient)

  • 이병욱
    • 디지털융복합연구
    • /
    • 제11권9호
    • /
    • pp.147-151
    • /
    • 2013
  • 질의 키워드의 출현 빈도수가 높은 문서를 검색하면 키워드의 의미가 다양하여 정확한 정보를 인지하지 못하며, 기존 검색 시스템의 온톨로지 구성만으로는 검색된 문서들이 사용자의 요구에 부합되지 않는 문제점을 가진다. 본 연구에서는 시맨틱 웹 기술을 기반으로 인사관리에서 인선에 필요한 다양한 개념들과 지식으로 구성된 인선 온톨로지와 인선 규칙들을 구축하고 이들을 지원하는 인선 절차와 인선 결과의 적합성을 확인할 수 있는 시스템을 제안한다. 또한, 이를 기반으로 비모수적 상관 계수를 이용하여 음성 정보를 추출하는 방법을 사용하여 평균 SNR이 0.752dB 감소됨을 보임으로써 제안한 방법의 우수성을 확인하였다.

성대 전연부 격막에 대한 레이저 치료 및 후두경하 실라스틱 Keel 삽입술의 효과 (Management of Anterior Glottic Web with Laser Vaporization and Endolaryngeal Silastic Keel Insertion)

  • 최종욱;주형로;정광윤
    • 대한후두음성언어의학회지
    • /
    • 제5권1호
    • /
    • pp.64-68
    • /
    • 1994
  • Anterior glottic webs shorten the free margins of the vocal cords and prevent air flow at their locations, thereby changing the potential vibratory characteristics of the vocal system. They are now more often iatrogenic from endolaryngeal surgical procedures, complications of intubation, chronic inflammation or due to penetrating and blunt trauma to the larynx. A wide range of treatment procedures are now available but the solution to acquiring a "normal" voice has remained elusive due to reflectory stenosis and scar formation. We present our recent experiences with glottic web in nine cases using KTP-532 laser vaporization and endolaryngeal silastic keel insertion technique. Postoperative speech assessment in our cases showed significant improvement in voice quality of 7 of 9 cases studied(77.8%), and no specific problems were not seen.

  • PDF

VoiceXML과 GPS를 이용한 여행정보 서비스의 구현 (An Implementation of Travel Information Service Using VoiceXML and GPS)

  • 오재규;김선형
    • 한국산학기술학회논문지
    • /
    • 제8권6호
    • /
    • pp.1443-1448
    • /
    • 2007
  • 본 논문에서는 기존의 웹(인터넷)기반의 정보 제공 서비스의 범주를 벗어나, 음성 및 웹 브라우저 기반의 VoiceXML을 이용하여 웹과 음성 인터페이스를 동시에 사용할 수 있고 GPS 정보의 응용이 가능한 분산 환경 기반의 여행 정보 서비스를 제안한다. 기존의 여행 정보 콜 센터의 자동응답 서비스는 사전에 제작된 시나리오대로 운영돼 이용시간이 많이 걸릴 뿐 아니라 응답 내용을 바꿀 경우 시나리오를 다시 짠 후 녹음을 다시 해야 하는 불편함이 있었으나, 제안된 VoiceXML 기반의 여행 정보 시스템은 파일형태로 개별 대화 시나리오를 만들어 서버에 내장하는 방식으로 이루어져 시스템 개편이 쉬우며, GPS 정보를 이용한 사용자의 현 위치를 인지하고 이에 따른 다양한 여행 정보 서비스를 오지 환경과 같은 환경적 제약 변수에서도 쉽게 제공할 수 있다는 장점을 가지고 있다.

  • PDF

HTML5기반 보완·대체 의사소통 판 제작 및 활용 시스템 (An HTML5 based AAC Board Making System)

  • 장유진;홍기형
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권5호
    • /
    • pp.365-372
    • /
    • 2015
  • 보완대체의사소통(AAC)은 의사소통의 어려움을 해결하는 광범위한 지원책으로 구어를 이용한 의사소통을 보완하거나 대신하기 위하여 사용되는 여러 가지 형태의 비구어적 의사소통 방법이다. 우리나라의 잠재적인 AAC 수요자가 늘어가면서 AAC에 대한 필요성이 증가하고 있으나 실질적인 활용이 활발하게 이루어지지 않고 있는 실정이다. 이에 본 논문은 웹을 기반으로 하여 제작자 그룹 간 의사소통 판을 제작하고 공유하며 판 사용자가 의사소통 판을 효율적으로 활용할 수 있도록 하는 의사소통 판 시스템을 구현하였다. 본 논문에서 구현한 시스템을 통하여 병원, 학교, 직장 등 여러 환경에서의 의사소통 판의 활용에 기여하고자 한다.

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

An Automatic Data Construction Approach for Korean Speech Command Recognition

  • Lim, Yeonsoo;Seo, Deokjin;Park, Jeong-sik;Jung, Yuchul
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.17-24
    • /
    • 2019
  • 최근 화두가 되고 있는 AI분야에서 가장 큰 문제점은 학습데이터의 부족 문제를 꼽을 수 있다. 수동 데이터 구축에는 많은 시간과 노력이 소요되기에 개인이 손쉽게 필요 데이터를 구축하기는 매우 어렵다. 반면, 수동 데이터 구축에 비해 자동으로 구축하는 것은 높은 품질을 유지하는 것이 관건이다. 본 논문에서는 한국어 음성 명령어 인식기 개발에 필요한 데이터를 웹에서 자동으로 추출하고, 학습데이터로 사용할 수 있는 데이터를 자동으로 선별하는 방법을 소개한다. 특히, 자동 구축된 한국어 음성 데이터를 대상으로 우수한 성능을 보이는 ResNet기반의 수정 모델을 기반으로, 건강 및 일상생활도메인의 명령어 셋을 대상으로 적용가능성을 보이기 위한 실험을 진행하였다. 자동으로 구축된 데이터만을 사용한 일련의 실험에서 건강도메인은 ResNet15에서 89.5%, 일상생활도메인에서는 ResNet8에서 82%의 정확도를 보임으로써, 자동 수집 데이터의 활용 가능성을 검증하였다.

ERB 필터를 이용한 시맨틱 온톨로지 음성 인식 성능 향상 (Semantic Ontology Speech Recognition Performance Improvement using ERB Filter)

  • 이종섭
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.265-270
    • /
    • 2014
  • 기존의 음성 인식 알고리즘은 어휘들 간의 순서가 정해져 있지 않으며, 음성 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 못한 단점을 가지며, 검색 시스템은 키워드의 의미가 다양하여 정확한 정보를 인지하지 못한다. 본 연구에서는 사건 기반 시맨틱 온톨로지 추론 모델을 제안하였으며, 제안된 시스템에서 음성 인식 특징을 추출하기 위해 ERB 필터를 이용하여 특징 추출하는 모델을 구축하였다. 제안된 모델은 성능 평가를 위해 지하철역, 지하철 잡음을 사용하였고 잡음 환경의 SNR -10dB, -5dB 신호에서 잡음 제거를 수행하여 왜곡도를 측정한 결과 2.17dB, 1.31dB의 성능이 향상됨을 확인하였다.

장애인을 위한 음성인식 엘리베이터 (Voice Recognition Elevator for Handicapped People)

  • 오용재;김정래;정익주
    • 산업기술연구
    • /
    • 제33권A호
    • /
    • pp.55-60
    • /
    • 2013
  • In this paper, we proposed an efficient method for implementing a voice recognition elevator. Unlike the existing ones, the proposed system is based on the bluetooth communication and smartphones equipped with the google speech recognition software, which makes it possible that the speech recognition capability can be added to the previously installed elevators. In order to improve the recognition accuracy, instead of using the result of the google recognizer, we built a web server where the user data are accumulated and they are used for recognition error correction.

  • PDF

Voice Browser를 위한 음성 인식 웹서비스 환경에 관한 연구 (A Study of Speech Recognition Web Services Environment for Voice Browser)

  • 홍인숙;김윤중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.142-145
    • /
    • 2009
  • 음성인터페이스 관련 표준화는 음성 대화, 음성인식/합성, 전화망 등의 접속망을 상호 분리하여 음성정보시스템 구성요소들 각각의 상호 독립적인 개발을 보장해 주며, 각 요소의 이해가 없이도 음성정보시스템을 개발할 수 있도록 함으로써 음성정보기술의 보급 및 확산에 크게 기여하고 있다. 이에 W3C에서는 Voice Browser에 대한 표준화를 현재 진행 중에 있으며 Vocie Browser WG에서 Voice Browser를 위한 SIF(Speech Interface Framework)를 제안하였다. 제안된 SIF에서 Voice Browser가 음성인식을 실행하기 위해서는 많은 자원의 소요와 부하가 생길 수 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 음성인식 웹 서비스를 기존의 SIF에 추가한 새로운 형태의 SIF를 제안하고자 한다. 음성인식은 원격 시스템에서 수행하고 그 결과를 Voice Browser가 사용할 수 있도록 음성인식 웹서비스 환경을 구축하였다. 그리고, XML-SRGS 포멧의 grammar를 음성인식기가 사용하는 EBNF 포멧의 grammar로 변환시키는 변환기를 구현하였다.

대형 사전훈련 모델의 파인튜닝을 통한 강건한 한국어 음성인식 모델 구축 (Building robust Korean speech recognition model by fine-tuning large pretrained model)

  • 오창한;김청빈;박기영
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.75-82
    • /
    • 2023
  • 자동 음성 인식(automatic speech recognition, ASR)은 딥러닝 기반 접근 방식으로 혁신되었으며, 그중에서도 자기 지도 학습 방법이 특히 효과적일 수 있음이 입증되고 있다. 본 연구에서는 다국어 ASR 시스템인 OpenAI의 Whisper 모델의 한국어 성능을 향상시키는 것을 목표하여 다국어 음성인식 시스템에서의 비주류 언어의 성능 문제를 개선하고자 한다. Whisper는 대용량 웹 음성 데이터 코퍼스(약 68만 시간)에서 사전 학습되었으며 주요 언어에 대한 강력한 인식 성능을 입증했다. 그러나 훈련 중 주요 언어가 아닌 한국어와 같은 언어를 인식하는 데 어려움을 겪을 수 있다. 우리는 약 1,000시간의 한국어 음성으로 구성된 추가 데이터 세트로 Whisper 모델을 파인튜닝하여 이 문제를 해결한다. 또한 동일한 데이터 세트를 사용하여 전체 훈련된 Transformer 모델을 베이스 라인으로 선정하여 성능을 비교한다. 실험 결과를 통해 Whisper 모델을 파인튜닝하면 문자 오류율(character error rate, CER) 측면에서 한국어 음성 인식 기능이 크게 향상되었음을 확인할 수 있다. 특히 모델 크기가 증가함에 따라 성능이 향상되는 경향을 포착하였다. 그러나 Whisper 모델의 영어 성능은 파인튜닝 후 성능이 저하됨을 확인하여 강력한 다국어 모델을 개발하기 위한 추가 연구의 필요성을 확인할 수 있었다. 추가적으로 우리의 연구는 한국어 음성인식 애플리케이션에 파인튜닝된 Whisper 모델을 활용할 수 있는 가능성을 확인할 수 있다. 향후 연구는 실시간 추론을 위한 다국어 인식과 최적화에 초점을 맞춰 실용적 연구를 이어갈 수 있겠다.