• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.036초

음성인식에 의한 측량자료취득 모듈개발 (The Development of Data Capturing Modules by Speech-Voice Recognition)

  • 조규전;이영진;차득기
    • 한국측량학회지
    • /
    • 제18권3호
    • /
    • pp.279-285
    • /
    • 2000
  • 컴퓨터 기술의 발달과 휴먼인터페이스에 대한 인간욕구로 지능형 MMI(Man-Machine Interface)컴퓨터기술에 키보드나 다른 입력장치를 사용하지 않고 사람의 음성으로 컴퓨터를 조작하거나 필요한 명령을 수행할 수 있게 되었다. 특히 복잡한 측량작업에서 현장자료 취득과 측설작업에 음성인식기술을 응용함으로써 작업시간의 절감과 지루함을 덜 수 있다. 본 연구에서는 50,000어휘 인식소프트웨어엔진과 60어휘 인식용 고도집접회로(IC)에 의한 음성인식기술을 Total-station과 RTK-GPS와 연계하여 적용한 결과 25개 어휘만으로 실시간 Geo-Coding 및 도형처리가 가능하였다.

  • PDF

Building an Annotated English-Vietnamese Parallel Corpus for Training Vietnamese-related NLPs

  • Dien Dinh;Kiem Hoang
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.103-109
    • /
    • 2004
  • In NLP (Natural Language Processing) tasks, the highest difficulty which computers had to face with, is the built-in ambiguity of Natural Languages. To disambiguate it, formerly, they based on human-devised rules. Building such a complete rule-set is time-consuming and labor-intensive task whilst it doesn't cover all the cases. Besides, when the scale of system increases, it is very difficult to control that rule-set. So, recently, many NLP tasks have changed from rule-based approaches into corpus-based approaches with large annotated corpora. Corpus-based NLP tasks for such popular languages as English, French, etc. have been well studied with satisfactory achievements. In contrast, corpus-based NLP tasks for Vietnamese are at a deadlock due to absence of annotated training data. Furthermore, hand-annotation of even reasonably well-determined features such as part-of-speech (POS) tags has proved to be labor intensive and costly. In this paper, we present our building an annotated English-Vietnamese parallel aligned corpus named EVC to train for Vietnamese-related NLP tasks such as Word Segmentation, POS-tagger, Word Order transfer, Word Sense Disambiguation, English-to-Vietnamese Machine Translation, etc.

  • PDF

웨이브렛과 원소 편차 기반의 중간값 필터를 이용한 잡음제거 알고리즘 (Denoising Algorithm using Wavelet and Element Deviation-based Median Filter)

  • 배상범;김남호
    • 한국정보통신학회논문지
    • /
    • 제14권12호
    • /
    • pp.2798-2804
    • /
    • 2010
  • 음성 및 영상신호는 신호를 처리하는 과정에서 다양한 잡음에 의해 훼손되어지며, 이러한 신호를 복원하기 위한 많은 연구가 이루어지고 있다. 본 논문에서는 음성신호와 같은 1차원 신호에 복합적으로 중첩된 가우시안 잡음과 임펄스 잡음을 제거하기 위한 알고리즘을 제안하였다. 알고리즘은 임펄스 잡음을 제거한 후, 가우시안 잡음을 제거 하도록 구성되어져 있으며, 가우시안 잡음을 제거하기 위해 웨이브렛 계수 누적을 이용하였고, 임펄스 잡음을 제거하기 위해 원소 편차에 기반한 중간값 필터를 적용하였다. 그리고 개선 효과의 판단 기준으로 SNR을 사용하였으며, 객관적인 판단을 위해 기존의 방법들과 비교하였다.

Neural Network을 이용한 무선 통신시스템에서의 VAD (VAD By Neural Network Under Wireless Communication Systems)

  • 이호선;김수경;박승권
    • 한국통신학회논문지
    • /
    • 제30권12C호
    • /
    • pp.1262-1267
    • /
    • 2005
  • EBF(Elliptical basis function) 신경망은 비선형 처리를 가능하게 하며, 잡음에 강하고 빠른 수렴을 하는 장점이 있다. 또한 EBF는 설계가 간단하여 실시간 음성 구간 검출기(Voice Activity Detection, VAD)에 적용하기 용이하다. 따라서 전송 효율을 높이기 위해 사용되는 음성구간 검출기를 제안함에 있어 EBF 신경망을 이용하였다. EBF의 학습 알고리즘은 평균 클러스터링(K-means Clustering) 알고리즘과 선형 최소 제곱 방범(Least Mean Square error, LMS)을 사용하였다. G.729 Annex B 와 RBF(Radial Basis Function) 신경망을 이용한 음성구간 검출기와 성능 비교에 있에서, G.729 Annex B 음성 검출기보다 $70\%$ 이상의 높은 성능재선을 나타냈고, RBF 신경망을 이용한 음성구간 검출기 보다 비음성 구간에서 $50\%$정도의 높은 효율을 보였다.

모국어와 외국어 단어 산출의 의미처리 과정 (Semantic Processing in Korean and English Word Production)

  • 김효선;최원일;김충명;남기준
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.131-135
    • /
    • 2005
  • Previous studies on the bilinguals' lexical selection have suggested some evidence in favor of language-specific hypothesis. The purpose of this study was to see whether Korean-English bilinguals' semantic systems of Korean and English are shared or separated between the two languages. In a series of picture-word interference tasks, participants were to name the pictures in Korean or in English with distractor words printed either in Korean or English. The distractor words were either semantically identical, related, unrelated to the picture, or nonexistant. The response time of naming was facilitated when distractor words were semantically identical for both same-(Naming pictures in English/korean with English/Korean distractor words) and different-language pairs(Naming pictures in English with Korean distractor words and vice versa). But this facilitation effect was stronger when naming was produced in their native language, which in this case was Korean. Also, inhibitory effect was shown when the picture and its distractor word were semantically related in both same- and different-language paired conditions. These results show that bilinguals'two lexicons compete to some extent when selecting the target word. In this viewpoint, it can be concluded that the lexicons of either languages may not be entirely but partly overlapping in bilinguals.

  • PDF

카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터 (Spam Filter by Using X2 Statistics and Support Vector Machines)

  • 이성욱
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.249-254
    • /
    • 2010
  • 본 논문은 지지벡터기계를 이용하여 스팸메일을 자동으로 분류하는 시스템을 제안한다. 이메일에 포함된 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이제곱 통계량을 이용하여 자질을 선택한 후 각각의 자질을 TF, TF-IDF, 이진 가중치 등으로 표현하여 실험하였다. 카이제곱 통계량을 이용하여 선택된 자질들을 이용하여 SVM을 학습한 후, SVM분류기는 각각의 이메일의 스팸 여부를 결정한다. 실험 결과, 선택되어진 자질들이 성능향상을 가져왔으며, TREC05-p1 스팸 말뭉치에 대해 약 98.9%의 정확도를 얻었다.

다단계 구단위화를 이용한 고속 한국어 의존구조 분석 (High Speed Korean Dependency Analysis Using Cascaded Chunking)

  • 오진영;차정원
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.103-111
    • /
    • 2010
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 CRFs(Conditional Random Fields)를 이용하여 최적의 결과를 얻는다. 58,175문장 세종 구문 코퍼스로 10-fold Cross Validation(평균 10.97어절)으로 실험한 결과 평균 86.01%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.

Generative Interactive Psychotherapy Expert (GIPE) Bot

  • Ayesheh Ahrari Khalaf;Aisha Hassan Abdalla Hashim;Akeem Olowolayemo;Rashidah Funke Olanrewaju
    • International Journal of Computer Science & Network Security
    • /
    • 제23권4호
    • /
    • pp.15-24
    • /
    • 2023
  • One of the objectives and aspirations of scientists and engineers ever since the development of computers has been to interact naturally with machines. Hence features of artificial intelligence (AI) like natural language processing and natural language generation were developed. The field of AI that is thought to be expanding the fastest is interactive conversational systems. Numerous businesses have created various Virtual Personal Assistants (VPAs) using these technologies, including Apple's Siri, Amazon's Alexa, and Google Assistant, among others. Even though many chatbots have been introduced through the years to diagnose or treat psychological disorders, we are yet to have a user-friendly chatbot available. A smart generative cognitive behavioral therapy with spoken dialogue systems support was then developed using a model Persona Perception (P2) bot with Generative Pre-trained Transformer-2 (GPT-2). The model was then implemented using modern technologies in VPAs like voice recognition, Natural Language Understanding (NLU), and text-to-speech. This system is a magnificent device to help with voice-based systems because it can have therapeutic discussions with the users utilizing text and vocal interactive user experience.

궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기 (Voice Activity Detection Based on Discriminative Weight Training with Feedback)

  • 강상익;장준혁
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.443-449
    • /
    • 2008
  • 이동통신에서 배경잡음이 존재하는 실제 환경에서 음성신호처리의 가장 중요한 이슈중의 하나는 강인한 음성검출기를 설계하는 것이다. 상대적으로 간단하면서도 성능이 우수하여 대표적인 음성검출기로 사용되는 통계적모델기반 기법은 각 주파수 채널별 우도비를 이용하여 음성검출 검출식을 만들어내는 방식이다. 최근, 변별적 가중치 학습 (discriminative weight training)을 이용하여 주파수 체널별 가중치가 인가된 우도비를 이용한 음성검출 결정식을 갖는 음성검출기가 제안 되었으며 상대적으로 우수한 성능을 보였다. 본 연구에서는 기존의 변별적 가중치 학습의 입력벡터에 이전프레임의 결정식을 궤환구조형태를 바탕으로 추가하는 새로운 방식을 제안한다. 제안된 기법은 비정상 (non-staionary) 잡음 환경에서 객관적인 방법을 통해 상호비교 분석되었으며 결론적으로 우수한 성능을 보였다.

축적 컴퓨팅을 위한 멤리스터 소자의 최적화 (Optimization of Memristor Devices for Reservoir Computing)

  • 박경우;심현진;오호빈;이종환
    • 반도체디스플레이기술학회지
    • /
    • 제23권1호
    • /
    • pp.1-6
    • /
    • 2024
  • Recently, artificial neural networks have been playing a crucial role and advancing across various fields. Artificial neural networks are typically categorized into feedforward neural networks and recurrent neural networks. However, feedforward neural networks are primarily used for processing static spatial patterns such as image recognition and object detection. They are not suitable for handling temporal signals. Recurrent neural networks, on the other hand, face the challenges of complex training procedures and requiring significant computational power. In this paper, we propose memristors suitable for an advanced form of recurrent neural networks called reservoir computing systems, utilizing a mask processor. Using the characteristic equations of Ti/TiOx/TaOy/Pt, Pt/TiOx/Pt, and Ag/ZnO-NW/Pt memristors, we generated current-voltage curves to verify their memristive behavior through the confirmation of hysteresis. Subsequently, we trained and inferred reservoir computing systems using these memristors with the NIST TI-46 database. Among these systems, the accuracy of the reservoir computing system based on Ti/TiOx/TaOy/Pt memristors reached 99%, confirming the Ti/TiOx/TaOy/Pt memristor structure's suitability for inferring speech recognition tasks.

  • PDF