• 제목/요약/키워드: 음성인터페이스

검색결과 401건 처리시간 0.03초

자연어 음성인식 기술을 이용한 음성 대화 서비스 개발동향 (Spoken Dialogue Service Trends Using Natural Speech Recognition Technology)

  • 정호영;송화전;강병옥;정의석;정훈;오유리;권오욱;이기영;이윤근
    • 전자통신동향분석
    • /
    • 제26권5호
    • /
    • pp.14-28
    • /
    • 2011
  • 모바일 혁명과 빅데이터(big data) 시대에 접어들면서 사용자 중심의 자연스러운 인터페이스와 정보검색에 대한 요구가 늘어가고 있다. 모바일 환경에서의 쉽고 자연스러운 검색을 위해 음성인식 기술을 이용한 음성검색 서비스가 대세를 이루고 있으며 대화형 검색 서비스로 발전하게 될 것이다. 음성 대화 서비스의 주요 응용 분야인 음성검색 및 외국어 교육 서비스에서의 자연어 음성인식 기술 역할 및 사용자 경험을 바탕으로 하는 선순환 구조의 인식 성능 개선에 대해 소개한다. 또한 두 응용분야에서의 국내외 개발동향을 소개하고 실제 개발 사례를 통해 무제한급 자연어 음성인식 기술에 기반한 음성 대화 서비스의 가능성을 살펴본다.

  • PDF

ISDN 서비스를 위한 가입자 - 망 접속시스팀

  • 손동철;김경택;정헌창
    • ETRI Journal
    • /
    • 제9권4호
    • /
    • pp.50-57
    • /
    • 1987
  • 종합정보통신망(ISDN)의 가입자-망간 인터페이스에서 "2B+D" 채널로 144kbps의 전송속도로 음성 및 비음성 서비스를 제공하는 가입자-망 접속시스팀에 관해 언급하였다. 또한 시스팀을 구성하고 있는 장치들과 각 장치의 기본기능 및 D-채널 프로토콜에 관해 기술하였다.

  • PDF

인적오류로 인한 원자력발전소 고장정지 사건묘사를 위한 멀티미디어 인터페이스 설계 (Design of a multimedia interface for the description of human error caused nuclear power plant trips)

  • 박근옥
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1993년도 추계학술대회논문집
    • /
    • pp.65-75
    • /
    • 1993
  • 원자력발전소에서 발생하는 고장정지 사건에 내포된 인적오류의 발생내용을 흥미있고 현장감 있게 묘사시킴과 동시에 종사원들의 인적오류를 저감시키기 위한 새로운 교육훈련방 법으로써 멀티미디어 기술의 사용을 고려하였다. 즉, 컴퓨터 환경하에서 숫자와 텍스트, 음 향 및 음성, 그래픽, 애니메이션, 화상 등의 미디어를 사용하여 인적오류로 인한 고장정지 사건발생의 내용을 전달하는 새로운 교육훈련 방법을 사용하는 것이다. 이를 위하여 고장정 지 사건과 관련한 원자력발전소 구성정보와 종사원의 활동정보를 입출력하기 위한 멀티미디어 인터페이스를 설계하였다. 설계는 멀티미디어 제공환경 구축과 인터페이스 운영논리 설정의 두단계로 구성한 절차에 따라 수행하였다. 멀티미디어 인터페이스는 원자력발전소 구성정보를 설계하여 저장시켜둔 퍼스널 컴퓨터 환경하에서 운영되며, 입력 및 출력의 두가지 인터페이스 를 갖는다. 입력 인터페이스는 인적 오류를 포함한 고장정지 사건의 발생내용을 숫자, 텍스트, 음성 미디어로 받아들여 출력 인터페이스에서 사용될 수 있도록 미디어 결합을 수행하고, 컴퓨터 저장장치에 저장하는 기능을 수행한다. 출력 인터페이스는 저장장치에 기록된 내용을 판독하여 고장정지의 진행경위와 인적오류의 발생내용을 숫자, 문자, 텍스트, 음성, 음향, 그래픽 애니메 이션, 정지화상으로 원자력발전소 종사원들에게 출력시켜 주는 기능을 수행한다. 멀티미디어 출력정보는 사용자가 CRT 화면에 제공되는 버튼 또는 Click Touch 메뉴를 사용함에 따라 이전, 이후의 출력정보로 전이할 수 있도록 하였다.상대적으로 중요한 검사 항목으로 나타났다. 또한 상대적 중요도 결과를 적용한 적성검사 성적이 적용하지 않은 적성검사 성적에 비해 비행성적에 대한 예측 능력이 좋은 것으로 평가되었다.al age)가 있다는 것을 의미하는 것이다. 한편, 생산현장에서는 자동화, 기계화가 진보되어 육체적인 노동이 경감된 결과, 중고령자라도 할 수 있는 작업이 많아지고 있다. 또, VDT (Visual Dislay Terminal) 작업과 같은 정보처리 작업의 수요가 증가하여 그 인재의 부족이 지적되고 있다. 따라서 중고령자의 기능을 조사하여 어떠한 작업에 적합한가를 판단하는 것이 중요한 과제로 되었다. 그러나 노동에는 많은 기능이 관여 하고, 그 내용에 따라서 요구되는 기능이 서로 다르기 때문에 노동적응능력의 기본적인 기능으로 보여지는 것에 좁혀서 작업능력의 연령증가 변화에 대하여다원적 평가를 하는 것이 실제적이라고 할 수 있다. 따라서 본 연구에서는 인간이 가지고 있는 다수의 기능중에서 수지교 치성과 연령증가와의 관계를 조사한다. 만약 연령증가 만으로 수지교치성을 평가 할 수 없는 경우에는 어떠한 요인이 수지기민성의 변화에 영향을 미치는가를 검토한다.t list)에서 자동적으로 사건들의 순서가 결정되도록 확장하였으며, 설비 제어방식에 있어서도 FIFO, LIFO, 우선 순위 방식등을 선택할 수 있도록 확장하였다. SIMPLE는 자료구조 및 프로그램이 공개되어 있으므로 프로그래머가 원하는 기능을 쉽게 추가할 수 있는 장점도 있다. 아울러 SMPLE에서 새로이 추가된 자료구조와 함수 및 설비제어 방식등

  • PDF

키워드 음성인식을 위한 음성합성 기반 자동 학습 기법 (A Automated Method for Training Keyword Spotter based on Speech Synthesis)

  • 임재봉;이종수;조용훈;백윤주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.494-496
    • /
    • 2021
  • 최근 경량 딥러닝 기반 키워드 음성인식은 가전, 완구, 키오스크 등 다양한 응용에 음성 인터페이스를 쉽게 적용할 수 있는 기술로서 주목받고 있다. 키워드 음성인식은 일부 키워드만 인식 가능한 음성인식 기술로서 저성능 디바이스에서 활용 가능한 장점이 있다. 그러나 응용에 따라 필요한 키워드에 대하여 다시 음성데이터를 수집해야하고 이를 학습하여 모델을 새로 준비해야하는 단점이 있다. 따라서 본 연구에서는 음성데이터 수집 없이 음성합성을 통해 생성한 음성으로만 키워드 음성인식 모델을 학습하는 음성합성 기반 자동 학습 기법을 제안하였다. 생성한 음성데이터를 활용하고자하는 시도가 활발히 이루어지고 있으나, 기존 연구에서는 정확도를 유지하기 위하여 수집한 실제 음성데이터가 필요한 한계가 있다. 제안한 자동 학습 기법은 생성한 음성데이터에 대해 복합 데이터 증대 기법을 적용하여 실제 음성데이터 없이 키워드 음성인식의 정확도를 높였다. 제안한 기법에 대하여 상용 음성합성 서비스를 기반으로 수집한 한국어 키워드 데이터세트를 활용하여 성능평가를 진행하였다. 20개 한국어 키워드에 대해 실험한 결과, 제안한 기법을 적용하여 학습시킨 키워드 음성인식 모델의 정확도는 86.44%임을 확인하였다.

관객 반응정보 수집을 위한 음성신호 기반 감정인식 시스템 (A Speech Emotion Recognition System for Audience Response Collection)

  • 강진아;김홍국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.56-57
    • /
    • 2013
  • 본 논문에서는 연극공연을 관람하는 관객의 반응정보를 수집하기 위하여, 청각센서를 통해 관객의 음성을 획득하고 획득된 음성에 대한 감정을 예측하여 관객 반응정보 관리시스템에 전송하는 음성신호 기반 감정인식 시스템을 구현한다. 이를 위해, 관객용 헤드셋 마이크와 다채널 녹음장치를 이용하여 관객음성을 획득하는 인터페이스와 음성신호의 특징벡터를 추출하여 SVM (support vector machine) 분류기에 의해 감정을 예측하는 시스템을 구현하고, 이를 관객 반응정보 수집 시스템에 적용한다. 실험결과, 구현된 시스템은 6가지 감정음성 데이터를 활용한 성능평가에서 62.5%의 인식률을 보였고, 실제 연극공연 환경에서 획득된 관객음성과 감정인식 결과를 관객 반응정보 수집 시스템에 전송함을 확인하였다.

  • PDF

담화표지의 음성언어적 특성과 음성합성 시스템에서의 활용 (Characteristics of Spoken Discourse Markers and their Application to Speech Synthesis Systems)

  • 이호준;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.254-260
    • /
    • 2007
  • 음성은 컴퓨터로 대변되는 기계와 사람 그리고 기계를 매개로 한 사람과 사람의 상호작용에서 가장 쉽고 직관적인 인터페이스로 널리 활용되고 있다. 인간에게 음성정보를 제공하는 음성합성 분야에서는 합성결과의 자연스러움과 인식성이 시스템의 주요 평가요소로 활용되고 있는데 이러한 자연스러움과 인식성은 합성결과의 정확성뿐만 아니라 발화환경이나 발화자의 발화특징 혹은 감정상태 등에 의해 많은 영향을 받게 된다. 담화표지는 문장의 명제 내용에는 직접 관여하지 않으면서 화자의 발화 의도나 심리적 태도를 전달하는 구성 요소를 말하는데 본 논문에서는 담화표지가 포함된 대화 음성 데이터를 수집하여 담화표지의 음성언어적인 특징을 분석하고 분석된 결과를 음성합성 시스템에 활용하는 표현방식에 대해 논의한다.

  • PDF

안드로이드폰용 사용자 정의 음성명령 앱 개발 (Development of a User-Customizable Voice Command Application for Android Phones)

  • 곽주리;이주현;임효진;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.1171-1174
    • /
    • 2014
  • 최근 Siri, S Voice 등과 같이 스마트폰에 음성으로 명령을 내리는 기능이 보편화되고 있다. 하지만 기존의 음성명령 시스템은 사전에 정의된 명령어가 아니면 사용이 불가능하며 어떤 명령어들이 사용가능한지 확인하기도 어렵다. 본 논문에서는 사용자에게 좀 더 편리한 인터페이스를 제공하기 위한 목적으로, 사용자가 직접 음성명령을 등록할 수 있는 안드로이드폰용 음성명령 앱을 개발한다. 본 논문에서 개발한 음성명령 앱은 사용자가 등록한 임의의 음성을 인식하여 안드로이드폰에 설치된 애플리케이션을 실행시키거나, 특정 번호로 전화를 걸거나, 특정 번호로 문자메시지를 보낼 수 있다. 본 논문에서 개발한 앱을 통해 사용자는 보다 편리하게 스마트폰에 음성명령을 내릴 수 있다.

음성 인식 서버를 이용한 모바일 사전 설계 및 구현 (The Design and Implementation of Mobile Dictionary App based on Voice Recognition Server)

  • 유재승;박희태;박미소;송민규;윤성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1698-1701
    • /
    • 2012
  • 음성 인식은 사용자의 음성을 문자로 변환하는 기술로 최근 스마트폰의 사용자 인터페이스로 사용되면서 그 활용도가 높아지고 있다. 기존의 스마트폰용 사전 프로그램은 좁은 자판으로 인하여 입력과정에 오타가 많이 발생하고, 찾고자 하는 단어의 발음은 알고 있지만 철자를 알지 못 하는 경우에 검색할 수 없다. 본 논문에서는 음성 명령을 이용한 스마트폰용 영한사전 앱을 설계 및 구현하였다. 외부 음성 인식 서버를 이용하여 음성 명령을 이해하고 클라이언트에 SQLite를 이용하여 사전 데이터 베이스를 구축한다. 클라이언트는 서버로 사용자 음성을 전달하고, 서버는 음성 정보를 텍스트로 변환하여 클라이언트에게 제공한다[1]. 클라이언트는 서버로부터 전송받은 텍스트를 이용하여 사전 데이터베이스를 검색하고, 그 결과를 사용자에게 보여준다.

IT시대의 휴먼인터페이스 - 현황과 전망 -

  • 대한전기협회
    • 전기저널
    • /
    • 통권311호
    • /
    • pp.68-73
    • /
    • 2002
  • 인터넷 이용자 수의 증가, 휴대전화의 보급 등 IT(Information Technology: 정보기술)는 ''정보화사회''라 부르기에 걸맞는 확장을 계속하고 있다. 앞으로 정보화사회는 어느 곳에나 컴퓨터가 있고 누구나가 정보통신서비스를 이용할 수 있는 유비퀴터스 컴퓨팅의 세계로 전재되어 나갈 것이다. 그 때 이 서비스가 누구에게나 실제로 이용될 수 있게 하기 위해서는 통신기술, 하드웨어기술, 시큐리티기술 등의 기반기술에 더하여 인간과의 접점인 휴먼인터페이스기술이 중요하게 된다. 아무리 유익한 정보나 편리한 서비스도 기기의 사용법이 어려우면 활용되지 못한다. 또 방대한 정보나 서비스의 바다 속에 매몰되어 버리면 이용자와 만날 수도 없다. 인간이 방대한 정보와 마주칠 IT시대에서는 인터페이스기술은 인간의 조작과 기계의 기능을 관련지은 종래의 조작성이라는 관점만으로 말할수는 없으며, 인간의 요구나 행동목적과 정보나 지원이라는 관점에서 생각하지 않으면 안되는 기술이다. 이 인간의 요구나 목적을 어떻게 정확하게 파악하여 지원하는가 하는 인간중심의 관점에서 본 인터페이스기술, 그것을 우리들은 IT시대에서 앞으로 유비퀴터스 정보통신사회의 휴먼인터페이스로 생각하고 있다. 이 논문에서는 기반기술인 음성처리, 화상처리, 정보처리, 인간 관점에서의 평가기술을 소개하고, 각 기술의 앞으로의 진전과 미쓰비시전기가 지향하여 나아갈 휴먼인터페이스를 전망해 본다.

  • PDF

저 시력인을 위해 개선된 커서 인터페이스의 설계 (Design of Enhanced Cursor Interface for Low Vision Persons)

  • 이종원;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1470-1473
    • /
    • 2011
  • 밀집한 작은 대상으로 구성된 웹과 응용프로그램을 사용할 때, 저 시력인은 원하는 대상을 선택하기 어렵다. 이로 인해 필요로 하는 정보의 접근이 차단되어 사회구성원으로서의 역할을 수행하는 것이 제한된다. 저 시력인을 위한 커서 인터페이스는 대상을 확대하고, 색상을 변화시켜 인식률을 높인다. 그리고 대상 사이의 충분한 거리를 확보하고, 대상의 정보를 음성으로 제공하여 원하지 않는 대상의 선택을 방지한다. 일반적인 환경과 지시확대기의 인터페이스 환경을 제안한 커서 인터페이스와 실험을 통해서 비교하였다. 실험결과에서 제안한 커서 인터페이스가 대상을 선택하는데, 가장 적은 시간이 걸렸다. 제안한 커서 인터페이스를 사용하면, 저 시력인이 웹과 응용프로그램을 쉽게 사용하여 정보의 접근성이 향상된다.