• 제목/요약/키워드: user.s voice recognition

검색결과 68건 처리시간 0.026초

ERB 필터를 이용한 시맨틱 온톨로지 음성 인식 성능 향상 (Semantic Ontology Speech Recognition Performance Improvement using ERB Filter)

  • 이종섭
    • 디지털융복합연구
    • /
    • 제12권10호
    • /
    • pp.265-270
    • /
    • 2014
  • 기존의 음성 인식 알고리즘은 어휘들 간의 순서가 정해져 있지 않으며, 음성 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 못한 단점을 가지며, 검색 시스템은 키워드의 의미가 다양하여 정확한 정보를 인지하지 못한다. 본 연구에서는 사건 기반 시맨틱 온톨로지 추론 모델을 제안하였으며, 제안된 시스템에서 음성 인식 특징을 추출하기 위해 ERB 필터를 이용하여 특징 추출하는 모델을 구축하였다. 제안된 모델은 성능 평가를 위해 지하철역, 지하철 잡음을 사용하였고 잡음 환경의 SNR -10dB, -5dB 신호에서 잡음 제거를 수행하여 왜곡도를 측정한 결과 2.17dB, 1.31dB의 성능이 향상됨을 확인하였다.

자동차 음성인식 인터랙션의 안전감과 만족도 인식 영향 요인 : 에이전트 퍼소나와 사용자 경험 속성을 중심으로 (Determinants of Safety and Satisfaction with In-Vehicle Voice Interaction : With a Focus of Agent Persona and UX Components)

  • 김지현;이가현;최준호
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.573-585
    • /
    • 2018
  • 커넥티드카 시스템에서 인공지능 음성인식 인터페이스 기기를 통한 주행 안내 및 엔터테인먼트 서비스가 상용화되고 있다. 이 연구는 차량용 음성 에이전트의 개발사를 IT와 자동차 제조사로 구분하여, 운전자의 안전감과 만족도에 영향을 미치는 에이전트의 퍼소나와 사용자 경험 속성들을 탐색하는 것을 목적으로 하였다. 자동차 시뮬레이터 주행 실험에서, 참가자들은 음성인식 에이전트를 통해 엔터테인먼트와 내비게이션조작 과제를 수행하고 안전감과 만족도를 평가하였다. 회귀분석 결과 안전감에 영향을 미치는 주요 선행요인은 에이전트 제조사의 신뢰도였으며, 퍼소나 요인은 따뜻함과 매력으로 나타났고, UX요인에서는 효율성과 배려로 나타났다. 만족도에서는 선행요인 중 에이전트 제조사의 일치 여부와 운전자 성별이, 퍼소나 속성은 거리감 적음, UX 측면에서는 편리성, 효율성, 사용 용이성, 배려가 유의미한 영향 요인으로 나타났다. 이 연구의 의의와 기여점은 자율주행 환경에서 대화형 VUI를 핵심 인터랙션 모드로 발전시키기 위해 어떤 요인들을 우선해야 할 것인지 선별한 실증적 결과를 제시한 데 있다.

암호 없는 사용자의 2차 인증용 복합생체 기반의 FIDO 플랫폼 (FIDO Platform of Passwordless Users based on Multiple Biometrics for Secondary Authentication)

  • 강민구
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.65-72
    • /
    • 2022
  • 본 논문에서는 암호 없는(Passwordless) 사용자 환경에서 제로 트러스트(zero trust) 기반 복합 생체 인증을 제안한다. 다양한 FIDO 2.0(Fast Identity Online) 거래 인증 플랫폼 연동을 위한 메타버스와 연계를 설계한다. 특히, 스마트 단말기의 위치정보와 지자기 센서, 가속기 센서 및 복합인증(MFA, Multi-Factor Authentication)을 위한 생체정보 등을 적용한다. 이때, 조도 및 온도/습도 등 상황인식을 바탕으로 2차 인증으로 복잡한 인증을 통해 사용자 환경에 따른 적응형 복합 인증 플랫폼을 제시한다. 그 결과 사용자 환경에 따라 지문인식과 홍채인식, 얼굴인식, 음성 등 행동 패턴으로 다양한 제로 트러스트를 기반으로 2차 사용자 인증이 가능하다. 또한 FIDO 플랫폼의 복합 통합 인증 연계 결과를 확인하고, FIDO2.0을 이용한 거래 인증 연계 플랫폼의 인증 정확도를 개선하고자 한다.

멀티모달 패션 추천 대화 시스템을 위한 개선된 트랜스포머 모델 (Improved Transformer Model for Multimodal Fashion Recommendation Conversation System)

  • 박영준;조병철;이경욱;김경선
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.138-147
    • /
    • 2022
  • 최근 챗봇이 다양한 분야에 적용되어 좋은 성과를 보이면서 쇼핑몰 상품 추천 서비스에도 챗봇을 활용하려는 시도가 많은 이커머스 플랫폼에서 진행되고 있다. 본 논문에서는 사용자와 시스템간의 대화와 패션 이미지 정보에 기반해 사용자가 원하는 패션을 추천하는 챗봇 대화시스템을 위해, 최근 자연어처리, 음성인식, 이미지 인식 등의 다양한 AI 분야에서 좋은 성능을 내고 있는 트랜스포머 모델에 대화 (텍스트) 와 패션 (이미지) 정보를 같이 사용하여 추천의 정확도를 높일 수 있도록 개선한 멀티모달 기반 개선된 트랜스포머 모델을 제안하며, 데이터 전처리(Data preprocessing) 및 학습 데이터 표현(Data Representation)에 대한 분석을 진행하여 데이터 개선을 통한 정확도 향상 방법도 제안한다. 제안 시스템은 추천 정확도는 0.6563 WKT(Weighted Kendall's tau)으로 기존 시스템의 0.3372 WKT를 0.3191 WKT 이상 크게 향상시켰다.

키넥트를 활용한 피드백 중심의 피아노 교육 방안 연구 (A Study on a Feedback-Centric Piano Education System Using Kinect Sensors)

  • 박소현;임선영;박은영;손종서;박영호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권9호
    • /
    • pp.403-408
    • /
    • 2015
  • 키넥트는 사용자의 동작을 인식하고, 마이크 모듈로 음성을 인식하는 센서이다. 최근, 키넥트는 재활 치료 분야, 교육 분야 등의 다양한 분야에서 활용되고 있다. 교육 분야 중에서도 음악, 발레 등의 예체능 교육 분야들에 키넥트를 활용한 연구가 진행되고 있는데, 본 논문에서는 예체능 교육 분야인 피아노 교육 분야에 키넥트를 활용한다. 본 논문에서는 저가의 접근성이 높은 키넥트를 이용해 전문가와 학습자의 자세 위치 값을 인식 및 비교해 학습자에게 피드백을 제공함으로써 학습자가 혼자 있을 경우에도 객관적인 수치에 의해 자신의 자세를 교정할 수 있는 피아노 교육 방안을 제안 및 구현한다. 제안하는 키넥트 기반 피아노 교육 시스템은 키넥트를 이용하여 학습자에게 피드백을 줄 수 있는 최초의 피아노 교육 시스템이며, 전문가의 관절 위치와 학습자의 관절 위치를 비교하는 알고리즘을 제안 및 구현한다. 또한, 학습자와 전문가의 관절 위치 비교 시 오차 허용 정도를 달리하는 실험을 통하여 오차 허용 정도별 자세의 정확도를 측정한다.

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

VoIP와 음성인식에 기반한 통합솔루션 서비스 동향 (The Trend of Integrated Solution Service Based on VoIP and Voice Recognition)

  • 오재삼;윤용근
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2002년도 창립기념 학술대회
    • /
    • pp.129-135
    • /
    • 2002
  • 본 논문에서는 이미 널리 보급되어 있는 VoIP 기술과 급속도로 발전하고 있는 음성인식기술을 살펴보고, 이 두 가지 기술을 함께 응용했을 때 나타나는 진화된 서비스의 종류와 그 동향을 살펴보고자 한다. 최근 들어 음성인식 기술을 이용한 서비스나 상품들이 홍수처럼 쏟아져 나오고 있다. 그동안 축적된 음성인식기술은 GUI나 일반 DTMF를 이용하는 User Interfaces를 대체할 수 있을 정도로 발전되었고 또 앞으로도 지속적인 발전이 있을 것이라 예상된다. 그러므로 VoIP와 음성인식의 접목은 수많은 다양한 종류의 새로운 서비스를 창출할 것으로 예상된다. 현재 유무선 전화 및 인터넷 서비스 사업자에 관련되어 유선전화, 무선전화, 무선 인터넷 등 세 종류의 각각 다른 비즈니스 모델이 형성될 수 있다. VoIP는 단독으로 쓰이기보다는 다른 다양한 기술 및 서비스와 접목되었을 때 그 효과가 극대화된다.

  • PDF

시각 장애인을 위한 상품 영양 정보 안내 시스템 (Product Nutrition Information System for Visually Impaired People)

  • 정종욱;이제경;김효리;오유수
    • 대한임베디드공학회논문지
    • /
    • 제18권5호
    • /
    • pp.233-240
    • /
    • 2023
  • Nutrition information about food is written on the label paper, which is very inconvenient for visually impaired people to recognize. In order to solve the inconvenience of visually impaired people with nutritional information recognition, this paper proposes a product nutrition information guide system for visually impaired people. In the proposed system, user's image data input through UI, and object recognition is carried out through YOLO v5. The proposed system is a system that provides voice guidance on the names and nutrition information of recognized products. This paper constructs a new dataset that augments the 319 classes of canned/late-night snack product image data using rotate matrix techniques, pepper noise, and salt noise techniques. The proposed system compared and analyzed the performance of YOLO v5n, YOLO v5m, and YOLO v5l models through hyperparameter tuning and learned the dataset built with YOLO v5n models. This paper compares and analyzes the performance of the proposed system with that of previous studies.

NFC 기반 2 Factor 모바일 전자결제를 위한 갤러리-옥션의 사용자인증 모듈 개발 (User certification module development of Gallery-Auction for NFC-based 2 Factor mobile electronic payment)

  • 조원오;차윤석;오수희;최명수;김형종
    • 스마트미디어저널
    • /
    • 제6권3호
    • /
    • pp.29-40
    • /
    • 2017
  • 최근 NFC 기능이 탑재되어있는 스마트폰의 비중이 급속하게 많아지고 있으며, 이로 인해 NFC 관련 기술이 많은 기업들에 의해 만들어지고 있다. NFC기반 2 factor 전자결제시스템의 보안기능 향상과 새로운 서비스를 위해 갤러리-옥션을 개발하였다. XenServer를 이용해 효율적으로 서버를 관리 할 수 있도록 하였으며, 향상된 보안기능은 FIDO 인증기술을 적용하기 위해 지문인식을 통한 사용자 인증 모듈의 개발 및 TTS를 이용한 갤러리-옥션의 전자계약 음성서비스를 개발하였으며, 실제 적용을 통해 테스트 한 결과, NFC 모바일 전자결제를 통한 사용자의 편리하고 간단한 인증방식과 보안성을 강화하였다.

반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로 (The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character)

  • 서민수;홍승혜;이정명
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.92-101
    • /
    • 2018
  • 대화형 AI 스피커가 보편화되면서 음성인식은 자율주행 상황에서의 중요한 차량-운전자 인터랙션 방식으로 인식되고 있다. 이 연구의 목적은 반자율주행 상황에서 음성뿐만 아니라 AI 캐릭터의 시각적 피드백을 함께 전달하는 멀티모달 인터랙션이 음성 단일 모드 인터랙션보다 사용자 경험 최적화에 효과적인지를 확인하는 것이다. 실험 참가자에게 주행 중 AI 스피커와 캐릭터를 통해 음악 선곡과 조정을 위한 인터랙션 태스크를 수행하게 하고, 정보 및 시스템 품질, 실재감, 지각된 유용성과 용이성, 그리고 지속 사용 의도를 측정하였다. 평균차이 분석 결과, 대부분의 사용자 경험 요인에서 시각적 캐릭터의 멀티모달 효과는 나타나지 않았으며, 지속사용 의도에서도 효과는 나타나지 않았다. 오히려, 정보품질 요인에서 음성 단일 모드가 멀티모달보다 효과적인 것으로 나타났다. 운전자의 인지적 노력이 필요한 반자율주행 단계에서는 멀티모달 인터랙션이 단일 모드 인터랙션에 비해 사용자 경험 최적화에 효과적이지 않았다.