• 제목/요약/키워드: Speech-to-text services

검색결과 38건 처리시간 0.024초

웹기반 청각장애인용 수화 웹페이지 제작 시스템 (Web-based Text-To-Sign Language Translating System)

  • 박성욱;왕보현
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.265-270
    • /
    • 2014
  • 소리가 잘 들리지 않는 청각장애인은 소리를 표시하는 글자를 익히고 복잡한 개념을 전달하는 글을 이해하는 데 어려움이 많다. 그래서 자연스럽게 표정, 몸짓, 손짓으로 의사를 전달하는 수화가 청각장애인들의 주요 의사소통수단으로 자리잡아왔지만 사회에서는 글과 말이 주요 정보전달 수단으로 이용되고 있어 청각장애인이 정보에 접근하고 지식을 넓혀 직업을 갖는데 큰 어려움이 있다. 특히 근래에 인터넷이 보편화됨에 따라 정상인의 정보 습득량은 크게 늘었지만, 글로 표현된 인터넷을 이해하기 어려운 청각장인들은 인터넷 정보에 접근하는데 어려움이 많다. 본 연구에서는 청각장애인을 위한 수화 웹페이지를 제작할 수 있는 수화 웹페이지 제작시스템을 개발하였다. 수화 웹페이지 제작 시스템은 청각장애인용 수화 웹페이지 제작자가 통상적인 인터넷 사용에 필요한 하드웨어 및 소프트웨어 환경만 갖추면 운영할 수 있도록 웹기반으로 개발하였다. 수화용 웹 페이지 제작자는 게시판 형태의 인터페이스를 이용하여 변역하고자하는 문장을 서버에 전송할 수 있다. 서버는 수신된 문장을 수화로 번역하여 3D 아바타 기반의 수화 그래픽 애니메이션을 랜더링한다. 수화 그래픽 애니메이션은 MP4 형식의 동영상으로 변환되며, 스트리밍 서버의 저장소에 보관된다. 저장된 수화 동영상의 이름과 주소는 수화 웹페이지 제작자가 처음 문장을 입력하였던 게시판에 표시되도록 하여 향후 청각장애인용 웹 페이지를 제작할 때 활용할 수 있도록 하였다. 또한 본 연구에서는 웹페이지 제작자가 공공기관의 웹페이지를 제작할 수 있도록, 이들 기관에서 현재 사용된 글들을 수화로 번역할 때 필요한 수화 단어를 수화 웹페이지 제작 시스템의 수화 사전에 추가하였다. 수화 단어를 추가함으로써 웹기반 수화 웹페이지 제작 시스템이 공공부문에 보다 더 많이 활용될 수 있을 것이다.

NFC 기반 2 Factor 모바일 전자결제를 위한 갤러리-옥션의 사용자인증 모듈 개발 (User certification module development of Gallery-Auction for NFC-based 2 Factor mobile electronic payment)

  • 조원오;차윤석;오수희;최명수;김형종
    • 스마트미디어저널
    • /
    • 제6권3호
    • /
    • pp.29-40
    • /
    • 2017
  • 최근 NFC 기능이 탑재되어있는 스마트폰의 비중이 급속하게 많아지고 있으며, 이로 인해 NFC 관련 기술이 많은 기업들에 의해 만들어지고 있다. NFC기반 2 factor 전자결제시스템의 보안기능 향상과 새로운 서비스를 위해 갤러리-옥션을 개발하였다. XenServer를 이용해 효율적으로 서버를 관리 할 수 있도록 하였으며, 향상된 보안기능은 FIDO 인증기술을 적용하기 위해 지문인식을 통한 사용자 인증 모듈의 개발 및 TTS를 이용한 갤러리-옥션의 전자계약 음성서비스를 개발하였으며, 실제 적용을 통해 테스트 한 결과, NFC 모바일 전자결제를 통한 사용자의 편리하고 간단한 인증방식과 보안성을 강화하였다.

NLP기반 NER을 이용해 소셜 네트워크의 조직 구조 탐색을 위한 협력 프레임 워크 (A Collaborative Framework for Discovering the Organizational Structure of Social Networks Using NER Based on NLP)

  • 프랭크 엘리호데;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.99-108
    • /
    • 2012
  • 방대한 양의 데이터로부터 정보추출의 정확도를 향상시키기 위한 많은 방법이 개발되어 왔다. 본 논문에서는NER(named entity recognition), 문장 추출, 스피치 태깅과 같은 여러 가지의 자연어 처리 작업을 통합하여 텍스트를 분석하였다. 데이터는 도메인에 특화된 데이터 추출 에이전트를 사용하여 웹에서 수집한 텍스트로 구성하였고, 위에서 언급한 자연어 처리 작업을 사용하여 비 구조화된 데이터로부터 정보를 추출하는 프레임 워크를 개발하였다. 조직 구조의 탐색을 위한 택스트 추출 및 분석 관점에서 연구의 성능을 시뮬레이션을 통해 분석하였으며, 시뮬레이션 결과, 정보추출에서 MUC 및 CoNLL과 같은 다른 NER 분석기 보다 성능이 우수함을 보였다.

악성댓글 판별의 성능 향상을 위한 품사 자질에 대한 분석 연구 (An analysis study on the quality of article to improve the performance of hate comments discrimination)

  • 김형주;문종민;김판구
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.71-79
    • /
    • 2021
  • 인터넷의 사용이 광범위 해져감에 따라 변화되는 사회적 측면 중 하나는 온라인 공간에서의 의사소통이다. 과거에는 물리적으로 같은 공간에 있을 때를 제외하고는 일대일 대화만 원격으로 가능했지만, 요즘은 게시판이나 커뮤니티, 소셜네트워크서비스(SNS) 등을 통해 다수의 사람들과 원격으로 소통할 수 있는 기술이 발달했다. 이러한 정보통신망의 발달로 생활이 편리해지고, 동시에 급격한 정보교류에 따른 피해도 끊임없이 증가하고 있다. 최근에는 연예인뿐 아니라 인플루언서 등 인터넷에서 인지도가 높은 특정인에게 성적인 메시지를 보내거나 인신공격을 가하는 등의 사이버 범죄가 발생하고 있으며, 이들 사이버 범죄에 노출된 이들 중 일부는 극단적인 선택을 하기도 하였다. 본 논문에서는 악성 댓글로 인한 피해를 줄이기 위해 음성 부분별 기능추출을 통한 차별적 악성 댓글의 성능향상 방안을 연구하였다.

안드로이드 플랫폼 기반 시각장애인용 음성도서 서비스 모델 구축 및 평가 (Designing and Evaluating an Audiobook Service Model on Android Platform for the Visually-Impaired)

  • 장원홍;오삼균
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.221-236
    • /
    • 2015
  • 본 연구의 목적은 LG상남도서관 '책 읽어주는 도서관' 서비스의 안드로이드 플랫폼 기반 서비스 구축과정과 모델에 대한 기술과 그 서비스의 유용성을 평가하는 것이다. 연구방법은 서베이를 통한 이용자 요구조사, 이용현황통계분석 및 이용자 인터뷰를 실시하였고, 도출된 중요한 연구결과는 다음과 같다: 1) 시각장애인이 스마트기기 사용에 높은 관심을 보였고, 스마트기기를 사용해 본 적이 없는 시각장애인도 비용과 접근성만 해결된다면 사용할 의사가 있음을 표명하였으며, 2) 스트리밍보다는 다운로드 방식을 선호하는 것으로 나타났다. 3) 육성과 TTS 음성 차이를 중요하게 생각치 않는 것으로 밝혀졌으며, 4) 희망도서의 종류는 연령별로 각기 다른 선호도를 보였다. 5) 2014년 거의 14만 건의 다운로드가 이루어졌고 - 피처폰에 비해 36.3% 증가, 6) 가장 중요한 기능은 책갈피와 페이지/목차 이동 기능인 것으로 판명되었다.

유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용 (Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network)

  • 김영복
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1067-1074
    • /
    • 2005
  • 모바일 사용자 인터페이스가, 특히 유비쿼터스 컴퓨팅 환경에서, 정보를 빨리 그리고 편리하게 액세스하는데 중요해지고 있다. 모바일 컴퓨팅 환경에서의 많은 신규서비스들 중에서, 한글1자 도메인명을 포함하여, 한글알파벳(자음과 모음) 도메인명을 이용한 유비쿼터스 정보네트워킹서비스가 연구되었다. 긴 영어나 한글의 URL 스트링 대신에, 정보 액세스를 위한 편리한 사용자 인터페이스로서, 유선 인터넷에서 뿐만아니라 모바일 인터넷에서, 한글1자/자음/모음 도메인명이 정보를 액세스하고 정보를 알리는데 긴 URL스트링보다 더 편리하다. PC뿐만아니라 휴대폰에서 한글1자/자음/모음 도메인명의 편리함을 연구하였고, 음성변환(TTS) 기능을 가지고 있으며 한글1자/자음/모음 도메인명으로 액세스할 수 있는 유비쿼터스 정보포털의 구현과 응용을 소개한다

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

텍스트 마이닝 기법을 활용한 인공지능 기술개발 동향 분석 연구: 깃허브 상의 오픈 소스 소프트웨어 프로젝트를 대상으로 (A Study on the Development Trend of Artificial Intelligence Using Text Mining Technique: Focused on Open Source Software Projects on Github)

  • 정지선;김동성;이홍주;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2019
  • 제4차 산업혁명을 이끄는 주요 원동력 중 하나인 인공지능 기술은 이미지와 음성 인식 등 여러 분야에서 사람과 유사하거나 더 뛰어난 능력을 보이며, 사회 전반에 미치게 될 다양한 영향력으로 인하여 높은 주목을 받고 있다. 특히, 인공지능 기술은 의료, 금융, 제조, 서비스, 교육 등 광범위한 분야에서 활용이 가능하기 때문에, 현재의 기술 동향을 파악하고 발전 방향을 분석하기 위한 노력들 또한 활발히 이루어지고 있다. 한편, 이러한 인공지능 기술의 급속한 발전 배경에는 학습, 추론, 인식 등의 복잡한 인공지능 알고리즘을 개발할 수 있는 주요 플랫폼들이 오픈 소스로 공개되면서, 이를 활용한 기술과 서비스들의 개발이 비약적으로 증가하고 있는 것이 주요 요인 중 하나로 확인된다. 또한, 주요 글로벌 기업들이 개발한 자연어 인식, 음성 인식, 이미지 인식 기능 등의 인공지능 소프트웨어들이 오픈 소스 소프트웨어(OSS: Open Sources Software)로 무료로 공개되면서 기술확산에 크게 기여하고 있다. 이에 따라, 본 연구에서는 온라인상에서 다수의 협업을 통하여 개발이 이루어지고 있는 인공지능과 관련된 주요 오픈 소스 소프트웨어 프로젝트들을 분석하여, 인공지능 기술 개발 현황에 대한 보다 실질적인 동향을 파악하고자 한다. 이를 위하여 깃허브(Github) 상에서 2000년부터 2018년 7월까지 생성된 인공지능과 관련된 주요 프로젝트들의 목록을 검색 및 수집하였으며, 수집 된 프로젝트들의 특징과 기술 분야를 의미하는 토픽 정보들을 대상으로 텍스트 마이닝 기법을 적용하여 주요 기술들의 개발 동향을 연도별로 상세하게 확인하였다. 분석 결과, 인공지능과 관련된 오픈 소스 소프트웨어들은 2016년을 기준으로 급격하게 증가하는 추세이며, 토픽들의 관계 분석을 통하여 주요 기술 동향이 '알고리즘', '프로그래밍 언어', '응용분야', '개발 도구'의 범주로 구분하는 것이 가능함을 확인하였다. 이러한 분석 결과를 바탕으로, 향후 다양한 분야에서의 활용을 위해 개발되고 있는 인공지능 관련 기술들을 보다 상세하게 구분하여 확인하는 것이 가능할 것이며, 효과적인 발전 방향 모색과 변화 추이 분석에 활용이 가능할 것이다.