• 제목/요약/키워드: 음성 인식 후처리

검색결과 131건 처리시간 0.042초

AI기반 콜센터 실시간 상담 도우미 시스템 개발 - N은행 콜센터 사례를 중심으로 (Development of AI-based Real Time Agent Advisor System on Call Center - Focused on N Bank Call Center)

  • 류기동;박종필;김영민;이동훈;김우제
    • 한국산학기술학회논문지
    • /
    • 제20권2호
    • /
    • pp.750-762
    • /
    • 2019
  • 기업의 대고객 접점으로써 콜센터의 중요성은 커지고 있다. 하지만, 콜센터는 상담사의 지식 부족과 업무 부적응에 따른 잦은 이직으로 인해 상담사 운영이 어렵고, 이로 인한 고객 서비스 품질 저하의 문제를 안고 있다. 이에 본 연구에서는 상담사에게 업무 지식에 대한 부하를 줄이고 서비스 품질을 향상 시키기 위해 음성 인식 기술과 자연어 처리 및 질의응답을 지원하는 AI 기술과 PBX, CTI 등의 콜센터 정보시스템을 결합하여 실시간으로 상담사에게 고객의 질의 내용에 대한 답변을 제공해주는 "실시간 상담 도우미" 시스템 개발 방안에 대해 N은행 콜센터 사례를 통해 연구하였다. 사례연구 결과, 실시간 통화 분석을 위한 음성인식 시스템의 구성방안과, 질의응답 시스템의 자연어처리 성능 향상을 위한 말뭉치 구축 방안을 확인 할 수 있었으며, 특히 개체명 인식기의 경우 도메인에 맞는 말뭉치 학습 후 정확도가 31% 향상됨을 확인하였다. 또한, 상담 도우미 시스템을 적용한 후 상담 도우미의 답변에 대한 상담사들의 긍정적 피드백 비율이 93.1%로써 충분히 상담사 업무에 도움을 주고 있음을 확인하였다.

안드로이드 기반 로고를 이용한 증강현실 시스템 (Augmented Reality Logo System Based on Android platform)

  • 정은영;정운국;임선진;문창배;김병만
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.181-192
    • /
    • 2011
  • 스마트 폰의 등장과 모바일 인터넷을 제공함에 따라 휴대폰은 음성통신 수단이 아닌 웹을 통하여 서비스를 제공받는 도구 또는 각종 게임 및 응용 어플리케이션을 제공하는 놀이 수단으로도 발전하였고, 이로 인하여 사용량도 증가하였다. 사용량의 급증으로 인하여 모바일 광고에 대한 업계의 관심도 증가 하였지만, 한정적인 출력 화면에 의하여 광고 효과가 제한적일 수밖에 없다. 이를 보완하기 위해, 본 논문에서는 기업의 로고 광고의 효과를 극대화 할 수 있는 안드로이드 기반 로고 인식 증강 현실 시스템을 제안하였고, 이를 구현하여 실제 스마트 폰에 탑재한 후 다양한 성능 분석을 하였다. 실험결과, 그 가능성은 확인하였지만 현 하드웨어 성능상 실시간으로 지원하기에는 역부족임을 알 수 있었다.

안드로이드 기반 로고를 이용한 증강현실 시스템 (Augmented Reality Logo System Based on Android platform)

  • 임선진;정은영;정운국;정경민;문창배;김병만;이종열
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.353-356
    • /
    • 2011
  • 스마트 폰의 등장과 모바일 인터넷을 제공함에 따라 휴대폰은 음성통신 수단이 아닌 웹을 통하여 서비스를 제공받는 도구 또는 각종 게임 및 응용 어플리케이션을 제공하는 놀이수단으로도 발전하였고, 이로인하여 사용량도 증가하였다. 사용량의 급증으로 인하여 모바일 광고에 대한 업계의 관심도 증가 하였지만, 한정적인 출력화면에 의하여 제한적일 수밖에 없다. 이를 보완하기 위해, 본 논문에서는 기업의 로고 광고의 효과를 극대화 할 수 있는 안드로이드 기반 로고를 인식하는 증강현실 시스템을 제안 하였고, 이를 구현 하여 실 제폰에 탑재한 후 다양한 성능 분석을 하였다. 실험결과, 그 가능성은 확인하였지만 현하드웨어 성능으로는 실시간으로 지원하기에는 역부족임을 알 수 있었다.

한국어 및 영어 이미지 캡션이 가능한 범용적 모델 및 목적에 맞는 텍스트를 생성해주는 기법 (A general-purpose model capable of image captioning in Korean and Englishand a method to generate text suitable for the purpose)

  • 조수현;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1111-1120
    • /
    • 2022
  • Image Captioning은 이미지를 보고 이미지를 언어로 설명하는 문제이다. 해당 문제는 이미지 처리와 자연어 처리 두 가지의 분야를 하나로 묵고 이해하고 하나로 묶어 해결할 수 있는 중요한 문제이다. 또한, 이미지를 자동으로 인식하고 텍스트로 설명함으로써 시각 장애인을 위해 이미지를 텍스트로 변환 후 음성으로 변환하여 주변 환경을 이해하는 데 도움을 줄 수 있으며, 이미지 검색, 미술치료, 스포츠 경기 해설, 실시간 교통 정보 해설 등 많은 곳에 적용할 수 있는 중요한 문제이다. 지금까지의 이미지 캡션 구 방식은 이미지를 인식하고 텍스트화시키는 데에만 집중하고 있다. 하지만 실질적인 사용을 하기 위해 현실의 다양한 환경이 고려되어야 하며 뿐만 아니라 사용하고자 하는 목적에 맞는 이미지 설명을 할 수 있어야 한다. 본 논문에서는 범용적으로 사용 가능한 한국어 및 영어 이미지 캡션 모델과 이미지 캡션 목적에 맞는 텍스트 생성 기법을 제한한다.

MFCC 특징 벡터를 이용한 수중 천이 신호 식별 (Classification of Underwater Transient Signals Using MFCC Feature Vector)

  • 임태균;황찬식;이형욱;배건성
    • 한국통신학회논문지
    • /
    • 제32권8C호
    • /
    • pp.675-680
    • /
    • 2007
  • 일반적으로 천이 신호의 식별은 지진학이나 상태 모니터링 분야, 특히 수중 음향 신호 처리 분야에서 활발한 연구가 이루어지고 있다. 수중 환경에서 발생하는 천이 신호로는 돌고래와 같은 해양 생물이 내는 천이 신호와 선박, 잠수함 등에서 발생하는 인위적인 천이 신호 등이 있으며, 수중 감시 체계에서 이러한 수중 천이 신호를 식별하는 문제는 매우 중요한 연구 주제이다. 본 논문에서는 음성 인식 분야에서 우수한 인식 성능을 보이는 MFCC(Mel Frequency Cepstral Coefficient)를 기반으로, 천이 신호로 탐지된 입력 신호에 대하여 분석 프레임 단위로 MFCC 특징 벡터를 추출하고, 식별하고자 하는 데이터베이스에 있는 모든 참조 신호들의 MFCC 특징 벡터와의 유클리디언 거리(euclidean distance)를 계산한 후, 가장 작은 값을 갖는 참조 신호로 입력 프레임들을 사상(mapping)시킴으로써 사상이 가장 많이 된 참조 신호로 탐지된 수중 천이신호를 식별하는 프레임 기반의 식별 알고리즘을 제안한다.

심층신경망을 활용한 활주로 가시거리 예측 모델 개발 (Development for Estimation Model of Runway Visual Range using Deep Neural Network)

  • 구성관;홍석민
    • 한국항행학회논문지
    • /
    • 제21권5호
    • /
    • pp.435-442
    • /
    • 2017
  • 안개 등의 영향을 받는 활주로 시정은 비행장에서 항공기 이착륙의 가능 여부를 결정하는 주요 지표중 하나이다. 운송용 항공기가 운항되는 공항의 경우 활주로 시정을 포함한 주요 국지 기상 예보를 시행하며, 이를 항공종사자가 확인할 수 있도록 하고 있다. 본 논문은 최근 영상 처리, 음성 인식, 자연어 처리 등의 다양한 분야에 적용되고 있는 심층신경망을 활주로 시정 예측에 적용하여 국지 비행장의 활주로 시정 예측 모델을 개발하고 이를 활용한 예측을 수행하였다. 적용 대상 비행장의 과거 실제 기상 관측 값을 활용하여 신경망 학습 후 시정에 대한 예측을 수행하였고, 기존 관측 데이터와 비교한 결과 비교적 정확한 예측 결과를 확인하였다. 또한 개발된 모델은 별도의 예보 기능이 없는 해당 비행장에서 참고할 수 있는 기상정보를 생성하는데 사용될 수 있을 것이다.

좌표계산을 통해 동영상의 안면 특징점 분석을 중심으로 한 웹 기반 발표 태도 교정 프로그램 개발 (Development of a Web-based Presentation Attitude Correction Program Centered on Analyzing Facial Features of Videos through Coordinate Calculation)

  • 권기현;안수호;박찬정
    • 한국콘텐츠학회논문지
    • /
    • 제22권2호
    • /
    • pp.10-21
    • /
    • 2022
  • 학생들의 취업을 위한 면접 발표와 회사에서의 프로젝트 결과 발표 등과 같은 형식적인 발표 태도가 개선되려면 동료나 교수자의 관찰에 의한 방법 이외에 자동화된 방법은 드물다. 기존 연구에 따르면, 발표자의 안정적인 발화와 시선 처리가 발표에서의 전달력에 영향을 미친다고 한다. 또한, 본인 발표에 대한 적절한 피드백이 발표자의 발표 역량을 늘이는 효과가 있다는 연구도 있다. 본 연구에서는 이와 같은 교정의 긍정적 측면을 고려하여 대학생들의 잘못된 발표 습관과 태도를 동영상의 안면 분석을 통해 지능적으로 교정해 주는 프로그램을 개발하고 성능을 분석하였다. 개발하는 프로그램은 웹 기반으로 군말 사용 여부를 확인하고 안면 인식과 발표 내용 텍스트화를 통해 개발되었다. 이를 위해 군말 분류 인공지능 모델을 개발하였고, 동영상 객체 추출 후, 좌표에 기반으로 얼굴 특징점을 인식하였다. 이후 4,000개 안면 데이터를 이용해 Teachable Machine에서 안면 인식한 경우와 본 연구의 알고리즘 성능을 비교·분석하였다. 프로그램을 이용해 발표 태도를 자기스스로 교정하여 발표자들에게 도움을 준다.

목적지향 대화에서 화자 의도의 통계적 예측 모델 (A Statistical Prediction Model of Speakers' Intentions in a Goal-Oriented Dialogue)

  • 김동현;김학수;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.554-561
    • /
    • 2008
  • 사용자 의도 예측 기술은 음성인식기의 탐색 공간을 줄이기 위한 후처리 방법으로 사용될 수 있으며, 시스템 의도 예측 기술은 유연한 응답 생성을 위한 전처리 방법으로 사용될 수 있다. 이러한 실용적인 필요성에 따라 본 논문에서는 화행과 개념열의 쌍으로 일반화된 화자의 의도를 예측하는 통계 모델을 제안한다. 단순한 화행 n-그램 통계만을 이용한 기존의 모델과는 다르게 제안 모델은 현재 발화까지의 대화 이력을 다양한 언어 레벨의 자질 집합(화행과 개념열 쌍의 n-그램, 단서 단어, 영역 프레임의 상태정보)으로 표현한다. 그리고 추출된 자질 집합을 CRFs(Conditional Random Fields)의 입력으로 사용하여 다음 발화의 의도를 예측한다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 사용자의 화행과 개념열 예측에서 각각 76.25%, 64.21%의 정확률을 보였다. 그리고 시스템의 화행과 개념열 예측에서 각각 88.11%, 87.19%의 정확률을 보였다. 또한 기존 모델과 비교하여 29.32% 높은 평균 정확률을 보였다.

진주만에서 저서 다모류의 시 · 공간 분포 (Seasonal and Spatial Distribution of Soft-bottom Polychaetesin Jinju Bay of the Southern Coast of Korea)

  • 강창근;백명선;김정배;이필용
    • 한국수산과학회지
    • /
    • 제35권1호
    • /
    • pp.35-45
    • /
    • 2002
  • 피조개 양식장으로 이용되고 있는 남해 연안의 진주만에서 저서 다모류 분포를 밝히기 위하여 van Veen grab 채니기를 이용하여 1999년 8월부터 2000년 5월 사이에 계절별로 4회에 걸쳐 저서동물을 채집하였다. 조사기간 중 총 132종의 저서 다모류가 채집되어, 출현한 전체 저서동물 개체수 중 약 $80\%$를 차지하였다. 다모류의 평균 출현 개체수는 계절별로 뚜렷한 차이를 나타내지 않았으나 생체량은 여름 (8월)에 가장 높았던 반면, 종 다양도와 풍도는 여름철에 가장 낮았다. 이것은 계절에 따른 종조성 변동에 의한 다모류 군집 차이를 반영하는 것으로, 이와 같은 계절변동은 봄철에 소형의 몇몇 r-선택성 기회종과 여름철에 서관을 만드는 Mal-danidae과 종의 출현에 기인하였다. 한편, Capitella Capitata, No-tomastus latericeus 및 Lumbrineris sp.와 같이 유기물이 풍부한 해역에서 흔히 출현하는 종들이 만 전체적으로 연중 높은 밀도를 나타내었다. 남부의 피조개 양식장 수역은 상대적으로 낮은 개체수와 생체량을 나타내었는데, 종 다양도와 풍도 역시 상대적으로 낮은 경향을 보였다. 주성분 분석의 결과는 만내 다른 수역에서 우점하는 Maldanidae과는 물론 소형 기회종의 출현 빈도가 피조개 양식장 수역에서 대단히 낮아 피조개 양식장 수역 저서 다모류 군집이 인근 나머지 정점군들의 군집과 뚜렷이 구분된다는 것을 잘 보여주었다. 다모류 군집의 공간변동은 피조개 양식장 수역 퇴적물의 더욱 세립한 입도 조성과 높은 황화물 농도 및 북부 일부 정점의 낮은 염분 등에 의해서 부분적으로 설명될 수 있었지만, 다른 환경 변수에서 이와 같은 차이는 뚜렷하지 않았다. 진주만에서 다모류 군집의 공간분포는 오히려 봄철에 피조개 채취를 위한 퇴적물의 물리적 교란에 의해 크게 영향을 받는 듯 하였다. 않고 사육조 수면으로 공급되는 우회량이 많을 경우 용존산소는 증가하였으나 수처리 장치로 공급되는 유량이 작아 부유 고형물, 유기물 등의 수질 인자가 악화되는 현상을 보였다.대된다.. 창란젓갈 저장시 품질측정변수에 대한 상관관계를 조사한 결과병포장에서는 용기내 압력, pH, L값, VBN, 관능검사 등이 상관관계가 높아 젓갈 포장에서 품질지표항목으로 이용할 수 있을 것으로 기대된다.는 0.1 mM과 0.4 mM 및 0.8 mM 배양구는 배양 5시간 후에 최대값이 되어 각각 $204\%$, $198\%$$191\%$로 증가하였다. 이처럼 BNF나 PB, MC는 명주조개에서도 미크로좀의 CYP 함량과 EROD 활성을 증가시키는 유도효과를 나타내었으며, 특히 MC에 의한 유도효과가 가장 강했고 BNF, PB의 순이었고, 대체로 약물의 농도가 높을수록 유도 효과도 큰 경향을 보였다.이 한국어와는 다른 것이라거나, 한국어 음성학을 공부하지 않고 한국어를 연구할 수 있다는 뜻은 아닙니다. 의학에도 분야마다 전문의가 있듯이, 언어학도 이제 복잡하고 광범한 학문이 되었으므로 분야별로 전문가가 나오게 된 것뿐입니다. 따라서 "나는 통사론에 관심이 있으므로 소리말에는 관심이 없다"고 말하는 언어학자가 있다면, 이 것은 크게 잘못된 것입니다. 마찬가지로 "나는 소리에만 관심이 있으므로 통사론에는 관심이 없다"고 말하는 음성학자가 있다면, 이 또한 안되는 일입니다. 문의 구성과 어휘 요소와 아무 관련이 없는 말소리의 차이가 무슨 소용이 있으며, 통사 구조를 표현하고 저달하는 말소리를 연구하지 않고 어떻게 통사론을 연구할 수 있겠습니까? 다시 간추리면, 언어는 본질적으로 소리말이고, 언어의 특성과 사용 및 습득도 모두 소리말 형태로 나타납니다. 따라서, 영국의 대학은 음성학이 대단히 중요함을 인식하고, 언어학을 올바르게

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.