• 제목/요약/키워드: 텍스트 함의

검색결과 542건 처리시간 0.036초

온톨로지 기반 지식 검색 시스템 개발: KT 콜센터 사례 (Development of an ontology-based knowledge search system: The case of KT call center)

  • 안세열;최현식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.576-579
    • /
    • 2010
  • 콜센터의 고객문의는 복잡하여 기존 검색 시스템으로는 고객의 문제점을 신속하게 찾아 상담에 적용하는데 문제가 많았다. 온톨로지를 구축하고 시맨틱 검색을 제공할 경우 보다 보다 좋은 검색 기능을 제공할 것으로 기대되나 콜센터의 상담지식은 내용이 매우 복잡하여 그 텍스트의 내용을 완벽하게 온톨로지로 표현하는 것은 쉽지 않았다. 본 논문에서는 온톨로지 기반으로 구축된 지식베이스의 데이터 검색과 함께 그와 가장 관련성이 높은 문서를 출력하기 위해 문서를 온톨로지와 링크하여 어노테이션하는 방법을 제안한다. 본 시스템을 적용한 상담에서 상담원들의 생산성이 향상되고 고객 만족도를 높이는 결과를 확인했다.

멀티-세션 오픈 도메인 지식기반 대화 수집 툴 (Multi-Session Open Domain Knowledge-based dialog collection Tool)

  • 김태용;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

가변 속성 포스팅 구조의 설계 (A Design of Variable Attributes Posting Structures)

  • 안후영;이승희;박영호;이종훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.759-760
    • /
    • 2009
  • 최근, 이질적인 형태의 멀티미디어 데이터들의 증가와 함께, 멀티미디어 콘텐츠들의 저장 및 검색의 중요성이 대두되고 있다. 기존의 검색 엔진들은 대부분 텍스트 데이터만을 대상으로 하고 있으며, 특별한 도메인에서는 객체 지향 데이터베이스, 객체 관계 데이터베이스 등 별도의 데이터베이스를 활용하여 검색에 사용하고 있다. 본 논문에서는 다양한 멀티미디어 콘텐츠들의 저장 및 색인에 유연한 가변 속성 포스팅 구조를 제안한다. 제안하는 가변 포스팅 구조는 벡터의 개념을 사용하여 포스팅의 속성을 추가할 수 있게 하였다. 본 논문에서 제안하는 포스팅 구조는 이질적인 형태의 멀티미디어 콘텐츠들을 각 콘텐츠들의 속성에 따라 가변적으로 저장 구조를 정의하고, 이에 따라 인덱스를 구축할 수 있는 확장성 있는 방안이다.

효율적인 문서 구성을 위한 TF-IDF 알고리즘 기반 문서 제안 시스템의 설계 (Design of Document Suggestion System based on TF-IDF Algorithm for Efficient Organization of Documentation)

  • 김영훈;박승민;조대수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.527-528
    • /
    • 2022
  • 빠르게 변하는 환경에 맞춰 평생 교육이 일반화되고 개인에게 요구되는 학습량은 많아지고 있으며 높아진 학습량에 맞게 학습 시간 단축과 효율적인 학습을 위한 학습 방법을 선택하는 것이 중요해지고 있다. 본 논문에서는 학습 정리를 위해 작성한 문서를 분석하여 해당 문서와 관련된 문서를 제안하고 본 문서와 엮어 학습을 위한 문서 묶음을 만들 수 있는 시스템을 제안한다. 문서의 유사도, 중요도를 구할 수 있는 TF-IDF를 이용하여 문서를 분석해 키워드를 추출한 다음 그와 관련된 문서를 제안하고 문서 묶음을 만들어 조회할 수 있도록 한다. 이 시스템은 학습 정리 시 관련 문서를 함께 볼 수 있도록 하고, 필요하다면 묶음으로 만들어 효과적인 학습을 위한 도구로 이용할 수 있다.

  • PDF

STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안 (Noise filtering method based on voice frequency correlation to increase STT efficiency)

  • 임지원;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

Unity 엔진을 이용한 노년층을 위한 VR 멀티 시뮬레이션 게임 개발 (Development of VR Multi Simulation Game for Old People using Unity Engine.)

  • 차주영;윤혜원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.604-606
    • /
    • 2020
  • 본 논문은 노인의 외로움 해소를 위해 Unity 를 이용한 VR 멀티 시뮬레이션 게임 프로그램의 설계 및 개발 내용을 다루고 있다. 본 시뮬레이션은 주 타겟층인 노년층을 고려하여 최소한의 간단한 조작법을 지향하고 있으며 따라서 3D 1 인칭 어드벤처 시점, 바라보는 방향으로 이동하는 연속 이동방식을 채택하였다. 서버를 이용하여 2 인 이상의 멀티 시뮬레이션 환경을 지원하며 텍스트 채팅이 아닌 음성 채팅을 통하여 시뮬레이션 유저들 간의 소통을 지원해준다. 다른 유저들과 함께 GameObject 의 상호작용을 보며 대화를 이어가거나, 낚시, 채집 활동을 할 수 있다. 이로 하여금 노년층의 외로움 해소를 도울 수 있도록 개발하였다.

BERT 모델을 이용한 한국어 공간 개체 추출 (Korean Spatial Elements Extraction using BERT)

  • 신형진;육대범;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.478-480
    • /
    • 2019
  • 텍스트에서 공간 정보를 추출하기 위해 그동안 통계 및 확률 기반 방법, 심층학습 방법 등이 연구되어 왔다. 본 연구에서는 최근 자연언어처리에서 우수한 성능을 보이고 있는 BERT 모델을 적용하여 공간 개체 정보를 추출한다. 공간 개체 추출은 공간 관계에 관련된 속성 추출을 함께 고려한 결합(joint) 모델로 구성하였으며, 한국어를 대상으로 BERT 기학습된 언어모델인 korBERT를 이용하였다. 실험결과, 기존의 방법들에 비해 1.9% 포인트 이상 증가한 성능을 보였다.

  • PDF

공황장애 상담을 위한 멀티모달 과제 지향 대화 태스크 구축 (Building a multimodal task-oriented dialogue task for panic disorder counseling)

  • 김수빈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-262
    • /
    • 2023
  • 과제 지향 대화 시스템은 발화 의도 및 요구사항을 파악하여 사용자가 원하는 과제를 달성한다는 점에서 유용하다. 대화 상태 추적은 과제 지향 대화 시스템의 핵심 모듈이며, 최근에는 텍스트뿐만 아니라 시각 정보까지 활용하여 대화 상태를 추적하는 멀티모달 대화 상태 추적 연구가 활발히 진행되는 중이다. 본 논문에서는 멀티모달 공황장애 상담 대화 속 내담자의 상태를 추적하는 과제를 제안하였다. ChatGPT를 통한 멀티모달 공황장애 상담 과제 지향 대화 데이터셋 구축 프레임워크와, 구축한 데이터셋의 품질을 증명하기 위한 분석도 함께 제시하였다. 사전학습 언어 모델인 GPT-2를 벤치마크 데이터셋에 대해 학습한 성능을 측정함으로써 향후 멀티모달 대화 추적 성능이 능가해야 할 베이스라인 성능을 제시하였다.

  • PDF

원격 개인 농구 기술 피드백 영상 자동 더빙 시스템 (Automatic Dubbing System for Remote Personalized Basketball Feedback Video)

  • 임종욱;;윤영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.466-467
    • /
    • 2024
  • 본 논문은 전문 스킬 트레이너들의 개인 농구 기술 분석 및 피드백 영상에 더빙을 자동으로 적용하는 시스템을 제안한다. 이 시스템은 농구 용어집 기반 번역, 음성-텍스트 변환 모델 간의 비교 분석, 영상과 더빙 트랙 동기화 알고리즘을 통해 다양한 언어로의 신속한 자동 번역과 더빙을 가능하게 함으로써 선수와 코치 간의 언어 장벽 없는 소통을 지원한다. 본 연구는 자동 더빙 기술에 힘입어 원격 농구 교육 효율성과 질의 재고 및 저변 확산에 기여하고자 한다.

효과적인 RAG Document Data 구조화 전략 (Effective RAG Document Data Structuring Strategy)

  • 손영진;임유경;박민정;채상미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.807-809
    • /
    • 2024
  • 대규모 언어 모델의 발전은 텍스트 생성 및 정보 제공 분야에서 큰 진전을 이루었으며 사용자와의 원활한 소통을 가능하게 했다. 그러나 언어 모델은 특화된 정보 제공에 한계를 가지며 때때로 부정확한 정보를 생성할 수 있다. RAG(Retrieval-Augmented Generation) 기법은 이러한 한계를 극복하기 위해 제안되었다. 본 연구에서는 RAG 의 답변품질과 효율성을 높이기 위해 외부 문서 정보와 단어 단위로 카테고리화된 인덱싱 데이터 세트를 함께 제공하여 보다 정확하고 신뢰성 있는 문서 생성을 가능하게 하는 접근법을 제시한다.