• Title/Summary/Keyword: 검색 증강

Search Result 75, Processing Time 0.027 seconds

In-Context Retrieval-Augmented Korean Language Model (In-Context 검색 증강형 한국어 언어 모델)

  • Sung-Min Lee;Joung Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.443-447
    • /
    • 2023
  • 검색 증강형 언어 모델은 입력과 연관된 문서들을 검색하고 텍스트 생성 과정에 통합하여 언어 모델의 생성 능력을 강화한다. 본 논문에서는 사전 학습된 대규모 언어 모델의 추가적인 학습 없이 In-Context 검색 증강으로 한국어 언어 모델의 생성 능력을 강화하고 기존 언어 모델 대비 성능이 증가함을 보인다. 특히 다양한 크기의 사전 학습된 언어 모델을 활용하여 검색 증강 결과를 보여 모든 규모의 사전 학습 모델에서 Perplexity가 크게 개선된 결과를 확인하였다. 또한 오픈 도메인 질의응답(Open-Domain Question Answering) 과업에서도 EM-19, F1-27.8 향상된 결과를 보여 In-Context 검색 증강형 언어 모델의 성능을 입증한다.

  • PDF

Construction of Korean symptom articulation data using rule-based data augmentation technique (규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축)

  • Seong-Won Jeon;Dong-Jun Lee;Dong-Ho Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.360-362
    • /
    • 2023
  • 건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Korean QA with Retrieval Augmented LLM (검색 증강 LLM을 통한 한국어 질의응답)

  • Mintaek Seo;Seung-Hoon Na;Joon-Ho Lim;Tae-Hyeong Kim;Hwi-Jung Ryu;Du-Seong Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.690-693
    • /
    • 2023
  • 언어 모델의 파라미터 수의 지속적인 증가로 100B 단위의 거대 언어모델 LLM(Large Language Model)을 구성 할 정도로 언어 모델의 크기는 증가 해 왔다. 이런 모델의 크기와 함께 성장한 다양한 Task의 작업 성능의 향상과 함께, 발전에는 환각(Hallucination) 및 윤리적 문제도 함께 떠오르고 있다. 이러한 문제 중 특히 환각 문제는 모델이 존재하지도 않는 정보를 실제 정보마냥 생성한다. 이러한 잘못된 정보 생성은 훌륭한 성능의 LLM에 신뢰성 문제를 야기한다. 환각 문제는 정보 검색을 통하여 입력 혹은 내부 표상을 증강하면 증상이 완화 되고 추가적으로 성능이 향상된다. 본 논문에서는 한국어 질의 응답에서 검색 증강을 통하여 모델의 개선점을 확인한다.

  • PDF

Analysis of Edu-Tech Trends Using Virtual and Augmented Reality (가상·증강현실을 활용한 에듀테크 동향 분석)

  • Hwang, Eui-Chul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.115-116
    • /
    • 2021
  • 5세대(5G) 이동통신망의 보급과 코로나19 여파로 비대면 시대가 열리면서 가상 증강현실(VR·AR)을 기반으로 한 '실감(XR·Extended Reality)경제가 본격화 되었다. 가상증강현실의 적용분야로는 게임·영화 등 엔터테인먼트, 제조업, 쇼핑 및 전자상거래, 병원·의료기기, 고객서비스, 지식서비스교육 분야 등이 있다. 본 논문은 VR·AR&교육콘텐츠를 키워드로 최근 3년(2018.1.1.~2020.12.31.)간 중앙지, 경제지 등 54개 언론사 기사를 빅카인즈와 데이터랩을 이용하여 관계도 분석, 월간 키워드 트렌드, 연관어 분석을 하였다. 'VR, AR, 에듀테크'를 키워드로 뉴스 검색결과 63,959건 중 '에듀테크' 검색결과 2018년 632건, 2019년 1043건, 2020년 2389건으로 해마다 급 상승하였다. '(AR+VR)AND 교육콘텐츠'에 대한 검색 결과 연관성(키워드 빈도수)이 높은 키워드로는 증강현실(120), 가상현실(116), 인공지능(114), 에듀테크(100), 코로나19(66), 실감형(65), 아이들(61), VR·AR(56), ICT(35), 빅데이터(25) 순으로 가상·증강현실 기술 발전, 코로나19의 장기화, 교육의 효율성으로 에듀테크 분야의 활용도가 급격히 증가함을 확인할 수 있었다.

  • PDF

Database Architecture of Augmented Reality Based Bridge Information System using Smartphone (스마트폰을 이용한 증강현실 기반 교량 정보 시스템 데이터베이스 설계)

  • Bae, Sung-Han;Lee, Gi-Yeol;Lee, HwaMin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.810-813
    • /
    • 2012
  • 증강현실은 가상세계와 현실세계를 혼합한 기술로, 현재 여러 분야에서 증강현실을 접목한 다양한 연구가 이루어지고 있다. 건설 산업은 복잡한 설계와 시설물을 기반으로 모든 업무가 행해지는 특징으로 인해 증강현실의 활용 가능성이 높은 분야로 주목되고 있다. 스마트폰을 이용하여 교량의 정보를 제공하는 증강현실 기반 교량 정보 시스템(InfoBridge)은 사용자들에게 많은 정보를 제공하기 위해서 최적화된 데이터베이스 모델링이 필요하다. 많은 사용자들이 원하는 정보를 찾을 때 정보의 누락이 없어야 하고 빠른 검색을 통해서 정보를 제공 받아야 한다. 또한 관리자는 사용자가 원하는 정보를 정확하게 제공하기 위해서 데이터베이스의 최신화가 필수이다. 이에 본 논문에서는 증강현실 기반 교량 정보 시스템의 데이터베이스 설계를 제안한다. 우리나라에 있는 많은 교량들의 내/외적인 정보를 데이터베이스에 담기 위해서는 적절한 설계가 필요하며 이러한 설계를 통해서 정보의 빠른 검색, 데이터베이스의 효과적인 유지보수를 제공한다.

Spatial Filtering Techniques for Geospatial AR Applications in R-tree (R-tree에서 GeoSpatial AR 응용을 위한 공간필터링 기법)

  • Park, Jang-Yoo;Lee, Seong-Ho;Nam, Kwang-Woo
    • Spatial Information Research
    • /
    • v.19 no.1
    • /
    • pp.117-126
    • /
    • 2011
  • Recently, AR applications provide location-based spatial information by GPS. Also, the spatial information is displayed by the angle of the camera. So far, traditional spatial indexes in spatial database field retrieve and filter spatial information by the minimum bounding rectangle (MBR) algorithm.(ex. R-tree) MBR strategy is a useful technique in the geographic information systems and location based services. But MBR technique doesn't reflect the characteristics of spatial queries in AR. Spatial queries of AR applications have high possibility of the dead space area between MBRs of non-leaf node and query area. We propose triangle node filtering algorithm that improved efficiency of spatial retrieval used the triangle node filtering techniques by exclusion the dead space. In this paper, the proposed algorithm has been implemented on PostgreSQL/PostGIS. Experimental results show the spatial retrieval that using the proposed algorithm better performance than the spatial retrieval that of the minimum bounding rectangle algorithm.

Prefetching Techniques for Efficient Continuous Spatial Queries on Mobile AR (모바일 AR에서 효율적인 연속 공간 질의를 위한 프리패칭 기법)

  • Jung, Yong Hee;Jo, Hyun Gu;Yang, Pyoung Woo;Song, Chung Won;Lee, Yon Sik;Nam, Kwang Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.171-173
    • /
    • 2012
  • 최근에 스마트폰 기반의 다양한 증강현실 서비스들이 제공되고 있다. 이러한 증강현실 서비스들은 공간질의를 하고 검색되어진 데이터를 실제 영상화면에 표현해주는 것을 말한다. 본 논문은 증강현실 서비스에서 많이 이용되는 공간 검색 성능을 향상 시키기 위하여 기존의 속도기반 프리패칭 기법에 사용자의 시점을 이용한 영역 검색 방법을 혼합하여 효율적이고 의미 있는 검색을 가능하게 하였다.

Dense Retrieval using Pretrained RoBERTa with Augmented Query (증강된 질문을 이용한 RoBERTa 기반 Dense Passage Retrieval)

  • Jun-Bum Park;Beomseok Hong;Wonseok Choi;Youngsub Han;Byoung-Ki Jeon;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.141-145
    • /
    • 2022
  • 다중 문서 기반 대화 시스템에서 응답 시스템은 올바른 답변을 생성하기 위해서 여러 개의 문서 중 질문과 가장 관련 있는 문서를 검색하는 것부터 시작해야 한다. DialDoc 2022 Shared Task[1]를 비롯한 최근의 연구들은 대화 시스템의 문서 검색 과정을 위해 Dense Passage Retrieval(DPR)[2] 모델을 사용하고 있으며 검색기의 성능 개선을 위해 Re-ranking과 Hard negative sampling 같은 방법들이 연구되고 있다. 본 논문에서는 문서에 기반하는 대화 데이터의 양이 적거나 제한될 경우, 주어진 데이터를 효율적으로 활용해 보고자 검색기를 생성 모델을 이용하여 문서의 엔티티를 기반으로 질문을 생성하고 기존 데이터에 증강하는 방법을 제시했으며 실험의 결과로 MRR metric의 경우 0.96 ~ 1.56의 성능 향상을, R@1 metric의 경우 1.2 ~ 1.57의 성능 향상을 확인하였다.

  • PDF

A Spatial Index Technique supporting Efficient Spatial Query Processing for AR Applications (AR 응용을 위한 효율적인 공간 질의 처리를 지원하는 공간색인)

  • Park, Jang-Yoo;Yang, Pyoung-Woo;Nam, Kwang-Woo
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2010.06a
    • /
    • pp.50-52
    • /
    • 2010
  • 전통적인 공간 정보 기술인 GIS는 최근 첨단 정보통신 기술들과의 융 복합을 통해 유비쿼터스 환경을 구축하기 위해 진화하고 있다. 한편, 증강현실 기술은 (Augmented Reality) 가상의 그래픽 환경을 실제 환경에 합성하여 사용자가 실제와 가상을 동시에 인식하게 하는 기술이다. 최근 휴대기기의 발달로 전통적인 사용자 위치 기반 서비스에 증강현실을 접목하여 다양한 정보를 실제 환경에 더해 보여주는 기술들이 증가 하고 있다. 전통적인 GIS에서의 공간 질의는 최소 정계 사각형을 사용하지만 증강현실이 적용되는 공간 질의는 삼각형의 형태를 가진다. 본 논문에서는 이러한 증강현실 응용을 위한 공간 질의 검색 알고리즘을 제안한다. 제안하는 알고리즘은 데드 스페이스 발생으로 인한 노드의 추가 검색 시간을 감소시킴으로서 기존의 R-tree 기반의 공간 색인들의 성능 향상을 꾀한다. 마지막으로 PostGIS를 이용한 실험을 통해 성능을 입증하였다.

  • PDF