• Title/Summary/Keyword: 네이버

검색결과 497건 처리시간 0.023초

검색의도에 적합한 스니펫 추출 (Extract Snippets Suitable for Search Intent)

  • 이현구;양윤영;김은별;차우준;노윤영;김은영;최규현;신동욱;박찬훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-246
    • /
    • 2021
  • 스니펫 추출은 정보검색에서 주요한 문서 정보를 짧은 문단 형태로 보여주는 것으로 사용자가 검색결과를 좀 더 효율적으로 확인할 수 있게 도와준다. 그러나 기존 스니펫은 어휘가 일치하는 문장을 찾아 보여주기에 검색의도가 반영되기 어렵다. 또한 의미적 정답을 찾기 위해 질의응답 방법론이 응용되고 있지만 오픈 도메인 환경에서 품질이 낮은 문제가 있다. 본 논문은 이러한 문제를 해결하기 위해 스니펫 추출, 의도 부착, 검증 3단계로 스니펫을 추출하여 추출된 스니펫이 질의 의도에 적합하게 추출되도록 하는 방법을 제안한다. 실험 결과 전통적인 스니펫보다 만족도가 높은 것을 보였고, 스니펫 추출만 했을 때보다 의도 부착, 검증을 하였을 때 정확도가 0.3165만큼 향상되는 것을 보였다.

  • PDF

Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화 (Query Normalization Using P-tuning of Large Pre-trained Language Model)

  • 서수빈;인수교;박진성;남경민;김현욱;문기윤;황원요;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.396-401
    • /
    • 2021
  • 초거대 언어모델를 활용한 퓨샷(few shot) 학습법은 여러 자연어 처리 문제에서 좋은 성능을 보였다. 하지만 데이터를 활용한 추가 학습으로 문제를 추론하는 것이 아니라, 이산적인 공간에서 퓨샷 구성을 통해 문제를 정의하는 방식은 성능 향상에 한계가 존재한다. 이를 해결하기 위해 초거대 언어모델의 모수 전체가 아닌 일부를 추가 학습하거나 다른 신경망을 덧붙여 연속적인 공간에서 추론하는 P-tuning과 같은 데이터 기반 추가 학습 방법들이 등장하였다. 본 논문에서는 문맥에 따른 질의 정규화 문제를 대화형 음성 검색 서비스에 맞게 직접 정의하였고, 초거대 언어모델을 P-tuning으로 추가 학습한 경우 퓨샷 학습법 대비 정확도가 상승함을 보였다.

  • PDF

이종의 말뭉치를 활용한 자기 지도 문장 임베딩 학습 방법 (Self-supervised Learning Method using Heterogeneous Mass Corpus for Sentence Embedding Model)

  • 김성주;서수빈;박진성;박성현;전동현;김선훈;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-36
    • /
    • 2020
  • 문장의 의미를 잘 임베딩하는 문장 인코더를 만들기 위해 비지도 학습과 지도 학습 기반의 여러 방법이 연구되고 있다. 지도 학습 방식은 충분한 양의 정답을 구축하는데 어려움이 있다는 한계가 있다. 반면 지금까지의 비지도 학습은 단일 형식의 말뭉치에 한정해서 입력된 현재 문장의 다음 문장을 생성 또는 예측하는 형식으로 문제를 정의하였다. 본 논문에서는 위키피디아, 뉴스, 지식 백과 등 문서 형태의 말뭉치에 더해 지식인이나 검색 클릭 로그와 같은 구성이 다양한 이종의 대량 말뭉치를 활용하는 자기 지도 학습 방법을 제안한다. 각 형태의 말뭉치에 적합한 자기 지도 학습 문제를 설계하고 학습한 경우 KorSTS 데이셋의 비지도 모델 성능 평가에서 기준 모델 대비 7점 가량의 성능 향상이 있었다.

  • PDF

생성된 질의응답 간 일관성을 이용한 자연어 질의 생성 (Natural question generation based on consistency between generated questions and answers)

  • 이재홍;조휘열;인수교;김성주;문기윤;민태홍;김경덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.109-114
    • /
    • 2022
  • 질의 생성 모델은 스마트 스피커, 챗봇, QA 시스템, 기계 독해 등 다양한 서비스에 사용되고 있다. 모델을 다양한 서비스에 잘 적용하기 위해서는 사용자들의 실제 질의 특성을 반영한 자연스러운 질의를 만드는 것이 중요하다. 본 논문에서는 사용자 질의 특성을 반영한 간결하고 자연스러운 질의 자동 생성 모델을 소개한다. 제안 모델은 topic 키워드를 통해 모델에게 생성 자유도를 주었으며, 키워드형 질의→자연어 질의→응답으로 연결되는 chain-of-thought 형태의 다중 출력 구조를 통해 인과관계를 고려한 결과를 만들도록 했다. 최종적으로 MRC 필터링과 일관성 필터링을 통해 고품질 질의를 선별했다. 베이스라인 모델과 비교해 제안 모델은 질의의 유효성을 크게 높일 수 있었다.

  • PDF

질의 응답 시스템을 위한 질의, 문서, 답변 검증기 (Question, Document, Response Validator for Question Answering System)

  • 민태홍;이재홍;인수교;문기윤;조휘열;김경덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.604-607
    • /
    • 2022
  • 본 논문은 사용자의 질의에 대한 답변을 제공하는 질의 응답 시스템에서, 제공하는 답변이 사용자의 질의에 대하여 문서에 근거하여 올바르게 대답하였는지 검증하는 QDR validator에 대해 기술한 논문이다. 본 논문의 과제는 문서에 대한 주장을 판별하는 자연어 추론(Natural Language inference, NLI)와 유사한 과제이지만, 문서(D)와 주장(R)을 포함하여 질의(Q)까지 총 3가지 종류의 입력을 받아 NLI 과제보다 난도가 높다. QDR validation 과제를 수행하기 위하여, 약 16,000 건 데이터를 생성하였으며, 다양한 입력 형식 실험 및 NLI 과제 데이터 추가 학습, 임계 값 조절 실험을 통해 최종 83.05% 우수한 성능을 기록하였다

  • PDF

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

롱테일 질의 확장을 위한 추출 및 생성 기반 모델 (Long-tail Query Expansion using Extractive and Generative Methods)

  • 김래선;김성순;장헌석;박석원;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.267-273
    • /
    • 2020
  • 검색 엔진에 입력되는 질의 중 입력 빈도는 낮지만 상대적으로 길이가 긴 질의를 롱테일 질의라고 일컫는다. 롱테일 질의가 전체 검색 로그에서 차지하는 비중은 높은 반면, 그 형태가 매우 다양하고 검색 의도가 상세하며 개별 질의의 양은 충분하지 않은 경우가 많기 때문에 해당 질의에 대한 적절한 검색어를 추천하는 것은 어려운 문제다. 본 논문에서는 롱테일 질의 입력 시 적절한 검색어 추천을 제공하기 위하여 질의-문서 클릭 정보를 활용한 추출기반 모델 및 Seq2seq와 GPT-2 기반 생성모델을 활용한 질의 확장 방법론을 제안한다. 실험 및 결과 분석을 통하여 제안 방법이 기존에 대응하지 못했던 롱테일 질의를 자연스럽게 확장할 수 있음을 보였다. 본 연구 결과를 실제 서비스에 접목함으로써 사용자의 검색 편리성을 증대하는 동시에, 언어 모델링 기반 질의 확장에 대한 가능성을 확인하였다.

  • PDF

검색 포털들의 동영상 검색 서비스 분석 평가: 네이버와 구글을 중심으로 (Analysis and Evaluation of Video Search Services of Korean Search Portals: Naver versus Google Korea)

  • 박소연
    • 정보관리학회지
    • /
    • 제31권3호
    • /
    • pp.181-200
    • /
    • 2014
  • 본 연구에서는 주요 검색 포털들의 동영상 검색 서비스를 분석, 평가하였다. 이 연구에서는 네이버와 구글 코리아를 대상으로 동영상의 컬렉션별 분포, 작성 연도별 분포, 중복 동영상의 비중, 광고 동영상의 비중 및 특징, 검색 결과의 화질 등을 조사하고, 동영상의 적합도, 신뢰도, 최신성을 비교, 평가였다. 또한, 동영상의 적합도, 신뢰도에 영향을 미치는 요소들을 조사하였다. 마지막으로 동영상들 중 오류 동영상의 유형 및 특징도 조사하였다. 연구 결과, 구글이 네이버보다 동영상의 적합도가 높고, 네이버가 구글보다 동영상의 최신성이 다소 높은 것으로 나타났다. 동영상의 화질은 구글이 네이버보다 높은 것으로 나타났다. 또한 구글과 네이버 모두 중복되는 동영상의 비중이 높은 편이었으며, 광고 동영상은 네이버에서 구글보다 더 많이 노출되었다. 본 연구의 결과는 향후 포털들의 동영상 검색 서비스의 개선에 활용될 수 있을 것으로 기대된다.

개선된 네이버 임베딩에 의한 초해상도 기법 (Super Resolution Technique Through Improved Neighbor Embedding)

  • 엄경배
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권6호
    • /
    • pp.737-743
    • /
    • 2014
  • 단일 영상 초해상도 기법에는 보간 기반 방법과 표본 기반 방법 등이 있다. 보간 기반 방법들은 간결성에 강점을 가지고 있으나, 이들 방법들은 선지식을 이용할 수 없기 때문에 톱니 모양의 윤곽선을 가진 고해상도 영상을 생성하는 경향이 있다. 표본 기반 초해상도 기법에서는 최근방 기반 알고리즘들이 널리 이용되어 지고 있다. 그들 중, 네이버 임베딩은 지역적 선형 임베딩이라는 매니폴드 학습 방법의 개념과 같다. 그러나, 네이버 임베딩은 국부 학습 데이터 집합의 크기가 너무 작은데에 따른 빈약한 일반화 능력으로 인하여, 시각적으로나 정량적인 척도에 의해 취약한 성능을 보인다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 개선된 네이버 임베딩 알고리즘을 제안하였다. 저해상도 입력 영상이 주어지면 고해상도 버전의 화소 값들은 개선된 네이버 임베딩 알고리즘에 의해 구해진다. 실험 결과 제안된 방법이 바이큐빅 보간법이나 네이버 임베딩에 비해 정량적인 척도 및 시각적으로도 우수한 결과를 보였다.

네이버 밴드를 활용한 대학 팀 프로젝트 학습에서 지각된 유용성과 지각된 사용용이성이 학습성과에 미치는 영향 (The Influences of Perceived Usefulness and Perceived Ease of Use on Learning Outcomes in Team Project-based Learning with Naver Band)

  • 김세영;윤성혜
    • 한국콘텐츠학회논문지
    • /
    • 제16권12호
    • /
    • pp.695-706
    • /
    • 2016
  • 본 연구는 팀 프로젝트 학습 설계에 대한 시사점을 도출하기 위해 네이버 밴드 기반 대학 팀 프로젝트 학습에서 학습자의 지각된 유용성과 지각된 사용용이성이 정의적 학습성과 지표인 만족도와 인지적 학습성과 지표인 성취도에 미치는 영향을 규명하였다. 이를 위해 H대학교 학부생 70명을 4명씩 18개 팀으로 나누어 6주간 네이버 밴드를 활용해 팀 프로젝트를 수행하도록 하였다. 학습자들은 프로젝트 단계를 마칠 때마다 팀별로 성찰일지를 작성하여 제출하였으며, 프로젝트 종료 후에는 지각된 유용성, 지각된 사용용이성과 만족도에 대한 개별 설문에 응답하였다. 수집된 자료는 기술통계분석, 상관분석, 다중회귀분석을 통해 분석하였으며, 팀별 성찰일지에서 네이버 밴드에 대한 생각을 기술한 내용들을 질적 내용분석 방법으로 분석하였다. 연구 결과, 만족도와 성취도를 유의하게 예측하는 변인은 지각된 유용성으로 나타났으며, 학습자들의 진술을 통해 네이버 밴드의 구체적인 장점들이 규명되었다. 본 연구를 통해 검증된 대학 팀 프로젝트 학습에 네이버 밴드를 활용하는 것의 장점과 가능성을 바탕으로, 팀 프로젝트 학습 운영을 위한 매체 활용 전략을 논의하였다.