• 제목/요약/키워드: Sent2Vec

검색결과 4건 처리시간 0.022초

Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현 (Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding)

  • 박상길;신명철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

Sent2Vec을 이용한 아동 발화의 화제 변경 탐지 (Detection of Topic Changes in Child Speech Using Sent2Vec)

  • 허탁성;이윤경;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-346
    • /
    • 2019
  • 언어 병리학에서는 연령별 대화 능력 발달에 관한 연구에 관심이 많다. 하지만 이러한 연구는 많은 시간과 비용이 소모된다. 이를 해결하기 위해, 본 연구에서는 대화 능력 발달의 많은 연구 중 한 가지 방법인 화제 변경을 Sent2Vec을 이용하여 자동적으로 탐지해주는 방법을 제안한다. 아동의 연속된 두 발화를 비교하여 화제의 변경을 Sent2Vec의 코사인 유사도를 통해 찾아냈다. 본 연구에서는 언어 병리학에서의 연구 결과와 비교를 하기 위해 초등학생 1학년, 3학년, 5학년 집단의 데이터를 사용하였다. 본 연구에서 제안한 방법의 결과와 언어 병리학에서 연구한 결과의 상관관계가 99.95%로 매우 높음을 확인할 수 있었다. 이러한 화제 변경 탐지를 자동화함으로써, 언어 연구에 필요한 시간과 비용을 크게 절감할 수 있다.

  • PDF

우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발 (A Word Semantic Similarity Measure Model using Korean Open Dictionary)

  • 김호용;이민호;서동민
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.3-4
    • /
    • 2018
  • 단어 의미 유사도 측정은 정보 검색이나 문서 분류와 같이 자연어 처리 분야 문제를 해결하는 데 큰 도움을 준다. 이러한 의미 유사도 측정 문제를 해결하기 위하여 단어의 계층 구조를 사용한 기존 연구들이 있지만 이는 단어의 의미를 고려하고 있지 않아 만족스럽지 못한 결과를 보여주고 있다. 본 논문에서는 국립국어원에서 간행한 표준국어대사전에 50만 어휘가 추가된 우리말샘 사전을 기반으로 하여 한국어 단어에 대한 계층 구조를 파악했다. 그리고 단어의 용례를 word2vec 모델에 학습하여 단어의 문맥적 의미를 파악하고, 단어의 정의문을 sent2vec 모델에 학습하여 단어의 사전적 의미를 파악했다. 또한, 구축된 계층 구조와 학습된 word2vec, sent2vec 모델을 이용하여 한국어 단어 의미 유사도를 측정하는 모델을 제안했다. 마지막으로 성능 평가를 통해 제안하는 모델이 기존 모델보다 향상된 성능을 보임을 입증했다.

  • PDF

A Deep Learning Model for Disaster Alerts Classification

  • Park, Soonwook;Jun, Hyeyoon;Kim, Yoonsoo;Lee, Soowon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.1-9
    • /
    • 2021
  • 재난문자는 재난 발생 시 국가에서 해당 지역에 있는 시민들에게 보내는 문자 메시지다. 재난문자의 발송 건수는 점점 증가하여, 불필요한 재난문자가 많이 수신됨에 따라 재난문자를 차단하는 사람들이 증가하고 있다. 이와 같은 문제를 해결하기 위하여, 본 연구에서는 재난문자를 재난 유형별로 자동으로 분류하고 수신자에 따라 필요한 재난의 재난문자만 수신하게 하는 딥러닝 모델을 제안한다. 제안 모델은 재난문자를 KoBERT를 통해 임베딩하고, LSTM을 통해 재난 유형별로 분류한다. [명사], [명사 + 형용사 + 동사], [모든 품사]의 3가지 품사 조합과 제안 모델, 키워드 분류, Word2Vec + 1D-CNN 및 KoBERT + FFNN의 4종류 분류 모델을 활용하여 재난문자를 분류한 결과, 제안 모델이 0.988954의 정확도로 가장 높은 성능을 달성하였다.