• 제목/요약/키워드: 다중 벡터 문서 임베딩

검색결과 2건 처리시간 0.021초

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

다중 정보와 Self-Attention을 이용한 관계 추출 (Relation Extraction Using Self-attention with Multi Grained Information)

  • 김정무;이승우;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-180
    • /
    • 2019
  • 관계 추출은 문서에서 존재하는 트리플(주어, 관계어, 목적어)형식에 해당하는 단어를 추출하는 작업을 뜻한다. 본 논문에서는 멀티헤드 셀프 어텐션을 이용하여 트리플 중 주어나 목적어를 찾는 구조를 제안한다. 한국어 위키피디아와 DBpedia의 관계어를 단어 임베딩을 통해 벡터를 생성하고 입력한다. 초록과 관계어의 어텐션 이후 멀티 헤드 셀프 어텐선 구조를 통해 초록 중 관계어와 관련 있는 단어들의 가중치가 높아 진다. 멀티헤드 셀프 어텐션 과정을 반복하여 주요 단어들의 가중치가 계속해서 높아진다. 이를 입력으로 하여 정답이 될 단어의 시작과 끝을 선택한다. 제안 방법으로 직접 구축한 한국어 관계 추출 데이터셋을 대상으로 F1 0.7981의 성능을 보였다. 제안 방법은 관계어와 같이 단순한 정보만을 이용하고도 초록에서 적절한 정답 단어를 추출할 수 있음을 확인하였다. 관계어의 범위를 확장함으로서 나아가 육하원칙(5W1H)과 같은 이벤트의 추출에도 활용할 수 있을 것이다.

  • PDF