• 제목/요약/키워드: Semantic Parsing

검색결과 62건 처리시간 0.018초

데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법 (A Distributed SPARQL Query Processing Scheme Considering Data Locality and Query Execution Path)

  • 김병훈;김대윤;고건식;노연우;임종태;복경수;이병엽;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.275-283
    • /
    • 2017
  • 시맨틱 웹 서비스의 증가로 인해 RDF 데이터가 대용량화되고 있다. 대용량 RDF 데이터를 효율적으로 활용하기 위하여 다양한 분산 저장 및 질의 처리기법들이 연구되고 있다. 본 논문에서는 대용량 RDF 데이터의 데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법을 제안한다. 제안하는 기법은 질의 처리 시의 조인 비용 및 통신비용을 감소시키기 위해 분산 저장된 RDF 데이터의 지역성 및 질의 수행 경로를 고려한다. 분산 환경에서 SPARQL 질의를 처리할 때 데이터 지역성을 고려하여 WHERE절을 기준으로 해당 질의를 여러 개의 서브 질의로 분할한다. 제안하는 기법은 분할된 서브 질의들을 인덱스를 통해 연관 노드들끼리 그룹화 하여 처리함으로써 데이터 통신비용을 감소시킬 수 있다. 또한 그룹 화된 서브 질의 처리 시 불필요한 조인 및 대기 시간을 감소시키기 위해 데이터 파싱 비용, 노드별 데이터 통신량 및 대기 시간 등을 고려한 효율적인 질의 수행 경로를 생성한다. 다양한 성능평가를 통해 제안하는 기법이 기존 기법보다 우수함을 보인다.

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.