• 제목/요약/키워드: 유사 키워드

검색결과 311건 처리시간 0.026초

BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색 (BERT Sparse: Keyword-based Document Retrieval using BERT in Real time)

  • 김영민;임승영;유인국;박소윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

R&D과제의 기술분류를 이용한 사업간 유사도 분석 기법에 관한 연구 (A study on Similarity analysis of National R&D Programs using R&D Project's technical classification)

  • 김주호;김영자;김종배
    • 디지털콘텐츠학회 논문지
    • /
    • 제13권3호
    • /
    • pp.317-324
    • /
    • 2012
  • 최근 R&D 투자효율성 제고를 목표로 사업 간의 유사중복 조정에 대한 중요성이 강조되고 있으나, 과제 혹은 예산요구서 내용 등을 텍스트 기반으로 비교하는 기존 유사검색 방식은 내용의 품질 편차 등으로 인해 유의미한 유사성 도출에 제한점이 있다. 이러한 텍스트 기반의 키워드 추출을 통한 유사검색 한계성을 극복하기 위한 방안으로 본 연구에서는 사업 간 유사도 분석 시 과제의 기술분류를 활용한다. 국가R&D사업 조사 분석 시 수집된 과제들의 과학기술표준분류를 추출하여 사업별 고유벡터 모형을 생성 후 이를 이용하여 코사인 기반, 유클리디안 거리기반 알고리즘을 통해 각 사업 간 유사도를 측정하였으며 기존 키워드 추출방식으로 유사도를 측정한 결과와의 비교를 통해 연구 효율성을 검증하였다.

LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법 (Automatic Construction of Reduced Dimensional Cluster-based Keyword Association Networks using LSI)

  • 유한묵;김한준;장재영
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1236-1243
    • /
    • 2017
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.

키워드 중심 학술정보서비스 개선 연구 - NDSL 추천 및 분류를 중심으로 - (An Improvement study in Keyword-centralized academic information service - Based on Recommendation and Classification in NDSL -)

  • 김선겸;김완종;이태석;배수영
    • 한국도서관정보학회지
    • /
    • 제49권4호
    • /
    • pp.265-294
    • /
    • 2018
  • 최근 정보의 폭발적인 증가로 인해 사용자에게 적합한 정보를 제공하기 위한 정보의 필터링이 매우 중요시 되고 있다. 한국과학기술정보연구원에서 운영하고 있는 학술정보서비스인 NDSL은 방대한 자료를 보유함에도 불구하고 사용자들은 검색 외에 자료 획득이 쉽지가 않다. 본 논문은 사용자에게 적합한 정보를 제공하기 위하여 키워드 특성을 활용한 서비스인 PIN(Profiling service In NDSL)을 제안한다. PIN은 키워드만을 가지고 검색하는 것이 아닌 사용자 본인 및 유사 사용자가 등록한 관심 키워드, 동시이용 키워드, 검색 키워드로 분석된 워드 클라우드를 제공하고 이를 통하여 사용자에게 맞춤형 논문, 보고서, 특허, 동향의 콘텐츠를 추천한다. 또한 콘텐츠를 보다 쉽게 접근하기 위하여 중복분류가 가능한 학술연구분류체계 기반 분류를 제공한다. 이를 검증하기 위해 NDSL의 축적된 2016년도의 국내논문의 데이터를 기반으로 분류별로 키워드를 추출하고 이를 통해 매칭 기반의 분류 모델을 만든 후 트레이닝 및 테스트를 거쳐 결과를 도출한다.

키워드 추출 및 유사도 평가를 통한 태그 검색 시스템 (Tag Search System Using the Keyword Extraction and Similarity Evaluation)

  • 정재인;유명식
    • 한국통신학회논문지
    • /
    • 제40권12호
    • /
    • pp.2485-2487
    • /
    • 2015
  • 해시태그는 현재 페이스북, 트위터와 같은 SNS와 개인 블로그 등에서 활발하게 사용되고 있다. 하지만 스팸성 목적 또는 게시글 조회수 증가 등의 목적으로 무분별하게 해시태그를 사용하여 태그검색의 효율성이 떨어지고 있다. 이에 따라 본 논문에서는 태그검색의 정확도를 높이고자 기존의 키워드 추출 알고리즘과 단어간 유사도 평가 알고리즘을 이용한 태그 검색 시스템을 제안하였다. 제안하는 시스템의 테스트 결과 태그 검색의 정확도가 향상됨을 알 수 있었다.

효율적인 문서 구성을 위한 TF-IDF 알고리즘 기반 문서 제안 시스템의 설계 (Design of Document Suggestion System based on TF-IDF Algorithm for Efficient Organization of Documentation)

  • 김영훈;박승민;조대수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.527-528
    • /
    • 2022
  • 빠르게 변하는 환경에 맞춰 평생 교육이 일반화되고 개인에게 요구되는 학습량은 많아지고 있으며 높아진 학습량에 맞게 학습 시간 단축과 효율적인 학습을 위한 학습 방법을 선택하는 것이 중요해지고 있다. 본 논문에서는 학습 정리를 위해 작성한 문서를 분석하여 해당 문서와 관련된 문서를 제안하고 본 문서와 엮어 학습을 위한 문서 묶음을 만들 수 있는 시스템을 제안한다. 문서의 유사도, 중요도를 구할 수 있는 TF-IDF를 이용하여 문서를 분석해 키워드를 추출한 다음 그와 관련된 문서를 제안하고 문서 묶음을 만들어 조회할 수 있도록 한다. 이 시스템은 학습 정리 시 관련 문서를 함께 볼 수 있도록 하고, 필요하다면 묶음으로 만들어 효과적인 학습을 위한 도구로 이용할 수 있다.

  • PDF

가사 데이터 기반의 작사 지원 시스템 연구 (A System for Supporting Lyrics Writing Using Lyrics Data)

  • 박영재;조희련
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.351-352
    • /
    • 2023
  • 본 논문은 과거 한국 가요(K 팝)의 가사를 수집하여 (1) 특정 키워드와 관련된 기존 가사를 검색하거나, (2) 작사가가 작성한 새로운 가사와 유사한 기존 가사를 검색하거나, (3) 특정 키워드와 관련된 가사 속 어휘를 제안하는 작사 지원 시스템을 제안한다. 지금까지의 음악 관련 시스템은 음악을 소비하는 사람들을 위한 음악 추천 시스템에 집중해 왔으나, 이 연구에서는 음악을 생산하는 작사가에게 초점을 맞춰 이들을 돕는 작사 지원 시스템을 제안하고자 한다. 제안 시스템은 TF-IDF 와 word2vec 을 활용하여 가사와 단어 벡터 공간에 가사와 어휘를 배치하고 코사인 유사도를 계산한다.

이동 평균 기반 동적 시간 와핑 기법을 이용한 시계열 키워드 데이터의 분류 성능 개선 방안 (Enhancing Classification Performance of Temporal Keyword Data by Using Moving Average-based Dynamic Time Warping Method)

  • 정도헌
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.83-105
    • /
    • 2019
  • 본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

콘텐트 노드의 유사성 제어를 통한 그래프 구조 데이터 검색의 다양성 향상 (Improving Diversity of Keyword Search on Graph-structured Data by Controlling Similarity of Content Nodes)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.18-30
    • /
    • 2020
  • 최근 소셜 네트워크, 시맨틱 웹 등 여러 분야에서 그래프 구조 데이터가 널리 사용됨에 따라 대량의 그래프 데이터에 대한 효과적이고 효율적인 검색 방법의 필요성이 커지고 있다. 기존 키워드 기반 검색 방법들은 대부분 주어진 질의에 대한 연관도만을 고려하여 결과를 구한다. 그러나 이런 방법은 질의 연관도는 높지만 콘텐트 노드들을 공유하는 유사한 결과들이 함께 선택될 가능성이 높다. 이런 문제점을 개선하기 위해 본 논문에서는 키워드 질의에 대한 답 트리에 포함된 콘텐트 노드들의 유사성을 제어하여 콘텐트 노드가 다양한 답 트리들을 구하는 top-k 검색 방법을 제안한다. 다양한 답 트리 집합의 기준을 정의하고, 다양한 top-k 결과 집합을 구하기 위한 두 가지 방법으로 점진적 나열 알고리즘과 A 탐색 기법을 이용한 휴리스틱 탐색 알고리즘을 설계한다. 또 휴리스틱 탐색의 성능을 높이기 위한 개선 방법을 제시한다. 실 데이터를 이용한 성능 실험 결과를 통해, 본 논문에서 제안한 휴리스틱 탐색 방법이 질의 연관성뿐만 아니라 콘텐트 노드들의 상이도가 높은 다양한 답 트리들을 효율적으로 구할 수 있음을 보인다.

사용자 지식을 반영한 메일 폴더 추천 방법론 (Folder Recommendation Based on User Knowledge)

  • 류미;박주석;김재경
    • 지능정보연구
    • /
    • 제10권3호
    • /
    • pp.133-146
    • /
    • 2004
  • 네트워크 기술의 발달로 인하여 사용자가 접하게 되는 정보의 종류와 양이 급속하게 증가되고 있으며, 이로 인해 사용자는 자신이 필요로 하는 정보를 찾아내어 관리하는데 많은 시간과 노력을 소비하고 있다. 이에 본 연구에서는 대표적인 추천기법 중에 하나인 내용기반 추천(Content-based Recommendation)과 사용자 지식에 의해 정의된 키워드 유사성(Keyword Affinity)을 이용하여 사용자가 보다 적은 비용으로 자신의 정보를 효율적으로 관리할 수 있도록 지원하는 방법론을 제시한다. 즉, 사용자의 선호도가 자주 변하거나 새로운 내용이 지속적으로 생성되는 환경에서는 추천의 성능이 떨어지고, 사용자의 선호도가 충분히 축적되기까지 정확한 추천이 어려운 내용기반 추천의 한계점을 사용자 지식에 의해 정의된 키워드 유사성을 응용하여 해결한다. 본 연구는 수시로 새로운 정보가 생성되고 삭제되는 개인 이메일 환경을 그 대상으로 하며, 사용자의 효율적인 이메일 관리를 위한 폴더 추천을 지원한다. 또한 실험을 통해 기존에 연구되었던 폴더 추천 방법론과 성능을 비교함으로써 본 연구에서 제시하는 방법론을 검증하였다.

  • PDF