• 제목/요약/키워드: 키워드 매칭

검색결과 95건 처리시간 0.028초

BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색 (BERT Sparse: Keyword-based Document Retrieval using BERT in Real time)

  • 김영민;임승영;유인국;박소윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

온톨로지를 이용한 교육자료 관리 기능의 개선 (Enchancing the Education Resource management with ontology)

  • 장병철;차재혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.317-320
    • /
    • 2006
  • 본 연구에서는 한국교육학술정보원의 교육 콘텐츠 관리 시스템인 에듀넷의 키워드 기반 콘텐츠 검색기능을 고도화하기 온톨로지를 활용한 검색 프레임워크를 설계, 구현하였다. 에듀넷의 키워드 기반 검색 시스템에서 사용하는 KEM(Korea Education Metadata)를 owl을 이용하여 온톨로지로 바인딩하였으며, 의미 기반 교육 콘텐츠 검색이 가능하도록 중학교 수학의 일부 영역을 도메인 온톨로지로 구축하였다. 구축한 온톨로지에 실제 에듀넷에서 사용하는 콘텐츠 정보를 이용하여 인스턴스를 생성하였다. 사용자의 쿼리를 입력할 수 있는 인터페이스와 쿼리를 처리하고 추론할 수 있는 추론엔진을 사용하여 본 연구의 검색 시스템을 구축하였다. 실험을 통하여 본 연구에서 구축한 시스템이 키워드 매칭을 통한 검색 보다 사용자에게 의미 있고 유용한 결과를 도출함을 보였다.

  • PDF

객체 지향 멀티미디어 데이터베이스 모델하에서의 다중 키워드 검색 기법에 관한 연구 (A Study on the Multiple Keyword Retrieval Method under the Object-Oriented Multimedia Database Model)

  • 석상기;김경창;김기용
    • 한국통신학회논문지
    • /
    • 제18권8호
    • /
    • pp.1176-1189
    • /
    • 1993
  • 본 논문에서는 객체 지향 멀티미디어 데이타베이스 모델 하에서 다중 키워드를 이용한 검색 기법을 제안하였다. 멀티미디어 데이타 검색에서의 부분 매칭 문제점을 가급적 줄이기 위한 다중 키워드 등록 띤 검색알고리즘을 개발하였으며, 이를 위해 적절한 탐색 테이블의 저장 구조를 설계하였다. 또한 미디어 데이타 화일을 B+ 트리로 구성하여 검색 시간이 일정하도록 하였다.

  • PDF

온톨로지를 이용한 뉴스 비디오의 자동 분류 기법 (Full-automatic Classification Technique of News Video using Domain Ontologies)

  • 김하은;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.193-195
    • /
    • 2005
  • 본 논문은 온톨로지를 이용하여 뉴스 비디오를 분야별로 자동으로 분류하는 효율적인 기법을 제안한다. 이를 위해서 뉴스 비디오를 파싱하여 키프레임(Key frame), 샷(Shot), 씬(Scene)으로 나누고 키프레임과 샷에서 특징 정보를 추출한다. 추출된 특징 정보를 이용하여 샷의 키워드 집합을 만들고 이를 이용하여 씬의 키워드 집합을 만든다. 그리고 씬의 키워드 집합을 어휘 온톨로지와 뉴스 온톨로지에 매칭(추론)하여, 씬의 분야를 결정한다. 또한 이렇게 결정된 분야를 기반으로 서로 유사한 씬들을 자동으로 그룹화하는 방법을 제안한다.

  • PDF

이미지 딥러닝 기반의 모바일 검색 서비스 구현 (Implementation of Mobile Search Services based on Image Deep-learning)

  • 송재오;조정현;권진관;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.348-349
    • /
    • 2017
  • 본 논문에서 제안하는 내용은 기존의 포털 검색의 키워드 입력 방식과는 달리, 검색하고자 하는 대상을 스마트폰과 같은 모바일 기기의 카메라로 촬영하면, 해당 촬영 이미지가 사용자 입장에서는 검색 키워드와 같이 동일한 역할을 할 수 있도록 이미지에 해당되는 검색 키워드를 추출 및 매칭하여 검색을 위한 질의어로 사용할 수 있도록 해주는 것을 목적으로 한다.

  • PDF

온톨로지를 통한 추론형 시멘틱 검색 시스템에 관한 연구 (Ontology Based Semantic Search System Using Inference)

  • 하상범;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.625-627
    • /
    • 2004
  • 시멘틱 웹의 등장으로 온톨로지를 통하여 에이전트가 이해할 수 있는 의미(semantic)를 갖는 문서를 생성하는 것이 가능해졌다. 이러한 시멘틱 웹의 영역은 비즈니스 업무 효율을 증가시키고 이를 통해 이윤을 극대화시키는 방법으로 시멘틱 검색을 통한 정보검색시스템으로 확대적용 될 수 있다. 데이터베이스를 활용하여 문서를 저장하고 데이터베이스의 질의문물 사용하거나 일반적인 키워드기반의 정보검색 기법을 사용하여 자료를 검색하는 기존의 시스템은 다양한 분야에서 많이 연구되어 왔다. 본 논문에서는 온톨로지를 기반으로 추론을 적용한 시멘틱 검색시스템에 대하여 문서검색에 초점을 맞추어 연구 결과를 제안한다. 본 논문에서 제안하는 방식은 기존의 데이터베이스 질의문으로 검색이 불가능하거나 정보관리 시스템에서 단순히 키워드 매칭으로 검색되지 않는 문서에 대해서 본 시스템이 온톨로지라 추론을 통하여 문서의 검색에 가능함을 보인다. 이러한 방식은 자연어처리 검색과 유사한 검색영역을 갖는다. 이는 문서의 검색에 있어 단순히 키워드의 유사도에 의존하지 않고 Description Logic을 바탕으로 구성된 온톨로지에 미리 정의 되어있는 의미를 바탕으로 생성된 메타데이타를 가지고 추론을 하기 때문에 가능하다 또한 기존의 정보관리 시스템에서 채용한 데이터베이스를 통한 질의응답 시스템을 적용하여 온톨로지 표현언어에 대해 질의 응답이 가능한 DQL 인터페이스와 연동을 통하여 본 시스템의 속도와 효율성을 극대화시킨다.

  • PDF

한방 온톨로지를 이용한 관계 검색시스템 (Relational Retrieval System using Oriental Medical Ontology)

  • 홍승욱;문경실;박수현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.271-274
    • /
    • 2007
  • 본 논문에서는 한방 온톨로지 기반의 자가진단 시스템을 위해 Jena API를 이용해 한방 온톨로지 기반의 관계를 검색하고, 이를 통해 검색 결과에 대한 정의와 속성 그리고 관계정보를 출력하는 시스템을 설계하고 구축하였다. 온톨로지 기반의 지능화된 의료 서비스를 이용함으로써, 한방분야의 질병 및 증상 정보에 정확성을 부여하고 체계적이고 질적으로 향상된 데이터를 제공한다. 온톨로지 기반의 추론시스템은 다음과 같은 특징이 있다. 첫째, 의미정보가 존재함으로써 검색가 틀려도 의미를 통한 추론이 가능하다. 둘째, 의미와 관계의 추론을 통해 정확한 매치가 없을 경우 유사 개념으로 매칭이 가능하다. 셋째, 단순한 키워드의 매칭이 아닌 의미정보를 이용한 정확한 매칭이 가능하다. 넷째, 관계정보를 이용하여 검색의 관련 정보를 추론할 수 있다.

  • PDF

개념 기반 이미지 검색 시스템을 위한 WordNet 적용 방안 (Applying Method WordNet for Concept based Image Retrieval system)

  • 조미영;최준호;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.487-489
    • /
    • 2002
  • 기존의 키워드 기반 이미지 검색에서는 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 인간이 주석 형태로 달아주었다. 그러나 이런 텍스트 정보 기반 이미지 검색은 개념적 매칭이 아닌 스트링 매칭이므로 주석을 달아놓은 단어와 정확한 매칭이 없다면 찾을 수가 없다. 이러한 문제를 해결하기 위해 본 논문에서는 개념 기반 이미지 검색 시스템을 위한 WordNet의 적용 방안에 대해 연구했다. WordNet은 단언형이 아닌 단어의 의미 즉 synset이 구성 요소라는 특징을 이용해 각각의 이미지에 텍스트 정보 대신 적합한 개념의 Synset번호를 저장한다. 그리고 검색시 개념간의 유사성 측정을 이용해 검색어와 개념적으로 유사한 모든 이미지를 검색하도록 한다.

  • PDF

효과적인 웹 경보 제공 서비스를 위한 질의응답 에이전트의 구현과 응용 (A Question Answering Agent for Effective Web Information Providing Service: Implementation and Application)

  • 김경민;조성배
    • 인지과학
    • /
    • 제15권3호
    • /
    • pp.35-44
    • /
    • 2004
  • 인터넷의 사용이 보편화됨에 따라 많은 양의 정보가 다양한 채널을 통해 제공되고 있다. 이와 더불어 사용자들은 효과적인 정보 제공 서비스를 원하고 있으며, 정보 교환에 도움을 주는 가상 대리자 역할의 대화형 에이전트의 연구가 활발히 진행되고 있다. 본 논문에서는 패턴매칭 기법과 베이지 안 네트워크 등의 인공지능 기법을 이용하여 사용자 질의 의도를 분석한 후 적절한 답변을 제공할 수 있는 질의응답 에이전트를 개발한다. 이때 유의어 사전을 이용한 키워드 데이터베이스를 구축함으로써 동의어 관계를 가진 유사 키워드 등의 사용자에 따른 다양한 지식표현 문제를 해결한다. 실제 의류 사이트를 소개하는 점 사이트에 적용해 봄으로써 그 가능성을 평가해 본다.

  • PDF