• 제목/요약/키워드: Information Retrieval Engine

검색결과 137건 처리시간 0.023초

시맨틱 웹을 이용한 온톨로지 기반의 정보검색 시스템 설계 및 구현 (Design and Implementation of Information Retrieval System Based on Ontology Using Semantic Web)

  • 서우진;유경택
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.209-217
    • /
    • 2019
  • 본 논문에서는 시맨틱 검색 수행을 위해 검색 도메인에 알맞은 온톨로지를 이용, 구축하고 정보에 관한 검색, 변환, 통합, 공유가 가능한 검색 엔진을 구현하여 검색 시스템의 기반을 마련하는 것을 목적으로 하였다. 기존 방식에서 벗어나 온톨로지를 활용하여 계층 관계를 추론하고, 그 계층을 근거로 개체를 추론한 다음 속성을 추출하여 사용자가 원하는 자료와 관련있는 분야를 검색하는 것이다. 이러한 방식으로 정보를 검색할 수 있도록 정보검색 시스템을 '자격증'과 관련된 키워드를 입력하여 구현하였다. 구현된 시스템은 온톨로지에서 각 속성들의 의미와 관계를 정리하여 일반인 정보검색을 사용자가 빠르고 쉽게, 정확한 검색을 할 수 있도록 하였다. 또한, 구현 결과를 2개의 다른 검색엔진과 비교하였다. 비교한 검색엔진은 대표적인 검색엔진인 '네이버'와 '다음'이다. 시맨틱 웹을 이용한 검색을 수행하기 위해 검색 도메인에 맞는 온톨로지를 이용하여 구축한 본 연구의 검색 엔진은 상당히 우수한 결과를 보여주는 것으로 평가되었다. 그러나 검색 엔진의 정확성과 신뢰성을 높이고 좀 더 포괄적인 범주의 검색어 포함하기 위해서는 더욱 정형화된 온톨로지가 필요하다고 사료된다.

라이프로그 관리 시스템에서 블루투스 장치를 이용한 효과적인 사진 검색 방법 (Effective Picture Search in Lifelog Management Systems using Bluetooth Devices)

  • 정은호;이기용;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.383-391
    • /
    • 2010
  • 라이프로그 관리 시스템이란 개인의 일상 생활에 관련된 모든 정보를 저장하고, 이에 대한 관리 및 검색 기능을 제공하는 시스템이다. 본 논문은 라이프로그를 검색하는 방법 중, 현실 세상에서 발생한 사용자와 다른 사람들과의 사회적 접촉에 대한 정보를 키워드로 하여 관련된 라이프로그를 검색할 수 있도록 하는 방법을 제안한다. 이를 위하여 휴대폰의 근거리 무선 통신 장치를 이용하여 현실 세상에서 발생한 사용자의 사회적 접촉 정보를 자동으로 수집하는 방법과, 수집된 사회적 접촉 정보를 이용하여 주어진 인물과 관계된 사진을 검색할 수 있도록 하는 방법을 제안한다. 블루투스 장치와 인물의 관계를 추론하기 위하여 인물 정보가 기록된 기존 라이프로그를 이용, 인물과 블루투스 장치가 동시에 관찰되는 빈도수를 계산하여 사람-블루투스 매트릭스를 만든다. 실험 결과, 실제 사용자의 오프라인 만남 정보 중에서, 빈도수 계산 시각에 발생한 모든 오프라인 만남 정보의 20%의 정보만으로도 블루투스 장치와 그 소유주의 관계를 90% 이상의 정확도로 알아 낼 수 있었다. 또한 매트릭스에서 인물에 해당하는 벡터와 라이프로그가 생성된 시점에 스캔된 블루투스 장치들을 벡터 정보 검색 방법으로 비교하여 주어진 인물과 관련된 라이프로그를 검색함으로써, 제안하는 검색 방법은 기존의 검색 방법에 비하여 더 많은 사진을 반환할 뿐만 아니라 기존에는 불가능했던 검색어와의 유사도에 따른 정렬을 가능하게 한다.

이미지 검색 과정에 나타난 질의 전환 및 재구성 패턴에 관한 연구 (Examining Categorical Transition and Query Reformulation Patterns in Image Search Process)

  • 정은경;윤정원
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.37-60
    • /
    • 2010
  • 이 연구는 이미지 특성 범주와 관련하여 질의 재구성 패턴을 탐색하고자 하였다. 이러한 연구 목적을 수행하기 위해서 Excite 웹검색 엔진 로그 데이터가 사용되었으며, 총 592 세션과 2,445 질의어가 분석되었다. 데이터 분석은 Batley의 정보 형태 구분과 선행 연구에서 밝혀진 팻싯과 서브팻싯을 활용하여 수행되었다. 분석결과는 두가지 형태로 구분하여 제시되었다. 첫째, 질의 재구성에 관한 분석결과이다. 질의 분석 결과, 가장 많은 부분을 차지하는 범주는 특정어(specific)와 지칭어(nameable)이며, 이러한 경향은 다양한 정보 탐색 단계에서도 지속적으로 나타났다. 둘째, 질의 재구성 패턴과 관려하여, 평행이동이 가장 많이 나타났으며, 이러한 경향은 최초 혹은 직전 질의 범주에 따라 근소한 차이를 보였다. 범주 전환 분석에서는 높은 비율(60%-80%)로 검색 질의의 범주가 지속적으로 동일한 범주에 머무르는 경향을 밝혀내었다. 이러한 결과는 이미지 검색 시스템 설계와 구현에 있어서, 이용자의 질의 선정 과정에 도움을 제공하고 효과적인 시소러스 구축 등에 활용될 수 있을 것으로 기대된다.

PVR 시스템에서 효율적인 검색을 위한 XML 메타데이터 엔진설계 (A XML-based Metadata Engine Design for Effective Retrieval in PVR System)

  • 신은영;박성한
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.574-576
    • /
    • 2004
  • 디지털 방송과 함께 저장매체를 갖는 PVR과 셋탑박스가 출현하였지만 방대한 컨텐츠에 대한 선택의 어려움이 발생하였다. 이러한 문제를 해결하기 위해서 PVR에서는 TV-Anytime과 MPEG-7 표준을 기반으로 멀티미디어 데이터에 대한 메타데이터를 제공한다. 이 메타데이터는 멀티미디어 데이터를 표현하는 특징적인 정보를 포함하고 있어, 컨텐츠에 대한 선택과 검색을 돕는다. 그러나 메타데이터는 그 내용이 방대한 XML document로 구성되어 있어, 효율적이고 빠른 검색이 쉽지 않다. 본 논문은 이러한 XML 메타데이터의 특성을 기반으로 효율적인 검색을 위한 XML 메타데이터 엔진을 설계한다. 제안하는 XML 메타데이터 엔진은 메타데이터의 정보적 특성을 기반으로 인덱싱 구조를 설계하여 XML 메타데이터의 접근 시간을 최소화한다.

  • PDF

다국어를 지원하는 XML 문서 검색 시스템: HyREX (HyREX: Universal XML Retrieval Engine for XML)

  • 한예지;채종대;김수희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1713-1716
    • /
    • 2002
  • HyREX는 연구용 프로토타입 XML 하이퍼미디어 문서 검색시스템으로 다국어를 지원하고 있다. HyREX는 검색을 위한 효율적인 접근 경로들을 처리하는 물리적 계층 HyPath와 질의어를 처리하는 논리적 계층 XIRQL 그리고 사용자 인터페이스인 HyGate 계층으로 이루어져 있다. 이 연구에서는 영어와 독일어 등의 검색을 지원하는 기존의 HyREX 시스템을 한글 XML 문서 검색시스템으로 확장하기 위해 먼저 한글 데이터타입을 위한 클래스를 구현하였다. 앞으로 한글 XML 문서 검색에서 정확율과 재현율을 향상하기 위해 각 문서의 인덱스에 대해 $tf{\cdot}idf$ 공식을 이용하여 가중치를 부여하고 이를 개발하고자 한다.

  • PDF

웹기반 한글정보검색시스템의 구현 (An Implementation of Web-Based Korean Language Information Retrieval System)

  • 홍기채;정현수
    • 전자통신동향분석
    • /
    • 제14권6호통권60호
    • /
    • pp.9-21
    • /
    • 1999
  • 최근 인터넷상에는 매일 방대한 양의 정보가 창출되어 유포되고 있으며, 수많은 정보 제공 사이트들이 늘고 있다. 이용자들은 필요한 정보를 찾고 활용하기 위해 야후(Yahoo), 알타비스타(AltaVista) 등 국외 검색엔진(search engine)들과 심마니, 미스 다찾니 등 국내 검색엔진 등 인터넷상에 운용되고 있는 이들 시스템들을 이용하고 있지만, 대부분의 시스템들은 자체 정보 제공보다는 로봇 에이전트를 이용하여 인터넷 사이트에 등록되어 있는 다양한 분야의 홈페이지 정보들을 수집/분석하여 관련 사이트를 연결해주는 방식의 메타 검색엔진들로서 불필요한 정보들까지 제공함에 따라 이용자들이 필요로 하는 정보를 찾기에는 너무 많은 노력과 시간을 소모하게 되는 문제점을 안고 있다. 이에 본 고에서는 형태소 분석 및 시소러스 사전을 이용하여 검색의 정확성 및 재현율 향상을 고려하고, 주제어 중심의 불리언 검색뿐만 아니라 하이퍼텍스트 기반의 주제어 카탈로그 검색, 각기 다른 사이트의 검색엔진들로부터 질의한 결과를 통합하여 제공하는 지능형 통합검색, 이용자 프로파일에 근거하여 최신 업데이트된 정보를 주기적으로 제공해주는 맞춤정보서비스(Selective Dissemination of Information Service: SDI) 등을 통합한 인터넷 기반의 한글 정보검색시스템의 구현에 대한 내용을 기술하고자 한다.

역사객체 기반의 기계학습 기법을 활용한 웹 문서의 시간정보 추출 방안 제안 (A Proposal of Methods for Extracting Temporal Information of History-related Web Document based on Historical Objects Using Machine Learning Techniques)

  • 이준;권용진
    • 인터넷정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.39-50
    • /
    • 2015
  • 최근 검색엔진을 통한 정보검색 과정에서 특정 시구간 상황에 대응하는 문서를 검색하고자 하는 경우가 있다. 예를 들면, 임진왜란 이전의 시대적 상황과 관련된 문서를 검색하기 위해, 키워드 '임진왜란'으로 검색하면 시간에 관계없이 임진왜란 당시나 전후의 모든 문서가 검색되어 추가적인 작업이 요구된다. 또한, 역사관련 문서의 경우는 문서내용에 대응하는 시간 정보가 문서 생성시간과 일치하지 않는 경우가 대부분이다. 만약 웹 문서의 내용에 대응하는 시간 정보를 추출 할 수 있다면 효과적인 정보검색은 물론 다양한 응용에 적용 가능할 것이다. 따라서 본 논문은 문서 내용에 대응하는 시간정보 추출을 목적으로, 조선시대를 대상으로 한 역사문헌을 활용하여 조선시대 역사관련 문서의 시간추출에 대한 연구를 진행한다. 역사 문헌과 웹으로부터 수집된 역사관련 문서를 바탕으로 역사객체를 정의하고, 이를 기반으로 다양한 기계학습 기법을 활용하여 웹 문서의 시간정보 추출에 대한 가능성을 확인한다. 또한 기계학습 과정에 있어서 객체의 유사도에 기반 한 여과과정을 제안하고 이를 적용한 효율적인 시간정보 추출 및 정확도 향상에 대한 결과를 비교 분석한다.

온톨로지 기반의 주제-객체관계를 이용한 국가 R&D 지식맵 구축 (Development of a National R&D Knowledge Map Using the Subject-Object Relation based on Ontology)

  • 양명석;강남규;김윤정;최광남;김영국
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.123-142
    • /
    • 2012
  • 최근 효과적인 정보검색을 제공하기 위해 시맨틱 웹을 비롯한 다양한 검색기법들을 사용하고 있다. 이중에서 효과적인 방법은 온톨로지를 이용한 검색기술을 적용하는 것이라 할 수 있다. 본 논문에서는 국가과학기술지식정보서비스(NTIS)에서 구축한 국가R&D정보를 분석하여 온톨로지를 구축하고, 이용자가 관심있어 하는 주제분야(과제, 인물, 성과, 기관)를 중심으로 온톨로지의 객체관계를 표현하고 정보를 탐색하기 위한 국가R&D지식맵(knowledge map)을 구축하였다. 국가R&D지식맵은 사용자가 선택한 객체를 중심노드로 설정하여, 주제분야를 노드로 표현하고, 객체와 주제분야간의 관계를 분석하여 사용자가 관심 있어 하는 질의를 주제분야의 하위노드로 표현하였다. 사용자가 하위노드의 질의를 선택하면 시스템에서는 선택한 질의를 온톨로지로부터 추론할 수 있는 SPAQL 질의어를 생성하고 추론엔진으로부터 검색결과를 받아 사용자에게 제시하였다.

R2SS 기반의 정보검색 시스템 (Information Retrieval System for R2SS)

  • 홍석주;박영배
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.39-51
    • /
    • 2009
  • 본 논문은 $R^2SS$((Reverse Really Simple Syndication) 기반의 지능형 검색엔진의 설계 및 구현에 관한 것으로, 기존의 방식과 같이 사용자가 RSS 주소를 입력하여 제한된 RSS 정보를 받아보는 방식이 아니라, 사용자는 단순히 자신이 원하는 정보를 입력만 하면, 자동화된 RSS 주소수집서버가 수집한 수많은 RSS 주소들로부터 실시간으로 수집하는 RSS 규격 문서들 중 사용자가 원하는 규격 문서에 대한 RSS 정보만을 제공해줌으로써, 수많은 정보를 찾아 그 중 원하는 정보만 추려서 제공해주는 $R^2SS$ 구독(Reverse RSS Subscribe) 방식을 설계하는데 있다. 제안된 $R^2SS$ 기반 지능형 검색엔진을 통하여 양질의 정보를 찾아서 헤매는 시간을 획기적으로 줄일 수 있고 개인 비서를 두게 되는 효과를 얻을 수 있다.

개인화 웹 검색 시스템 기반의 문서 요약 시스템 (A Document Summary System based on Personalized Web Search Systems)

  • 김동욱;강수용;김한준;이병정;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.357-365
    • /
    • 2010
  • 개인화 웹 검색 시스템은 사용자의 검색의도에 따라 질의어 확장, 검색 결과의 재순위화 등의 방법을 통하여 사용자에게 개인화된 검색 결과를 제공한다. 이를 위해 검색 시스템은 질의어와 사용자의 프로파일 정보를 활용하여 사용자의 검색 의도를 파악하고 분석하여, 검색 결과 페이지에 반영하여 보여주게 된다. 이때 검색 결과 페이지는 문서의 URL과 문서의 제목, 작은 텍스트 조각을 표시한다. 여기서 작은 텍스트 조각은 검색 질의어가 포함된 문서의 요약이며, 스니펫이라고 알려져 있다. 사용자는 이러한 문서의 요약을 통하여 웹 문서가 자신이 원하는 정보를 가진 문서인지를 판단하거나, 해당 URL에 직접 접속하지 않고도 원하는 정보를 얻을 수 있게 된다. 따라서 문서 요약은 사용자가 문서를 볼 것인지 아닌지에 대한 중요한 판단 기준이 되며, 만약 문서 요약 시스템이 개인화된 요약 결과를 제공한다면 사용자의 만족도는 더욱 증가할 것이다. 본 논문은 전체 웹 검색 시스템에서 검색 속도의 큰 하락없이 사용자의 만족도를 증가시킬 수 있는 개인화 문서 요약 시스템을 제안한다.