• 제목/요약/키워드: lucene

검색결과 13건 처리시간 0.027초

오픈 소스 프레임워크를 활용한 검색엔진 구현 (Implement on Search Machine using Open Source Framework)

  • 송현옥;김아용;정회경
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.552-557
    • /
    • 2015
  • IT 기술 발전과 스마트 기기들의 사용 증가로 인해 인터넷에서는 많은 데이터가 생산되고 소비된다. 이로 인해 정보 검색 기술의 중요성이 높아지고 있지만 정보 검색 기술은 많은 배경 지식을 요구하여 접근하기 어려운 기술로 인식되고 있다. 그러나 Luene의 등장으로 인해 검색 기술에 대한 배경 지식이 부족해도 Lucene을 사용하여 검색 엔진을 구현할 수 있는 배경을 마련되었다. 본 논문에서는 Lucene 기반으로 개발된 프레임워크들을 사용하여 검색엔진을 구현하는 방법에 대해 제안한다. 제안하는 검색엔진에 사용되는 프레임워크들은 Hadoop과 Nutch, Solr, Zookeeper를 사용하여 분산처리와 분산저장, 그리고 고가용성을 지원하는 서버 환경을 보장한다.

사용자 중심 검색 시스템 설계 및 구현 (Search for a user-centered system design and implementation)

  • 김아용;이용우;배근호;정대진;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.619-621
    • /
    • 2014
  • 최근 IT기술의 발전과 더불어 정보화에 대한 기술들이 이슈화 되고 있다. 웹을 사용하는 사용자들을 개인들이 필요한 정보를 찾는데 있어 검색데이터를 선별하는 방법에 대해 많은 어려움을 겪고 있다. 본 논문에서는 사용자 중심 검색 시스템을 제안한다. 제안하는 검색 시스템은 아파치 프로젝트인 Lucene과 Hadoop의 MapReduce, HDFS, Nutch, Solr를 활용하여 설계 및 구현한다. 이는 웹 검색을 이용하고자 하는 사용자의 의도에 따라 데이터를 수집하고 색인하여 원하는 정보를 제공하는 검색분야에 활용될 것이다.

  • PDF

문헌정보학 학술지를 대상으로 한 온톨로지 구축에 관한 연구 (A Study on Constructing the Ontology of LIS Journal)

  • 노영희
    • 정보관리학회지
    • /
    • 제28권2호
    • /
    • pp.177-193
    • /
    • 2011
  • 본 연구에서는 학술지를 대상으로 온톨로지를 구축하고 그 성능을 평가하고자 하였으며, 트리플 구조로 구축된 온톨로지의 성능을 단순 키워드 검색엔진을 위한 도치색인 파일의 지식베이스와 그 성능을 비교하였다. 온톨로지 구축대상은 정보관리학회지 2007년부터 2009년까지의 3년간의 논문기사를 대상으로 하였으며, 구축방법은 온톨로지 구축도구인 프로티지를 이용하였다. 개념온톨로지는 수작업으로 구축하였고, 서지온톨로지는 자동으로 구축하여 각각 OWL 개념온톨로지와 OWL 서지온톨로지를 생성하였다. 성능비교를 위해 각각 제나 검색엔진과 루씬 검색엔진에 의해 검색된 결과를 비교하였다. 루씬은 정확률이 높게 나왔고, 제나는 재현률이 높게 나왔다.

시맨틱검색엔진의 성능평가에 관한 연구 (A Study on the Performance Evaluation of Semantic Retrieval Engines)

  • 노영희
    • 한국비블리아학회지
    • /
    • 제22권2호
    • /
    • pp.141-160
    • /
    • 2011
  • 본 연구에서는 유동성이 크고 데이터의 규모도 상당한 도서관에 일반화시켜 적용할 수 있는 지식베이스 및 검색엔진을 제안하였다. 이를 위해 총 세 개의 지식베이스(트리플 구조 온톨로지, 의미거리기반 의미망지식 베이스, 키워드중심의 도치색인파일)를 구축하였고, 이의 성능을 측정하기 위해 각각 세 개의 검색엔진(추론 규칙기반 제나검색엔진, 개념기반 검색엔진, 키워드기반 루씬검색엔진)을 구축하였다. 시스템 성능평가 결과, 종합적으로 개념기반 검색엔진이 가장 높은 성능을 보여주었고, 다음으로 온톨로지기반 제나검색엔진, 다음으로 일반 키워드 검색엔진 순으로 나타났다.

Efficient Query Retrieval from Social Data in Neo4j using LIndex

  • Mathew, Anita Brigit
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권5호
    • /
    • pp.2211-2232
    • /
    • 2018
  • The unstructured and semi-structured big data in social network poses new challenges in query retrieval. This requirement needs to be met by introducing quality retrieval time measures like indexing. Due to the huge volume of data storage, there originate the need for efficient index algorithms to promote query processing. However, conventional algorithms fail to index the huge amount of frequently obtained information in real time and fall short of providing scalable indexing service. In this paper, a new LIndex algorithm, which is a heuristic on Lucene is built on Neo4jHA architecture that holds the social network Big data. LIndex is a flexible and simplified adaptive indexing scheme that ascendancy decomposed shortest paths around term neighbors as basic indexing unit. This newfangled index proves to be effectual in query space pruning of graph database Neo4j, scalable in index construction and deployment. A graph query is processed and optimized beyond the traditional Lucene in a time-based manner to a more efficient path method in LIndex. This advanced algorithm significantly reduces query fetch without compromising the quality of results in time. The experiments are conducted to confirm the efficiency of the proposed query retrieval in Neo4j graph NoSQL database.

루씬 기반의 최저가 상품 검색 시스템 설계 (Design of Search System Based on Lucene for Minimum Price Products)

  • 김아용;정대진;계민석;김창수;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.603-605
    • /
    • 2014
  • 인터넷 이용률 증가와 스마트 기기의 대중화로 인해 소비자는 매장에서 구매하던 비용을 온라인 쇼핑 시장으로 전환하고 있다. 이로 인해 사용자의 소비패턴과 소비문화도 변화하고 있다. 오픈 마켓은 웹과 모바일을 통해 유통 채널을 확장하고 소비자의 유치를 위해 다양한 이벤트와 최저가 정책, 안전 거래 등을 제공한다. 본 논문에서는 오픈 마켓에서 판매하는 상품의 정보를 수집하고 분석하여 사용자에게 최저가 상품 정보를 제공하는 검색 시스템을 설계한다.

  • PDF

u-Farm을 위한 모바일 기반의 농작물 재배 현장 중심형 스마트 병해충 정보검색 시스템 설계 및 구현 (Design and Implementation of Produce Farming Field-Oriented Smart Pest Information Retrieval System based on Mobile for u-Farm)

  • 강주희;정세훈;노선식;소원호;심춘보
    • 한국전자통신학회논문지
    • /
    • 제10권10호
    • /
    • pp.1145-1156
    • /
    • 2015
  • 현재 농작물의 품질과 직결되는 병해충에 관하여 농작물 재배 현장에서 바로 사용할 수 있는 모바일 전용의 응용 시스템은 부족한 실정이다. 따라서 본 논문에서는 병해충 예찰 및 기본 정보에 관해서는 충실하나 즉각적인 진단 기능이 매우 부족하고 아울러 농작물 재배 현장에서 바로 사용할 수 있는 모바일 기반의 병해충 전용 시스템의 부재를 개선하기 위해서, u-Farm을 위한 모바일 기반의 농작물 재배 현장 중심형 스마트 병해충 정보검색 시스템을 설계 및 구현한다. 제안하는 시스템은 이미지의 전문 분석에 유용한 검색 라이브러리인 루씬(Lucene) 및 JSON 데이터 구조를 기반으로 농작물 재배 현장에서 병해충의 정보를 웹뿐만 아니라, 본인이 소유한 스마트 폰을 통해 실시간으로 직접 확인할 수 있는 장점이 있다. 또한, 시스템의 확장 및 재사용성을 높이기 위해 객체지향 모델링을 기반으로 설계하였으며, 농작물의 메타 정보뿐만 아니라, 메타 정보 기반의 텍스트 및 색상 등과 같은 이미지 특징 정보를 기반으로 검색이 가능하다. 본 시스템을 통해 u-Farm 실현뿐만 아니라 농업인이나 재배 현장 관리자들이 농작물 작황, 병해충 현황 파악 및 관리를 실시간으로 진행할 수 있다.

연구 보고서의 공기관계 정보에 제목 및 요약의 가중치를 적용한 유사도 계산 (Calculation of similarity by weighting title and summary in word co-occurrence of research reports)

  • 김남훈;주종민;박혁로;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.37-40
    • /
    • 2017
  • 본 논문에서는 국가 연구 보고서의 공기 관계 정보와 제목, 요약 등에 가중치를 적용한 유사도 계산방법을 제안한다. 이를 위해 국가 연구개발 보고서에서 텍스트를 추출하여 한 문장 단위로 문서를 분할하고, 기본 불용어와 보고서에서 특징적으로 나타나는 불용어를 처리하고 형태소 분석을 한 뒤 공기관계를 추출하였다. 또한 문서의 유사도 계산시 정확성을 높이기 위해 제목과 요약 부분에 가중치를 부여하였다. 이를 통해 본 논문에서 제안하는 방법이 문서 검색 라이브러인 루씬(Lucene)을 이용한 방법보다 2.5%의 검색성능 향상을 그리고 Knn-휴리스틱 방법보다는 1.1%의 검색성능 향상을 보였다. 이러한 결과를 통해 문서의 요약과 제목 그리고 공기관계 정보가 연구보고서의 유사도를 계산 하는데 영향을 미친다는 것을 보였다.

  • PDF

오픈소스 분산처리 플랫폼 Coord를 활용한 검색 시스템의 설계 (Design of an searching system using Coord, the open-source distributed computing platform)

  • 한재화;최종식;황원근;이창건
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(A)
    • /
    • pp.311-316
    • /
    • 2010
  • 본 논문에서는 NHN에서 제작한 오픈소스 분산처리 플랫폼 Coord 및 색인정보를 생성하는 Lucene을 이용하여 문서 검색 시스템의 설계를 제안한다. 주로 Coord 플랫폼을 사용하여 분산 검색 시스템의 구축 프로세스 및 구축 과정에서 고려할 점들에 대해 소개하고 있다. 구축 결과물에 대한 정량적 분석 및 특성을 다른 경쟁 플랫폼들과 비교 분석한다면 Coord의 사용을 활성화시킬 수 있는 자료로 사용될 수 있을 것이다. Coord 플랫폼을 개괄한 후에는 실제적인 시스템의 전체 구조를 제안한다. 이후에는 색인정보를 담고 있는 분산시스템을 설계할 때 생길 수 있는 여러 가지 문제점을 언급하고 그에 대한 Coord를 사용한 알고리즘을 해결책으로 제시한다. 이러한 설계를 바탕으로 실제 ACM논문 검색 시스템을 제작하여 운용한 예를 보인다. 또한, 본 논문이 제안한 시스템이 오픈소스 라이브러리 활용의 실례로써 Coord 및 여타 오픈소스 커뮤니티에 일조함을 기대할 수 있을 것이다.

  • PDF

DBMS을 활용한 파일 검색엔진 연구 (A Study on File Search Engine Based on DBMS)

  • 김형석;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.548-551
    • /
    • 2016
  • 기존 그리드 기반의 전통적인 RDBMS는 비구조적 데이터에 대한 색인이 지원되지 않았다. 이러한 제약 조건들로 인해 파일 문서 및 비 구조화된 데이터의 검색 엔진으로는 부적합하였다. 최근에 다양한 검색 오픈소스(Solr, Lucene)등으로 검색 엔진이 개발되어 활용되고 있지만, 검색한 결과와 기존 데이터의 연동이 쉽지 않고 구조 변경이 어려우며, 사용자의 다양한 요구 사항 수용이 쉽지 않은 단점을 가지고 있다. 따라서 본 연구에서는 빠른 검색을 위한 색인 (index) 최적화와 대용량 데이터 처리를 위한 파티션 기반 데이터의 분할 및 정복 (divide and conquer) 처리, 이중화된 검색어 색인 기능을 구현하였다. 또한 동의어 사전을 구축하여 연관 관계 분석이 가능하도록 DB를 구축하여 검색어와 동의어의 상호 관계성을 유지하였으며 오픈 소스보다 발전한 형태의 검색 엔진을 개발하는 것을 목표로 하였다. 본 연구를 위해 약 400만건 이상의 다양한 포맷 (Ms-office, Hwp, Pdf, Text)등의 파일 문서를 샘플로 실험을 진행하였다.