• 제목/요약/키워드: Real-Time Document Search

검색결과 16건 처리시간 0.023초

군집 중심 기반 문헌 검색 결과의 시각화 (Visualization Method of Document Retrieval Result based on Centers of Clusters)

  • 지태창;이현진;이일병
    • 한국콘텐츠학회논문지
    • /
    • 제7권5호
    • /
    • pp.16-26
    • /
    • 2007
  • 기존의 문헌검색시스템은 검색 결과를 시각화하기 어렵기 때문에 문헌 제목과 검색어가 존재하는 부분에 대한 요약문을 보여주는 형태가 대부분이다. 이러한 방식은 문헌 검색 결과가 많은 경우 한 번에 문헌들을 살펴보는데 어려움이 있고, 문헌들간의 연관성을 알아보기 어렵다. 따라서, 본 논문에서는 웹 환경에 적합하도록 실시간으로 문헌 검색 결과를 시각화하는 방법을 제안하였다. 이를 위하여, 군집의 중심을 다차원 척도에 의해 저 차원 평면에 투사하는 단계와 오비탈 모형에 기반하여 개별 문헌들을 군집 중심을 기준으로 저 차원 평면에 표현하는 2단계 시각화 알고리즘을 제안하여, 문헌 군집의 관계를 쉽게 알아보고 개별 문헌들 사이의 유사성을 쉽게 확인할 수 있도록 하였다. 벤치마크 데이터와 실 데이터에 적용하여 실험하였으며, 실시간으로 검색 결과를 시각화 할 수 있다는 것을 실험을 통해 확인할 수 있었다.

실시간 경매정보 비교 검색을 위한 모니터링 에이전트 시스템 (A Monitoring Agent System for the Comparative Information Search in Real Time Auction)

  • 김철기;이상용
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.1-9
    • /
    • 2001
  • 인터넷 전자상거래 기술의 발달에 따라 인터넷 경매 시장이 급속히 성장하고 있다. 인터넷 경매를 위하여 사용자는 수시로 경매 사이트를 방문하고, 경매정보를 모니터링하며, 또한 최종 가격을 평가하려고 시도한다. 그러나 사용자가 이차 같은 일들을 수작업으로 수행하는 것은 너무 비효율적이었다. 본 논문에서는 실시간 경매에서 비교 정보 검색과 사례 베이스 검색을 위한 에이전트 시스템 RAMAS(Real-Time Auction Information Monitoring Agent System)를 구현하였다. RAMAS는 사용자에게 여러 경매 사이트로부터 실시간으로 경매 정보를 제공하며, 사례 베이스로부터 적절한 가격정보도 제공하게 된다. 본 시스템을 이용하면 판매자와 구매자는 실시간 경매정도와 적절한 가격정보를 얻을 수 있다 따라서 그들은 부당한 손실 없이, 보다 효율적으로 적절한 가격에 도달할 수 있다.

  • PDF

적응형 사용자 프로파일기법과 검색 결과에 대한 실시간 필터링을 이용한 개인화 정보검색 시스템 (PIRS : Personalized Information Retrieval System using Adaptive User Profiling and Real-time Filtering for Search Results)

  • 전호철;최중민
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.21-41
    • /
    • 2010
  • 본 논문은 다양한 사용자의 개인적 검색요구를 충족시키지 못하는 기존 검색시스템의 문제점을 해결하기 위해 사용자의 묵시적 피드백을 이용한 적응형 사용자 기호정보 기반의 개인화 검색을 실현하고, 검색결과에 대한 실시간 필터링을 통해 사용자에게 적합한 검색 결과를 제공하는 시스템을 제안한다. 기존의 검색 시스템들은 검색의도의 불확실성 때문에 사용자의 검색실패율이 높다. 검색 의도의 불확실성은 동일한 사용자가 "java"와 같은 다의어에 대해 동일한 질의어를 사용하더라도 다른 검색 결과를 원할 수 있다는 것이며, 단어의 수가 적을수록 불확실성은 가중될 것이다. 실시간 필터링은 사용자의 도메인 지정여부에 따라 주어진 도메인에 해당하는 웹문서들만 추출하거나, 적절한 도메인을 추론하고 해당하는 웹문서들만 검색 결과로 보여주는 것으로, 일반적인 디렉토리 검색과 유사하지만 모든 웹문서에 대해 이루어진다는 것과 실시간으로 분류된다는 것이 다르다. 실시간 필터링을 개인화에 활용함으로써 검색 결과의 수를 줄이고 검색만족도를 개선했다. 본 논문에서 생성한 기호정보파일은 계층적 구조로 이루어지며, 상황정보의 반영이 가능하기 때문에 의도의 불확실성을 해결 할 수 있다. 또한 사용자의 도메인별 웹문서 검색 동작을 효과적으로 추적(track) 할 수 있으며, 사용자의 기호 변화를 적절하게 알아낼 수 있다. 각 사용자 식별을 위해 IP address를 사용했으며, 기호정보파일은 사용자의 검색 행동에 대한 관찰을 기반으로 지속적으로 갱신된다. 또한 사용자의 검색결과에 대한 행동 관찰을 통해, 사용자 기호를 인지하고, 기호정보를 동적으로 반영했으며, 검색결과에 대한 만족도를 측정했다. 기호정보파일과 반영비율은 사용자가 검색을 수행할 때 시스템에 의해 생성되거나 갱신된다. 실험결과 적응형 사용자 기호정보파일과 실시간 필터링을 함께 사용함으로써, 상위 10개의 검색결과 중 평균 4.7개의 결과들에 대해 만족하는 것으로 나타났으며, 이는 구글의 결과에 비해 약 23.2% 향상된 만족도를 나타내었다.

블로그 서비스 시스템을 위한 효과적인 중복문서의 검출 기법 (An Efficient Method for Detecting Duplicated Documents in a Blog Service System)

  • 이상철;이순행;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.50-55
    • /
    • 2010
  • 블로그 서비스 시스템에 존재하는 중복문서는 블로그 검색의 서비스 질과 성능을 저하시키는 요인 중 하나이다. 기존의 웹 페이지 환경에서와는 달리, 블로그 서비스 시스템에서는 각 문서의 생성이 매번 보고되기 때문에 문서 생성 시점에 중복 판정이 가능하다. 본 논문에서는 이 점에 착안하여 문서를 저장하는 시점에 해당 문서의 중복 여부를 판정하는 새로운 중복문서 검출 기법을 제안한다. 제안된 기법을 통하여 검출된 중복문서는 검색 엔진을 위한 인덱싱에 반영시키지 않음으로써 중복문서가 검색 결과에 반영되는 문제를 원천적으로 방지할 수 있다. 또한, 효과적인 중복문서 검출을 위하여 3가지 인덱싱 기법을 제안하며, 실제 블로그 데이터를 이용하여 각 인덱싱 기법 중 가장 효율적인 기법을 보인다.

동적 색인 스토리지 및 통합 검색 서비스 개발 (Dynamic index storage and integrated searching service development)

  • 이왕우;이석형;최호섭;윤화묵;김종환;허윤영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.346-349
    • /
    • 2007
  • 본 논문은 웹뉴스 및 리뷰 검색 서비스를 위해 만든 통합 검색 시스템을 소개한다. 검색 서비스를 위한 데이터 수집을 위해서 특정 사이트에서 수집한 뉴스와 리뷰 문서로부터 제목, 날짜, 저자, 본문처럼 특정한 영역의 데이터만 추출하는 XSLTRobot을 만들었다. XSLTRobot은 원하는 부분의 데이터만 추출하기 위해 XSLT 기술을 이용한다. 여러가지 검색 데이터 형식에 적합한 통합 검색엔진과 통합 검색엔진의 스토리지 모듈중 하나인 동적 색인 저장소(Dynamic Index Storage)를 소개한다. 동적 색인 저장소는 뉴스 데이터처럼 색인의 업데이트가 빨라야 하는 환경에 이용된다. 본 논문에서 제시하는 동적 색인 저장소는 대량의 실시간 업데이트 문서를 처리하지 않기 때문에 검색성능에 초점을 맞춰서 설계하였다.

  • PDF

웹 검색과 문서 유사도를 활용한 2 단계 신문 기사 표절 탐지 시스템 (A Two Phases Plagiarism Detection System for the Newspaper Articles by using a Web Search and a Document Similarity Estimation)

  • 조정현;정현기;김유섭
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.181-194
    • /
    • 2009
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있어 문서 표절에 관한 연구가 지속적으로 이루어지고 있다. 이러한 표절 문제는 신문기사의 경우에서도 큰 관심을 끌고 있는데, 이는 상업적 가치가 큰 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있기 때문이다. 현재까지의 문서 표절 관련 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수백 개의 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 1차적으로 선별한 다음, 선별된 기사들과 원본 기사와의 문서 유사도를 측정하여 선별된 기사들의 표절 여부를 자동으로 판정할 수 있도록 하였다. 본 연구에서는 실험을 위하여 연합뉴스에서 제공되는 기사를 원본 기사로 활용하였고, 표절 가능성이 있는 기사는 네이버 및 다음의 뉴스 서비스에서 제공되는 모든 기사 중에서 선별하도록 하였다.

Dynamic Text Categorizing Method using Text Mining and Association Rule

  • Kim, Young-Wook;Kim, Ki-Hyun;Lee, Hong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.103-109
    • /
    • 2018
  • In this paper, we propose a dynamic document classification method which breaks away from existing document classification method with artificial categorization rules focusing on suppliers and has changing categorization rules according to users' needs or social trends. The core of this dynamic document classification method lies in the fact that it creates classification criteria real-time by using topic modeling techniques without standardized category rules, which does not force users to use unnecessary frames. In addition, it can also search the details through the relevance analysis by calculating the relationship between the words that is difficult to grasp by word frequency alone. Rather than for logical and systematic documents, this method proposed can be used more effectively for situation analysis and retrieving information of unstructured data which do not fit the category of existing classification such as VOC (Voice Of Customer), SNS and customer reviews of Internet shopping malls and it can react to users' needs flexibly. In addition, it has no process of selecting the classification rules by the suppliers and in case there is a misclassification, it requires no manual work, which reduces unnecessary workload.

후처리 웹 문서 클러스터링 알고리즘 (A Post Web Document Clustering Algorithm)

  • 임영희
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.7-16
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Concept ART는 문서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.

키워드의 유사도와 가중치를 적용한 연관 문서 추천 방법 (Method of Related Document Recommendation with Similarity and Weight of Keyword)

  • 임명진;김재현;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1313-1323
    • /
    • 2019
  • With the development of the Internet and the increase of smart phones, various services considering user convenience are increasing, so that users can check news in real time anytime and anywhere. However, online news is categorized by media and category, and it provides only a few related search terms, making it difficult to find related news related to keywords. In order to solve this problem, we propose a method to recommend related documents more accurately by applying Doc2Vec similarity to the specific keywords of news articles and weighting the title and contents of news articles. We collect news articles from Naver politics category by web crawling in Java environment, preprocess them, extract topics using LDA modeling, and find similarities using Doc2Vec. To supplement Doc2Vec, we apply TF-IDF to obtain TC(Title Contents) weights for the title and contents of news articles. Then we combine Doc2Vec similarity and TC weight to generate TC weight-similarity and evaluate the similarity between words using PMI technique to confirm the keyword association.

웹마이닝을 위한 퍼지 클러스터링 알고리즘 (Fuzzy Clustering Algorithm for Web-mining)

  • 임영희;송지영;박대희
    • 한국지능시스템학회논문지
    • /
    • 제12권3호
    • /
    • pp.219-227
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Fuzzy Concept ART는 무서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 퍼지이론에 기반하여 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.