• 제목/요약/키워드: relevant information retrieval

검색결과 188건 처리시간 0.027초

로컬 웹사이트의 탐색전략과 웹사이트 유형분석에 관한 연구 (A Study on the Crawling and Classification Strategy for Local Website)

  • 황인수
    • Journal of Information Technology Applications and Management
    • /
    • 제13권2호
    • /
    • pp.55-65
    • /
    • 2006
  • Since the World-Wide Web (WWW) has become a major channel for information delivery, information overload also has become a serious problem to the Internet users. Therefore, effective information searching is critical to the success of Internet services. We present an integrated search engine for searching relevant web pages on the WWW in a certain Internet domain. It supports a local search on the web sites. The spider obtains all of the web pages from the web sites through web links. It operates autonomously without any human supervision. We developed state transition diagram to control navigation and analyze link structure of each web site. We have implemented an integrated local search engine and it shows that a higher satisfaction is obtained. From the user evaluation, we also find that higher precision is obtained.

  • PDF

Identification of Chinese Personal Names in Unrestricted Texts

  • Cheung, Lawrence;Tsou, Benjamin K.;Sun, Mao-Song
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.28-35
    • /
    • 2002
  • Automatic identification of Chinese personal names in unrestricted texts is a key task in Chinese word segmentation, and can affect other NLP tasks such as word segmentation and information retrieval, if it is not properly addressed. This paper (1) demonstrates the problems of Chinese personal name identification in some If applications, (2) analyzes the structure of Chinese personal names, and (3) further presents the relevant processing strategies. The geographical differences of Chinese personal names between Beijing and Hong Kong are highlighted at the end. It shows that variation in names across different Chinese communities constitutes a critical factor in designing Chinese personal name Identification algorithm.

  • PDF

뇌파측정기술(EEG)과 판별분석을 이용한 영상물의 키프레임 자동 분류 방안 연구 (Toward a Key-frame Automatic Extraction Method for Video Storyboard Surrogates Based on Users' EEG Signals and Discriminant Analysis)

  • 김현희
    • 정보관리학회지
    • /
    • 제32권3호
    • /
    • pp.377-396
    • /
    • 2015
  • 본 연구는 뇌파측정기술(EEG)의 ERP와 판별분석을 이용하여 이용자 기반의 비디오 키프레임들을 자동으로 추출할 수 있는 방안을 제안하였다. 구체적으로, 20명의 피험자를 대상으로 한 실험을 통해서 이미지 처리 과정을 다섯 개의 정보처리단계들(자극주목, 자극지각, 기억인출, 자극/기억 대조, 적합 판정)로 구분하여 각 단계별로 적합한 뇌파측정기술의 ERP 유형을 제안하여 검증해 보았다. 검증 결과, 각 단계별로 서로 다른 ERP 유형(N100, P200, N400, P3b, P600)을 나타냈다. 또한 세 그룹(적합, 부분적합 및 비적합 프레임)간을 구별할 수 있는 중요한 변수들로는 P3b에서 P7의 양전위 최고값과 FP2의 음전위 최저값의 잠재기로 나타났고, 이러한 변수들을 이용해 판별분석을 수행한 후 적합 및 비적합 프레임들을 분류할 수 있었다.

대용량 XML 문서의 효율적인 검색과 관리를 위한 SCOF 모델 (Service-centric Object Fragmentation Model for Efficient Retrieval and Management of Huge XML Documents)

  • 정창후;최윤수;진두석;김진숙;윤화묵
    • 인터넷정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.103-113
    • /
    • 2008
  • XML 문서가 증가하면서 XML 문서를 처리하는 방법론에 대한 많은 논의가 있어왔다. 본 논문에서는 두 가지 중요한 목적을 가지고 XML 정보 검색 및 관리 시스템을 개발하는데, 첫 번째는 질의에 적합한 내용을 쉽고 빠르게 검색해서 제공하는 것이고, 두 번째는 시스템의 부담을 최소화하면서 효율적이고 안정적인 관리 기능을 제공하는 것이다. 이렇게 실용적인 시스템을 개발하는 핵심 기술은 XML 문서를 어떻게 효과적으로 분할하여 구조적으로 서비스하는가에 달려 있다. 이러한 목적을 달성하기 위하여 본 논문에서는 SCOF(Service-centric Object Fragmentation) 모델을 제안한다. SCOF 모델은 XML 데이터 베이스 관리자에 의해서 정의되는 변환 규칙(conversion rule)을 이용하여 문서를 분할하는 준분할(semi-decomposition) 저장 방식이다. SCOF 모델을 사용한 키워드 기반 검색은 전형적인 XML 질의 언어처럼 문서의 특정 엘리먼트나 속성 값을 이용하여 검색을 수행할 수 있다. 비록 이러한 접근법이 XML 문서 컬렉션에 대한 관리자의 지식을 필요로 한다고 하더라도, 개별 문서의 크기나 전체 문서의 양에 상관없이 검색과 관리를 효율적으로 수행할 수 있기 때문에 실용적인 시스템을 구축할 수 있다는 장점이 있다.

  • PDF

Known-Item Retrieval Performance of a PICO-based Medical Question Answering Engine

  • Vong, Wan-Tze;Then, Patrick Hang Hui
    • Asia pacific journal of information systems
    • /
    • 제25권4호
    • /
    • pp.686-711
    • /
    • 2015
  • The performance of a novel medical question-answering engine called CliniCluster and existing search engines, such as CQA-1.0, Google, and Google Scholar, was evaluated using known-item searching. Known-item searching is a document that has been critically appraised to be highly relevant to a therapy question. Results show that, using CliniCluster, known-items were retrieved on average at rank 2 ($MRR@10{\approx}0.50$), and most of the known-items could be identified from the top-10 document lists. In response to ill-defined questions, the known-items were ranked lower by CliniCluster and CQA-1.0, whereas for Google and Google Scholar, significant difference in ranking was not found between well- and ill-defined questions. Less than 40% of the known-items could be identified from the top-10 documents retrieved by CQA-1.0, Google, and Google Scholar. An analysis of the top-ranked documents by strength of evidence revealed that CliniCluster outperformed other search engines by providing a higher number of recent publications with the highest study design. In conclusion, the overall results support the use of CliniCluster in answering therapy questions by ranking highly relevant documents in the top positions of the search results.

국방 디지털 아카이브의 효율적 연관정보 검색을 위한 자동화된 비즈니스 서비스 식별 (An Automatic Business Service Identification for Effective Relevant Information Retrieval of Defense Digital Archive)

  • 변영태;황상규;정찬기
    • 정보관리학회지
    • /
    • 제27권4호
    • /
    • pp.33-47
    • /
    • 2010
  • 정보기술혁명 및 네트워크 기반 정보공유 대중화는 국방 분야 디지털콘텐츠 수를 증가시켰다. 이에 따라 급격하게 그 수가 증가한 장기 보존된 디지털화된 공공정보 가운데 사용자 본인에게 적합한 공공정보를 찾는 것은 매우 중요한 문제로 대두되고 있다. 디지털콘텐츠는 원 자료의 출처 및 생산 시기에 따라 그 형태가 매우 다양하고, 디지털콘텐츠간에는 많은 상호 연관 관계가 존재한다. 비즈니스 서비스 온톨로지는 공공분야 디지털 아카이브 정보 생산자와 정보 이용자 간의 상호 지식을 명시화하고 지식을 공유할 수 있는 방안을 제공함으로써 디지털 공공정보 검색능력을 증진시키는데 많은 도움을 줄 수 있다. 비즈니스 서비스 온톨로지는 정보 생산자와 정보 이용자 간의 교량과 같은 인터페이스 역할을 수행하는 것이다. 그러나 업무 처리절차에 대한 의미 지식 추출의 어려움으로 인하여, 비정형의 업무 활동들로부터 정형화된 비즈니스 서비스로의 매핑 정보를 제공하는 비즈니스 서비스 온톨로지 자동화는 실용화하기가 매우 힘든 실정이다. 이러한 문제점을 해결하고자 본 연구에서는 비즈니스 서비스 온톨로지 구축을 위한 첫단계로써 전사적 아키텍처(ITA/EA)로부터 단위 비즈니스 서비스 식별 자동화 방안을 제안한다.

정보 검색 시스템의 적합성 피드백에 관한 연구 (Automatic Term Relevance Feedback in IRS)

  • 명순희
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권1호
    • /
    • pp.35-46
    • /
    • 1998
  • 비정형 데이터를 다루는 정보검색 시스템에서 검색의 정확도는 사용자의 인지에 의존하며 따라서 사용자의 검색 평가는 시스템의 효율을 측정하는 척도의 하나이다. 적합성피드백은 사용자의 검색 평가를 시스템에 입력하여 질의의 수정, 재 검색을 반복함으로써 재현율과 정확도를 높이고자 하는 질의 확장 방법의 일종이다. 본고에서는 적합성 피드백의이론적 배경과 구현 절차를 기술하였다.

  • PDF

Features, Functions and Components of a Library Classification System in the LIS tradition for the e-Environment

  • Satija, M.P.;Martinez-Avila, Daniel
    • Journal of Information Science Theory and Practice
    • /
    • 제3권4호
    • /
    • pp.62-77
    • /
    • 2015
  • This paper describes qualities of a library classification system that are commonly discussed in the LIS tradition and literature, and explains such a system’s three main functions, namely knowledge mapping, information retrieval, and shelf arrangement. In this vein, the paper states the functional requirements of bibliographic classifications, which broadly are subject collocation and facilitation of browsing the collection. It explains with details the components of a library classification system and their functions. The major components are schedules, notations, and index. It also states their distinguished features, such as generalia class, form divisions, book numbers, and devices for number synthesis which are not required in a knowledge classification. It illustrates with examples from the WebDewey good examples of added features of an online library classification system. It emphasizes that institutional backup and a revision machinery are essential for a classification to survive and remain relevant in the print and e-environment.

연구.학술정보 효율적 검색을 위한 온톨로지 기반의 주제 색인어 구조화 방안 연구 (A Study on Ontology-based Keywords Structuring for Efficient Information Retrieval)

  • 송인석
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.121-154
    • /
    • 2008
  • 본 연구에서는 정보검색도구 관점에서 지식조직체계로서 기존 시소러스 구축방안의 특성과 한계점을 검토하고, 대상 정보의 지식구조의 반영 및 정보 간의 의미관계 추론을 지원하는 온톨로지 기반의 주제 색인어 구조화 방안을 제시한다. 기존의 용어 중심의 시소러스와 달리, 단계별 연구프로세스 과정에서 수행되는 연구자의 정보행위 및 수요 분석에 때라 주제색인어의 개념을 식별 범주화하고, 인문사회과학 분야 학술논문의 지식체계를 구성하는 그 개념들 간의 유기적 관계정의를 통해 주제 색인어 집합의 의미구조를 정형화하였다. 이를 기반으로 각각의 온톨로지 기반 주제 색인어 집합은 구조화된 의미 색인으로서 대상 문서의 지식체계를 표현한다. 정보수요에 따라 정의된 공리나 추론규칙을 활용하여 이용자는 문제 해결에 적합한 정보를 대상 정보의 의미관계로 구성된 주제 도메인의 학술커뮤니케이션 네트워크상에서 분석적 정보탐색을 통해 효율적으로 검색 할 수 있다.

설계 패턴 기반 컴포넌트 분류와 E-SARM을 이용한 검색 (Design Pattern Base4 Component Classification and Retrieval using E-SARM)

  • 김귀정;한정수;송영재
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1133-1142
    • /
    • 2004
  • 본 연구에서는 성공적인 컴포넌트의 재사용을 위하여 도메인 지향(domain orientation) 개념을 도입하여 컴포넌트들을 저장소에 분류, 검색하는 방법을 제안한다. 설계 시 디자인 패턴이 적용된 기존 시스템의 컴포넌트를 대상으로, 해당 도메인 내에 있는 각 컴포넌트와 기준패턴과의 구조적 유사성을 비교함으로서 컴포넌트를 분류하는 방법을 제시하였다. 재사용 가능한 컴포넌트를 기능별로 분할하고 그 구조를 다이어그램으로 제공함으로서 컴포넌트의 재사용 및 플랫폼간의 이식성을 높일 수 있다. 또한 E-SARM 알고리즘을 이용하여 질의와 가장 적합한 컴포넌트와 그와 유사한 후보 컴포넌트들이 우선순위(priority order)로 제공됨으로서 컴포넌트 재사용 효율을 높여줄 수 있도록 하였다.