• Title/Summary/Keyword: term indexing

검색결과 47건 처리시간 0.017초

An Efficient Information Retrieval System for Unstructured Data Using Inverted Index

  • Abdullah Iftikhar;Muhammad Irfan Khan;Kulsoom Iftikhar
    • International Journal of Computer Science & Network Security
    • /
    • 제24권7호
    • /
    • pp.31-44
    • /
    • 2024
  • The inverted index is combination of the keywords and posting lists associated for indexing of document. In modern age excessive use of technology has increased data volume at a very high rate. Big data is great concern of researchers. An efficient Document indexing in big data has become a major challenge for researchers. All organizations and web engines have limited number of resources such as space and storage which is very crucial in term of data management of information retrieval system. Information retrieval system need to very efficient. Inverted indexing technique is introduced in this research to minimize the delay in retrieval of data in information retrieval system. Inverted index is illustrated and then its issues are discussed and resolve by implementing the scalable inverted index. Then existing algorithm of inverted compared with the naïve inverted index. The Interval list of inverted indexes stores on primary storage except of auxiliary memory. In this research an efficient architecture of information retrieval system is proposed particularly for unstructured data which don't have a predefined structure format and data volume.

이질적 색인어의 가중치 합에 기반한 수식 검색 시스템 (An Equation Retrieval System Based on Weighted Sum of Heterogenous Indexing Terms)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권10호
    • /
    • pp.745-750
    • /
    • 2010
  • 다양한 수식을 포함하는 수학 문서들을 효과적으로 검색하기 위해서는 수식 인지 검색 엔진이 필요하다. 본 논문에서는 구조적으로 유사한 수식들을 효과적으로 찾아주는 수식 검색 시스템을 제안한다. 제안 시스템은 MathML 수식들을 연산자, 변수, 그리고 수식 구조와 같은 3가지 형태의 이질적 색인어로 분리하고 독립적으로 색인한다. 사용자가 MathML 수식을 입력하면 제안 시스템은 이질적인 색인어들을 위한 3가지 언어모델들의 가중치 합을 이용하여 수식들을 검색하고 순위화한다. 244,824개의 MathML 수식을 대상으로 한 실험에서 제안 시스템은 비공개 테스트에서 53%의 1순위 정확률, 공개 테스트에서 63%의 1순위 정확률을 보였다.

연관색인법(聯關索引法)의 이론(理論)과 실제(實際) (Relational indexing: theory and practice)

  • 김태수
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.25-42
    • /
    • 1984
  • 정보(情報)의 축적(蓄積)과 검색(檢索)을 위한 개념(槪念) 조직과정(組織過程)에서는 개념(槪念) 뿐만 아니라 이들 개념간(槪念間)의 상관관계(相關關係)가 명확히 표현되어야 하며 이를 위해서는 인간(人間)의 사고과정(思考科程)에 기초해야 한다. 연관색인법(聯關索引法)에서는 9개의 연관기호(聯關記號)를 통하여 문신 중에서 각 개념간의 관계표현이 가능하며 이들 개념을 순열(順列)시키므로써 주제색인(主題索引)으로서의 기능을 수행할 수 있으며 기존의 색인(索引)시스템에 비해 검색효율의 개선(改善)을 초래할 수 있을 것이다.

  • PDF

시소러스의 기본 용어관계에 관한 연구 (A Study on the Basic Term Relationship of Thesaurus)

  • 한상길
    • 한국도서관정보학회지
    • /
    • 제30권4호
    • /
    • pp.107-136
    • /
    • 1999
  • With the development of indexing and retrieval techniques and the trends of information retrieval environment becoming more and more user-friendly, existing guideline for international thesaurus establishment standards and basic term relations currently used in thesaurus have become to longer adequate. The purpose of this study is to present solutions to expanding term relations which will fit new information retrieval environment. This report views standards for ISO 2788 and ANSI/NISO Z 39.19, and compares and analyzes 20 thesaurus basis term relations currently used both at home and abroad(14 overseas and 6 in Korea) to find out problems and limitations. Based on findings of the study, this report suggests how to expand thesaurus basic term relations to accomodate changes in information retrieval environment.

  • PDF

XML 태그를 분류에 따른 가중치 결정 (An XML Tag Indexing Method Using on Lexical Similarity)

  • 정혜진;김용성
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

저자동시인용(著者同時引用) 분석과 인용한 문헌(文獻)의 색인어(索引語) 분석(分析)에 의한 지적구조(知的構造)의 규명 - 경제학(經濟學) 분야를 대상으로 - (A Study on Intellectual Structure Using Author Co-citation Analysis and Indexing Term Analysis of Citing Documents - Application to Economics -)

  • 김도미
    • 정보관리연구
    • /
    • 제24권1호
    • /
    • pp.32-57
    • /
    • 1993
  • 저자동시인용(著者同時引用) 분석기법(分析技法)에서, 인용 데이터를 이용하여 형성된 저자군집(著者群集)은 현재의 시점에서 과거의 지적(知的) 구조(構造)를 관찰하는 방법으로써 현재 진행되는 연구경향을 나타낼 수 없다는 제한점을 갖는다는 주장이 있다. 그러므로 본 연구에서는 저자동시인용(著者同時引用) 분석기법(分析技法)에 의해 우러나라 경제학 분야의 지적 구조 및 학문성향을 분석해 보는 한편, 인용한 문헌(文獻)의 색인어(索引語) 분석이라는 새로운 기법을 저자동시인용 분석기법과 함께 사용하여 저자동시인용(著者同時引用) 분석기법(分析技法)의 제한점이 사실인지를 알아 보고자 하였다. 또한, 인용한 문헌의 색인어(索引語) 분석(分析)에 의하여 저자동시인용 분석결과와 해석의 타당성(妥當性)을 검증해 보았다.

  • PDF

시소러스 브라우저 자동구현을 위한 Metadata를 이용한 색인어 처리방안에 대한 연구 (A Theoretical Study on Indexing Methods using the Metadata for the Automatic Construction of a Thesaurus Browser)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제35권4호
    • /
    • pp.451-467
    • /
    • 2004
  • 본 연구에서는 시소러스 브라우저를 자동으로 구성하기 위한 방법에 대한 이론적인 연구와 함께 시소러스 브라우저 구성과정의 핵심인 자동색인과 용어 간 계층을 자동으로 형성하는 클러스터링 알고리즘에 대한 선행 연구결과를 제시하였다. 그리고 웹 문헌에서 전통적인 종이 형태 문헌의 서지사항에 해당하는 메타데이터를 분석하고 이를 처리하는 방안을 조사함에 의해 웹 문헌에서 색인어를 자동으로 추출할 수 있는 방안에 대하여 연구하였다. 또한 대부분의 웹 문헌에 메타데이터가 수록되어 있지 않음에 착안하여 기존의 웹 문헌에 메타데이터 자동 편집기를 이용하여 메타데이터를 수록하는 방안에 대한 연구결과를 제시하였다.

  • PDF

문서범주화 효율성 제고를 위한 정보원 평가에 관한 연구 (A Study on Information Resource Evaluation for Text Categorization)

  • 정은경
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.305-321
    • /
    • 2007
  • 이 연구는 색인가가 주제 색인하는 과정에서 참조하는 여러 문서구성요소를 문서 범주화의 정보원으로 인식하여 이들이 문서 범주화 성능에 미치는 영향을 살펴보는데 그 목적이 있다. 이는 기존의 문서 범주화 연구가 전문(full text)에 치중하는 것과는 달리 문서구성요소로서 정보원의 영향을 평가하여 문서 범주화에 효율적으로 사용될 수 있는지를 파악하고자 한다. 전형적인 과학기술분야의 저널 및 회의록 논문을 데이터 집합으로 하였을때 정보원은 본문정보 중심과 문서구성요소중심으로 나뉘어 질 수 있다. 본문정보중심은 본론자체와 서론과 결론으로 구성되며, 문서구성요소중심은 제목, 인용, 출처, 초록, 키워드로 파악된다. 실험결과를 살펴보면, 인용, 출처, 제목정보원은 본문정보원과 비교하여 유의한 차이를 보이지 않으며, 키워드정보원은 본문 정보원과 비교하여 유의한 차이를 보인다. 이러한 결과는 색인가가 참고하는 문서구성요소로서의 정보원이 문서 범주화에 본문을 대신하여 효율적으로 활용될 수 있음을 보여주고 있다.

표제(標題)와 초록(抄錄)의 색인성(索引性)과 정보량(情報量) 분석(分析) (Indexability and Information Quantity Analysis in Title and Abstract)

  • 김재수;남영준
    • 정보관리연구
    • /
    • 제23권2호
    • /
    • pp.1-13
    • /
    • 1992
  • 본(木) 연구(硏究)에서는 자동색인(自動索引)의 색인어(索引語) 추출(抽出)에 있어 주요한 색인원(索引源)이 되는 표제(標題)와 초록(抄錄)등의 색인성을 비교 분석하였다. 결과는 표제만을 혹은 초록(抄錄)만을 색인원(索引源)으로 선정할 경우에 적절한 색인어(索引語)를 추출할 수가 없었으며, 표제(標題)와 초록(抄錄)을 동시에 색인원(索引源)으로 선정할 경우가 좀 더 적절한 색인어(索引語)를 확보할 수가 있었다.

  • PDF