• 제목/요약/키워드: 색인기법

검색결과 654건 처리시간 0.024초

XML 링크정보를 이용한 정보 검색 색인 기법의 설계 (Design of an Information Retrieval Indexing Method using XML Links)

  • 김은정;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2020-2027
    • /
    • 2000
  • The hypertext document is used for information exchange in the Web environments. Its structure is considered as having graph structures with links, which makes nonlinear processing of documents possible. This paper proposes an indexing method for information retrieval system using XML links. We define new attributes that control links of a remote document and assign an unique identifier for the attribute of each link. Each identifier has a different weight according to its occurrence position that is local or remote documents. We index a word not only from a local document but a remote document based on the given weight. Experimental results show that the proposed method outperforms conventional retrieval systems that ignore links.

  • PDF

고차원 벡터 공간에서 k-최근접 검색에 관한 분석 (Analysis of k-Nearest Neighbor Search in High-Demensional Vector Spaces)

  • 최승락;곽태영;신봉근;이윤준;김명호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.191-193
    • /
    • 1998
  • 지금까지 제시된 최근접 질의 알고리즘은다소간의 cklms 있으나 기본적으로 질의 점과 MBR간의 최소거리에 기반한 분기와 한정 기법을 이용하고 있다. 그러나 차원이 증가함에 따라 질의 구와 겹치는 노드가 급속히 증가하기 때문에 최근접 질의 알고리즘의 성능은 매우 비효율적이다. 이러한 문제를 해결하기 위해서 MBR 간의 중첩을 줄이고 MBR 내에 가급적 많은 점을 포함할 수 있는 다양한 다차원 색인 구조가 제시도 되었다. 그러나 우리의 실험에 의하면 이러한 방법이 근본적인 해결책이 되지 못함을 알 수 있다. 고차원 백터 공간 모델이 가지는 문제로써 임의의 질의 점으로부터 모든 데이터 점들까지의 거리가 차원이 올라감에 따라 유사해지는 현상 때문에 비효율적인 성능이 나옴을 본 논문에서 지적한다.

우리말 정보 자료를 처리하는 지능형 정보 검색 시스템의 설계 (Design of a Korean Intelligent Information Retrieval System)

  • 정영미
    • 정보관리학회지
    • /
    • 제8권2호
    • /
    • pp.3-31
    • /
    • 1991
  • 본 연구에서는 지능형 정보 검색의 개념을 정립하고, 지능형 정보 검색 시스템의 모 형을 제시하였다. 실제로 우리말 문헌을 검색하는 지능형 시스템을 구현하였으며, 이 시스템 은 자연 언어 인터페이스, 이용자 모형화, 격관계를 이용한 자동 색인, 복수의 검색 기법 등 을 수용한다.

  • PDF

프랙탈을 이용한 시공간 데이터웨어하우스 (Spatio-Temporal Data Warehouses Using Fractals)

  • 최원익;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.46-48
    • /
    • 2003
  • 최근 시공간 데이타에 대한 OLAP연산 효율을 증가시키기 위한 여러 가지 연구들이 행하여지고 있다. 이들 연구의 대부분은 다중트리구조에 기반하고 있다. 다중트리구조는 공간차원을 색인하기 위한 하나의 R-tree와 시간차원을 색인하기 위한 다수의 B-tree로 이루어져 있다. 하지만, 이러한 다중트리구조는 높은 유지비용과 불충분한 질의 처리 효율로 인해 현실적으로 시공간 OLAP연산에 적용하기에는 어려운 점이 있다. 본 논문에서는 이러한 문제를 근본적으로 개선하기 위한 접근 방법으로서 힐버트큐브(Hilbert Cube, H-Cube)를 제안하고 있다. H-Cube는 집계질의(aggregation query) 처리 효율을 높이기 위해 힐버트 곡선을 이용하여 셀들에게 완전순서(total-order)를 부여하고 있으며, 아울러 전통적인 누적합(prefix-sum) 기법을 함께 적용하고 있다. H-Cube는 적응적이며, 완전순서화되어 있으며, 또한 누적합을 이용한 셀 기반의 색인구조이다. 본 논문에서는 H-Cube의 성능 평가를 위해서 다양한 실험을 하였으며, 그 결과로서 유지비용과 질의 처리 효율성면 모두에서 다중트리구조보다 높은 성능 향상이 있음을 보인다.

  • PDF

실시간 교통 이벤트 관리 및 클러스터링 기법 (Realtime Traffic Event Management and Clustering Method)

  • 김보성;최도진;송석일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.69-70
    • /
    • 2015
  • 본 논문에서는 운행중인 차량이 수집한 위치별 교통 이벤트 (지체, 정체, 사고, 노면상태 등)를 다른 운행 차량과 실시간으로 공유하여 안전운행 서비스를 제공하기 위한 방법을 제안한다. 운행중인 차량은 차량내의 스마트 기기나 전용 기기를 이용해 수집한 교통이벤트를 실시간으로 서버로 전송하고 서버는 전송된 교통이벤트를 위치별, 시간별로 색인하고 중복된 교통이벤트를 분류하여 저장한다. 이런 모든 과정은 처리 속도 향상을 위해 Spark의 RDD를 이용해서 인-메모리에서 처리된다.

  • PDF

한글 문장의 자동 띄어쓰기 (Automatic Word-Segmentation for Hangul Sentences)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-142
    • /
    • 1998
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 찾아 주는 띄어쓰기 알고리즘으로 어절 블록에 대한 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 어절 블록에 나타난 각 어절들을 인식하는 방법으로는 형태소 분석기를 이용한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

내포 질의의 효율적 평가를 위한 분리 색인 기법 (A Separated Indexing Technique for Efficient Evaluation of Nested Queries)

  • 권영무;박용진
    • 전자공학회논문지B
    • /
    • 제29B권7호
    • /
    • pp.11-22
    • /
    • 1992
  • In this paper, a new indexing technique is proposed for efficient evaluation of nested queries on aggregation hierarchy in object-oriented data model. As an index data structure, an extended $B^{+}$ tree is introduced in which instance identifier to be searched and path information used for update of index record are stored in leaf node and subleaf node, respectively. the retrieval and update algorithm on the introduced index data structure is provided. Comparisons under a variety of conditions are given with current indexing techniques, showing improved performance in cost, i.e., the total number of pages accessed for retrieval and update.

  • PDF

객체 데이터베이스에서 스타 조인의 빠른처리를 위한 비트맵 색인 기법과 그의 선정 문제 (Bit-map Indexes and Their Selection Problem for Efficient Processing of Star Joins in Object Databases)

  • 조완섭;정태성;이현철;장혜경;안명상
    • Journal of Information Technology Applications and Management
    • /
    • 제10권2호
    • /
    • pp.19-31
    • /
    • 2003
  • We propose an indexing technique and an index selection algorithm for optimal OLAP query processing in object database systems, Although there are many research results on the relational database systems for OLAP Query processing, few researches have been done on the object database systems. Since OLAP queries represent complex business logic on a huge data ware-house, object database systems supporting the OLAP queries should have higher performance. Proposed bitmap index structure is an extension of conventional bitmap indexes for adapting object databases and provides higher performance with lower space overhead. We also propose a linear time solution of the index selection problem that will be used in the OLAP query optimization process.

  • PDF

효율적인 색인어 추출을 위한 복합명사 분석 방법 (A Korean Compound Noun Analysis Method for Effective Indexing)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-35
    • /
    • 1996
  • 정보 검색 기술은 적용 분야, 질의어, 데이터가 달라질 경우, 결과 또한 달라질 수 있음을 최근의 연구 결과로부터 알 수 있다. 사용되는 언어에 따라서도 고유한 문제가 제기될 수 있는데, 특히 한국어의 경우 복합명사는 명사끼리의 조합이 자유롭고 길이에 제한이 없기 때문에 이를 단위 명사로 분할하는 작업이 어렵다. 또한 영어와는 달리 복합명사가 문서 내에서 많은 부분을 차지하며 문서의 내용을 대표하는 경우가 많이 있기 때문에, 정보 검색 기술을 한국어에 적용하기 위해서는 수정, 보완하는 노력이 필요하다. 본 연구에서는 어휘에 관한 사전 및 코퍼스 정보를 트라이(trie)에 저장한 후 어휘들간의 공통 부분에 더미 노드(dummy node)를 삽입하여 복합명사를 단위 명사로 분할하는 기법을 제시하였다.

  • PDF

내장형 정보기기를 위한 플래시 메모리 기반 색인 기법 (Flash Memory based Indexing Scheme for Embedded Information Devices)

  • 변시우;노창배;허문행
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.267-269
    • /
    • 2006
  • Recently, flash memories are one of best media to support portable computer's storages in mobile computing environment. The features of non-volatility, low power consumption, and fast access time for read operations are sufficient grounds to support flash memory as major database storage components of portable computers. However, we need to improve traditional Indexing scheme such as B-Tree due to the relatively slow characteristics of flash operation as compared to RAM memory. In order to achieve this goal, we devise a new indexing scheme called F-Tree. F-Tree improves tree operation performance by compressing pointers and keys in tree nodes and rewriting the nodes without a slow erase operation in node insert/delete processes.

  • PDF