• 제목/요약/키워드: 색인

검색결과 9,888건 처리시간 0.058초

구 기반 색인 시스템의 구현 (Implementation of Phrase-based Indexing)

  • 이충희;김현진;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

합병 방법을 이용한 고정 격자 색인의 성능 개선 (Fixed Grid File Packing using Merge)

  • 김동현;문정욱;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.25-27
    • /
    • 2002
  • 고정 격자 방식의 공간 색인 방법은 간단한 구조와 단순한 색인 과정, 구현의 용이성이라는 장점이 있으나 데이터의 분포에 영향을 많이 받아 밀집된 데이터를 처리하기에는 적합하지 못한 특성이 있다. 이에 본 논문에서는 고정 격자 색인 방법에 합병 정책을 적용하여 고정 격자 색인 방법의 성능을 향상시키는 방법을 제안한다. 본 논문의 방법에 따르면 공간 효율성이 매우 증가하고 다른 공간 색인 방법에 비해 색인 과정이 단순해지며, 공간 색인의 성능이 다른 색인 방법에 비해 증가되는 장점을 가지고 있다.

  • PDF

공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 효율적인 색인 재구성 기법 (An Efficient Method of the Index Reorganization using Partial Index Transfer in Spatial Data Warehouses)

  • 정영철;유병섭;박순영;이재동;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.39-42
    • /
    • 2005
  • 공간 데이터 웨어하우스 구축기는 소스 데이터의 변경 사항을 일괄처리의 형태로 공간 데이터 웨어하우스에 적재한다. 또한, 공간 데이터 웨어하우스 서버는 사용자의 질의에 빠른 응답을 하기위해 적재된 데이터로 색인을 구축한다. 색인을 구성하는 기존 기법으로는 벌크 삽입 기법 및 색인 전송 기법이 있다. 벌크 삽입 기법은 색인을 구성하기 위한 클러스터링 비용이 필요하며 검색 성능도 떨어진다. 또한, 색인 전송 기법은 주기적인 소스 데이터의 변경을 지원하지 않는다는 문제점이 있다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 효율적인 색인 재구성 기법을 제안한다. 제안 기법은 구축기에서 색인의 구조에 맞게 클러스터링된 클러스터들을 부분 색인으로 구성하여 페이지 단위로 전송한다. 공간 데이터 웨어하우스 서버에서는 전송된 부분 색인의 물리적 사상 문제를 해결하기 위해 물리적으로 연속된 공간을 예약하고 예약된 공간에 부분 색인을 기록한다. 기록된 부분 색인은 공간 데이터 웨어하우스 서버에 있던 기존 색인에 삽입된다. 부분 색인이 기존 색인에 직접 삽입됨으로써 색인 재구성을 위한 검색, 분할, 재조정 비용은 최소가 된다.

  • PDF

실감 모델링을 위한 색 추출 기법에서 적합한 이미지 선정 방법 연구 (Most Appropriate Image Selection method for Color Extraction in Immersive modeling)

  • 박정욱;이관행
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.44-49
    • /
    • 2007
  • 반짝이는 특성의 물체에 대해 이미지를 기반으로 색을 추출하는 경우 반짝이는 특성을 포함하면서 내재되어 있는 색 특성을 표현하기 위해 색 곡선(color line)을 이용한다. 이 경우 추출하려는 색이 왜곡되지 않은 가장 적합한 이미지를 선정하는 방법이 필요하다. 이를 위해서 실감모델링을 위해 색 곡선을 기반으로 색을 추출하는 방법을 제시하고 제시된 방법을 위해 색을 추출하기 가장 적합한 이미지를 선정하는 기준을 색포화율(color saturation ratio)을 통해 제안한다. 색포화율이란 색을 구성하는 요소 중에서 최소한 하나 이상의 색이 포화된 픽셀들을 최대 색거리를 가진 픽셀들로 간주하여 계산된 색거리의 총합에 대해 최소한 하나 이상의 색이 포화된 픽셀들의 색거리 총합의 비율를 의미한다. 이상적으로 이 비율이 최소가 되면 하이라이트를 제외한 어떤 픽셀도 포화되지 않기 때문에 반짝이는 특성을 가진 물체의 색을 추출하기 위해 촬영된 이미지는 하이라이트를 제외한 모든 색이 왜곡되지 않은 가장 적합한 이미지가 생성된다. 또한, 이렇게 선정된 이미지에서 추출된 색의 효율성을 보이기 위해 색 공간과 이미지 상에서 다양한 형태의 응용 결과를 제시하였다.

  • PDF

분산 데이터베이스 시스템에서의 색인 구성비용 절감을 위한 효율적인 색인 전송기법 (An Efficient Index Transfer Method for Reducing Index Organization Cost In Distributed Database Systems)

  • 박상근;김호석;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.223-225
    • /
    • 2003
  • 분산 데이터베이스 시스템 환경에서는 특정 노드로 집중되는 부하의 분산이나 가용성 및 안정성 제공을 위해 데이터 분할기법 (fragmentation)과 복제기법(replication)을 사용한다. 이때 전송된 데이터에 대한 기존의 색인 재활용 기법과 벌크 로딩(bulk loading) 기법은 효율적인 색인 구성을 위해 논리적인 페이지 포인터를 물리적 주소로 변환하는 물리적 사상구조를 필요로 하거나, 색인 구성시간과 검색성능 모두를 향상시키지 못하는 문제점을 지닌다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 색인 전송기법을 제안한다. 본 기법은 색인 재활용을 위해 물리적 사상구조를 추가로 유지하거나, 검색 성능을 향상시키기 위해 전체 데이터 집합을 정렬하는 것이 아니라, 데이터가 전송될 사이트에 색인구조물 저장하기 위한 물리적 공간은 예약하고 예약된 공간에 색인구조를 전송, 기록함으로써 색인 구성비용을 줄이게 된다. 또한 예약된 공간을 연속적인 페이지구조로 구성함으로써 색인 구성 시 자식노드에 대한 위치정보를 예상하여 부모노드가 지니는 자식노드에 대한 위치정보 기록 비용을 줄일 수 있다.

  • PDF

다차원 범위 질의를 위한 순차 색인 기법 (A Sequential Indexing Method for Multidimensional Range Queries)

  • 차광호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.254-262
    • /
    • 2005
  • 이 논문은 다차원 범위 질의를 위한 순차 색인 기법인 세그먼트-페이지 색인(SP-색인)이라는 새로운 색인 기법을 제안한다. SP-색인의 목표는 (1) 다차원 색인 기법에서의 범위 질의의 성능 향상, (2) 과도한 색인의 재구성 없이 색인의 클러스터링이라는 두 가지로 요약된다. 오랜 동안의 데이타베이스 연구 결과로 다양한 다차원 색인 기법이 개발 되었지만, 대부분의 연구가 데이타 레벨의 클러스터링에 초점을 맞추었고, 색인 자체의 클러스터링에는 거의 관심을 두지 않았다. 따라서 대부분의 관련된 색인 노드가 디스크에 분산되고, 질의 처리 시에 많은 무작위 디스크 접근이 발생한다. SP-색인은 관련된 노드를 연속적인 디스크 페이지로 구성되는 하나의 세그먼트에 저장하여 노드들의 분산을 피하고, 세그먼트 내에서의 순차 접근을 통해 질의 처리 성능을 높인다. 실험 결과에 따르면 SP-색인은 페이지 기반의 전통적인 색인기법에 비해 수행 시간 면에서 수 배의 성능 향상을 보이고, 단순히 큰 페이지를 사용에 따른 디스크 대역폭 낭비를 줄인다.

서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 - (A Study on the Extraction and Utilization of Index from Bibliographic MARC Database)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제36권2호
    • /
    • pp.327-348
    • /
    • 2005
  • 본 연구의 목적은 서지정보검색시스템의 색인 정의의 중요성을 강조하고 최적 색인의 기초 자료를 마련하기 위함이다. 이를 위해 서지마크 데이터베이스로부터 색인 태그 정의 및 정규화를 통한 색인어추출이론에 대해 고찰하고, 이론에 따라 생성된 색인어의 검색 활용도를 분석하였다. 실험은 서지 2,200,488건에서 생성된 색인어 29,219,853건을 텍스트형 색인과 코드형 색인으로 나누어 이용자 왱 검색 로그에 나타난 색인 항목과 비교하여 어떤 색인 정의가 얼마나 활용되는가를 분석하였다. 결과에 따르면 서명, 저자, 출판사, 주제와 같은 텍스트형 색인어는 높은 검색 활용도를 보인 반면에 코드형 색인어는 검색 활용도가 낮아 검색에 활용되지 않는 불필요한 색인 정의들은 과감하게 제거하여 색인 정의를 최적화해야 함을 제안하였다.

  • PDF

시소러스를 기반으로 하는 자동색인 시스템에 관한 연구 (The Development of an Automatic Indexing System based on a Thesaurus)

  • 임형묵;정상철
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.213-242
    • /
    • 1993
  • 그동안 자동색인 기법에 대해서는 단일어 색인,구색인,시소러스 기반 색인 등의 연구가 이루어져 왔는데,단일어 색인 기법이 단일어에 기초한 단순한 색인 방법 임에도 불구하고 다른 두가지 기법보다 일반적으로 우수하다고 알려져왔다. 시소러스 기반 색인은 이중에서도 검색효율이 낮은 것으로 알려져 왔는데,이는 일반적으로 시소러스가 포함하고 있는 색인용어들이 한정되어 있어 색인하려는 자료들이 이색인 용어에 부합(match)되지 않을 경우 색인 자체가 이루어 지지 않기 때문이다. 본 연구에서는 시소러스 기반 색인이 지금까지 기법으로는 검색효율이 좋지 않지만 실제 전문 색인들이 하는 색인과 매우 유사하다는 장범에 기초하여,입력 자료를 구문분석하고,분석된 자료들과 색인용어들을 정확부합(exact match)이 아닌 부분부합(partial match)을 통하여 색인 함으로써 검색효율이 우수한 시소러스기반 자동 색인 시스템을 개발하고자 한다. 본 연구에서 개발된 색인 시스템이 THINS는 우선 시소러스를 트리형태로 구성하고 입력자료들을 KAIST에서 개발한 언어번역기 MATES/EK를 통하여 구문분석한 후 명사구들만 뽑아낸다.그다음 명사구에 있는 용어들중 불용어를 제거하고 스테밍작업을 진행한후 생기는 형태를 색인 용어들과 부분부합 과정을 반복하여,유사한 색인 용어들과 가능하면 색인이 되도록 한다. 본 연구에서는 CACM 데이타 집합을 가지고 본 시소러스 기반 색인 시스템과 단일어 색인방식을 혼성지식기반 시스템인 HYKIS에서 성능을 평가하였다.이 성능평가에서 시소러스를 기반으로 하는 색인 시스템이 단일어 색인방식보다 회상도에서는 8-9%떨어지지만 정확도에서는 10%정도 높은 결과를 나타내었다.그러나 이는 기존의 시소러스 기반시스템이 단일어 색인 방식보다 정확도가 25%-30%정도 떨어진다는 것을 비추어 볼때 기존의 방식보다 우수한 것이라 평가된다.또한 CACM 에서 제공하는 시소러스인 CRCS 가 1000여개의 색인어밖에 포함하고 있어 매우 불완전한 것이라는 것을 고려하면,THINS가 최근에 개발되고 있는 시소러스와 접속된다면 매우 우수한 검색효율을 내리라 사료된다.

XML 문서의 다양한 구조 검색을 위한 효율적인 동적 색인 모델 (An Efficient Dynamic Indexing Model for Various Structure Retrievals of XML Documents)

  • 신승호;손충범;강형일;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.48-60
    • /
    • 2004
  • 정보 표현의 기본 단위인 엘리먼트로 구성되는 XML 문서 내에서 동적으로 구조 변경이 이루어진다. 이때 XML 문서의 구조변경은 빠른 검색을 위해 기존의 색인 구조 정보의 변경 없이 효율적으로 처리되어야 한다. 이를 위해 본 논문에서는 XML 문서의 구조 변경 시 기존의 색인 구조에 효율적으로 수용될 수 있는 동적 색인 모델을 제안한다. 제안하는 동적 색인 모델은 다양한 구조 검색을 지원하기 위한 구조 정보 표현 방법과 효율적인 구조 검색을 지원하기 위한 동적 색인 구조로 구성된다. 제안하는 색인 기법이 기존의 동적 색인을 지원하는 기법보다 내용 색인, 구조 색인, 애트리뷰트 색인 측면에서 우수함을 성능 평가를 통해 보인다.

서적에서의 자동색인 (Automatic Production of Book Indices)

  • 조성래;황도삼;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF