• 제목/요약/키워드: content-and concept-based retrieval

검색결과 23건 처리시간 0.016초

구조적 문서의 효율적인 구조 질의 처리 및 검색을 위한 알고리즘의 설계 (Design of Algorithm for Efficient Retrieve Pure Structure-Based Query Processing and Retrieve in Structured Document)

  • 김현주
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권8호
    • /
    • pp.1089-1098
    • /
    • 2001
  • 구조적 문서가 가지는 구조 정보는 문서로의 다양한 접근경로를 나타내는데 사용될 수 있다. 이러한 구조적 문서가 가지는 구조 정보를 활용하기 위해서는 문서의 구조에 대해서 색인을 해야 한다. 이때 내용색인뿐만 아니라 문서마다 구조정보를 저장하므로 색인에 필요한 공간이 커진다. 그러므로, 색인공간 오버헤드를 최소화시키면서도 엘리먼트간의 포함관계나 순서 등 문서의 순수 구조에 바탕을 둔 순수 구조 질의를 처리할 수 있어야 한다. 본 논문에서는 색인공간 오버헤드를 최소화하면서도 여러 유형의 구조 관련 질의를 효율적으로 처리할 수 있는 구조 색인 구조와 GDIT자료구조를 제시한다. 제안하는 구조 색인 구조는 문서에 존재하는 가장 하위 엘리먼트만을 색인대상으로 하며, 검색엘리먼트가 존재하는 문서개수에 영향을 받지 않는다. 그리고 이 색인구조를 바탕으로 순수 구조에 대한 질의 처리과정을 보이고 색인공간에 대해 그 성능을 평가한다. 제안된 색인 구조는 GDIT개념[2]에 바탕을 두고, GDIT기반의 색인기법을 사용한다.

  • PDF

워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정 (Semantic Similarity Measures Between Words within a Document using WordNet)

  • 강석훈;박종민
    • 한국산학기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.7718-7728
    • /
    • 2015
  • 단어 사이의 의미적 유사성은 많은 분야에 적용 될 수 있다. 예를 들면 컴퓨터 언어학, 인공지능, 정보처리 분야이다. 본 논문에서 우리는 단어 사이의 의미적 유사성을 측정하는 문서 내의 단어 가중치 적용 방법을 제시한다. 이 방법은 워드넷의 간선의 거리와 깊이를 고려한다. 그리고 문서 내의 정보를 기반으로 단어 사이의 의미적 유사성을 구한다. 문서 내의 정보는 단어의 빈도수와 단어의 의미 빈도수를 사용한다. 문서 내에서 단어 마다 단어 빈도수와 의미 빈도수를 통해 각 단어의 가중치를 구한다. 본 방법은 단어 사이의 거리, 깊이, 그리고 문서 내의 단어 가중치 3가지를 혼합한 유사도 측정 방법이다. 실험을 통하여 기존의 다른 방법과 성능을 비교하였다. 그 결과 기존 방법에 대비하여 성능의 향상을 가져왔다. 이를 통해 문서 내에서 단어의 가중치를 문서 마다 구할 수 있다. 단순한 최단거리 기반의 방법들과 깊이를 고려한 기존의 방법들은, 정보에 대한 특성을 제대로 표현하지 못했거나 다른 정보를 제대로 융합하지 못했다. 본 논문에서는 최단거리와 깊이 그리고 문서 내에서 단어의 정보량까지 고려하였고, 성능의 개선을 보였다.

R-tree 계열의 인덱싱 구조에서의 효율적 질의 처리를 위한 VP 필터링 (VP Filtering for Efficient Query Processing in R-tree Variants Index Structures)

  • 김병곤;이재호;임해철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권6호
    • /
    • pp.453-463
    • /
    • 2002
  • 정보사회가 인터넷의 보급과 더불어 복잡해짐에 따라 데이타베이스의 흐름은 문자나 숫자와 같은 일차원적인 데이타가 아닌 지리정보, 멀티미디어 데이타와 같은 다차원의 데이타를 저장하고 이에 대한 질의를 처리할 수 있는 시스템을 요구하고 있다 따라서, 다차원적인 특성을 지니는 데이타에 대한 효율적 검색을 위한 다차원 인덱싱 구조에 대한 연구가 활발히 진행되어 왔으며, 그와 동시에 이러한 인덱싱 구조하에서 효율적인 질의 처리를 위한 연구도 병행되고 있다. 다차원 데이타는 그 다양한 응용분야에 따라 요구되는 질의의 형태가 각각 다르므로 이에 대응할 수 있는 알고리즘의 연구가 필요하다. 현재, 많은 다차원 데이타 처리 시스템이 R-트리계열의 인덱싱구조를 근간으로 구성되었으나, 현재까지의 질의처리 기법은 질의처리시에 필터링 특성을 지니지 않으므로, 객체들간의 다차원 거리계산으로 인하여 많은 질의처리 시간을 소요한다. 본 논문에서는 다차원 데이타를 처리하기 위한 R-트리 계열의 다차원 인덱싱 구조에서의 효율적인 질의처리를 위하여 질의처리 대상 객체를 줄이기 위한 필터링 기법을 소개하였다. 필터링을 수행하기 위하여 VP-트리와 MVP-트리에서 사용되었던 VP(Vantage Point)를 이용한다. 먼저, VP 필터링의 개념을 소개하고, VP 필터링을 영역질의와 포인트 질의의 일종인 추가객체요구질의에 각각 적용한 알고리즘을 제시하였다. VP 필터링을 적용하기 위하여 요구되는 삽입 객체와 VP간의 거리계산 시간은 객체의 삽입시 수행되며, 질의 처리를 수행할 때에는 다시 계산되지 않는다. 논문에서는 제안된 알고리즘의 효율성을 실험을 통하여 증명하였다.