• 제목/요약/키워드: 질의어 빈도수

검색결과 37건 처리시간 0.024초

XML 문서에서의 단계화된 스키마 추출 (The Levelized Schema Extraction in XML Documents)

  • 김성림;윤용익
    • 한국멀티미디어학회논문지
    • /
    • 제5권1호
    • /
    • pp.105-113
    • /
    • 2002
  • 인터넷상에서 데이터를 표현하고 교환하는 새로운 표준으로 등장하는 XML 문서는 정해진 스키마를 가지고 있지 않다. XML 문서를 기존의 관계형 데이터베이스나 객체 지향 데이터 베이스 질의어에 바로 적용하기에는 부적합하여 이러한 XML문서에 대해 스키마를 추출하는 방법과 질의어에 대한 연구가 활발히 진행되고 있다. 스키마가 있다면 XML 문서에 대 해 사용자 질의를 효율적으로 처리할 수 있다. 그리고 수많은 데이터에서 사용자의 질의에 대한 결과는 너무 많거나 적을 수가 있다. 사용자에게 알맞은 질의 결과를 보여주는 것은 중요하다. 본 논문에서는 XML문서의 엘리먼트 정보를 바탕으로 스키마를 추출하고, 그 발생 빈도 수에 따라 여러 단계의 스키마를 추출하는 방법을 제시하고, 이를 구현하여 그 결과를 분석해본다.

  • PDF

퍼지 함수에 의한 질의어 확장과 문서 분류 알고리즘 (An Algorithm of Documents Classification and Query Extension using Fuzzy Function)

  • 은희주;하얀;김용성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권3호
    • /
    • pp.272-284
    • /
    • 2001
  • 웹 기반 검색 시스템에서사용자의 관심이 많은 문서를 선별하여 제공하기 위해 프로파일이나 시소러스에 관한 연구가 이루어지고 있다. 그러나, 프로파일이나 시소러스를 구축하고 유지보수 하는데 많은 시간과 노력이 필요하다. 특히 구축된 시소러스에 대해 구조화 및 적합성의 문제가 있다. 따라서, 이러한 문제점을 극복하고자 본 논문에서는 문서에서 추출한 용어 빈도를 문서에서 용어의 중요 정도로 사상시키기 위해 시그모이드 멤버 쉽 함수를 적용한다. 또한, 이 중요 정도에 따라 질의어를 확장하고 의미적으로 연결된 문서를 동일한 문서 집단으로 분류할 수 있는 알고리즘을 제안하여 사용자의 선호도가 반영된 문서를 선별하고 제공하고자 한다.

  • PDF

효율적인 부울 질의 연산에 관한 연구 (An Efficient Boolean Query Processing in Information Retrieval)

  • 채승기;남영광;박현주
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.173-185
    • /
    • 1996
  • 본 논문에서는 부울검색시스템에서 사용자로부터 입력되는 부울 질의를 효율적으로 연산하기 위한 부울 질의 최적화 방법 4가지를 기술한다. 첫째, 프로그래밍 언어에서 논리식의 계산에 사용되는 단거리계산 방법을 적용한다. 둘째, AND, NOT과 같은 특정 연산자를 효율적으로 연산하기 위하여 색인어 출현 빈도의 차이를 이용한다. 세째, 분배법칙이 적용된 질의를 원래의 식으로 변환하여 연산의 수를 감소시킨다. 마지막으로 반복되는 식을 포함하는 질의에 대하여 중복 연산을 회피한다. 또한 위의 4가지 방법들을 UNIX환경에서 개발된 KRISTAL-II 시스템에 구현하여, 제시된 방법들이 특정 경우에 검색 속도를 향상시킬 수 있음을 검증하였다.

  • PDF

XML 링크의 의미 속성을 이용한 개선된 검색 시스템을 위한 색인 기법에 대한 연구 (A Study on Indexing Method for Advanced Retrieval System using Semantics Attributes in XML Links)

  • 김은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1855-1858
    • /
    • 2002
  • XML 문서에 대한 검색은 문서내 색인어 발생 빈도에 의한 내용 검색과 문서내 특정 엘리먼트에 의한 구조 검색 그리고 내용과 구조를 모두 검색하는 혼합 검색 등이 있다. 본 논문에서는 사용자의 질의에 대하여 문서에 의존하는 것이 아니라, 링크를 검색하여 특정 색인어에 대하여 가장 많은 링크를 설정 받은 문서 또는 특정 엘리먼트를 검색하는 새로운 검색 시스템을 설계한다. 이를 위해 XML 문서를 저장할 때 구조 정보와 함께 링크 정보를 저장하고 XML 링크에서 의미 속성인 ROLE, TITLE을 색인한다. 제안된 색인 모델에서는 정보를 찾는 사용자들의 질의를 보다 다양한 시각에서 검색할 수 있으며, 따라서 이러한 사용자들의 질의 유형과 그 처리 과정을 설명하고 의미를 분서한다.

  • PDF

의미 카테고리와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Performance Improvement of a Search Engine Using Semantic Category and Hyperlink)

  • 김형일;김준태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.649-651
    • /
    • 2004
  • 현재, 웹의 정보는 사용자들이 원하는 모든 정보를 담고 있다고 할 수 있으나, 방대한 웹에서 사용자가 원하는 정보를 정확히 추출하기란 어려운 문제이다. 이러한 정보 추출의 어려움은 방대한 정보량과 정보추출 방식과 직결된다. 웹에서 정보를 정확히 추출하여도 일반적인 검색엔진들의 웹 페이지 순위 결정 방식을 따르게 되면, 사용자에게 중요한 페이지를 상위에 위치시키기란 쉬운 일이 아니다. 본 논문에서는 질의어의 모호성을 해결하기 위해 워드넷 기반 사용자 인터페이스를 설계하고, 웹 페이지의 가중치에 의미 카테고리 빈도 확률과 하이퍼링크 가중치를 이용한 웹 페이지의 가중치 결정 방식을 제안한다.

  • PDF

XML 문서에서의 엘리먼트 정보를 이용한 스키마 추출방법 (A Schema Extraction Method using Elements Information in XML Documents)

  • 김성림;윤용익
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.381-388
    • /
    • 2002
  • 인터넷상에서 데이터를 표현하고 교환하는 새로운 표준으로 등장하는 XML 문서는 정해진 스키마를 가지고 있지 않다. XML 문서를 기존의 SQL이나 OQL에 바로 적용하기에는 부적합하여 이러한 XML 문서에 대해 스키마를 추출하는 방법과 질의어에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 XML문서에 대해 엘리먼트 정보를 이용하여 스키마를 추출하고, 추출된 스키마를 바탕으로 데이터 빈도수에 따라 새로운 여러 단계의 스키마를 추출하는 방법을 제시하고 실험한다.

Gnutella Protocol 기반 네트워크에서 P2P응용을 위한 캐싱 기법 (A Caching Technique for P2P Applications in Network based on Gnutella Protocol)

  • 김병룡;김기창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.844-846
    • /
    • 2004
  • Gnutella Protocol기반 네트워크에서 상호간 통신 및 검색과 응답과정에서 릴레이와 브로드캐스팅 되는 Query메시지들로 인해 많은 통신 부하를 초래한다. 또한 멀티 홉을 통한 질의 응답과정의 통신 오버헤드로 인해 통신 효율성이 저하된다. 따라서 본 논문에서는 Zipf's law 을 기반으로 한 검색어 캐싱기법을 통해, 검색어 및 검색된 응답 문자열의 빈도수와 랭킹, 그리고 검색된 파일의 크기와의 상관 관계를 얻어 캐싱 정책을 수립하고. 이에 따라 캐싱함과 동시에 캐싱정책을 이웃 peer에게 전과함으로써 전체적인 네트웍에서의 P2P응용 성능을 향상시킬 수 있는 캐싱 기법을 제안한다.

  • PDF

다중 무선 방송채널에서 kNN 질의 처리를 위한 R-tree 인덱스 스케줄링 기법 (An R-tree Index Scheduling Method for kNN Query Processing in Multiple Wireless Broadcast Channels)

  • 정의준;정성원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.121-126
    • /
    • 2010
  • 본 논문은 다중 무선 방송채널환경에서 R-tree를 이용하여 kNN 질의처리의 효과적인 인덱스 스케줄링 기법에 관한 논문이다. 기존 방식은 kNN질의처리 시 노드를 여러 개 얻어야 할 때 child들이 다중 채널 방송스케줄 상 같은 타임 슬롯에 위치하고 있어 원하는 데이터를 얻기 위해서 다음 사이클로 넘어가 데이터를 얻는 시간이 길어지는 단점이 존재하였다. 제안하는 방법은 방송채널에 인덱스 스케줄링을 하기 전에 kNN을 수행하여 R-tree의 각 노드의 child의 접근빈도를 구한 후 구해진 접근 빈도를 기반으로 인덱스 스케줄링 시 방문이 많이 되어 접근빈도가 높은 child들을 다중채널 상에 직렬로 할당하고 접근이 적게 되는 노드는 병렬로 할당하여 질의처리 시 각 노드의 child들을 탐색할 때 겹치는 부분을 줄여 사용자가 원하는 데이터를 빠르게 얻을 수 있는 인덱스 스케줄링 기법이다.

관계형 데이터 웨어하우스의 복잡한 질의의 처리 효율 향상을 위한 비트맵 조인 인덱스 선택에 관한 연구 (A Study on Selecting Bitmap Join Index to Speed up Complex Queries in Relational Data Warehouses)

  • 안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.1-14
    • /
    • 2012
  • 데이터 웨어하우스는 크기가 방대하기 때문에 인덱스의 선택은 질의어 처리의 효율성에 상대한 영향을 준다. 인덱스는 질의 처리 비용을 줄이지만, 그것이 차지하는 기억 영역과 데이터베이스의 변경에 따른 보수라는 비용이 수반된다. 데이터 웨어하우스에서 하나의 사실 테이블과 여러 개의 차원 테이블 사이의 조인을 행하는 스타 조인 질의어와 차원 테이블의 선택을 최적화하기 위해서 비트맵 조인 인덱스가 잘 적용된다. 비트맵 조인 인덱스는 이진수로 표현되기 때문에 저장 비용은 적게 들지만 인덱스 할 후보 속성들이 많이 생성되기 때문에 그 중에서 인덱스 할 속성들을 선택하는 일은 어려운 과제가 된다. 인덱스 선택은 일단 후보 속성들의 개수를 축소하고, 그 중에서 인덱스를 선택하게 된다. 본 논문에서는 데이터 마이닝 방법을 사용해서 비트 맵 조인 인덱스 선택 문제에서 후보 속성들의 개수를 축소하는 것을 해결한다. 질의어에 있는 속성들의 빈도에 기준해서 후보 속성들의 개수를 감소시키는 기존의 방법에 비해서 본 논문은 속성들의 빈도를 사용함과 동시에 차원 테이블의 크기, 차원 테이블의 튜플 크기, 디스크의 페이지 크기 등을 고려한다. 그리고 데이터마이닝 기법으로 빈발 항목집합을 마이닝하여 후보 속성들의 개수를 효과적으로 줄인다. 후보 속성집합들의 비트 맵 조인 인덱스에 비용함수를 적용해서 최소의 비용과 기억 영역 제한에 적합한 속성집합들의 비트 맵 조인 인덱스를 구한다. 본 논문의 방법의 효율성을 평가하기 위해서 기존의 방법들과 비교 분석을 한다.

클라우드 환경에서 문서의 유형 분류를 위한 시맨틱 클러스터링 모델 (Semantic Clustering Model for Analytical Classification of Documents in Cloud Environment)

  • 김영수;이병엽
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.389-397
    • /
    • 2017
  • 최근 시맨틱 웹 문서는 클라우드 기반으로 생성 및 유통되고 문서유형 분류에 따른 쉽고 신속한 정보 검색을 위해 지능형 시맨틱 에이전트를 요구하고 있다. 기존의 웹 문서의 검색은 키워드를 이용하여 해당하는 질의어가 포함된 문서 목록을 결과로 가져오며 사용자의 요구시에 내용을 제시하는 것이 일반적인 형태이다. 이는 웹 문서의 유사도와 시맨틱 관련성을 고려하지 않음으로써 사용자가 내용 검색과 분석에 많은 시간과 노력을 요구한다. 이의 해결을 위해서 빅 데이터 요소 기술인 하둡과 NoSQL을 활용하여 시맨틱 웹 문서에 포함된 키워드 빈도에 기반한 웹 문서의 유형 분류와 유사도를 제시하는 시맨틱 클러스터링 모델을 제안한다. 제안 모델은 실시간 데이터 처리가 요청되는 이종 모델을 가진 공공 데이터와 웹 데이터를 취합하여 일반 사용자가 쉽게 질의할 수 있는 대용량 지식 기반 시스템을 구축하는데 응용 모델로 활용될 수 있다.