• Title/Summary/Keyword: 질의 클러스터

Search Result 161, Processing Time 0.027 seconds

Term Clustering and Interleaving for Parallel Information Retrieval (색인어 군집화를 이용한 효율적인 병렬정보검색시스템)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.401-409
    • /
    • 2002
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집 화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분산저장함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산저장기법이 충분한 효율성을 가지고 있음을 확인하였다.

  • PDF

Declustering Spatial Objects by Clustering for Parallel Disks (클러스터를 이용한 공간데이타 디클러스터링)

  • 곽지숙;김학철;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.168-170
    • /
    • 1999
  • 지리정보시스템과 같은 공간 데이터베이스에서 다루는 데이터는 대용량이며, 사용자의 다양한 질의에 따라 빠르게 접근할 수 있어야 한다. 그런데 이때 성능의 대부분이 디스크 접근시간에 의해 영향을 받으므로 접근시간을 줄이는 기술이 필요하다. 이는 다수의 디스크 공간에 데이터를 분산하여 저장하는 디클러스터링 방법을 사용함으로써 효과적인 성능 향상을 기대할 수 있다. 효과적인 디클러스터링 방법은 주어진 질의에 대하여 동시에 접근될 가능성이 있는 공간 객체를 다른 디스크에 각각 저장함으로써 한번에 접근하는 병렬성을 높일 수 있다. 그러나 하나의 디스크에게 할당 가능한 공간 객체들을 서로 다른 디스크에 할당하는 것은 오히려 성능의 저하를 초래할 수 있다. 이러한 두 가지 조건을 동시에 만족하기 위해서는 공간 객체들을 클러스터링 한 후, 크러러스터 단위로 디스크로 할당하는 것이 효과적이다. 이전에 제시된 디클러스터링 방법들은 이러한 요소를 고려하지 않았다. 이에 본 논문에서는 주어진 공간 객체들에 대해서 일정한 크기의 클러스터를 만들고 클러스터 단위로 디클러스터링 하여 효율적인 성능 향상을 보이는 새로운 방법에 대해서 제시하고자 한다. 또한 이전에 제시되어졌던 여러 가지 디클러스터링 방법들과의 비교실험을 통해, 본 논문에서 제시한 방법이 가장 효과적인 방법임을 밝히고자 한다.

  • PDF

Implementation of Reusable Class Library based on CORBA using Genetic Algorithm (유전자 알고리즘을 이용한 CORBA 기반의 재사용 클래스 라이브러리 구현)

  • Lee, Byeong-Jeong;Mun, Byeong-Ro;U, Chi-Su
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.5 no.2
    • /
    • pp.209-222
    • /
    • 1999
  • 개발 과정의 생산성과 프로그램의 신뢰성을 향상시키기 위하여 소프트웨어 재사용이 매우 중요하며 , 효과적인 재사용을 위해서 세밀한 분류 방법과 정확한 검색 방법에 기반한 객체 지향 재사용 라이브러리가 필수적이다. 본 연구에서는 재사용 라이브러리의 다중 클러스터링(multi-way clustering) 분류 방법과 클러스터 기반 선형 검색(cluster-based linear retrieval) 방법에 유전자 알고리즘(genetic algorithm)을 적용한다. 다중 클러스터링은 부품들이 할당된 클러스터 개수, 클러스터 내부 유사도 그리고 클러스터들 사이의 유사도를 최적화하는 클러스터링을 찾아 부품을 세밀히 분류하는 것이고, 클러스터 기반 선형 검색은 주어진 질의와 유사한 부품을 많이 포함하는 클러스터를 검색하는 것이다. 본 논문에서는 유전자 알고리즘이 시뮬레이티드 어닐링 알고리즘(simulated annealing algorithm) 보다 우수한 해를 찾는 것을 실험을 통하여 보이고, 또한 본 알고리즘을 이용한 CORBA 기반의 재사용 클래스 라이브러리(RCL)를 기술한다.

Main Memory Spatial Database Clusters for Large Scale Web Geographic Information Systems (대규모 웹 지리정보시스템을 위한 메모리 상주 공간 데이터베이스 클러스터)

  • Lee, Jae-Dong
    • Journal of Korea Spatial Information System Society
    • /
    • v.6 no.1 s.11
    • /
    • pp.3-17
    • /
    • 2004
  • With the rapid growth of the Internet geographic information services through the WWW such as a location-based service and so on. Web GISs (Geographic Information Systems) have also come to be a cluster-based architecture like most other information systems. That is, in order to guarntee high quality of geographic information service without regard to the rapid growth of the number of users, web GISs need cluster-based architecture that will be cost-effective and have high availability and scalability. This paper proposes the design of the cluster-based web GIS with high availability and scalability. For this, each node within a cluster-based web GIS consists of main memory spatial databases which accomplish role of caching by using data declustering and the locality of spatial query. Not only simple region queries but also the proposed system processed spatial join queries effectively. Compare to the existing method. Parallel R-tree spatial join for a shared-Nothing architecture, the result of simulation experiments represents that the proposed spatial join method achieves improvement of performance respectively 23% and 30% as data quantity and nodes of cluster become large.

  • PDF

Semantic schema data processing using cache mechanism (캐쉬메카니즘을 이용한 시맨틱 스키마 데이터 처리)

  • Kim, Byung-Gon;Oh, Sung-Kyun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.3
    • /
    • pp.89-97
    • /
    • 2011
  • In semantic web information system like ontology that access distributed information from network, efficient query processing requires an advanced caching mechanism to reduce the query response time. P2P network system have become an important infra structure in web environment. In P2P network system, when the query is initiated, reducing the demand of data transformation to source peer is important aspect of efficient query processing. Caching of query and query result takes a particular advantage by adding or removing a query term. Many of the answers may already be cached and can be delivered to the user right away. In web environment, semantic caching method has been proposed which manages the cache as a collection of semantic regions. In this paper, we propose the semantic caching technique in cluster environment of peers. Especially, using schema data filtering technique and schema similarity cache replacement method, we enhanced the query processing efficiency.

A Term Cluster Query Expansion Model Based on Classification Information of Retrieval Documents (검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델)

  • Kang, Hyun-Su;Kang, Hyun-Kyu;Park, Se-Young;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.7-12
    • /
    • 1999
  • 정보 검색 시스템은 사용자 질의의 키워드들과 문서들의 유사성(similarity)을 기준으로 관련 문서들을 순서화하여 사용자에게 제공한다. 그렇지만 인터넷 검색에 사용되는 질의는 일반적으로 짧기 때문에 보다 유용한 질의를 만들고자 하는 노력이 지금까지 계속되고 있다. 그러나 키워드에 포함된 정보가 제한적이기 때문에 이에 대한 보완책으로 사용자의 적합성 피드백을 이용하는 방법을 널리 사용하고 있다. 본 논문에서는 일반적인 적합성 피드백의 가장 큰 단점인 빈번한 사용자 참여는 지양하고, 시스템에 기반한 적합성 피드백에서 배제한 사용자 참여를 유도하는 검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델(Term Cluster Query Expansion Model)을 제안한다. 이 방법은 검색 시스템에 의해 검색된 상위 n개의 문서에 대하여 분류기를 이용하여 각각의 문서에 분류 정보를 부여하고, 문서에 부여된 분류 정보를 이용하여 분류 정보의 수(m)만큼으로 문서들을 그룹을 짓는다. 적합성 피드백 알고리즘을 이용하여 m개의 그룹으로부터 각각의 용어 클러스터(Term Cluster)를 생성한다. 이 클러스터가 사용자에게 문서 대신에 피드백의 자료로 제공된다. 실험 결과, 적합성 알고리즘 중 Rocchio방법을 이용할 때 초기 질의보다 나은 성능을 보였지만, 다른 연구에서 보여준 성능 향상은 나타내지 못했다. 그 이유는 분류기의 오류와 문서의 특성상 한 영역으로 규정짓기 어려운 문서가 존재하기 때문이다. 그러나 검색하고자 하는 사용자의 관심 분야나 찾고자 하는 성향이 다르더라도 시스템에 종속되지 않고 유연하게 대처하며 검색 성능(retrieval effectiveness)을 향상시킬 수 있다.사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

A Study on Cluster Topic Selection in Hierarchical Clustering (계층적 클러스터링에서 분류 대표어 선정에 관한 연구)

  • Yi, Sang-Seon;Lee, Shin-Won;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.669-672
    • /
    • 2004
  • 정보의 양이 많아지면서 정보 검색 시스템에 검색 결과를 자동으로 구조화하는 계층적 클러스터링을 적용하는 시도가 늘고 있다. 계층적 클러스터링은 문서 간의 유사도를 통해 클러스터를 계층 구조로 만들어 검색 성능을 높이고 결과를 사용자에게 이해하기 쉽게 보여준다. 계층 구조는 검색 결과를 요약하는 것이기 때문에 클러스터의 내용을 효과적으로 함축할 수 있는 대표어의 선정이 중요하다. 각 클러스터의 대표어를 선정하기 위해 대표어에 명사인 단어만 추출하고 상위 클러스터 대표어에 사용된 단어는 하위 클러스터에 사용하지 않는 방법을 적용하여 대표어의 질을 높였다.

  • PDF

A Modified Fragmentation Technique for Reducing Network Cost in A Scalable and Highly Available Clustered Database (확장 가능한 고가용 데이터 베이스에서 네트워크 비용을 줄이기 위한 변형된 분할기법)

  • 유병섭;이충호;이재동;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.193-195
    • /
    • 2002
  • 최근 근자상거래와 같은 웹 기반 응용프로그램에서는 높은 가용성과 확장성을 가지며 빠른 응답시간을 갖는 데이터베이스에 대한 필요성이 대두되고 있다. 이러한 요구에 대한 해결책의 하나로 비공유 구조의 클러스터 시스템을 구성하고 분활과 복제정책을 사용한다. 즉, 해쉬함수나 범위값에 의해 분할하여 여러 노드에 분산 시키고 서로 다른 노드에 마스터와 백업을 두어 가용성을 높이고 있다. 그러나 기존의 방법은 하나의 갱신 질의에 대해서 마스터와 백업에 각각 질의를 보내주어야 하고 온라인 확장시에는 모든 마스터와 백업의 데이터가 재구성되어야 하므로 네트워크 비용이 크다는 문제점이 있다. 따라서, 본 논문에서는 이러한 네트워크 비용을 줄이기 위한 변형된 분활 기법을 제안한다. 제안된 기법에서 마스터는 기존의 기법과 동일한 방법으로 저장하나 백업은 네트워크를 통해 지정된 노드로 포워딩을 하지 않고 질의를 받은 서버에 그대로 저장함으로써 클러스터를 구성하는 노드 사이에 통신 비용을 줄인다. 또한 온라인 확장에서는 기존의 기법과 달리 백업데이터는 같은 서버의 마스터데이터와 중복되는 것만 이동시킴으로써 데이터 이동비용을 줄이며, 전체 트랜잭션 처리량을 높인다.

  • PDF

The Changes in the Quality of Life Measure of the Seoul Metropolitan Area (수도권 삶의 질 지수 변동에 관한 연구)

  • Lee, Se-Hyung;Chang, Hoon;Rho, Jin-A
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.29 no.1
    • /
    • pp.29-37
    • /
    • 2011
  • The purpose of this research is to measure Quality of Life indices using Factor Analysis and Principle Component Analysis and to analyze the spatial patterns of Quality of life distribution in the Seoul Metropolitan Area in terms of spatial association using spatial statistics and spatial exploratory technique. In order to check the degree of clustering, this study used spatial autocorrelation indices, global Moran's I index. In addition, local scale analysis was conducted using Moran Scatterplot and Local Moran's I to identify the spatial association pattern and the high Quality of life. The analysis based on global statics showed that, in the Seoul Metropolitan Area, QoL Indices had been distributed with positive spatial association. According to the local spatial statistics, the general tendency of clustering H-H clusters which were mainly concentrated on the Seoul, L-H clusters were concentrated on the Kyunggi-Do and L-L Clusters showed the regional extent of lagging behind. However, in case of H-H, L-H Clusters they had been spread out in the Newtown as population increase.

A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data (대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법)

  • Kim, Cheon Jung;Kim, Ki Yeon;Yoo, Jong Hyeon;Lim, Jong Tae;Bok, Kyoung Soo;Yoo, Jae Soo
    • Journal of KIISE
    • /
    • v.41 no.12
    • /
    • pp.1126-1135
    • /
    • 2014
  • In recent years, RDF partitioning schemes have been studied for the effective distributed storage and management of large-scale RDF data. In this paper, we propose an RDF dynamic partitioning scheme to support load balancing in dynamic environments where the RDF data is continuously inserted and updated. The proposed scheme creates clusters and sub-clusters according to the frequency of the RDF data used by queries to set graph partitioning criteria. We partition the created clusters and sub-clusters by considering the workloads and data sizes for the servers. Therefore, we resolve the data concentration of a specific server, resulting from the continuous insertion and update of the RDF data, in such a way that the load is distributed among servers in dynamic environments. It is shown through performance evaluation that the proposed scheme significantly improves the query processing time over the existing scheme.