• 제목/요약/키워드: Data Partition Algorithm

검색결과 128건 처리시간 0.023초

분할법을 활용한 범주형자료의 다차원척도법 (Multidimensional scaling of categorical data using the partition method)

  • 신상민;천선경;최용석
    • 응용통계연구
    • /
    • 제31권1호
    • /
    • pp.67-75
    • /
    • 2018
  • 다차원척도법은 개체간의 비유사성을 저차원 공간에 기하적으로 표현하기 위한 다변량 자료의 탐색적 분석기법이다. 그러나 일반적인 다차원척도그림에서는 개체들의 유사성 정보만이 표현될 뿐 변수와 관련된 정보가 나타나지 않기 때문에 그림의 해석 상에 한계점이 존재한다. 본 연구에서는 범주형 자료를 다중표시행렬로 변환하고 Torgerson (1958)의 알고리즘에 의한 다차원척도법을 적용하여 개체들의 군집화 성향과 군집들의 상대적 크기를 다차원척도그림으로 시각화하였다. 그리고 Shin 등 (2015)의 분할법을 적용하여 범주형변수의 범주수준별 정보를 다차원척도그림 상에 투영하여 추가적인 정보를 표현하였다. 따라서 본 연구에서 제안하고자 하는 다차원척도그림을 이용하면 개체들의 유사성 정보와 함께 범주형변수들 사이의 연관성도 탐색할 수 있는 장점이 있다.

클러스터간 중첩성과 분리성을 이용한 퍼지 분할의 평가 기법 (A Cluster Validity Index Using Overlap and Separation Measures Between Fuzzy Clusters)

  • 김대원;이광형
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.455-460
    • /
    • 2003
  • 본 논문에서는 퍼지 클러스터링 알고리즘에 의해 구해진 퍼지 분할에 대한 최적 클러스터 수를 결정하는 방법을 제안한다. 제안된 척도는 퍼지 클러스터들간의 중첩성과 분리성을 이용한다. 중첩성은 클러스터간 인접도를 이용하여 계산하며, 분리성은 데이터에 대한 상관성 정도로 나타낸다. 따라서 중첩성이 낮고 분리성이 높을수록 좋은 클러스터 결과라고 할 수 있다. 표준 데이터 집합을 대상으로 기존의 척도들과 비교 실험함으로써 제안된 척도의 신뢰성을 검증하였다.

구 볼록 다각형들의 최대 교차를 찾기 위한 효율적인 구 분할 방식 (Efficient Sphere Partition Method for Finding the Maximum Intersection of Spherical Convex Polygons)

  • 하종성
    • 한국CDE학회논문집
    • /
    • 제6권2호
    • /
    • pp.101-110
    • /
    • 2001
  • The maximum intersection of spherical convex polygons are to find spherical regions owned by the maximum number of the polygons, which is applicable for determining the feasibility in manufacturing problems such mould design and numerical controlled machining. In this paper, an efficient method for partitioning a sphere with the polygons into faces is presented for the maximum intersection. The maximum intersection is determined by examining the ownerships of partitioned faces, which represent how many polygons contain the faces. We take the approach of edge-based partition, in which, rather than the ownerships of faces, those of their edges are manipulated as the sphere is partitioned incrementally by each of the polygons. Finally, gathering the split edges with the maximum number of ownerships as the form of discrete data, we approximately obtain the centroids of all solution faces without constructing their boundaries. Our approach is analyzed to have an efficient time complexity Ο(nv), where n and v, respectively, are the numbers of polygons and all vertices. Futhermore, it is practical from the view of implementation since it can compute numerical values robustly and deal with all degenerate cases.

  • PDF

한국어 음성합성기의 운율 예측을 위한 의사결정트리 모델에 관한 연구 (A Study of Decision Tree Modeling for Predicting the Prosody of Corpus-based Korean Text-To-Speech Synthesis)

  • 강선미;권오일
    • 음성과학
    • /
    • 제14권2호
    • /
    • pp.91-103
    • /
    • 2007
  • The purpose of this paper is to develop a model enabling to predict the prosody of Korean text-to-speech synthesis using the CART and SKES algorithms. CART prefers a prediction variable in many instances. Therefore, a partition method by F-Test was applied to CART which had reduced the number of instances by grouping phonemes. Furthermore, the quality of the text-to-speech synthesis was evaluated after applying the SKES algorithm to the same data size. For the evaluation, MOS tests were performed on 30 men and women in their twenties. Results showed that the synthesized speech was improved in a more clear and natural manner by applying the SKES algorithm.

  • PDF

On Color Cluster Analysis with Three-dimensional Fuzzy Color Ball

  • Kim, Dae-Won
    • 한국지능시스템학회논문지
    • /
    • 제18권2호
    • /
    • pp.262-267
    • /
    • 2008
  • The focus of this paper is on devising an efficient clustering task for arbitrary color data. In order to tackle this problem, the inherent uncertainty and vagueness of color are represented by a fuzzy color model. By taking a fuzzy approach to color representation, the proposed model makes a soft decision for the vague regions between neighboring colors. A definition on a three-dimensional fuzzy color ball is introduced, and the degree of membership of color is computed by employing a distance measure between a fuzzy color and color data. With the fuzzy color model, a novel fuzzy clustering algorithm for efficient partition of color data is developed.

A Restricted Partition Method to Detect Single Nucleotide Polymorphisms for a Carcass Trait in Hanwoo

  • Lee, Ji-Hong;Kim, Dong-Chul;Kim, Jong-Joo;Lee, Jea-Young
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제24권11호
    • /
    • pp.1525-1528
    • /
    • 2011
  • The purpose of this study was to detect SNPs that were responsible for a carcass trait in Hanwoo populations. A non-parametric model applying a restricted partition method (RPM) was used, which exploited a partitioning algorithm considering statistical criteria for multiple comparison testing. Phenotypic and genotypic data were obtained from the Hanwoo Improvement Center, National Agricultural Cooperation Federation, Korea, in which the pedigree structure comprised 229 steers from 16 paternal half-sib proven sires that were born in Namwon or Daegwanryong livestock testing station between spring of 2002 and fall of 2003. A carcass trait, longissimus dorsi muscle area for each steer was measured after slaughter at approximately 722 days. Three SNPs (19_1, 18_4 and 28_2) near the microsatellite marker ILSTS035 on BTA6, around which the quantitative trait loci (QTL) for meat quality were previously detected, were used in this study. The RPM analyses resulted in two significant interaction effects between SNPs (19_1 and 18_4) and (19_1 and 28_2) at ${\alpha}$ = 0.05 level. However, under a general linear (parametric) model no interaction effect between any pair of the three SNPs was detected, while only one main effect for SNP19_1 was found for the trait. Also, under another non-parametric model using a multifactor dimensionality reduction (MDR) method, only one interaction effect of the two SNPs (19_1 and 28_2) explained the trait significantly better than the parametric model with the main effect of SNP19_1. Our results suggest that RPM is a good alternative to model choices that can find associations of the interaction effects of multiple SNPs for quantitative traits in livestock species.

퍼지뉴럴 시스템을 위한 초기 입력공간분할의 최적화 : Measure of Fuzziness (The Optimal Partition of Initial Input Space for Fuzzy Neural System : Measure of Fuzziness)

  • 백덕수;박인규
    • 대한전자공학회논문지TE
    • /
    • 제39권3호
    • /
    • pp.97-104
    • /
    • 2002
  • 이 논문에서는 퍼지뉴럴 시스템을 위하여 measure of fuzziness에 의한 입력공간의 분할을 최적화하는 방법을 제안한다. 이에 따라 최적화된 퍼지 부공간에 대하여 퍼지 제어규칙을 자동으로 생성하는 방법을 제안한다. 또한 시계열 예측 문제에서 입력패턴의 간격을 조정하여 그 성능을 검증한다. 이 방법은 샤논 함수와 index of fuzziness를 이용하여 입력공간을 분할하고, 분할된 부 공간에 대해 입력 데이터와 부합할 수 있는 각각의 규칙에 등급을 정하여 불필요한 제어규칙을 제거하여 최적의 규칙베이스를 구성하도록 한다. 적용되는 퍼지 신경망의 기본적인 구조는 퍼지 제어기의 규칙베이스와 추론의 과정을 신경회로망을 이용하여 구현하며 퍼지 제어규칙의 매개변수들은 최대 급경사 강하법에 의해 적응되어진다. 제안된 알고리즘을 토대로 여덟 가지의 입력패턴에 대하여 추론한 결과 입력공간의 최적분할에 의하여 수렴과정에서 초기에 오차(RMSE)가 빠르게 수렴함을 알 수 있었다.

그리드 분할에 의한 다차원 데이터 디클러스터링 성능 분석 (Performance Analysis on Declustering High-Dimensional Data by GRID Partitioning)

  • 김학철;김태완;이기준
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1011-1020
    • /
    • 2004
  • 대규모의 데이터를 다루는 여러 시스템에서 데이터를 다수의 병렬 디스크에 분산시켜 저장한 후 질의 처리시 동시에 여러 개의 디스크를 접근함으로써 입출력 성능의 향상을 위한 많은 노력들이 행해져 왔다. 대부분 이전 연구들은 데이터 공간을 이루는 각 차원이 겹치지 않는 여러개의 구간으로 나누어져 전체 데이터 공간이 그리드 형태로 분할되어 있다는 가정하에 각 차원의 구간 번호로 결정되는 그리드 셀에 대해서 효과적으로 디스크 번호를 할당하는 알고리즘 개발에 집중되었다. 하지만, 그들은 데이터 공간을 그리드 형태로 분할하는 방법이 전체 디클러스터링 알고리즘 성능에 미치는 영향을 간과하였다. 본 논문에서 우리는 효과적인 그리드 분할을 통하여 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 향상 시켰다. 이를 위하여 영역 질의 크기가 주어졌을 때 겹치는 그리드 셀의 수를 예측하는 모델을 제시하였으며 이를 이용하여 가능한 그리드 분할 방법들 중에서 질의 크기를 감소시키는 분할 방법을 선택하였다. 일반적으로, 다차원 데이터에 대해서는 이진 분할을 하지만 본 논문에서는 더 작은 수의 차원을 선택해서 여러 번 분할함으로써 질의를 만족하는 그리드 셀의 수를 감소시켰다. 다양한 실험 결과에 의하면 본 논문에서 제시한 예측 모델은 질의 크기와 차원에 관계없이 0.5% 이내의 에러율을 보이는 것으로 나타났다. 또한 효과적인 그리드 분할을 통하여 다차원 데이터에 대해서 가장 성능이 좋은 것으로 소개되고 있는 Kronecker sequence 매핑 함수를 이용하는 디클러스터링 알고리즘의 성능을 최대 23배까지 향상시킬 수 있음을 알 수 있었다.

다차원 색인을 이용한 하향식 계층 클러스터링 (Top-down Hierarchical Clustering using Multidimensional Indexes)

  • 황재준;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.367-380
    • /
    • 2002
  • 최근 공간 데이타 분석, 영상 분석 등과 같은 대용량 데이타를 관리하는 다양한 응용 업무들이 증가함에 따라, 대용량의 데이타베이스를 위한 클러스터링 기법이 많이 연구되고 있다. 그 중에서도 계층 클러스터링 기법은 데이타베이스의 계층 분할을 표현하는 계층 트리를 생성하고 이를 이용하여 효율적인 클러스터링을 수행하는 방법으로서, 지금까지는 주로 트리를 하위 계층으로부터 상위 계층으로 생성해 가는 상향식(bottom-up) 계층 클러스터링 기법들이 연구되었다. 이러한 상향식 클러스터링 방법은 트리를 생성하기 위하여 전체 데이타베이스를 한 번 이상 액세스하여야 할 뿐만 아니라, 하위 계층에서부터 검색을 시작하기 때문에 트리의 많은 부분을 검색하여야 하는 문제점이 있다. 본 논문에서는 대부분의 데이타베이스 응용에서 이미 유지하고 있는 다차원 색인을 이용하여 클러스터링을 수행하는 새로운 하향식(top-down) 계층 클러스터링 기법을 제안한다. 일반적으로 다차원 색인에서는 가까운 객체들이 동일한 (혹은 인접한) 페이지에 저장될 가능성이 큰 클러스터링 성질을 가진다. 이러한 다차원 색인의 클러스터링 성질을 사용하면 각 객체들간의 거리를 일일이 계산하지 않고도 이웃한 객체들을 식별할 수 있다. 우선 객체들의 밀도에 기반하여 클러스터를 정형적으로 정의한다. 이를 위하여, 객체를 포함하는 영역의 밀도를 이용한 영역 대조 분할(region contrast partition) 개념을 사용한다. 또, 클러스터링 알고리즘에서의 빠른 검색을 위하여 분기 한정(branch-and-bound) 알고리즘을 사용하며, 여기서의 한계값(bound)을 제안하고 이의 정확성을 이론적으로 증명한다. 실험 결과, 제안한 방법은 상향식 계층 클러스터링 방법인 BIRCH와 비교하여, 정확성 측면에서 우수하거나 유사한 것으로 나타났으며, 데이타 페이지 액세스 횟수를 데이타베이스 크기에 따라 최고 26~187배까지 감소시킨 것으로 나타났다. 이 같은 결과로 볼 때, 제안한 방법은 대용량 데이타베이스에서의 클러스터링 성능을 크게 향상시키는 기법으로서, 일반 데이타베이스 응용에 실용적으로 적용 가능하다고 판단된다.

Fast Algorithm for 360-degree Videos Based on the Prediction of Cu Depth Range and Fast Mode Decision

  • Zhang, Mengmeng;Zhang, Jing;Liu, Zhi;Mao, Fuqi;Yue, Wen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권6호
    • /
    • pp.3165-3181
    • /
    • 2019
  • Spherical videos, which are also called 360-degree videos, have become increasingly popular due to the rapid development of virtual reality technology. However, the large amount of data in such videos is a huge challenge for existing transmission system. To use the existing encode framework, it should be converted into a 2D image plane by using a specific projection format, e.g. the equi-rectangular projection (ERP) format. The existing high-efficiency video coding standard (HEVC) can effectively compress video content, but its enormous computational complexity makes the time spent on compressing high-frame-rate and high-resolution 360-degree videos disproportionate to the benefits of compression. Focusing on the ERP format characteristics of 360-degree videos, this work develops a fast decision algorithm for predicting the coding unit depth interval and adaptive mode decision for intra prediction mode. The algorithm makes full use of the video characteristics of the ERP format by dealing with pole and equatorial areas separately. It sets different reference blocks and determination conditions according to the degree of stretching, which can reduce the coding time while ensuring the quality. Compared with the original reference software HM-16.16, the proposed algorithm can reduce time consumption by 39.3% in the all-intra configuration, and the BD-rate increases by only 0.84%.