• 제목/요약/키워드: Data Partition

검색결과 414건 처리시간 0.026초

다종 형태 데이터를 위한 요소선택 방법 (Feature Selection for Mixed Type of Data)

  • 양재경;이태한
    • 산업경영시스템학회지
    • /
    • 제33권1호
    • /
    • pp.114-120
    • /
    • 2010
  • 데이터마이닝의 사전 단계에서 데이터의 차원(Dimensionality)을 줄이기 위한 단계로서 많은 요소선택(Feature Selection) 방법들이 개발되었다. 이 방법은 결과를 예측하거나 데이터를 설명하고자 할 때 어떤 요소들이 관련이 있는지를 결정하는 과정을 포함한다. 또한 이 방법은 데이터의 크기에 대한 확장성 (Scalability)를 향상시키며 학습 모델을 더욱 이해하기 쉽도록 줄 수 있다. 이 논문에서는 NP(Nested Partition) 방법을 사용한 최적화 기반의 새로운 요소선택 방법을 NP 구조의 기본적인 이론 근거와 함께 제안한다. 또 한 편으로 많은 요소선택 방법들이 다중 형태의 데이터를 처리하는데 한계를 가지고 있는데, NP 기반의 요소선택 방법에 다중 형태의 데이터를 처리할 수 있도록 하는 요소 성능 평가도구(Evaluators)를 도입하여 이를 극복하고자 한다. 또한 어떤 평가도구가 특정 데이터 형태에서 더욱 좋은 결과를 보이는지를 실험 결과와 함께 제시하였다.

A Filter Lining Scheme for Efficient Skyline Computation

  • Kim, Ji-Hyun;Kim, Myung
    • 한국멀티미디어학회논문지
    • /
    • 제14권12호
    • /
    • pp.1591-1600
    • /
    • 2011
  • The skyline of a multidimensional data set is the maximal subset whose elements are not dominated by other elements of the set. Skyline computation is considered to be very useful for a decision making system that deals with multidimensional data analyses. Recently, a great deal of interests has been shown to improve the performance of skyline computation algorithms. In order to speedup, the number of comparisons between data elements should be reduced. In this paper, we propose a filter lining scheme to accomplish such objectives. The scheme divides the multidimensional data space into angle-based partitions, and places a filter for each partition, and then connects them together in order to establish the final filter line. The filter line can be used to eliminate data, that are not part of the skyline, from the original data set in the preprocessing stage. The filter line is adaptively improved during the data scanning stage. In addition, skylines are computed for each remaining data partition, and are then merged to form the final skyline. Our scheme is an improvement of the previously reported simple preprocessing scheme using simple filters. The performance of the scheme is shown by experiments.

메모리 기반 추론 기법에 기반한 점진적 다분할평균 알고리즘 (An Incremental Multi Partition Averaging Algorithm Based on Memory Based Reasoning)

  • 이형일
    • 전기전자학회논문지
    • /
    • 제12권1호
    • /
    • pp.65-74
    • /
    • 2008
  • 패턴 분류에 많이 사용되는 기법 중의 하나인 메모리 기반 추론 알고리즘은 단순히 메모리에 저장하고 분류 시에 저장된 패턴과 테스트 패턴간의 거리를 계산하여 가장 가까운 학습패턴의 클래스로 분류하는 기법이기 때문에 패턴의 개수가 늘어나면 메모리가 증가하고 또한 추가로 패턴이 발생할 경우 처음부터 다시 수행해야하는 문제점을 가지고 있다. 이러한 문제점을 해결하기 위하여 이미 학습한 대표패턴을 기억하고 새로 들어오는 패턴에 대해서만 학습하는 점진적 학습 방법을 제안한다. 즉 추가로 학습패턴이 발생할 경우 매번 전체 학습 패턴을 다시 학습하는 것이 아니라, 새로 추가된 데이터만을 학습하여 대표패턴을 추출하여 메모리사용을 줄이는 iMPA(incremental Multi Partition Averaging)기법을 제안하였다. 본 논문에서 제안한 기법은 대표적인 메모리기반 추론 기법인 k-NN 기법과 비교하여 현저하게 줄어든 대표패턴으로 유사한 분류 성능을 보여주며, 점진적 특성을 지닌 NGE 이론을 구현한 EACH 시스템과 점진적인 실험에서도 탁월한 분류 성능을 보여준다.

  • PDF

우리나라 일부 토양에 대한 카드뮴의 토양-물 분배계수 (Soil-Water Partition Coefficients for Cadmium in Some Korean Soils)

  • 옥용식;이옥민;정진호;임수길;김정규
    • 한국토양비료학회지
    • /
    • 제36권4호
    • /
    • pp.200-209
    • /
    • 2003
  • 우리나라의 몇 가지 경작지 토양을 대상으로 하여 카드뮴의 토양-물 분배계수를 측정하였다. 토양에 대한 카드뮴의 흡착은 토양 영구전하에 의한 이온교환 반응과 토양 가변전하에 의한 표면착물 반응의 합으로 표현할 수 있으며, 이때 카드뮴의 분배계수는 pH와 이론적 으로 다음의 상관관계를 갖는다. $log\;K_d=a_0+b_0{\times}pH$ (단, $a_0$$b_0$는 상수). 토양에 대한 카드뮴의 회분형 흡착실험에서 분배계수는 토양의 pH 변화에 따라 정으로 증가하였다. 그러나 pH 3.5 이하 및 pH 8.5 이상에서는 측정한 분배계수가 위의 식으로 예측한 값보다 낮게 나타났다. 이는 산성 조건에서는 알루미늄의 용해가 일어나고, 알칼리 조건에서는 토양 유기물이 용해되어 용액 내 카드뮴의 분배에 영향을 미쳤기 때문으로 판단된다. 각각의 토양에 대한 유기물 함량을 이용 해 표준화한 분배계 수 ($K_{d-om}$)에 의하여 위 식의 상관계수는 $0.52^{**}$에서 $0.70^{**}$으로 상승되어 예측력을 개선할 수 있었다. 또한, 실제 오염토양에서 측정한 분배계수와 표준화한 함수식을 이용하여 예측한 분배계수 사이에는 고도의 유의적인 상관관계 ($r^2=0.68^{**}$)를 보였다.

동적 분할 평균을 이용한 새로운 메모리 기반 학습기법 (A New Memory-based Learning using Dynamic Partition Averaging)

  • 이형일
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.456-462
    • /
    • 2008
  • 분류란 새로운 자료를 주어진 클래스 중의 하나로 구분하는 것으로 가장 일반적으로 사용되는 데이터마이닝 기법 중의 하나이다. 그중 메모리기반 추론(MBR : Memory-Based Reasoning)은 추론 규칙 없이 특징들의 최초의 벡터 형태에 의해 표현된 학습패턴을 단순히 저장한다. 그리고 분류 시에 새로운 자료가 메모리에 저장된 학습패턴들과의 거리를 계산하여 가장 가까운 거리에 있는 학습패턴의 클래스로 분류하는 기법이다. MBR 기법에서 학습패턴이 커지면 저장에 필요한 메모리의 크기도 커질 뿐만 아니라 추론을 위한 계산도 많아지는 문제점을 가지고 있다. 이러한 문제를 해결하기 위한 대표적인 방법으로 초월평면을 이용하는 NGE 이론과 대표패턴을 추출하여 학습하는 FPA 기법과 RPA 기법 등을 들을 수 있다. 본 논문에서는 학습패턴 공간을 GINI-Index값을 이용하여 일련의 최적 분할점을 찾아 가변크기로 분할하는 동적분할평균(DPA : Dynamic Partition Averaging)기법을 제안하였다. 제안한 기법의 성능을 검증하기 위하여 MBR기법 중 널리 사용되는 k-NN 기법과 비교하였다. 제안한 기법이 k-NN기법에 비해 대표패턴 개수는 줄이고 분류성능은 유사하게 유지시킨 것을 보여주었다. 또한, 제안한 기법은 NGE 이론을 구현한 EACH 시스템과 대표패턴 기법인 FPA기법과 RPA기법 등과 비교하여 탁월한 분류 성능을 보여주었다.

Hard 분산 분할 기반 추론 시스템을 이용한 비선형 공정 모델링 (Nonlinear Process Modeling Using Hard Partition-based Inference System)

  • 박건준;김용갑
    • 한국정보전자통신기술학회논문지
    • /
    • 제7권4호
    • /
    • pp.151-158
    • /
    • 2014
  • 본 논문에서는 Hard 분산 분할 방법을 이용하는 추론 시스템을 소개하고 비선형 공정을 모델링한다. 이를 위해 입력 공간을 분산 형태로 분할하고 소속 정도가 0 또는 1을 갖는 Hard 분할 방법을 이용한다. 제안한 방법은 C-Means 클러스터링 알고리즘에 의해 구현되며, 초기 중심값에 민감한 단점을 보완하기 위해 LBG 알고리즘을 적용하여 이진 분할에 의한 초기 중심값을 이용한다. Hard 분산 분할된 입력 공간은 규칙 기반의 시스템 모델링에서 규칙을 형성한다. 규칙의 전반부 파라미터는 C-Means 클러스터링 알고리즘에 의한 소속행렬로 결정된다. 규칙의 후반부는 다항식 함수의 형태로 표현되며, 각 규칙의 후반부 파라미터들은 표준 최소자승법에 의해 동정된다. 비선형 공정으로는 널리 이용되는 데이터를 이용하여 비선형 공정을 모델링한 후 특성을 평가한다.

퍼지비선형회귀모형 (Fuzzy Nonlinear Regression Model)

  • 황승국;박영만;서유진;박광박
    • 한국지능시스템학회논문지
    • /
    • 제8권6호
    • /
    • pp.99-105
    • /
    • 1998
  • 이 논문은 퍼지비선형회귀모형에 대한 것으로서 유전적 알고리즘을 이용한 퍼지회귀분석모형을 제안한다. 유전적 알고리즘이란 좀 더 나은 퍼지회귀분석을 위하여 입력데이터를 분류하는데 사용되어진다. 이 분할에서 각 데이터는 분류된 데이터그룹에 속하는 멤버쉽함수의 값을 가지게 된다. 데이터그룹은 각 변수의 영역을 최적으로 분할함에 따라 몇 개의 퍼지선형회귀모형에서 서로 다른 퍼지파라메타를 가지게 된다. 데이터에 대한 최종 퍼지수를 얻기 위하여 각 데이터그룹의 퍼지출력을 구성한다. 이 방법의 유효성은 사례연구에 의하여 보이고자 한다.

  • PDF

유전알고리듬을 이용한 속성의 중복 허용 파일 수직분할 방법 (An Attribute Replicating Vertical File Partition Method by Genetic Algorithm)

  • 김재련;유종찬
    • 정보기술과데이타베이스저널
    • /
    • 제6권2호
    • /
    • pp.71-86
    • /
    • 1999
  • The performance of relational database is measured by the number of disk accesses necessary to transfer data from disk to main memory. The paper proposes to vertically partition relations into fragments and to allow attribute replication to reduce the number of disk accesses. To reduce the computational time, heuristic search method using genetic algorithm is used. Genetic algorithm used employs a rank-based-sharing fitness function and elitism. Desirable parameters of genetic algorithm are obtained through experiments and used to find the solutions. Solutions of attribute replication and attribute non-replication problems are compared. Optimal solutions obtained by branch and bound method and by heuristic solutions(genetic algorithm) are also discussed. The solution method proposed is able to solve large-sized problems within acceptable time limit and shows solutions near the optimal value.

  • PDF

Meta Analysis of Usability Experimental Research Using New Bi-Clustering Algorithm

  • Kim, Kyung-A;Hwang, Won-Il
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.1007-1014
    • /
    • 2008
  • Usability evaluation(UE) experiments are conducted to provide UE practitioners with guidelines for better outcomes. In UE research, significant quantities of empirical results have been accumulated in the past decades. While those results have been anticipated to integrate for producing generalized guidelines, traditional meta-analysis has limitations to combine UE empirical results that often show considerable heterogeneity. In this study, a new data mining method called weighted bi-clustering(WBC) was proposed to partition heterogeneous studies into homogeneous subsets. We applied the WBC to UE empirical results and identified two homogeneous subsets, each of which can be meta-analyzed. In addition, interactions between experimental conditions and UE methods were hypothesized based on the resulting partition and some interactions were confirmed via statistical tests.

퍼지 규칙기반 분류시스템에서 퍼지 분할의 선택방법 (Selection Method of Fuzzy Partitions in Fuzzy Rule-Based Classification Systems)

  • 손창식;정환묵;권순학
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.360-366
    • /
    • 2008
  • 퍼지 규칙기반 분류 시스템에서 초기의 퍼지 분할은 주어진 데이터가 가진 속성들의 도메인을 고려함으로서 결정되어지고, 최적의 분류 경계면은 초기에 정의된 퍼지 분할의 파라미터들을 조정함으로서 찾을 수 있다. 본 논문에서는 학습과정들을 사용하지 않고 패턴분류의 성능을 최대화하기 위해 통계적 정보에 기반을 둔 퍼지 분할의 선택방법을 제안한다. 제안된 방법에서 통계적 정보는 주어진 수치적인 데이터로부터 각 입력 속성의 '불확실성 영역', 즉 패턴분류문제에서 분류 경계면이 결정되는 영역을 추출하기 위해 사용되었다. 또한 통계적인 정보에 의해서 생성된 퍼지 분할구간에 대응하는 후보 규칙들을 추출하기 위한 방법과 그 후보 규칙들 간의 커플링 문제를 최소화하기 위한 방법도 추가적으로 논의하였다. 실험에서는 제안된 방법의 효용성을 보이기 위해 IRIS와 New Thyroid Cancer 데이터를 사용한 기존 패턴분류 방법들과의 분류 정확성을 비교하였고, 그 결과들로부터 제안된 방법이 기존의 방법들보다 더 좋은 분류 정확성을 제공함을 확인할 수 있었다.