• Title/Summary/Keyword: 불균형 자료

Search Result 304, Processing Time 0.021 seconds

Time series representation for clustering using unbalanced Haar wavelet transformation (불균형 Haar 웨이블릿 변환을 이용한 군집화를 위한 시계열 표현)

  • Lee, Sehun;Baek, Changryong
    • The Korean Journal of Applied Statistics
    • /
    • v.31 no.6
    • /
    • pp.707-719
    • /
    • 2018
  • Various time series representation methods have been proposed for efficient time series clustering and classification. Lin et al. (DMKD, 15, 107-144, 2007) proposed a symbolic aggregate approximation (SAX) method based on symbolic representations after approximating the original time series using piecewise local mean. The performance of SAX therefore depends heavily on how well the piecewise local averages approximate original time series features. SAX equally divides the entire series into an arbitrary number of segments; however, it is not sufficient to capture key features from complex, large-scale time series data. Therefore, this paper considers data-adaptive local constant approximation of the time series using the unbalanced Haar wavelet transformation. The proposed method is shown to outperforms SAX in many real-world data applications.

A New Method for Imputation of Missing Genotype using Linkage Disequilibrium and Haplotype Information (결측치가 존재하는 유전형 자료에서의 연관불균형과 일배체형을 사용한 결측치 대치 방법)

  • Park Yun-Ju;Kim Young-Jin;Park Jung-Sun;Kim Kuchan;Koh Insong;Jung Ho-Youl
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.2
    • /
    • pp.99-107
    • /
    • 2005
  • In this paper, wc propose a now missing imputation method for minimizing loss of information linkage disequilibrium-based and haplotype-based imputation method, which estimate missing values of the data based on the specificity of Single Nucleotide Polymorphism(SNP) genotype data. Method for imputing data is needed to minimize the loss of information caused by experimental missing data. In general, missing imputation of biological data has used major allele imputation method. but this approach is not optima]. 1'his method has high error rates of missing values estimation since the characteristics of the genotype data are not considered not take into consideration the specific structure of the data. In this paper, we show the results of the comparative evaluation of our model methods and major imputation method for the estimation of missing values.

Quantitative approach to analyze searching efficiencies varying degrees of imbalance in a binary search tree (수량적 접근 방법에 의한 이진 검색 트리 불균형도에 따른 검색 성능 비교 분석)

  • 김숙영
    • Journal of the Korea Computer Industry Society
    • /
    • v.3 no.2
    • /
    • pp.235-242
    • /
    • 2002
  • To minimize restructuring cost of a tree, experiments were conducted to collect quantitative information of searching efficiencies varying degrees of imbalance in a binary search tree. Degrees of tree imbalance were measured by a balance factor, an absolute value of height difference of left subtree and right subtree in a binary search tree. The average number of comparisons increased (p<0.01), and searching efficiency of O(n) was more appropriate rather than O(logn), as degrees of imbalance in a binary search tree deteriorated. However, there were no significant differences of searching efficiencies in height balanced trees and trees with subtrees to have height 3 less than the other (p>0.05). Therefore, the findings would be applicable to maintain searching efficiency of a software with a binary search tree.

  • PDF

An Estimation of the Equilibrium Error by the Short Term Disequilibrium Relations between the Markets (시장간 단기적 불균형 관계에 따른 균형오차의 추정)

  • Kim, Tae-Ho
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.2
    • /
    • pp.221-231
    • /
    • 2008
  • This study attempts to perform the statistical tests for the comovement of the stock prices between Korea and U.S. by using the weekly data instead of the usual daily data. The restoring pattern, from the short-run disequilibrium to the long-run equilibrium point, is also carefully estimated if the long-run relationships exist between the stock prices. The cointegrating relations between the stock prices appear to begin to hold during the period of the financial crisis. It is found to be consistently estimated that the equilibrium error is slowly eliminated till the end of the financial crisis, while quickly removed after the period.

A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data (불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신)

  • Bang, Sungwan;Kim, Jaeoh
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.177-188
    • /
    • 2022
  • The support vector machine (SVM) has been successfully applied to various classification areas with a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems. When analyzing imbalanced data with different class sizes, furthermore, the classification accuracy of SVM in minority class may drop significantly because its classifier could be biased toward the majority class. To overcome such a problem, we propose the DOC-SVM method, which uses divide-oversampling and conquers techniques. The proposed DOC-SVM divides the majority class into a few subsets and applies an oversampling technique to the minority class in order to produce the balanced subsets. And then the DOC-SVM obtains the final classifier by aggregating all SVM classifiers obtained from the balanced subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

The Effect of Textile and Apparel Import on Competing Domestic Production (섬유 및 의류 수입이 국내 생산에 미치는 영향)

  • 홍재경
    • Journal of the Korean Home Economics Association
    • /
    • v.35 no.2
    • /
    • pp.273-282
    • /
    • 1997
  • 본 연구는 Pelzman and Martic (1981)의 불균형 국내 산출 방정식(disequilibrium domestic output equation)을 이용하여 수입 섬유 및 의류 제품이 미국 내에서 생산되는 섬유 및 의류 제품의 생산량에 미치는 영향을 통계적으로 분석하였다. 불균형 국내 산출 방정식에서 Pelzman and Martin (1981)은 특정 기간 동안 미국 내의 생산량은 7가지의 변수 즉, (1) 생산 근로자의 평균시간 임금, (2)자본의 사용 가격, (3) 수입품의 비교 가격, (4) 실질 여유 소득, (5) 섬유 및 의류제품의 국내 가격, (6) 섬유 및 의류 제품의 재고량, (7)섬유 및 의류 제품의 수입량에 의해 영향을 받는다고 가정하였다. 그러나 불균형 국내 산출 방정식을 만족하는 정부 기관의 통계자료가 다 없기 때문에 수정된 국내 산출 방정식을 만들어서 분석하였다. 이 수정된 국내 산출 방정식을 이용하여 수입 섬유 및 의류 제품이 미국 내에서 생산되는 섬유 및 의류 제품의 생산량에 미치는 영향을 통계적으로 처리하여 그 결과를 분석하였다. 그 분석된 결과로는 국내 의류 및 섬유 생산 수준은 재고 변화보다는 가격 변화에 더 민감하게 반응한다. 그리고 국내 의류 및 섬유 생산 수준은 수입 의류 및 섬유의 수입량과는 역관계이다. 이것은 수입 의류 및 섬유의 증가는 국내 의류 및 섬유 생산의 감소를 야기시킨다. 이 불균형 국내 산출 방정식이 다른 나라의 분석에도 유용할 것이다.

  • PDF

An Study on Decision Tree Analysis with Imbalanced Data Set : A Case of Health Insurance Bill Audit in General Hospital (의사결정나무 분석에서 불균형 자료의 분석 연구 : 종합병원의 건강보험료 청구 심사 사례)

  • Heo Jun;Kim Jong-U
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.05a
    • /
    • pp.1667-1676
    • /
    • 2006
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내의 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중의 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모형을 만들어 내기 위하여 데이터 불균형 문제의 기본 해법인 과, Sampling 오분류 비용의 다양하고 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모형을 도출하였다.

  • PDF

On sampling algorithms for imbalanced binary data: performance comparison and some caveats (불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점)

  • Kim, HanYong;Lee, Woojoo
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.5
    • /
    • pp.681-690
    • /
    • 2017
  • Various imbalanced binary classification problems exist such as fraud detection in banking operations, detecting spam mail and predicting defective products. Several sampling methods such as over sampling, under sampling, SMOTE have been developed to overcome the poor prediction performance of binary classifiers when the proportion of one group is dominant. In order to overcome this problem, several sampling methods such as over-sampling, under-sampling, SMOTE have been developed. In this study, we investigate prediction performance of logistic regression, Lasso, random forest, boosting and support vector machine in combination with the sampling methods for binary imbalanced data. Four real data sets are analyzed to see if there is a substantial improvement in prediction performance. We also emphasize some precautions when the sampling methods are implemented.

A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data (데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구)

  • Leea, Hee-Jae;Lee, Sungim
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.3
    • /
    • pp.357-371
    • /
    • 2014
  • There are many studies related to imbalanced data in which the class distribution is highly skewed. To address the problem of imbalanced data, previous studies deal with resampling techniques which correct the skewness of the class distribution in each sampled subset by using under-sampling, over-sampling or hybrid-sampling such as SMOTE. Ensemble methods have also alleviated the problem of class imbalanced data. In this paper, we compare around a dozen algorithms that combine the ensemble methods and resampling techniques based on simulated data sets generated by the Backbone model, which can handle the imbalance rate. The results on various real imbalanced data sets are also presented to compare the effectiveness of algorithms. As a result, we highly recommend the resampling technique combining ensemble methods for imbalanced data in which the proportion of the minority class is less than 10%. We also find that each ensemble method has a well-matched sampling technique. The algorithms which combine bagging or random forest ensembles with random undersampling tend to perform well; however, the boosting ensemble appears to perform better with over-sampling. All ensemble methods combined with SMOTE outperform in most situations.

The Design of Dat8 Warehouse and Data Link System for WAPP ICC (WAPP ICC 데이터 웨어하우스 및 자료연계 시스템 설계)

  • Lee, Kang-Seok;Choi, Seung-Il;Song, Jea-Won;Yun, Byeong-Ju
    • Proceedings of the KIEE Conference
    • /
    • 2008.11a
    • /
    • pp.279-281
    • /
    • 2008
  • 현재 서부아프리카 지역의 경우, 대부분의 발전원은 수력과 화력에 의존하고 있으며 서부 아프리카경제공동체(ECOWAS) 15개 회원국의 전력수급률은 매우 낮은 수준일 뿐만 아니라 국가별 에너지 불균형 또한 심한 상태이다. 이에 서부 아프리카 전력공동체(WAPP)는 지역 간 에너지 불균형 해소 및 국가 간 전력망 연계를 위한 전력거래센터(ICC)의 구축을 추진하고 있다. 본 논문은 향후 WAPP ICC에서 본격적인 전력거래기능을 수행하기에 앞서 각 지역제어센터(CAC)의 전력 정보 수집, 분석 및 공유를 위한 자료연계 방안에 대해 서술하였으며 센터간의 자료연계를 위한 통신 프로토콜은 IEC 60870-6(ICCP) 프로토콜을 이용하였다.

  • PDF