• 제목/요약/키워드: 불균형 자료

검색결과 304건 처리시간 0.023초

불균형 Haar 웨이블릿 변환을 이용한 군집화를 위한 시계열 표현 (Time series representation for clustering using unbalanced Haar wavelet transformation)

  • 이세훈;백창룡
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.707-719
    • /
    • 2018
  • 시계열 데이터의 분류와 군집화를 효율적으로 수행하기 위해 다양한 시계열 표현 방법들이 제안되었다. 본 연구는 Lin 등 (2007)이 제안한 국소 평균 근사를 이용하여 시계열의 차원을 축소한 후 심볼릭 자료로 이산화하는 symbolic aggregate approximation (SAX) 방법의 개선에 대해서 연구하였다. SAX는 국소 평균 근사를 할 때 등간격으로 임의의 개수의 세그먼트로 나누어 평균을 계산하여 세그먼트의 개수에 그 성능이 크게 좌우된다. 따라서 본 논문은 불균형 Haar 웨이블릿 변환을 통해 국소 평균 수준을 등간격이 아니라 자료의 특성을 반영하여 자료 의존적으로 선택하게 함으로써 시계열의 차원을 효과적으로 축소함과 동시에 정보의 손실을 줄이는 방법에 대해서 제안한다. 제안한 방법은 실증 자료 분석을 통해 SAX 방법을 개선시킴을 확인하였다.

결측치가 존재하는 유전형 자료에서의 연관불균형과 일배체형을 사용한 결측치 대치 방법 (A New Method for Imputation of Missing Genotype using Linkage Disequilibrium and Haplotype Information)

  • 박윤주;김영진;박정선;김규찬;고인송;정호열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.99-107
    • /
    • 2005
  • 본 논문에서는 단일염기변이(SNP: Single Nucleotide Polymorphism)와 같은 유전형(Rcnotype)자료에서 결측치가 발생하였을 경우 유전형 자료의 특이성을 고려해 자료 원래의 정보손실을 최소화하는 대치법인 연관불균형 기반의 대치법(linkage disequilibrium- based imputation)과 일배체형 기반의 대치법(haplotype-based imputation)을 제시한다. 이러한 결측치 대치는 실험상에서 발생하는 결측치에 의한 중요한 정보의 손실을 최소화 한다는 점에서 필요한 방법이다. 일반적으로 그동안 생물학 자료의 결측치 대치는 대부분 주형질 대치법(major allele imputation)이 활용되어왔는데 유전형 자료에서의 이 방법의 사용은 사료의 특이성으로 인하여 결측치에 대한 높은 오차율(error rate)을 보임으로서 자료의 신뢰성을 떨어뜨릴 수 있다. 본 논문에서는 유전형 자료인 단일염기변이 자료의 시뮬레이션을 통하여 기존의 주형질 대치법과 논문에서 제안된 연관불균형 기반의 대치법과 일배체형 기반의 대치법을 비교하고 그 결과를 보여 준다.

수량적 접근 방법에 의한 이진 검색 트리 불균형도에 따른 검색 성능 비교 분석 (Quantitative approach to analyze searching efficiencies varying degrees of imbalance in a binary search tree)

  • 김숙영
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권2호
    • /
    • pp.235-242
    • /
    • 2002
  • 트리 재균형 과정을 최소화하기 위하여 이진 검색 트리의 불균형도에 따른 검색 성능에 관한 수량적 정보를 얻기 위한 실험이 행하여졌다. 트리를 구성하는 노드들의 좌, 우 서브트리 높이 차 인 균형 인수에 의하여 불균형도를 수량화 한 결과 불균형도가 심해질수록 검색성능이 저하됨이 실험 자료들에 의하여 확률적으로 증명되었고 (p<0.01), 노드 개수와 평균 검색 횟수 관계를 설명하기 위한 모형으로는 로그 모형 보다 선형 모형이 적합한 경향을 보였다. 그러나 균형 인수 크기가 3 미만인 노드들만으로 구성된 이진 검색 트리의 성능은 높이 균형이진 트리에 비하여 저하되지 않는 것으로 평가된다. 본 연구 결과들은 이진 트리를 자료 구조를 사용하는 소프트웨어 관리에 적용될 수 있을 것이다.

  • PDF

시장간 단기적 불균형 관계에 따른 균형오차의 추정 (An Estimation of the Equilibrium Error by the Short Term Disequilibrium Relations between the Markets)

  • 김태호
    • 응용통계연구
    • /
    • 제21권2호
    • /
    • pp.221-231
    • /
    • 2008
  • 본 연구는 통상적인 일일자료 대신 주간자료를 사용하여 구제금융시대 전후 한국과 미국의 주식시장 동조화논란에 대해 통계적으로 검정해 보았다. 특히 양국의 주가간에 장기적 균형관계가 존재할 때 단기적 불균형에서 장기균형으로 복귀하는 성향에 대해 기간별로 어떤 차이점이 있는가를 추정하였다. 양국의 개별 주가간 장기적 균형관계는 구제금융기간이 시작되면서 뚜렷해지고 그 이후는 더욱 다양해지는 것으로 나타났다. 특히 구제금융기간이 끝나기 전까지는 단기간의 불균형이 해소되는 속도가 느렸지만 기간 종료 이후는 장기균형이 빠르게 회복된다는 사실이 일관성있게 추정되고 있다.

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

섬유 및 의류 수입이 국내 생산에 미치는 영향 (The Effect of Textile and Apparel Import on Competing Domestic Production)

  • 홍재경
    • 대한가정학회지
    • /
    • 제35권2호
    • /
    • pp.273-282
    • /
    • 1997
  • 본 연구는 Pelzman and Martic (1981)의 불균형 국내 산출 방정식(disequilibrium domestic output equation)을 이용하여 수입 섬유 및 의류 제품이 미국 내에서 생산되는 섬유 및 의류 제품의 생산량에 미치는 영향을 통계적으로 분석하였다. 불균형 국내 산출 방정식에서 Pelzman and Martin (1981)은 특정 기간 동안 미국 내의 생산량은 7가지의 변수 즉, (1) 생산 근로자의 평균시간 임금, (2)자본의 사용 가격, (3) 수입품의 비교 가격, (4) 실질 여유 소득, (5) 섬유 및 의류제품의 국내 가격, (6) 섬유 및 의류 제품의 재고량, (7)섬유 및 의류 제품의 수입량에 의해 영향을 받는다고 가정하였다. 그러나 불균형 국내 산출 방정식을 만족하는 정부 기관의 통계자료가 다 없기 때문에 수정된 국내 산출 방정식을 만들어서 분석하였다. 이 수정된 국내 산출 방정식을 이용하여 수입 섬유 및 의류 제품이 미국 내에서 생산되는 섬유 및 의류 제품의 생산량에 미치는 영향을 통계적으로 처리하여 그 결과를 분석하였다. 그 분석된 결과로는 국내 의류 및 섬유 생산 수준은 재고 변화보다는 가격 변화에 더 민감하게 반응한다. 그리고 국내 의류 및 섬유 생산 수준은 수입 의류 및 섬유의 수입량과는 역관계이다. 이것은 수입 의류 및 섬유의 증가는 국내 의류 및 섬유 생산의 감소를 야기시킨다. 이 불균형 국내 산출 방정식이 다른 나라의 분석에도 유용할 것이다.

  • PDF

의사결정나무 분석에서 불균형 자료의 분석 연구 : 종합병원의 건강보험료 청구 심사 사례 (An Study on Decision Tree Analysis with Imbalanced Data Set : A Case of Health Insurance Bill Audit in General Hospital)

  • 허준;김종우
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.1667-1676
    • /
    • 2006
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내의 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중의 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모형을 만들어 내기 위하여 데이터 불균형 문제의 기본 해법인 과, Sampling 오분류 비용의 다양하고 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모형을 도출하였다.

  • PDF

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

WAPP ICC 데이터 웨어하우스 및 자료연계 시스템 설계 (The Design of Dat8 Warehouse and Data Link System for WAPP ICC)

  • 이강석;최승일;송재원;윤병주
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 추계학술대회 논문집 전력기술부문
    • /
    • pp.279-281
    • /
    • 2008
  • 현재 서부아프리카 지역의 경우, 대부분의 발전원은 수력과 화력에 의존하고 있으며 서부 아프리카경제공동체(ECOWAS) 15개 회원국의 전력수급률은 매우 낮은 수준일 뿐만 아니라 국가별 에너지 불균형 또한 심한 상태이다. 이에 서부 아프리카 전력공동체(WAPP)는 지역 간 에너지 불균형 해소 및 국가 간 전력망 연계를 위한 전력거래센터(ICC)의 구축을 추진하고 있다. 본 논문은 향후 WAPP ICC에서 본격적인 전력거래기능을 수행하기에 앞서 각 지역제어센터(CAC)의 전력 정보 수집, 분석 및 공유를 위한 자료연계 방안에 대해 서술하였으며 센터간의 자료연계를 위한 통신 프로토콜은 IEC 60870-6(ICCP) 프로토콜을 이용하였다.

  • PDF