• 제목/요약/키워드: Data Interval

검색결과 3,412건 처리시간 0.028초

구간형 자료의 주성분 분석에 관한 연구 (On principal component analysis for interval-valued data)

  • 최수진;강기훈
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.61-74
    • /
    • 2020
  • 심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.

분단위 강우자료를 활용한 임의-고정시간 환산계수의 추정 (Conversion Factor Estimates between the Rain Data per Minute and Fixed-Time-Interval)

  • 문영일;오태석;오근택;전시영
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2008년도 정기총회 및 학술발표대회
    • /
    • pp.679-682
    • /
    • 2008
  • Probability precipitation is one of the most important factor for designing the hydrology structures. Probability precipitation is calculated based on the frequency analysis on each durations of annual maximum rainfall data. For frequency analysis we need a conversion factor between the rain data per random-time interval and fixed-time-interval. In this study, the minutely precipitation data on observatory of the Meteorological Administration are used for 37 stations. Therefore, we should conversion factors between the rain data per minute and fixed-time-interval.

  • PDF

A modified estimating equation for a binary time varying covariate with an interval censored changing time

  • Kim, Yang-Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제23권4호
    • /
    • pp.335-341
    • /
    • 2016
  • Interval censored failure time data often occurs in an observational study where a subject is followed periodically. Instead of observing an exact failure time, two inspection times that include it are made available. Several methods have been suggested to analyze interval censored failure time data (Sun, 2006). In this article, we are concerned with a binary time-varying covariate whose changing time is interval censored. A modified estimating equation is proposed by extending the approach suggested in the presence of a missing covariate. Based on simulation results, the proposed method shows a better performance than other simple imputation methods. ACTG 181 dataset were analyzed as a real example.

국도 단속류 구간에서 DSRC를 활용하여 수집한 개별차량 통행시간의 최적 수집 간격 결정 연구 (Determination of the Optimal Aggregation Interval Size of Individual Vehicle Travel Times Collected by DSRC in Interrupted Traffic Flow Section of National Highway)

  • 박현석;김영찬
    • 대한교통학회지
    • /
    • 제35권1호
    • /
    • pp.63-78
    • /
    • 2017
  • 연구는 국도 단속류 구간에서 DSRC로 수집한 개별차량 통행시간의 대푯값 산정 시 신뢰도를 높이는 최적 수집 간격을 결정하는데 목적이 있다. 이를 위하여, 단속류 구간에서 수집되는 가장 대표적인 개별차량 통행시간의 분포인 양봉형태의 비대칭 분포를 따르는 수집데이터를 활용하고 개별차량 통행시간의 수집 간격 크기를 변화시켜 MSE(Mean Square Error)를 추정함으로 오차가 최소가 되는 최적 수집 간격 크기를 결정한다. MSE 산정을 위한 편의 추정식은 비대칭 분포에서도 활용이 가능한 t-분포의 최대 추정 오차식을 활용하였다. 최적 수집 간격 분석을 위한 데이터 수집 간격은 단속류 구간에서 신호정지로 데이터 수집이 정상적으로 결측 되는 1-2분 수집 간격은 제외하고, 3분 이상의 수집 간격만을 대상으로 하였다. 데이터 수집 시 결측을 발생시키는 수집 간격은 결측 데이터 보정처리 과정에서 또 다른 오차를 유발하게 되어 배제하였다. 분석결과 MSE가 최소가 되는 최적 수집 간격은 3-5분이며, 통행시간 증가 시 최적 수집 간격은 3분으로 짧아짐을 확인하였다. 시스템 운영의 효율성과 통행시간 대푯값 산정의 신뢰도 향상을 모두 고려할 때 기본 수집 간격은 기존과 같이 5분으로 운영하고, 정체 시는 3분으로 수집 간격을 줄여 운영하는 것이 효과적일 것으로 사료된다.

교차계획 구간절단 생존자료의 비례위험모형을 이용한 분석 (Analysis of Interval-censored Survival Data from Crossover Trials with Proportional Hazards Model)

  • 김은영;송혜향
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.39-52
    • /
    • 2007
  • 협심증 치료의 신약에 대한 교차계획 임상시험(crossover clinical trials)에서 신약의 효능을 알아보는 운동테스트(treadmill exercise test) 결과는 중도절단 생존시간(censored survival times)으로 측정된다. 이 논문에서는 교차계획에서 수집된 중도절단 생존자료의 여러 가지 분석법에 대해 설명한다. 중도절단을 감안한 비모수적 방법들과 층화 Cox 비례위험모형 (stratified Cox proportional hazards model)에 근거한 분석법이 제시되었다. 한편, 교차계획의 두 시기에 걸쳐 수집된 생존시간의 차(difference)로부터 구간절단자료(interval censored data)가 생성되며 이에 근거한 분석법으로서 이 논문에서는 구간절단자료에 대한 Cox 비례위험모형 (proportional hazards model)의 가능성을 알아보며, 예제 자료로써 여러 방법들의 결과를 비교해 본다.

적응적 Multiple Kernels을 이용한 Interval Type-2 Possibilistic Fuzzy C-Means 방법 (A Novel Approach towards use of Adaptive Multiple Kernels in Interval Type-2 Possibilistic Fuzzy C-Means)

  • 주원희;이정훈
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.529-535
    • /
    • 2014
  • 본 논문에서는 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 클러스터링 방법에 multiple Gaussian kernels을 기반으로 한 possibilistic fuzzy C-means multiple kernels(PFCM-MK) 알고리즘을 결합하여 적응적인 하이브리드 클러스터링 방법인 multiple kernels interval type-2 possibilistic fuzzy C-means(IT2PFCM-MK) 방법을 제안 하였다. 일반적으로 possibilistic fuzzy C-means(PFCM) 알고리즘은 fuzzy C-means(FCM) 알고리즘의 단점인 노이즈 민감성 및 특이점 문제와 알고리즘 초기 클러스터의 Prototype에 따라 위치가 겹치는 문제를 해결하기 위해 제안 되었다. 하지만 이 방법 역시 퍼지화 파라미터 값에 따라 위와 같은 문제를 여전히 가지고 있기 때문에 이와 같은 문제를 보완하기 위해 interval type-2 퍼지 접근 방법을 이용 하는 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 알고리즘을 제안 하였다. 또한 multiple kernels 함수를 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 알고리즘에 적용하여 분류하기 복잡한 형태의 데이터와 노이즈가 있는 데이터에 대하여 보다 정확하고, 향상된 클러스터링을 수행할 수 있다.

한반도 연안 조위자료의 결측 양상 (Missing Pattern of the Tidal Elevation Data in Korean Coasts)

  • 조홍연;고동휘;정신택
    • 한국해안·해양공학회논문집
    • /
    • 제23권6호
    • /
    • pp.496-501
    • /
    • 2011
  • 우리나라 연안 조위자료의 결측양상을 분석 제시하였다. 결측구간은 결측정보지시행렬을 이용하여 전체적인 결측양상을 파악할 수 있도록 도시하였으며, 시간적 공간적인 결측비율도 분석하여 제시하였다. 전반적으로 조위의 결측비율은 낮은 수준이나, 결측이 특정 조위관측소에 집중되는 경향을 보이고 있다. 또한 연속적인 결측자료 발생간격에 대한 자기상관함수를 분석한 결과, 조위자료의 결측은 무작위적으로 발생하고 있는 것으로는 파악되었다.

Protein Motif Extraction via Feature Interval Selection

  • Sohn, In-Suk;Hwang, Chang-Ha;Ko, Jun-Su;Chiu, David;Hong, Dug-Hun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권4호
    • /
    • pp.1279-1287
    • /
    • 2006
  • The purpose of this paper is to present a new algorithm for extracting the consensus pattern, or motif from sequence belonging to the same family. Two methods are considered for feature interval partitioning based on equal probability and equal width interval partitioning. C2H2 zinc finger protein and epidermal growth factor protein sequences are used to demonstrate the effectiveness of the proposed algorithm for motif extraction. For two protein families, the equal width interval partitioning method performs better than the equal probability interval partitioning method.

  • PDF

Best-First decision tree 기법을 적용한 심전도 데이터 분류기의 정확도 향상에 관한 연구 (Research on improving correctness of cardiac disorder data classifier by applying Best-First decision tree method)

  • 이현주;신동규;박희원;김수한;신동일
    • 인터넷정보학회논문지
    • /
    • 제12권6호
    • /
    • pp.63-71
    • /
    • 2011
  • 심전도 질환 데이터는 일반적으로 분류기를 사용한 실험이 많다. 심전도 신호는 QRS-Complex와 R-R interval을 추출하는 경우가 많은데 본 실험에서는 R-R interval을 추출하여 실험하였다. 심전도 데이터의 분류기 실험은 일반적으로 SVM(Support Vector Machine)과 MLP(Multilayer Perceptron) 분류기로 수행되지만 본 실험은 정확도 향상을 위해 Random Forest 분류기 알고리즘 중 Decision Tree를 Best-First Decision Tree(B-F Tree)로 수정하여 실험하였다. 그리고 정확도 비교분석을 위해 SVM, MLP, RBF(Radial Basic Function) Network와 Decision Tree 분류기 실험을 같이 수행하였고, 동일한 데이터와 간격으로 실험한 타 논문의 결과와 비교해보았다. 수정한 Random Forest 분류기의 정확도를 다른 네 개의 분류기와 타 논문의 실험과 비교해보니 정확도 부분에서는 Random Forest가 가장 우수하였다. 본 실험의 전처리 과정은 대역통과 필터(Band-pass filter)를 사용하여 R-R interval을 추출하였는데 향후에는 정확한 간격을 추출하기 위한 필터의 연구가 사려된다.

병렬처리를 이용한 효율적인 수량 연관규칙 (Efficient Quantitative Association Rules with Parallel Processing)

  • 이혜정;홍민;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.945-957
    • /
    • 2007
  • 수량 연관규칙은 대량의 데이터베이스에 존재하는 데이터 중 수량적 속성이 강한 데이터를 항목으로 만들어 이진 연관규칙에 적용한다. 만약 중요한 의미를 내포하는 수량 데이터의 정의역 범위가 넓을 경우 정의역을 최소지지도에 만족하는 적정 구간으로 분할하여 빈발구간 항목을 생성하는 작업이 필요하다. 이러한 빈발구간 항목은 어떻게 생성되었느냐에 따라 생성된 규칙의 신뢰도에 큰 영향을 미치게 된다. 따라서 본 논문에서는 빈발구간 항목을 효율적으로 생성하는 방법을 제시한다. 본 논문에서 제안하는 방법은 기존 방법들에 비해 의미가 있는 구간을 분실하지 않고 최소지지도에 근접하는 세밀한 빈발구간을 생성하기 때문에 데이터가 가진 특성의 손실을 최소화할 수 있는 효율적인 방법이다. 또한 병합이 불필요한 곳에서는 병합을 시도하지 않고 빈도가 높은 구간만을 취해 병합하므로 수량의 정의역이 넓을 경우 기존 방법에 비해 실행속도가 월등히 빠른 효율적인 방법이다. 그리고 인구센서스와 같은 실제로 사용되는 데이터를 이용하여 클루닉스 HPC 시스템에서 병렬처리 수행을 통하여 제안 방법이 우수함을 보였다.

  • PDF