Proceedings of the Korean Statistical Society Conference (한국통계학회:학술대회논문집)
The Korean Statistical Society
- 기타
Domain
- Mathematics > Models/Data analysis
2003.10a
-
The traffic patterns of today's IP networks exhibit two important properties: self-similarity and long-range dependence. The fractional Brownian motion is widely used for representing the traffic model with the properties. We consider a single server fluid queueing system with input process of a fractional Brownian motion type. Formulas for effective bandwidth are derived in a single source and multiple source cases.
-
A Bayesian model-based clustering method is proposed for clustering objects on the basis of dissimilarites. This combines two basic ideas. The first is that tile objects have latent positions in a Euclidean space, and that the observed dissimilarities are measurements of the Euclidean distances with error. The second idea is that the latent positions are generated from a mixture of multivariate normal distributions, each one corresponding to a cluster. We estimate the resulting model in a Bayesian way using Markov chain Monte Carlo. The method carries out multidimensional scaling and model-based clustering simultaneously, and yields good object configurations and good clustering results with reasonable measures of clustering uncertainties. In the examples we studied, the clustering results based on low-dimensional configurations were almost as good as those based on high-dimensional ones. Thus tile method can be used as a tool for dimension reduction when clustering high-dimensional objects, which may be useful especially for visual inspection of clusters. We also propose a Bayesian criterion for choosing the dimension of the object configuration and the number of clusters simultaneously. This is easy to compute and works reasonably well in simulations and real examples.
-
In this paper, we develop the Jeffreys' prior, reference priors and the probability matching priors for the intraclass correlation coefficient of a symmetric normal distribution. We next verify propriety of posterior distributions under those noninformative priors. We examine whether reference priors satisfy the probability matching criterion.
-
퍼지-베이즈 의사 결정시에 사전 분포 함수와 멤버십 함수에 파라서 퍼지-베이즈 의사 결정이 얼마나 민감하게 반응하는지 알기 위하여 연구를 진행하였다. 두 가지 퍼지 조건과 행동에서
${\theta}$ 의 사전 분포가 정규분포와 균등분포인 경우와 표본분포가 정규분포인 경우에 대하여 민감성을 조사했다. -
정보화시대의 발전과 더불어 우리 일상생활에 친숙하게 다가온 기술 중의 하나가 지리정보시스템(Geographical Information System: GIS)이다. GIS는 공간(지표, 지하, 해양 등)상에 분포하고 있는 정보에 대해 여러 종류의 세밀한 지도를 이용하여 효율적으로 사용자에게 제공하여 관리하는 종합정보기술이다. 통계 데이터 중에는 지리정보를 가지고 있는 경우가 상당히 많다. 하지만 지리정보를 갖는 통계 데이터의 탐색적 자료분석(Exploratory Data Analysis)을 위한 Visualization 기법에 대해서는 별로 연구된 바가 없다. 본 논문에서는 GIS를 위한 벡터맵(vector map)의 간단한 제작방법과 GIS의 개발방법, 그리고 탐색적 자료분석을 위한 Visualization기법을 소개한다.
-
본 연구에서는 연속형 확률밀도함수의 그래프를 표현하기 위한 하나의 방법으로 보간점을 이용하는 문제에 대해 살펴보고자 한다. 이를 위해 최적화 기법을 이용하여 보간점의 수와 위치를 선택하는 알고리즘을 제안하고, 제안한 방법을 이용하여 확률밀도함수의 그래프를 구현한다.
-
정보기술의 발전은 학습자와 교수자에게 새롭고 다양한 교육매체를 활용할 수 있는 기회를 제공하고 있다. 가상대학이나 사이버 교육 등과 같은 온-라인 교육 뿐 아니라 교수자와 학습자가 같은 공간에서 이루어지는 전통적인 교육 현장에서도 다양하게 활용되고 있다. 그러나 이러한 연구들의 대부분은 학습자의 학습 상태를 이해하고 적전한 피드백을 주기위한 방법들이 제한적이고 부족한 면이 많다고 할 수 있다. 본 연구에서는 전동적인 교실 수업에서 학습자들의 학습정도에 대한 교수자의 이해를 돕고 학습자들이 보다 적극적으로 수업에 임할 수 있도록 실시간 평가시스템을 활용하는 방안을 제안하고자 한다.
-
Ghosh and Ramamoorthi (1996) studied the posterior consistency for survival models and showed that the posterior was consistent, when the prior on the distribution of survival times was the Dirichlet process prior. In this paper, we study the posterior consistency of survival models with neutral to the right process priors which include Dirichlet process priors. A set of sufficient conditions for the posterior consistency with neutral to the right process priors are given. Interestingly, not all the neutral to the right process priors have consistent posteriors, but most of the popular priors such as Dirichlet processes, beta processes and gamma processes have consistent posteriors. For extended beta processes, a necessary and sufficient condition for the consistency is also established.
-
삼국사기 등에 기록되어 있는 천문기록들이 왜곡된 역사관에 의해 그 기록의 정확성이나 독창성에 의문을 갖게 하였다. 하지만 일식기록의 관측시점에 대한 최근의 연구결과는 오히려 우리의 고천문기록이 중국 문헌상에 나타나는 기록보다도 더 정확한 것으로 판명되고 있다. 따라서 중국측 사료와의 비교를 통해 고천문기록의 정확성과 독창적으로 일관되게 천문기록을 남겼음을 본 논문에서 밝혀 보고자 하였다.
-
최근 경제 사회의 급속한 발전에 따라 개인의 활동분야가 다양해지고 개인비밀보호 인식이 커지면서 응답자들이 통계조사에 잘 협조하지 않는 경우가 늘어나고 있다. 따라서 대부분의 통계를 현장조사에 의존하여 생산하고 있는 통계청에서는 현장조사 결과물의 품질상태에 좀 더 관심을 가져야만 하게 되었다. 이러한 현장조사에 대한 풀질관리의 일환으로 현재 통계청에서는 통계별 조사대상으로부터 품질관리표본(Quality Control Sample)을 추출하고 이를 대상으로 리인터뷰를 실시함으로써 응답오차측정, 조사현장의 실터파악, 응답자 의견수렴 등에 활용하고 있다. 리인터뷰는 조사직원의 고의적인 자료조작 또는 보충교육 필요성 등 현장조사업무를 평가하거나 응답분산(simple response variation), 응답편의(response bias) 등을 산출하고, 이를 분석하는 모델을 이용하여 응답결과의 신뢰도를 분석하는데 목적을 두고 있다. 본 연구에서는 품질관리표본(QC Sample) 설계 및 추출, 리인터뷰 시나리오개발, CATI(Computer Assisted Telephone Interviewing)를 이용한 리인터뷰 기법 등을 통계청 사업체조사 모니터링 사례를 중심으로 설명하고 조사직원 특성별 응답오차 측정 및 비교, 정확성 항목에 대한 차이분석 등 격과에 대하여 논하고자 한다.
-
양곡소비량조사는 가구부문과 사업체부문에서 소비하는 주요식품의 소비량을 조사함과 동시에 주곡인 쌀의 재고량을 조사한다. 이 조사는 해마다 통계청에서 표본설계하여 실시하는 표본조사에 의존한다. 특히, 사업체 부문의 양곡소비량 조사는 응용절사법(Modified Cut-Off Sampling Method)에 의해 표본추출되어 매년 11월에 조사가 실시되고 있다. 2003년도 사업체 양곡소비량 및 재고량조사는 2001년 사업체기초통계조사와 광공업통계조사를 모집단으로 하여 22,320 대상업체 중에서 819업체를 전수조사하고 2,145 업체를 표본조사하여 전체를 추계한다.
-
One of the widely accepted assumptions in many statistical problem is that the underlying distribution is symmetric. Though a large number of nonparametric test are available in the literature for this problem, very few procedures focuses on the distributional structure when the symmetry assumption is rejected. Yanagimoto and Sibuya (1972) provided the various types of asymmetric distributional structure, positive biasedness, namely. In this paper we consider the test of symmetry against several new positive biasedness restrictions which are stronger than Yanagimoto and Sibuya's type II bias but weaker than type IV (III) bias.
-
The paper considers partial least squares (PLS) as a new dimension reduction technique for the feature vector to overcome the small sample size problem in face recognition. Principal component analysis (PCA), a conventional dimension reduction method, selects the components with maximum variability, irrespective of the class information. So PCA does not necessarily extract features that are important for the discrimination of classes. PLS, on the other hand, constructs the components so that the correlation between the class variable and themselves is maximized. Therefore PLS components are more predictive than PCA components in classification. The experimental results on Manchester and ORL databases show that PLS is to be preferred over PCA when classification is the goal and dimension reduction is needed.
-
This presentation derives a distribution function of the terminal value and running maximum of two-dimensional Brownian motion {X(t) = (X
$_1$ (t), X$_2$ (T))', t > 0}. One random variable of the joint distribution is the terminal time value of the Brownian motion {X$_1$ (t), t > 0}. The other random variable is the partial-time running maximum of the Brownian motion {X$_2$ (t), t > 0}. With this distribution function, this presentation also derives an explicit pricing formula for a barrier option whose monitoring period of the option starts at an arbitrary date and ends at another arbitrary date before maturity. -
gCRM(geographical Customer Relationship Management)이란 지리정보시스템(GIS)에서 활용되는 각종 데이터베이스와 기업내외적인 고객관계관리(CRM)의 실무 마케팅전략상 필요에 의해 접목된 하나의 새로운 솔루션 개념을 말한다. 현재 gCRM의 수준은 일차원 혹은 다차원 분석 결과를 GIS기술을 이용하여 시각화하는 정도가 대부분이지만, 공간데이터마이닝 등 향상된 분석기법과 위성위치활인시스템인 GPS(Global Positioning System), PDA, 핸드폰 기술과 접목하여 업그레이드된 gCRM 솔루션으로 발전하고 있다. 여기에 고객들의 기본 성향을 파악할 수 있는 지역특성 반영 라이프스타일 정보를 활용한다면 더욱 발전된 지리정보시스템 기반 고객관리(gCRM)를 수행할 수 있을 것이다.
-
이 논문에서는 Samuel, Pignatiello와 Calvin(1998)이 제안한
${\overline{X}}$ 관리도에서 이상원인 발생시점에 대한 최대우도추정량에 기초하여 변량표본크기(VSS)${\overline{X}}$ 관리도를 수행하는 경우에 사용할 수 있는 최대우도추정량을 제안한다. 또한 제안된 최대우도추정량을 이용하여 이상원인 발생 시점에 대한 신뢰구간을 설정하였다. -
본 논문에서는 정보 전달 능력이 향상된 변형된 축차확률비검정을 소개한다. 새로운 검정은기존의 검정과 수학적인 면에서 공동된 점들을 갖고 있으나, 이상치의 영향을 덜 받고 더욱이 그 존재에 대하여 시각적으로 보여주며, 또한 자료의 변화에 보다 민감하게 반응하는 특성이 있다. 새롭게 제안된 로버스트 축차확률비검정 시스템을 Microsoft사의 Visual Basic 6.0 언어로 구현하여 본 연구에서 제안한 모델과 기존의 검정모델을 비교한 결과 제안된 검정 모델의 우수성과 실용가능성을 실증적으로 확인하였다.
-
Shewhart-type control charts have historically been used for attribute data, though they have ARL biased property and even are unable to detect the improvement of a process with some process parameters. So far most efforts have been made to improve the performance of attribute control charts in terms of faster detection of special causes without increasing the rates of false alarm. In this paper, control limits are proposed that yield an ARL (nearly) unbiased chart for attributes. Optimal design is also proposed for attribute control charts under a natural sense of criterion.
-
이 연구에서는 일관성의 원리를 충족하는 새로운 형태의 베이즈 P-값으로 LR형 베이즈 P-값을 제안하고, 그 성질에 대하여 검토해보고자 한다. 제안된 베이즈 P-값은 가능도 비의 단순한 함수의 형태로 표현되어 쉽게 계산될 수 있다는 장점을 갖고 있으며, 검정방법으로서 일관성의 원리를 만족한다.
-
소지역 모형들은 고정된(fixed)효과와 랜덤 효과를 포함하는 일반적 선형 혼한 모형의 특별한 경우로 간주될 수 있다. 소지역 평균이나 종계는 고정된 효과와 랜덤 효과의 일치 결합으로 표현될 수 있다. 블록 대각 공분산 구조를 갖는 선형 혼합모형(mixed model) 아래서 EBLUP은 실재문제에 있어서 많이 소지역 모형에 응용된다. 설계 가중값(design weight) 들에 의존하고 설계-일치(design consistency) 성질을 만족하는 Pseudo-EBLUP 추정량들은 소지역추정에서 합해지면 (aggregated) 사후-수정(post-adjustment)없이 벤치마킹 성질을 만족한다.
-
개방형 모집단에 대한 Mark-Recapture방법은 일반적으로 Jolly-Seber방법이 사용된다. 이 방법은 각 표본에서 모든 동물들에 대한 포획될 확률은 동일하다는 가정을 갖는다. 개방형 모집단에 대한 Mark-Recapture방법을 소개하고 폐쇄형 모집단에서 갖는 문제를 해결하기 위한 개방형 모집단의 로버스트 설계를 이용하려다. Pollock과 Kendall의 Jolly-Seber 모수로부터 유도된 모집단의 성장율 추정에 대하여 SAS와 POPAN의 결과를 비교하였다.
-
We define a broad class of rotation designs whose monthly sample is balanced in interview time, level of recall, and rotation group, and whose rotation scheme is time-invariant. The necessary and sufficient conditions are obtained for such designs. Using these conditions, we derive a minimum variance unbiased generalized composite estimator (MVUGCE). To examine the existence of time-in-sample bias and recall bias, we also propose unbiased estimators and their variances. Numerical examples investigate the impacts of design gap, non-sampling error sources, and two types of correlations on the variance of MVUGCE.
-
표본조사를 하는 경우에 사전에 전체 표본의 크기를 정하여 놓고, 표본설계를 하는 경우가 많다. 이 때에는 조사 비용은 고려의 대상이 안되고 주어진 전체표본 크기로 각 층별로 표본을 할당하여 분산을 최소로 하는 문제가 된다. 이 논문에서는 pps 집락추출과 각 집락에서 같은 크기의 부표본(subsample)을 추출하여 자체 가중이 되도록 표본설계를 하는 경우에 표본의 크기
$m_{0}$ 가 사전에 주어졌을 때에 모총계의 추정량의 분산을 최소로 하는 최적의 표본추출율을 구하고. 이러한$m_{0}$ 값들 중에서 최적의$m_{opt}$ 값을 구한다. -
LS-SVM(least squares support vector machine) is a widely applicable and useful machine learning technique for classification and regression analysis. LS-SVM can be a good substitute for statistical method but computational difficulties are still remained to operate the inversion of matrix of huge data set. In modern information society, we can easily get huge data sets by on line or batch mode. For these kind of huge data sets, we suggest an on line pruning regression method by LS-SVM. With relatively small number of pruned support vectors, we can have almost same performance as regression with full data set.
-
본 논문에서는 통계적 방법에 기초한 사과 선별시스템을 이용하여 사과의 색깔을 식별하고자 한다. 이를 위해 T-검정을 이용하여 에지를 검출하였고 검출된 에지로부터 체인코드를 이용하여 사과 영상의 경계선과 환상대 영역을 구하였다. 우리는 주어진 사과영상의 환상대 영역으로부터 R, G, B 채널상에서 히스토그램과 평균 명암값을 구하여 색깔 판정용 표준사과로부터 얻은 기준값들과 비교함으로서 사과의 색깔을 식별하였다.
-
Park, Yeong-Seon;Jin, Jeong-Eon;Cha, Gyeong-Jun;Lee, Jong-Seong;Park, Jeong;Kim, Seong-Hun;Lee, Won-Sik;Lee, Jae-Hwa 149
문항반응이론(item response theory, IRT)에서는 문항이 가지고 있는 특성을 기초로 피험 자의 능력을 추정 하고 동시 에 각 문항별 문항특성곡선(item characteristics curve; ICC)을 이용하여 문항모수를 추정하게 된다. 이러한 추정알고리즘은 이미 외국에서는 상용화되 어 활용되고 있는바, 국내 에서 개 발한 Any Assess의 활용 가능성을 모의 실험을 통하여 그 결과의 신뢰성을 검증해 보았다. -
최근 들어 SVM(support vector machines)은 기계학습의 분야에서 많은 응용이 이루어지고 있으며 특히 분류(classification)나 회귀(regression)분석의 영역에서 많은 연구가 진행중이다. 본 논문에서는 SVM을 이용하여 입력영상자료(image data)를 분류하고자 한다. RGB 컬러 영상자료가 입력되면 이미지 크기에 관계없이 이미지 자체를 입력패턴으로 인식하고 SVM을 통한 훈련(training)을 거친 결과(weight 들과 bias 추정치)를 이용하여 입력영상자료가 사람인가를 분류할 수 있는 문제를 다룬다. 제안된 방법의 타당성은 152개의 영상자료에 적용하여 분석되었다.
-
In this paper, a new form of generalized linear models is proposed. The proposed models consist of a distribution function of the mean response and a weighted linear combination of distribution functions of covariates. This form addresses a structural problem of the link function in the generalized linear models. Markov chain Monte Carlo methods are used to estimate the parameters within a Bayesian framework.
-
혼합물실험에서 성분의 개수가 많고 성분에 대하여 제한조건이 있는 경우 흥미영역을 도시하는 작업은 성분의 개수가 4개 이상일 때 힘든 작업이 된다. 또한 반응변수가 여러 개인 경우 최적화문제도 까다롭게 된다. 이때, 탐색적 자료분석의 한 도구로서 평행좌표그림을 이용하면 통계자료분석시 많은 도움을 받을 수 있다.
-
When we have both a paired data set and two independent data sets, neither a paired t-test nor a two-sample t-test can be used to detect differences between two samples. In order to identify differentially expressed genes in a mixed data set, a new test statistic is proposed.
-
This study describes a new graphical method for assessing and characterizing effect modification by a matching covariate in matched case-control studies. This method to understand effect modification is based on a semiparametric model using a varying coefficient model. The method allows for nonparametric relationships between effect modification and other covariates, or can be useful in suggesting parametric models. This method can be applied to examining effect modification by any ordered categorical or continuous covariates for which cases have been matched with controls. The method applies to effect modification when causality might be reasonably assumed. An example from veterinary medicine is used to demonstrate our approach. The simulation results show that this method, when based on linear, quadratic and nonparametric effect modification, can be more powerful than both a parametric multiplicative model fit and a fully nonparametric generalized additive model fit.
-
In this paper, we establish some results on strong convergence for weighted sums of uniformly integrable fuzzy random variables taking values in the space of upper-semicontinuous fuzzy sets in R
$^{p}$ . -
We consider an M/G/1 queueing system under P
$_{\lambda}^{M}$ -service policy. As soon as the workload exceeds threshold${\lambda}$ > 0, the service rate is increased from 1 to M${\geq}$ 1 and is kept until the system becomes empty. After assigning several costs, we show that there exists a unique M minimizing the long-run average cost per unit time. -
Hansen과 Hurwitz(1946)는 우편조사에서의 무응답 문제를 처리하는 방법으로 표본을 응답결과에 따라 응답층과 무응답층으로 나눈 다음, 무응답층의 일부를 랜덤 추출하여 면대면 직접조사에 의해 무응답층의 정보를 얻는 방법을 제안하였다. 본 연구에서는 민감한 모집단에 대한 자료수집 방법으로 직접질문 방법인 Black-Box 방법과 간접질문 방법인 확률화응답기법(RRT)의 결합적 방법을 제시하였고, 층화이중 추출방법을 이용하여 모수를 추정하였다.
-
We show how some probability nonreplacement sampling designs can be implemented using nonlinear programming, The efficiency of the proposed approach is compared with selected probability sampling schemes in the literature. The approach is simple to use and appears to have reasonable variance.
-
In this paper, we propose a class of imputed estimators using response probability. The proposed estimator can be justified under the response probability model and thus is robust against the failure of the assumed imputation model. We also propose a variance estimator that is justified under the response probability model.
-
본 논문은 혁신수용에 대한 한국인들의 군집화에 관한 연구로서, 분류된 군집의 라이프스타일 등의 특성을 밝힐 것이다. 연구를 위해 2003년 6월 9일부터 27일까지 설문조사를 실시하였으며, Ward의 군집분석 방법을 이하여 분석하였다. Rogers가 혁신 수용에 관한 군집을 통계적 이론을 바탕으로 다섯 가지로 분류한 바 있으나 본 연구에서는 혁신층이 11%, 조기다수층이 24.4%, 후기다수층이 48.9%, 후발수용층이 15.7% 등 네 가지 군집으로 분류될 수 있음을 알 수 있었고, 이 군집들의 라이프스타일을 연구하였다. 또한 Rogers의 연구 결과와 비교해 볼 때, 조기수용층이 혁신층으로 흡수되었다. 이러한 결과는 두터운 혁신층을 바탕으로 신제품이나 새로운 서비스를 처음 받아들이는 계층이 넓다는 것을 의미하고, 우리나라에서는 신제품을 개발 시험할 수 있는 좋은 구조를 가지고 있음을 의미하고, 반면에 조기다수층이 혁신 수용에 신중함으로 보이고 있기 때문에 혁신의 확산에 높은 저항이 있음을 알 수 있다. 세계각국에서 적극적으로 추진하고 있는 초고속 인터넷 서비스 분야 성공은 다른 나라에 비해 서비스를 빠르게 수용하고 이 후 높은 품질의 서비스와 고객만족을 기업들에 요구하고, 기업들의 적절한 대응의 결과로 설명될 수 있다.
-
본 연구는 2000년 인구주택총조사에 기반하여, 국내 3,516개 읍면동 단위의 소지역을 마케팅 의사결정 활용의 관점에서, 유사한 인구
${\cdot}$ 사회${\cdot}$ 경제${\cdot}$ 소비행태를 가지는 26개의 마이크로타겟(Micro Target) 군집으로 구축하는데 그 초점을 두고 있다. 마이크로타겟 군집은 고객분류, 상권분석, 광고전략 수립, 타겟마케팅(Target Marketing)등의 마케팅 의사결정과 마케팅 전략수립에 있어 핵심적 요건으로 기능하게 된다. -
통계학과를 졸업하는 학생들 중에는 50%이상이 통계학(기초)을 제대로 이해를 못하고 졸업하고 있다는 가설을 검증해본다면 그 결과는 무엇일까? 통계학을 조금 배워본 사람들은 물론이고 통계학과 졸업생들조차 통계학은 난해하기 짝이 없다고 평가를 한다면 이해를 돕는 교육이라기보다는 주입(강요)식 교육이기 때문은 아닌가? 여기서는 확률변수 X를 대문자로 쓰는 것에 유의하고, 소문자 x와 구분하여 사용함으로써 초보자들이 통계이론을 보다 쉽게 이해할 수 있도록 하자는 것이다.
-
본 논문에서는 집단화된 자료의 평균과 분산을 계산하는 새로운 방범을 제시하였다. 제시된 방법은 각 계급구간 안의 자료값들이 그 구간에 걸쳐 균등한 간격으로 분포하고 있다고 가정하고 평균과 분산을 계산하는 것이다. 개개의 자료값들이 주어진 자료와 모의실험에 의해 생성된 자료를 이용하여 제시된 방법과 기존의 방법을 비교하였다.
-
Goodness of fit test statistics based on the information discrepancy have been shown to perform very well (Vasicek 1976, Dudewicz and van der Meulen 1981, Chandra et al 1982, Gohkale 1983, Arizona and Ohta 1989, Ebrahimi et al 1992, etc). Although the test is well defined for the non-censored case, censored case has not been discussed in the literature. Therefore we consider a goodness of fit test based on the partial Kullback-Leibler(KL) information with the type II censored data. We derive the partial KL information of the null distribution function and a nonparametric distribution function, and establish a goodness of fit test statistic. We consider the exponential and normal distributions and made Monte Calro simulations to compare the test statistics with some existing tests.
-
본 연구에서는 확률모형의 모수로부터 얻어지는 여러형태의 함수간의 크기를 다중비교 하는 방법을 제안하고자 한다. 이 방법은 비교대상인 모수 함수간의 선호확률을 베이지안 방법으로 추정하고, 이들로부터 얻어지는 선호행렬을 이용한 새로운 다중비교법이다. 이러한 방법의 제안에 필요한 이론과 비교기준을 고안하였으며, 응용 예로, 제안된 방법을 s개의 독립인 지수분포 모수의 기하평균 크기비교에 적용하였다.
-
-
In ecological studies, animal science, or entomology, the variance of count is considered to have the power of the mean relationship with the mean count as Taylor (1961) presented his famous 'Taylor's Power Law'. In this talk, we are going to review the development of TPL and its extension toward pest management sampling scheme. Different estimation methods are compared. Quasilikelihood approach is suggested to incorporate covariate information. Possible extensions will be discussed.
-
We introduce a new robust regression estimator, self-tuning regression estimator. Various robust estimators have been developed with discovery for theories and applications since Huber introduced M-estimator at 1960's. We start by announcing various robust estimators and their properties, including their advantages and disadvantages, and furthermore, new estimator overcomes drawbacks of other robust regression estimators, such as ineffective computation on preserving robustness properties.
-
Breiman, Friedman, Olshen and Stone(1984)의 전체탐색법에 의한 회귀나무는 상대적으로 많은 분리가 가능한 변수로 분리기준이 정해지는 편의 현상을 갖고 있다. 본 연구에서는 이런 문제점을 해결할 수 있는 알고리즘을 제안하여 변수선택편의가 없는 회귀나무를 만들고자 한다. 제안하는 알고리즘은 노드의 분리변수를 선택하는 단계와 그 선택된 변수에 의해 이진분리를 위한 분리점을 찾는 단계로 구성되어 있다. 예측변수 중에서 목표변수와 가장 밀접하게 연관된 예측변수는 예측변수의 자료의 종류에 따라 스피어만의 순위상관계수에 의한 검정 혹은 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 가장 통계적으로 유의한 변수로 선택하였고, 선택된 변수에만 Breiman et al.(1984)의 전체선택법을 적용하여 분리점을 결정하였다. 모의실험을 통해 변수선택편의, 변수선택력 , 그리고 평균제곱오차 측면에서 Breiman et al. (1984)의 CART(Classification and Regression Trees)와 제안한 알고리즘을 서로 비교하였다. 또한, 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.
-
일반적으로 단순대응분석에서는 하나의 분할표 자료에 대한 행과 열의 대응관계만을 주로 다루어 왔으나 시점의 변화에 따른 행과 열 범주의 대응관계에 대한 변화의 추세를 나타내지는 못했다. 본 연구에서는 새로이 추가범주를 활용한 전이행렬자료의 동적 단순대응분석(dynamic simple correspondence analysis of transition matrix data: DSCA)을 제안하고자 한다. DSCA는 시점의 변화에 따른 행과 열 범주의 변화되는 대응관계뿐만 아니라 행 범주들의 시간적인 변화의 경향을 보여주는 장점을 갖고 있다. 또한 기준시점에서 다음 시점으로의 변화도 예측하여 보여줌으로써 향후 변화의 경향을 시각적으로 보여준다.
-
We obtain the asymptotic distributions of tests statistics for various types of seasonal cointegration based on GRR estimators of Ahn and Cho (2003). These tests are useful in testing for restrictions about cointegrating vectors after Chi-square tests for CCI and common PCIV in Ahn and Cho (2003) or tests for the known CCI and the known PCIVs have been performed.
-
시계열 모형을 따르는 자료의 예측(Forecasting)이나 공정조정(Process Adjustment)의 경우, 자료의 마지막 부분에 발생한 이상치(Outlier)에 의해 크게 영향 받을 수 있다. 그러나 지금까지 제안된 이상치 탐지 방법은 주로 자료의 중간 부분에 발생한 이상치를 검출하는데 효율적이라고 알려져 왔다. 본 연구에서는 자료의 마지막 부분에 발생한 이상치에 대한 기존 탐지 방법의 검출력을 모의 실험을 통해 분석하였다 또한, 이를 개선할 수 있는 방안을 제시하고, 모의 실험을 통해 기존의 검출력과 비교하였다.
-
신용위험 관리에서 필수적인 방법론이 스코어 카드이며 이를 작성하는 데에 있어서 널리 쓰이는 방법 중의 하나가 로지스틱 회귀분석이다. 본 논문에서는 로지스틱 회귀 방법에 기초한 스플라인 방법론을 소개하고자 한다. 최종 스코어 카드는 연속형 변수를 범주형 변수화 하므로 조각 선형 스플라인을 채택하였다. 모의 실험을 통하여 제안된 방법의 성 능을 규명 하였다.
-
최근 활발히 행하여지는 금융 CRM(Customer Relationship Management)은 은행의수익성 제고를 위하여 개별고객의 주요특성(거래이력, 가치 등)을 파악하고, 이를 근거로 유사한 고객들을 분류하여 고객관리 방안을 찾는데 그 목적이 있다. 본 연구에서는 B은행의 실제 CRM을 통하여 수익성을 높일 수 있는 마케팅 시사점을 도출하고자 하며 이러한 마케팅의 도출과 목표가 되는 고객을 어떻게 선정할 것인가의 질문에 대한 방법으로 계량경제학 분야에서 기업단위연구의 생산효율성을 측정하기 위하여 사용되어지고 있는 SFM(Stochastic Frontier Model)과 OLS(Ordinary Linear Model)의 방법을 사용하였다.
-
공간적으로 영향을 받는 위치에서의 상호 연관성을 고려한 예측모형 중에서 크리깅 (kriging) 방법은 관측된 데이터를 보간(interpolation)하고, 부드럽게 연결(smoothing)하며, 새로운 데이터를 예측(prediction)하는 통계적 모형으로서 많이 활용되고 있다. 크리깅 모형을 적용하기 위해서는 먼저 주어진 두 위치에서의 비연관성을 나타내는 세미베리오그램 (semivariogram)의 3가지 모수(nugget, sill, range)를 추정해야 한다. 본 연구에서는 전역 적 최적화 방법인 유전자 알고리즘(genetic algorithm)을 도입하여 세미베리오그램 모수들을 추정하였고, 이를 통해 강우량(rainfall)에 대한 크리깅 추정량을 산출하고 효과성을 판단하였다.
-
최근에 R은 여러 분야에서 많이 사용되고 있다. 특히 모의실험(simulation)이나 통계학 관련 연구에 많이 사용되고 있다. 모의실험을 하는 경우에는 많은 반복으로 인해 R 프로그램의 수행 속도가 매우 중요하다. 또한 데이터마이닝 분야에서도 R을 많이 사용하고 있다. 우리는 데이터 마이닝에서 데이터의 전처리 과정 중 Fayyad & Irani 방법을 사용하여 연속형 변수를 이산화하는 실험을 하였으며, 이를 위해 R을 사용하였다. 이 프로그램은 재귀 함수를 이용하고 이런 과정에서 빈도표 작성, information계산, 빈도표의 분할, 정지 규칙 등의 여러 함수를 사용하게 되어있다. 우리가 작성한 R 로드를 사용하여 UCI DB의 Iono 자료를 (속성이 35개, 사례수가 약 1000개정도) 이산화 하였을 때 7초 이상의 상당한 시간이 소요된다. 반면에 JAVA로 만들어진 Weka에서 똑같은 Fayyad & Irani 방법을 수행했을 때 위와 같은 큰 자료를 이산화하는 속도가 매우 빨라 수행시간은 거의 무시할 만하였다. 이런 차이점을 보고 R 프로그램의 수행 속도를 늘이는 방법을 찾게 되었다. 이 본 발표에서는 R 코드 중 시간이 많이 소요되는 것들을 몇 가지 선정하고 이들을 더 효율적으로 만들 수 있는 코드를 작성하여 이들 코드의 수행속도를 비교하였다. 또한 몇 가지 명령에 대해서는SAS와도 비교하였다.
-
개인화된 추천시스템(recommendation system)은 자동화된 정보 필터링 기술을 적용하여 고객의 취향에 맞는 아이템(상품, 기사, 컨텐츠 등)을 추천하는 시스템이다. 이러한 추천시스템에서 가장 중요한 것은 고객의 특성을 정확히 파악하여 가장 적절한 아이템을 추천해 줄 수 있는 능력이라고 할 수 있다. 본 연구에서는 추천시스템을 위해 제안된 여러 알고리즘들을 소개하고 그 특징들을 비교하였으며, 연관성규칙발견과 군집분석을 이용한 추천시스템 알고리즘을 실제 자료에 적용하여 그 결과를 살펴보았다.
-
최근 인터넷은 기업이 고객과 접촉할 수 있는 새로운 수단으로써 기업의 홍보나 서비스를 제공하는 기능을 수행할 뿐만 아니라 사업을 위한 중요한 도구로 여겨지고 있다. 따라서 방문자의 웹사이트 이용형태를 파악하기 위한 다양한 기법들이 제시되고 있으며, 웹로그 데이터에 대한 자료분석 기법들이 여러 학문분야에서 연구되고 있다. 본 연구에서는 웹로그 데이터에 대한 군집분석을 위해 거리측도 및 분석 알고리즘을 제안하였으며, 실제 자료에 이를 적용하여 제안된 알고리즘의 특성을 살펴보았다.
-
본 논문에서는 matched-pair design에서의 두 처리간 동등성/ 비열등성 검정에 대해 고려하였다. 기존에 비율차이나 risk ratio관점에서 동등성/비열등성 검정을 시행한 것과는 달리, 본 논문에서는 odds ratio에 기초하여 두 가지 검정통계량을 유도하였다. (1) constrained maximum likelihood estimator(mle)를 이용한 fieller type 통계량 (2) 제약없이 구한 mle를 사용한 wald-type 통계량). 비율 차이나 risk ratio에 기초한 기존의 통계적 방법들(비율차이에 근거한 (3) score-type 통계량과 (4) wald-type 통계량, risk ratio에 기초한 (5) fieller-type 통계량과 (6) wald-type 통계량)과 본 논문에서 제시한 두가지 통계량의 성능을 비교하기 위해 모의실험을 시행하였다. 모의실험 결과, 본 논문에서 제안한 constrained mle를 사용한 fieller type 통계량은 empirical type I error 측면에서 매우 만족스러운 결과를 보이고 있으며, 특히 비대각 셀의 확률이 작아질 경우에도 안정적인 성능을 보여준다.
-
한우 6번 염색체 유전자 지도에서 QTL (quantitative trait loci) 분석을 실시하여 선별된Locus 값을 순열검정(Permutation Test)을 이용하여 유의성 검정을 실시하였다. 한편, 우수경제형질 DNA marker들을 K-평균 군집법을 실시 파악하였다. 이들 QTL과 K-평균법에 의해 한우의 염색체 6번 ILSTS035의 우수 DNA marker 235번을 선별하였다. 선별된 DNA Marker 235번을 출품우에 적용하여 Bootstrap 방법을 이용하여 신뢰구간을 구하여 검정하였다.
-
마이크로 어레이(microarray)실험에서 표준화(normalization)는 유전자의 발현수준에 영향을 미치는 여러 기술적인 변인을 제거하는 과정이다. cDNA microarray normalization에 있어 여러 방법이 제안되었지만, 이중 print-tip 효과가 존재할 때 사용되는 방법으로 print-tip lowess normalization이 대표적으로 사용된다. normalization에 사용되는 lowess 함수는 데이터의 특성에 따라 window width를 정해야만 연구의 목적에 맞는 결과를 도출할 수 있다. 본 논문에서는 각각의 tip에서 최적의 window width를 계산하는 절차를 논의하였다. 또한 이의 결과와 기존의 같은 window width를 사용하는 print-tip lowess normalization 결과와 비교 평가하여 normalization의 기본 원칙에 대한 타당성을 확인하였다.
-
최근 들어 생존분석 기법이 여러 분야에서 관심을 모으고 있을 뿐 아니라 생존자료를 분석하기 위한 여러 패키지들도 개발되어 연구되고 있다. 본고에서는 생존분석의 여러 모형을 간략히 소개하고 생존자료를 분석하기 위하여 널리 사용되고 있는 패키지인 SAS, SPSS, STATA의 기능을 찾아보고 그들의 특징을 비교 조사할 것이다.