• 제목/요약/키워드: 자료선택

검색결과 3,472건 처리시간 0.025초

조건부 상호정보를 이용한 분류분석에서의 변수선택 (Efficient variable selection method using conditional mutual information)

  • 안치경;김동욱
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1079-1094
    • /
    • 2014
  • 상호정보 (mutual information)를 이용한 변수 선택법은 반응변수와 설명변수간의 선형적인 연관성뿐만 아니라 비선형적인 연관성을 감지하며, 설명변수 사이의 연관성도 고려하는 좋은 변수선택 방법이다. 하지만 고차원 자료에서 상호정보를 추정하기가 쉽지 않아 이에 대한 연구가 필요하다. Cai 등 (2009)은 조건부 상호정보를 이용한 전진선택법과 가지치기법을 이용하여 이러한 문제를 해결하였으며, 마이크로어레이 자료와 같은 고차원 자료에서 조건부 상호정보를 이용한 변수 선택법으로 선택된 변수들로 구성된 SVM의 분류 성능이 SVM-RFE 및 기존의 필터링 방법으로 선택된 변수들로 구성된 SVM의 분류 성능보다 뛰어남을 보였다. 하지만 조건부 상호정보를 추정할 때 사용된 Parzen window 방법은 변수의 수가 많아질수록 변수 선택 시간이 길어지는 단점으로 인해 이에 대한 보완이 필요하다. 본 논문에서는 조건부 상호정보 계산 시 필요한 설명변수의 분포를 다변량 정규분포로 가정함으로써 변수선택을 위한 계산시간을 단축시키며 동시에 변수선택의 성능을 향상시키고자 한다. 반면, 설명변수의 분포를 다변량 정규분포로 가정한다는 것은 강한 제약이 될 수 있으므로 이를 완화시킨 Edgeworth 근사를 이용한 조건부 상호정보 기반의 변수 선택법을 제안한다. 실증분석을 통해 본 논문에서 제안한 방법의 효율성을 살펴보았으며, 기존의 조건부 상호정보 기반 변수 선택법에 비해 계산 속도나 분류 성능 면에서 우수함을 보였다.

선택기반 화물데이타를 이용한 개별로짓모형의 적용에 관한 연구 (A Study on the Application of Disaggregate Logit Models from Choice-Based Freight Data)

  • 남기찬
    • 한국항만학회지
    • /
    • 제7권1호
    • /
    • pp.25-42
    • /
    • 1993
  • 지난 20여년간 화물수송 분야에는 큰 변화가 있었다. 수송 공급 측면에서는 보다 다양하고 기술적으로 앞선 수송수단들이 등장했으며, 수송 수요 측면에서는 로지스틱스 개념의 도입으로 화주들의 보다 높은 수송 서비스가 요구 되었다. 수송수단의 수송 분담에 있어서도 특히 철도에서 공로로의 두드러진 화물이동 현상이 나타났다. 이러한 변화는 수송 현안 해결에 대한 관심을 높이고 화물수송수요 예측기법의 이론적, 개념적인 발달을 가져왔다. 그 중 두드러진 발달은 화주의 행태를 반영하는 행태모형의 개발과 새로운 자료수집 방법 및 자료형태이다. 전통적으로 화물수송 및 교통 연구에 널리 사용된 행태모형은 확률표본을 사용하여 왔으나, 80년대 부터 비확률 표본 사용에 관심이 높아졌다. 그 대표적인 것으로 기반근거 데이터를 들 수 있다. 이 데이터는 제한된 정보를 제공한다는 자료자체의 한계를 지니고 있으나, 자료수집이 용이하고 비용이 저렴하다는 장점을 가지고 있다. 화물수송 분야에서 선택기반 데이터를 이용한 연구는 현재까지 두 편이 발표 되어 있다. 따라서 볼 연구는 선택기반 데이터를 이용한 개별선택모형의 잠재력을 검증하는 것을 그 목적으로 하고, 네 종류의 제조품 그룹을 대상으로 기반근거 데이터를 수집하여 로짓모형을 추정하였으며, 추정결과를 이전 연구들의 결과와 비교하여 그 타당성을 검토 하였다. 추정된 결과는 통계적으로 유의하며 직관적으로 타당한 것으로 나타난다. 또한 그 결과는 문헌의 결과와도 일치하였다. 수송계획에 있어서 자료수집비용 절감의 필요성을 생각할 때 이것은 중요한 의미를 지닌다.

  • PDF

순서형 프로빗모형을 이용한 속도선택행태에 관한 연구 (Ordered Probit Model Of Speed Selection Behavior)

  • 강경우;백병성
    • 대한교통학회지
    • /
    • 제16권3호
    • /
    • pp.93-100
    • /
    • 1998
  • 지난 30여년간 운전자의 속도선택의 행태에 대하여 많은 연구가 이루어졌다. 그러 나, 과거 대부분의 연구는 운전자의 개별적인 특성과 제한속도에 대한 운전자의 인지 정도 를 고려하지 않고, 다만 운전자의 속도선택과 도로 및 차량간의 상호 관련성에 중점을 두고 있다. 본 연구는 운전자, 차량 및 통행특성 등의 요인을 고려하여 운전자의 속도 선택에 대 한 행태를 분석하고자 하였다. 이를 위하여 운전자의 속도 자료와 설문자료를 조사한 수, 두 가지 자료를 범주형 자료로 구분하여 Ordered Probit Model을 적용하여 분석하였다. 분 석결과 i) 고소득의 남성운전자가 고속의 주행 행태를 보였으며, 운전경력이 많은 운전자일 수록 높은 속도를 선택하는 것으로 나타났다. ii) 차량에 관해서는 배기량이 높은 차량일수 록 고속의 속도를 나타낸 반면에 안전장치가 많은 차량의 경우에는 저속의 주행속도를 보이 는 것으로 나타났다. iii) 통행 특성 면에서는 일일통행거리가 중요 변수인 것으로 나타났다. iv) 운전자의 심리적 측면에서는 운전자가 인식하고 있는 제한 속도가 또한 중요변수로 분 석되었다.

  • PDF

Time Control Microarray 자료의 군집 분석에 관한 고찰

  • 손인석;이재원
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.299-304
    • /
    • 2003
  • 생물학자들은 시간 패턴에 따라 발현 수준이 변화하는 유전자의 군집화를 시도하고 있다. 지금까지는 군집 방법의 비교 연구가 주로 진행되어 왔으나, 군집화 이전의 유전선택 방법에 따라 군집화 결과가 달라지기 때문에 유전자 선택 단계도 같이 고려되어야 한다. 따라서 본 연구에서는 Time Control Microarray 자료를 가지고 군집 분석을 하는데 있어서 유전자 선택, 군집분석 방법의 선택, Validation 방법의 선택 등 3가지 요인별로 보다 폭 넓은 비교 연구를 하였다.

  • PDF

회귀나무에서 변수선택 편의에 관한 연구

  • 김민호;김진흠
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.263-268
    • /
    • 2003
  • Breiman, Friedman, Olshen and Stone(1984)의 전체탐색법에 의한 회귀나무는 상대적으로 많은 분리가 가능한 변수로 분리기준이 정해지는 편의 현상을 갖고 있다. 본 연구에서는 이런 문제점을 해결할 수 있는 알고리즘을 제안하여 변수선택편의가 없는 회귀나무를 만들고자 한다. 제안하는 알고리즘은 노드의 분리변수를 선택하는 단계와 그 선택된 변수에 의해 이진분리를 위한 분리점을 찾는 단계로 구성되어 있다. 예측변수 중에서 목표변수와 가장 밀접하게 연관된 예측변수는 예측변수의 자료의 종류에 따라 스피어만의 순위상관계수에 의한 검정 혹은 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 가장 통계적으로 유의한 변수로 선택하였고, 선택된 변수에만 Breiman et al.(1984)의 전체선택법을 적용하여 분리점을 결정하였다. 모의실험을 통해 변수선택편의, 변수선택력 , 그리고 평균제곱오차 측면에서 Breiman et al. (1984)의 CART(Classification and Regression Trees)와 제안한 알고리즘을 서로 비교하였다. 또한, 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.

  • PDF

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.

우리나라 화주기업의 입지선택 특성분석(내수화물을 중심으로) (Determinants of Domestic Shippers' Location Choice Decisions)

  • 김찬성;성홍모;안승범;예충열
    • 대한교통학회지
    • /
    • 제25권1호
    • /
    • pp.61-71
    • /
    • 2007
  • 우리나라에서는 국가물류 개선대책의 일환으로 전국 단위의 물류조사가 시행되고 있다. 본 연구는 최근 조사된 물류조사 자료와 사회경제지표 자료를 이용하여 우리나라 화주기업의 입지선택 특성을 분석한다. 분석에 사용되어진 자료는 첫째, 최근에 수행된 사업체 물류조사 중 내수화물을 중심으로 개별 입하 및 출하에 대하여 입출하 지역, 입출하 품목, 교통수단, 통행시간 그리고 통행비용이 조사된 자료를 이용하였다. 둘째, 통계청에서 발간하는 자료를 이용하여 화주기업이 입지하고 있는 지역의 사회경제지표를 이용한다. 기업의 입지선택 효용을 구하기 위하여 location choice 모형을 채택하였으며, 입하지역과 출하지역의 수송비용 특성 그리고 입하지역과 출하지역의 시장 크기 등 입지 결정에 미치는 요인이 분석된다. 최근 수년동안 급속히 변화하고 있는 국내외 물류환경변화에 기업이 중요하게 판단하고 있는 입지선택요인을 파악하고 향후 정부의 기업입지정책에 필요한 향후 연구 방향을 제시한다.

제2종 중단모형에서 FRACTIONAL BAYES FACTOR를 이용한 신뢰수명 모형들에 대한 베이지안 모형선택 (Bayesian Model Selection of Lifetime Models using Fractional Bayes Factor with Type ?$\pm$ Censored Data)

  • 강상길;김달호;이우동
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.427-436
    • /
    • 2000
  • 이 논문에서는 신뢰수명자료의 분석에 많이 사용되는 지수분포, 와이블분포, 로그정규분포에 대해, 현재의 자료가 어느 분포에 가장 적합한가를 알아보기 위한 베이자안 모형 선택방법을 제안한다. 일반적으로, 모수에 대한 사전분포가 부적절 분포인 경우, 베이즈 요인(Bayes factor)은 미지의 상수를 포함한다. 이러한 문제점을 해결하기 위하여 O’Hagan(1995)에 의해 제안된 fractional Bayes factor를 이용하여 자료를 가장 적합시키는 모형을 찾는다. 특히, 제2종 중도절단자료가 주어진 경우. 이 자료를 이용한 베이지안 모형선택에 대한 연구는 거의 이루어진 바가 없다. 실제 자료와 인위적인 자료를 이용하여 로그정규분포, 지수분포, 와이블모형중 어느 모형에 가장 잘 적합한지를 검정하는 예를 보인다.

  • PDF

시간 경로 마이크로어레이 자료의 군집 분석에 관한 고찰 (A Review of Cluster Analysis for Time Course Microarray Data)

  • 손인석;이재원;김서영
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.13-32
    • /
    • 2006
  • 생물학자들은 시간에 따라 발현 수준이 변화하는 유전자의 군집화를 시도하고 있다. 지금까지는 마이크로어레이 자료의 군집분석에 관한 연구의 경우 군집 방법 자체를 비교하는 연구가 주를 이루었다. 그러나 군집화 이전에 의미있는 변화를 보이는 유전자 선택에 따라 군집화 결과가 달라지기 때문에, 군집 분석에 있어서 유전자 선택 단계도 중요하게 고려되어야 한다. 따라서, 본 논문에서는 시간 경로 마이크로어레이 자료를 군집 분석하는데 있어서 유전자 선택, 군집 방법 선택, 군집평가 방법 선택 등 3가지 요인을 고려한 폭 넓은 비교 연구를 하였다.

표본 선택 모형을 이용한 국내 여성 임금 데이터 분석 (Korean women wage analysis using selection models)

  • 정미량;김미정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1077-1085
    • /
    • 2017
  • 본 연구에서는 한국노동연구원의 "2015년 한국노동패널조사 (KLIPS)" 자료를 활용하여 국내 여성의 임금 결정요인을 분석하기 한다. 일반적으로 임금 자료는 랜덤 추출이 불가능하기 때문에 분석하기가 쉽지 않다. 표본 선택 편의 (sampling bias)가 있는 자료를 분석하는 방법으로 Heckman 표본 선택 모형이 가장 널리 알려져 있다. Heckman은 크게 두 가지 모형을 제안했는데, 그 중 하나는 최대 우도 방법을 이용하는 것이고, 다른 하나는 2단계 표본 선택 모형이다. 이 중 Heckman 2단계 표본 선택 모형은 주된 결과 모형 (outcome model)과 경제 활동 여부를 결정짓는 선택 모형 (selection model)을 포함한 모형으로써, 이 모형이 최대 우도 방법을 이용한 모형에 비해 이변수 오차의 정규분포 가정에 덜 민감하다고 알려져 있다. 그럼에도 불구하고 이변수 오차에 대한 정규 분포 가정은 꽤 강한 가정이라고 볼 수 있는데, 최근에 이 모형의 단점을 보완하는 모형으로 Marchenko와 Genton (2012)의Heckman 표본 선택 t 모형이 제시되었다. Heckman 2단계 모형과 Heckman 표본 선택 t 모형을 이용하여 국내 여성의 임금 결정 요인을 분석하고 비교하도록 한다.