• 제목/요약/키워드: least trimmed squares

검색결과 16건 처리시간 0.021초

선형회귀에서 변수선택, 변수변환과 이상치 탐지의 동시적 수행을 위한 절차 (A procedure for simultaneous variable selection, variable transformation and outlier identification in linear regression)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.1-10
    • /
    • 2020
  • 본 연구에서는 선형회귀모형에서 이상치와 변수변환을 고려한 변수선택 알고리즘을 다룬다. 제안된 방법은 잠재적 이상치를 탐지하여 제거한 후 변수변환 추정을 위해 최소 절사 제곱 추정법을 적용하며 가능한 모든 회귀모형을 비교하여 최종적으로 변수를 선택한다. 정확한 변수 선택과 추정된 모델의 적합도의 맥락에서 방법의 효율성을 보여주기 위해 실제 데이터 분석 및 시뮬레이션 결과가 제시된다.

기업의 R&D 투자 결정요인 분석 - 준모수적 추정법을 적용하여 - (Analysing the Determinants of Company R&D Investment Using a Semi-parametric Estimation Method)

  • 유승훈
    • 기술혁신학회지
    • /
    • 제6권3호
    • /
    • pp.279-297
    • /
    • 2003
  • The purpose of this paper is to analyze the determinants of company R&D investment with zero observations by using the data of R&D Scoreboard published by Ministry of Science and Technology(2002). Conventional parametric approach to dealing with zero investments is not robust to heteroscedastic and/or non-normal error structure. Thus, this study applies symmetrically trimmed least squares(STLS) estimation as a semi-parametric approach to dealing with zero R&D investments. The result of specification test indicates the semi-parametric approach outperforms the parametric approach significantly. Moreover, the results of the study provide various implications as summarized below. The R&D investment of IT company is larger than that of non-IT company. The R&D investment has a positive relation to foreigners' investment ratio. The higher degree of financial self-reliance is, the larger the R&D investment is. Firm size variables such as sales amount and the number of workers are positively related to R&D investment. The sales elasticity of R&D investment is larger than one. However, the workers elasticity of R&D investment is smaller than one.

  • PDF

AR(1) 모형의 모수에 대한 L-추정법 (L-Estimation for the Parameter of the AR(l) Model)

  • 한상문;정병철
    • 응용통계연구
    • /
    • 제18권1호
    • /
    • pp.43-56
    • /
    • 2005
  • 본 연구에서는 AR(1) 과정을 따르는 시계열 모형에서 가산적 이상치(Additive Out-lier)가 존재하는 경우, 1차 자기상관계수에 대한 로버스트 추정방법으로 Rupport 와 Carroll (1980)에 의해 회귀모형에서 제안된 L-추정법 형태의 절사최소제곱추정 (PE 추정)방법을 제안하였다. 더불어 X축의 이상치에 대한 비중강하(down-weight)의 방법으로 Mallows의 가중함수를 고려한 유계영향 절사최소제곱 (bounded influence PE, BIPE)추정량을 제안하였으며 모의 실험을 통하여 각 추정량의 효율성을 비교하였다. 모의실험 결과, 다양한 자료의 오염률상에서 일반화 LAD추정치를 예비 추정치로 고려한 BIPE(LAD)-추정량의 효율이 좋은 것으로 나타났다.

소프트웨어 공수 예측의 정확성에 대한 이상치 제거의 영향 분석 (Analyzing Influence of Outlier Elimination on Accuracy of Software Effort Estimation)

  • 서영석;윤경아;배두환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.589-599
    • /
    • 2008
  • 정확한 소프트웨어 공수 예측은 소프트웨어 관련 여러 커뮤니티들에서 예전부터 항상 이슈가 되어 왔다. 소프트웨어 공수 예측의 정확도를 향상시키기 위해 지금까지 많은 연구들에서는 데이타 품질이 공수 예측에 중요한 요소들 중 하나임에도 불구하고 이것에 대한 고려 없이 공수 예측 기법들에만 초점을 맞추어 왔다. 본 연구에서는 소프웨어어 공수 예측 기법과 이상치 제거 기법들 사이의 영향 관계를 공수 예측 정확도의 관점에서 실험적으로 살펴본다. 두 개의 프로젝트 데이타들(ISBSG와 국내의 한 금융 조직으로부터 수집된 데이타)에 대해 일반적으로 많이 사용되는 세 가지 공수 예측 기법(최소제곱법, 신경망 네트워크, 그리고 베이지안 네트워크)과 두 가지 이상치 제거 기법(최소절사제곱법과 K-means 클러스터링)을 적용시켜 결과들을 서로 비교해 보고 이상치 제거 기법을 적용하지 않은 결과와도 비교해 본다.

뇌파의 비선형 분석을 위한 신호추출조건 및 계산 알고리즘 (A Proposed Algorithm and Sampling Conditions for Nonlinear Analysis of EEG)

  • 신철진;이광호;최성구;윤인영
    • 수면정신생리
    • /
    • 제6권1호
    • /
    • pp.52-60
    • /
    • 1999
  • 목 적 : 임상 뇌파의 비선형 분석시, 분석시간을 단축시킬 수 있는 방법과 보다 정확한 상관차원을 얻기 위한 새로운 알고리즘 고안을 시도하였다. 또 뇌파신호 분석을 위한 적절한 신호획득 조건을 결정하는 방법을 제시하기 위하여 여러 상이한 실험조건에서 상관차원을 계산하였으며, 여기서 얻은 결과를 이용하여 각 실험실마다 공통적으로 적용할 수 있는 표준화된 실험 조건을 결정하고자 하였다. 방 법 : 임의의 한 개인을 대상으로 13개의 두피전극에서 얻은 뇌파신호를 대상으로 하였다. 12비트 해상도에서 1000 헤르츠로 32초간 얻은 뇌파신호를 디지털화 하여 각 전극당 32000개의 시계열자료를 얻었다. 이 자료를 10, 20, 30초 간격의 시간단위로 나누고, 각각에 대해 1000, 500, 250, 125, 62.5 Hz 등 5가지 신호추출조건을 달리 하여 각 전극마다 총 15개의 시계열 자료를 만들었다. 여기에 상관차원 계산시간 단축을 위해 고안된 계산 알고리듬 및 상관차원 추정 정확도를 개선하기 위해 적용한 최소절단자승기법을 적용하여 상관 차원을 계산하였다. 이렇게 얻은 상관차원 결과를 신호획득시간과 신호추출빈도에 따라 비교하였다. 또 로그연산을 비트 연산으로 바꾸어 계산시간 단축의 효과를 평가하였으며, 최소 절단자승기법과 최소자승추정기법을 비교하였다. 결 과 : 신호추출시간이 증가함에 따라 상관차원의 값도 통계적으로 유의하게 증가하는 양상을 보였다. 신호추출빈도가 62.5Hz일때는 신호추출시간에 무관하게 높은 상관차원값을 나타냈으나 그밖의 빈도에서는 유사한 상관차원값을 보였다. 본 연구에서 고안된 계산 알고리듬은 종래 사용하던 알고리듬에 비해 통계적으로 유의한 계산시간 단축효과를 보였다. 또 종래의 방법인 최소자승추정에 의한 상관차원에 비하여 본 연구에 적용된 최소절단자승추정법은 보다 안정된상관차원 값을 추정하였다. 결 론 : 본 연구는 다량의 뇌파 시계열 자료를 분석하는데 신속하고 보다 정확한 상관차원 추정에 알맞는 분석방법을 제공하였다. 또한 뇌파 시계열 자료의 상관차원 계산시 12비트의 해상도에서 125Hz의 신호추출빈도로 20초간 뇌파신호를 획득하면 적정한 수준의 상관차원을 계산할 수 있음을 보였다.

  • PDF

COMPARISON OF LINEAR AND NON-LINEAR NIR CALIBRATION METHODS USING LARGE FORAGE DATABASES

  • Berzaghi, Paolo;Flinn, Peter C.;Dardenne, Pierre;Lagerholm, Martin;Shenk, John S.;Westerhaus, Mark O.;Cowe, Ian A.
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1141-1141
    • /
    • 2001
  • The aim of the study was to evaluate the performance of 3 calibration methods, modified partial least squares (MPLS), local PLS (LOCAL) and artificial neural network (ANN) on the prediction of chemical composition of forages, using a large NIR database. The study used forage samples (n=25,977) from Australia, Europe (Belgium, Germany, Italy and Sweden) and North America (Canada and U.S.A) with information relative to moisture, crude protein and neutral detergent fibre content. The spectra of the samples were collected with 10 different Foss NIR Systems instruments, which were either standardized or not standardized to one master instrument. The spectra were trimmed to a wavelength range between 1100 and 2498 nm. Two data sets, one standardized (IVAL) and the other not standardized (SVAL) were used as independent validation sets, but 10% of both sets were omitted and kept for later expansion of the calibration database. The remaining samples were combined into one database (n=21,696), which was split into 75% calibration (CALBASE) and 25% validation (VALBASE). The chemical components in the 3 validation data sets were predicted with each model derived from CALBASE using the calibration database before and after it was expanded with 10% of the samples from IVAL and SVAL data sets. Calibration performance was evaluated using standard error of prediction corrected for bias (SEP(C)), bias, slope and R2. None of the models appeared to be consistently better across all validation sets. VALBASE was predicted well by all models, with smaller SEP(C) and bias values than for IVAL and SVAL. This was not surprising as VALBASE was selected from the calibration database and it had a sample population similar to CALBASE, whereas IVAL and SVAL were completely independent validation sets. In most cases, Local and ANN models, but not modified PLS, showed considerable improvement in the prediction of IVAL and SVAL after the calibration database had been expanded with the 10% samples of IVAL and SVAL reserved for calibration expansion. The effects of sample processing, instrument standardization and differences in reference procedure were partially confounded in the validation sets, so it was not possible to determine which factors were most important. Further work on the development of large databases must address the problems of standardization of instruments, harmonization and standardization of laboratory procedures and even more importantly, the definition of the database population.

  • PDF