• 제목/요약/키워드: Imputing

검색결과 22건 처리시간 0.028초

한국인 상용 식품의 구리영양가표작성과 식이섭취 및 혈청분석에 의한 한국농촌성인의 구리영양상태 평가 (Preparation of Copper Database of Korean Foods and Copper Nutritional Status of Korean Adults Living in Rural Area Assessed by Dietary Intake and Serum Analysis)

  • 정효지
    • Journal of Nutrition and Health
    • /
    • 제32권3호
    • /
    • pp.296-306
    • /
    • 1999
  • This study was carried out to prepare a copper database of Korean foods which can be used in calculating copper intake from dietary data, and to evaluate the copper nutritional status of Koran adults living in rural areas by dietary intake and serum copper concentrations. A copper database for 1,176 Korean foods was constructed (1) by analysing 112 Korean foods which are frequently consumed by Korean adults living in rural areas, (2) by adapting values form food composition databases from other countries-320 items from the University of Minnesota database, 201 items from the USAD database, and 25 items from U.K. database, and (3) by imputing values from similar foods for 518 food items. Copper intake of 2,034 Korean adults over the age of 30 living in Yeonchongun was Kyunggi province, Korea was estimated by 24-hour recall method. Mean daily copper intake of subjects was 0.98mg. Mean daily intake level of males was 1.11mg which was significantly higher than that of females, 0.88mg. There was a significant difference in the distribution of subjects by the level of copper intake and sex(p<0.05). Mean serum copper concentration was 14.8umol/1 and the percentage of subjects with low, adequate, and high levels of copper concentration were 23.9%, 69.4%, and 6.6%, respectively. The two food groups which contributed most to the dietary copper intake of subjects were cereals and grain products, and vegetables, supplying 46.2% and 12.7% of total copper intake, respectively. Individuallym, rice contributed most, suppling 31% of total copper intake, followed by soybean curd, starch vermicle, barley, etc. Plant foods contributed to 82.1% of the total copper intake. In summary, results of this study show that copper intake of Korean adults living in rural areas is low, and that dietary sources of copper are mainly plant foods. Serum levels of copper in the subjects were relatively normal. The copper database for Korean foods constructed in present study will be a valuable tool for the as-yet limited assessment of copper intake of Koreans. Such studies will contribute to the establishment of a dietary of a dietary allowance of copper and the relationship of copper nutriture and chronic diseases in Koreans.

  • PDF

순환확률분포를 이용한 교통량 결측자료 보정 모형 (Modelling Missing Traffic Volume Data using Circular Probability Distribution)

  • 김현석;임강원;이영인;남두희
    • 대한교통학회지
    • /
    • 제25권4호
    • /
    • pp.109-121
    • /
    • 2007
  • 자료결측의 심각성은 현실적으로 거의 대부분의 조사에서 발생한다. 비단 교통분야뿐만 아니라 인문사회 분야나 기상학, 생물학, 지구과학 등 모든 분야에서 인력식이든 기계식이든 조사 방식에 관계없이 발생한다. 교통자료 수집장비에서의 자료결측의 발생은 현실적으로 불가피한 현상으로 볼 수 있으며, 이와 같은 자료 수집과정에서 발생하는 결측을 신뢰성있게 추정하여 보정하였던 선행연구의 대부분은 교통량 자료의 결측값 보정시 통계적 검증없이 시간적인 임의의 종속성만 고려함으로서, 보정 성능이 떨어지는 단점을 노출하고 있다. 이들 연구에서 적용했던 기법들 또한, 교통량 자료가 가지고 있는 가장 큰 특징인 주기적 순환성(periodic circularity)이 제대로 반영되지 못함으로서 적용상 한계를 노출하고 있다. 본 연구는 현실적으로 거의 대부분의 조사과정에서 발생하는 자료결측의 심각성에 대한 인식을 토대로 대안으로 순환분포모형을 제안하였다. 이러한 자료결측 현상에 대응하고자 하였던 기존의 ad-hoc 또는 heuristic 보정 기법과 모형 기반 및 알고리즘 기반의 보정 기법에 관한 선행 연구의 고찰을 통하여 이들 기법들의 한계점을 확인하였다.

적응형 k-NN 기법을 이용한 UTIS 속도정보 결측값 보정처리에 관한 연구 (A study on the imputation solution for missing speed data on UTIS by using adaptive k-NN algorithm)

  • 김은정;배광수;안계형;기용걸;안용주
    • 한국ITS학회 논문지
    • /
    • 제13권3호
    • /
    • pp.66-77
    • /
    • 2014
  • UTIS(Urban Traffic Information System)는 프로브차량을 활용하여 도시지역의 구간통행시간 정보를 직접 수집하는 방식으로 타 검지체계에 비해 상대적으로 정확한 링크 속도정보를 산출할 수 있다. 하지만, 현재 UTIS에서는 프로브차량(Probe Vehicle) 및 노변기지국(RSE)의 부족, 시스템 오류 등 다양한 요인에 의해 링크 속도정보의 수집이 누락되는 결측 구간이 발생되고 있다. 본 연구에서는 보다 정확한 여행시간 정보를 제공하기 위한 방안으로 k-NN 알고리즘을 기반으로 결측속도 정보를 효율적으로 보정할 수 있는 새로운 보정모형을 제안하였다. 제안 모형은 각 후보개체(이력 시계열 데이터)의 분포 특성에 따라 최근접이웃 개수를 탄력적으로 조정하는 적응형 k-NN 모형이다. 모형 평가 결과, 제안 모형이 결측정보를 효과적으로 보정 처리할 수 있는 동시에 ARIMA 등 타 모형에 비해 보정 오차를 크게 감소시킬 수 있는 것으로 분석되었다. 본 연구에서 제안된 결측 보정 모형은 UTIS 중앙교통정보센터에 직접 적용하여 교통정보 서비스 품질을 향상시키데 활용될 계획이다.

패널조사 웨이브 무응답의 대체방법 비교 (Comparisons of Imputation Methods for Wave Nonresponse in Panel Surveys)

  • 김규성;박인호
    • 한국조사연구학회지:조사연구
    • /
    • 제11권1호
    • /
    • pp.1-18
    • /
    • 2010
  • 본 논문에서는 패널조사에서 발생하는 웨이브 무응답을 대체하는 방법을 고찰하였다. 패널조사에서는 이전 조사 데이터를 무응답 대체에 활용할 수 있기 때문에 이러한 성질을 이용하면 횡단면 무응답 대체보다 더 효과적인 웨이브 무응답 대체법을 찾을 수 있다. 먼저 웨이브 무응답 대체를 사용하는 해외의 주요 패널조사를 살펴보고, 웨이브 무응답 대체방법 중 종단면 회귀대체법, 이월대체법, 최근방 회귀대체법, 그리고 행렬대체법을 고찰하였다. 그리고 웨이브 무응답 대체법의 성능을 비교하기 위하여 한국복지패널 데이터를 대상으로 모의실험을 실시하였다. 성능을 비교하기 위하여 평균대체, 회귀대체, 비대체, 최근방 대체, 핫덱 대체를 고려하였고 성능평가 지표로는 예측 정확성 지표와 추정 정확성 지표를 이용하였다. 모의실험 결과 비대체, 행렬대체는 두 지표 모두 우수했고, 회귀대체, 종단면 회귀대체, 이월대체는 예측 정확성은 우수한 반면 추정 정확성은 다소 떨어졌으며, 반대로 최근방 회귀대체, 최근방 대체, 핫덱 대체는 예측 정확성은 떨어지나 추정 정확성은 높은 것으로 나타났다. 마지막으로 평균 대체는 두 지표 모두 좋지 않았다.

  • PDF

결측치가 존재하는 유전형 자료에서의 연관불균형과 일배체형을 사용한 결측치 대치 방법 (A New Method for Imputation of Missing Genotype using Linkage Disequilibrium and Haplotype Information)

  • 박윤주;김영진;박정선;김규찬;고인송;정호열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.99-107
    • /
    • 2005
  • 본 논문에서는 단일염기변이(SNP: Single Nucleotide Polymorphism)와 같은 유전형(Rcnotype)자료에서 결측치가 발생하였을 경우 유전형 자료의 특이성을 고려해 자료 원래의 정보손실을 최소화하는 대치법인 연관불균형 기반의 대치법(linkage disequilibrium- based imputation)과 일배체형 기반의 대치법(haplotype-based imputation)을 제시한다. 이러한 결측치 대치는 실험상에서 발생하는 결측치에 의한 중요한 정보의 손실을 최소화 한다는 점에서 필요한 방법이다. 일반적으로 그동안 생물학 자료의 결측치 대치는 대부분 주형질 대치법(major allele imputation)이 활용되어왔는데 유전형 자료에서의 이 방법의 사용은 사료의 특이성으로 인하여 결측치에 대한 높은 오차율(error rate)을 보임으로서 자료의 신뢰성을 떨어뜨릴 수 있다. 본 논문에서는 유전형 자료인 단일염기변이 자료의 시뮬레이션을 통하여 기존의 주형질 대치법과 논문에서 제안된 연관불균형 기반의 대치법과 일배체형 기반의 대치법을 비교하고 그 결과를 보여 준다.

데이터 확장 기법에서 손실값을 대치하는 확률 추정 방법 (Probability Estimation Method for Imputing Missing Values in Data Expansion Technique)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.91-97
    • /
    • 2021
  • 본 논문은 불완전한 데이터를 처리하기 위해 본래 규칙개선 문제를 위해 고안되었던 데이터 확장 기법을 사용한다. 이 기법은 사건마다 중요도를 의미하는 가중치를 가질 수 있으며 각 변수를 확률값으로 나타낼 수 있는 특징이 있다. 본 논문에서의 핵심 문제가 손실값과 가장 근사한 확률을 구하여 손실값을 확률로 대치하는 것이므로, 3가지 다른 알고리즘으로 손실값에 대한 확률을 구한 후 이 데이터 구조의 형식으로 저장한다. 그리고 각각의 확률 구조에 대한 평가를 위해 SVM 분류 알고리즘으로 각각의 정보 영역을 분류하는 학습을 한 후, 본래의 정보와 비교하여 얼마나 서로 일치하느냐를 측정한다. 손실값의 대치 확률을 위한 3가지 알고리즘들은 같은 데이터 구조를 사용하고 있으나 접근 방법에서는 서로 다른 특징을 가지고 있어 적용 분야에 따라 다양한 용도로 이용될 수 있기를 기대한다.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크 (Denoising Self-Attention Network for Mixed-type Data Imputation)

  • 이도훈;김한준;전종훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.135-144
    • /
    • 2021
  • 최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.

Prediction of Postoperative Lung Function in Lung Cancer Patients Using Machine Learning Models

  • Oh Beom Kwon;Solji Han;Hwa Young Lee;Hye Seon Kang;Sung Kyoung Kim;Ju Sang Kim;Chan Kwon Park;Sang Haak Lee;Seung Joon Kim;Jin Woo Kim;Chang Dong Yeo
    • Tuberculosis and Respiratory Diseases
    • /
    • 제86권3호
    • /
    • pp.203-215
    • /
    • 2023
  • Background: Surgical resection is the standard treatment for early-stage lung cancer. Since postoperative lung function is related to mortality, predicted postoperative lung function is used to determine the treatment modality. The aim of this study was to evaluate the predictive performance of linear regression and machine learning models. Methods: We extracted data from the Clinical Data Warehouse and developed three sets: set I, the linear regression model; set II, machine learning models omitting the missing data: and set III, machine learning models imputing the missing data. Six machine learning models, the least absolute shrinkage and selection operator (LASSO), Ridge regression, ElasticNet, Random Forest, eXtreme gradient boosting (XGBoost), and the light gradient boosting machine (LightGBM) were implemented. The forced expiratory volume in 1 second measured 6 months after surgery was defined as the outcome. Five-fold cross-validation was performed for hyperparameter tuning of the machine learning models. The dataset was split into training and test datasets at a 70:30 ratio. Implementation was done after dataset splitting in set III. Predictive performance was evaluated by R2 and mean squared error (MSE) in the three sets. Results: A total of 1,487 patients were included in sets I and III and 896 patients were included in set II. In set I, the R2 value was 0.27 and in set II, LightGBM was the best model with the highest R2 value of 0.5 and the lowest MSE of 154.95. In set III, LightGBM was the best model with the highest R2 value of 0.56 and the lowest MSE of 174.07. Conclusion: The LightGBM model showed the best performance in predicting postoperative lung function.

산림취득자본(山林取得資本)의 성격(性格)과 그들의 임업생산(林業生産)에 관(関)한 연구(硏究) -산림(山林)의 소유변동(所有変動)과 그들의 임업투자(林業投資) 사례(事例)- (Studies on the Character of Forest Purchasers and It's Forestry Activities -A Case Study on the Transfer of Forest Ownership and Forest Investment-)

  • 박명규;이창복
    • 한국산림과학회지
    • /
    • 제55권1호
    • /
    • pp.59-67
    • /
    • 1982
  • 본(本) 연구(硏究)는 임업생산(林業生産)(밤나무림(林) 경영(経營)을 주축(主軸))이 활발하게 진척되고 있는 농산촌(農山村) 지대(地帶)를 대상(対象)으로 산주(山主)들의 임업투자(林業投資) 행위(行爲)가 사유림(私有林) 발전(発展)에 미치는 기여도(寄與度)를 평가(評価)하고자 시도되었으며 그 결과(結果)는 다음과 같다. 1) 산림(山林)을 취득(取得)한 96명(名)의 산주(山主)를 유의(有意) 선정(選定)하여 임지이용(林地利用)의 양상(樣相)을 검토(檢討)하였는데 매입면적(買入面積) 741ha중에서 71%에 해당(該當)하는 526hark 밤나무림(林) 조성(造成)에 활용(活用)되고 있다. 2) 조사지역(調査地域)은 밤생산(生産)이 산림(山林)에서 빠른 기간내(期間內)에 획득(獲得)되는 유일(唯一)한 소득원(所得源)으로 인식(認識)되고 있으며 밤나무림(林) 경영(経營)을 목표(目標)로 임지(林地)를 사고 파는 행위(行爲)가 성행(盛行)하고 있다. 3) 임지(林地)의 소유변동(所有変動)은 농업이외(農業以外)의 주업(主業)을 가진 인근도시(隣近都市)의 상공업(商工業), 공무원(公務員), 회사원(會社員)등의 참여(參與)가 현저했으며 그들은 축적(蓄積)된 잉여소득(剩餘所得)을 밤나무림(林) 경영(経營)에 투자(投資)하고 있다. 4) 밤나무림(林) 조성(造成)에 이용(利用)된 자재(資材)와 투자(投資) 비용(費用)은 산주(山主) 스스로가 조달(調達)해서 처리(處理)하고 있다. 5) 조성(造成)된 밤나무림(林)을 유령림(幼令林) 상태(状態)에서 매매(賣買)를 하는 사례(事例)가 많은데 이는 고정자산(固定資産)의 유동화(流動化)를 촉진(促進)시키는 계기(契機)가 되고 있다. 6) 해지역(該地域) 산림이용(山林利用)의 양상(樣相)은 임업투자(林業投資)의 특수형태(特殊形態)라 할 수 있겠으나 도시(都市)의 각종(各種) 자본(資本)의 유치(誘致)가 가능(可能)해졌고 관주도하(官主導下)의 조림투자방식(造林投資方式)이 지양(止揚)되어 사유림(私有林) 경영(経營)의 발전(発展) 모형(模型)으로 제시(提示)될 수 있을 것으로 판단(判断)된다.

  • PDF