• 제목/요약/키워드: Model Validation

검색결과 3,195건 처리시간 0.039초

Hybrid CNN-LSTM 알고리즘을 활용한 도시철도 내 피플 카운팅 연구 (A Study on People Counting in Public Metro Service using Hybrid CNN-LSTM Algorithm)

  • 최지혜;김민승;이찬호;최정환;이정희;성태응
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.131-145
    • /
    • 2020
  • 산업혁신의 흐름에 발맞추어 다양한 분야에서 활용되고 있는 IoT 기술은 빅데이터의 접목을 통한 새로운 비즈니스 모델의 창출 및 사용자 친화적 서비스 제공의 핵심적인 요소로 부각되고 있다. 사물인터넷이 적용된 디바이스에서 누적된 데이터는 사용자 환경 및 패턴 분석을 통해 맞춤형 지능 시스템을 제공해줄 수 있어 편의 기반 스마트 시스템 구축에 다방면으로 활용되고 있다. 최근에는 이를 공공영역 혁신에 확대 적용하여 CCTV를 활용한 교통 범죄 문제 해결 등 스마트시티, 스마트 교통 등에 활용하고 있다. 그러나 이미지 데이터를 활용하는 기존 연구에서는 개인에 대한 사생활 침해 문제 및 비(非)일반적 상황에서 객체 감지 성능이 저하되는 한계가 있다. 본 연구에 활용된 IoT 디바이스 기반의 센서 데이터는 개인에 대한 식별이 불필요해 사생활 이슈로부터 자유로운 데이터로, 불특정 다수를 위한 지능형 공공서비스 구축에 효과적으로 활용될 수 있다. 대다수의 국민들이 일상적으로 활용하는 도시철도에서의 지능형 보행자 트래킹 시스템에 IoT 기반의 적외선 센서 디바이스를 활용하고자 하였으며 센서로부터 측정된 온도 데이터를 실시간 송출하고, CNN-LSTM(Convolutional Neural Network-Long Short Term Memory) 알고리즘을 활용하여 구간 내 보행 인원의 수를 예측하고자 하였다. 실험 결과 MLP(Multi-Layer Perceptron) 및 LSTM(Long Short-Term Memory), RNN-LSTM(Recurrent Neural Network-Long Short Term Memory)에 비해 제안한 CNN-LSTM 하이브리드 모형이 가장 우수한 예측성능을 보임을 확인하였다. 본 논문에서 제안한 디바이스 및 모델을 활용하여 그간 개인정보와 관련된 법적 문제로 인해 서비스 제공이 미흡했던 대중교통 내 실시간 모니터링 및 혼잡도 기반의 위기상황 대응 서비스 등 종합적 메트로 서비스를 제공할 수 있을 것으로 기대된다.

평점과 리뷰 텍스트 감성분석을 결합한 추천시스템 향상 방안 연구 (How to improve the accuracy of recommendation systems: Combining ratings and review texts sentiment scores)

  • 현지연;유상이;이상용
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.219-239
    • /
    • 2019
  • 개인에게 맞춤형 서비스를 제공하는 것이 중요해지면서 개인화 추천 시스템 관련 연구들이 끊임없이 이루어지고 있다. 추천 시스템 중 협업 필터링은 학계 및 산업계에서 가장 많이 사용되고 있다. 다만 사용자들의 평점 혹은 사용 여부와 같은 정량적인 정보에 국한하여 추천이 이루어져 정확도가 떨어진다는 문제가 제기되고 있다. 이와 같은 문제를 해결하기 위해 현재까지 많은 연구에서 정량적 정보 외에 다른 정보들을 활용하여 추천 시스템의 성능을 개선하려는 시도가 활발하게 이루어지고 있다. 리뷰를 이용한 감성 분석이 대표적이지만, 기존의 연구에서는 감성 분석의 결과를 추천 시스템에 직접적으로 반영하지 못한다는 한계가 있다. 이에 본 연구는 리뷰에 나타난 감성을 수치화하여 평점에 반영하는 것을 목표로 한다. 즉, 사용자가 직접 작성한 리뷰를 감성 수치화하여 정량적인 정보로 변환해 추천 시스템에 직접 반영할 수 있는 새로운 알고리즘을 제안한다. 이를 위해서는 정성적인 정보인 사용자들의 리뷰를 정량화 시켜야 하므로, 본 연구에서는 텍스트 마이닝의 감성 분석 기법을 통해 감성 수치를 산출하였다. 데이터는 영화 리뷰를 대상으로 하여 도메인 맞춤형 감성 사전을 구축하고, 이를 기반으로 리뷰의 감성점수를 산출한다. 본 논문에서 사용자 리뷰의 감성 수치를 반영한 협업 필터링이 평점만을 고려하는 전통적인 방식의 협업 필터링과 비교하여 우수한 정확도를 나타내는 것을 확인하였다. 이후 제안된 모델이 더 개선된 방식이라고 할 근거를 확보하기 위해 paired t-test 검증을 시도했고, 제안된 모델이 더 우수하다는 결론을 도출하였다. 본 연구에서는 평점만으로 사용자의 감성을 판단한 기존의 선행연구들이 가지는 한계를 극복하고자 리뷰를 수치화하여 기존의 평점 시스템보다 사용자의 의견을 더 정교하게 추천 시스템에 반영시켜 정확도를 향상시켰다. 이를 기반으로 추가적으로 다양한 분석을 시행한다면 추천의 정확도가 더 높아질 것으로 기대된다.

조기퇴원 제왕절개 산욕부를 위한 가정간호 표준서 개발 (Development of validated Nursing Interventions for Home Health Care to Women who have had a Caesarian Delivery)

  • 황보수자
    • 간호행정학회지
    • /
    • 제6권1호
    • /
    • pp.135-146
    • /
    • 2000
  • The purpose of this study was to develope, based on the Nursing Intervention Classification (NIC) system. a set of standardized nursing interventions which had been validated. and their associated activities. for use with nursing diagnoses related to home health care for women who have had a caesarian delivery and for their newborn babies. This descriptive study for instrument development had three phases: first. selection of nursing diagnoses. second, validation of the preliminary home health care interventions. and third, application of the home care interventions. In the first phases, diagnoses from 30 nursing records of clients of the home health care agency at P. medical center who were seen between April 21 and July 30. 1998. and from 5 textbooks were examined. Ten nursing diagnoses were selected through a comparison with the NANDA (North American Nursing Diagnosis Association) classification In the second phase. using the selected diagnoses. the nursing interventions were defined from the diagnoses-intervention linkage lists along with associated activities for each intervention list in NIC. To develope the preliminary interventions five-rounds of expertise tests were done. During the first four rounds. 5 experts in clinical nursing participated. and for the final content validity test of the preliminary interventions. 13 experts participated using the Fehring's Delphi technique. The expert group evaluated and defined the set of preliminary nursing interventions. In the third phases, clinical tests were held at in a home health care setting with two home health care nurses using the preliminary intervention list as a questionnaire. Thirty clients referred to the home health care agency at P. medical center between October 1998 and March 1999 were the subjects for this phase. Each of the activities were tested using dichotomous question method. The results of the study are as follows: 1. For the ten nursing diagnoses. 63 appropriate interventions were selected from 369 diagnoses interventions links in NlC., and from 1.465 associated nursing activities. From the 63 interventions. the nurses expert group developed 18 interventions and 258 activities as the preliminary intervention list through a five-round validity test 2. For the fifth content validity test using Fehring's model for determining lCV (Intervention Content Validity), a five point Likert scale was used with values converted to weights as follows: 1=0.0. 2=0.25. 3=0.50. 4=0.75. 5=1.0. Activities of less than O.50 were to be deleted. The range of ICV scores for the nursing diagnoses was 0.95-0.66. for the nursing interventions. 0.98-0.77 and for the nursing activities, 0.95-0.85. By Fehring's method. all of these were included in the preliminary intervention list. 3. Using a questionnaire format for the preliminary intervention list. clinical application tests were done. To define nursing diagnoses. home health care nurses applied each nursing diagnoses to every client. and it was found that 13 were most frequently used of 400 times diagnoses were used. Therefore. 13 nursing diagnoses were defined as validated nursing diagnoses. Ten were the same as from the nursing records and textbooks and three were new from the clinical application. The final list included 'Anxiety', 'Aspiration. risk for'. 'Infant behavior, potential for enhanced, organized'. 'Infant feeding pattern. ineffective'. 'Infection'. 'Knowledge deficit'. 'Nutrition, less than body requirements. altered', 'Pain'. 'Parenting'. 'Skin integrity. risk for. impared' and 'Risk for activity intolerance'. 'Self-esteem disturbance', 'Sleep pattern disturbance' 4. In all. there were 19 interventions. 18 preliminary nursing interventions and one more intervention added from the clinical setting. 'Body image enhancement'. For 265 associated nursing activities. clinical application tests were also done. The intervention rate of 19 interventions was from 81.6% to 100%, so all 19 interventions were in c1uded in the validated intervention set. From the 265 nursing activities. 261(98.5%) were accepted and four activities were deleted. those with an implimentation rate of less than 50%. 5. In conclusion. 13 diagnoses. 19 interventions and 261 activities were validated for the final validated nursing intervention set.

  • PDF

초등학생의 지구의 운동과 태양계 학습 발달과정의 타당성 검증: 구인 타당도 및 결과 타당도를 중심으로 (Validation of Learning Progressions for Earth's Motion and Solar System in Elementary grades: Focusing on Construct Validity and Consequential Validity)

  • 이기영;맹승호;박영신;이정아;오현석
    • 한국과학교육학회지
    • /
    • 제36권1호
    • /
    • pp.177-190
    • /
    • 2016
  • 이 연구는 '지구의 운동과 태양계' 학습 발달과정의 타당성을 2가지 측면에서 검증하고자 하였다: 첫 번째는 구인 타당도로서 학생들이 학습하는 동안에 본 연구의 학습 발달과정에서 설정한 가설적인 발달 경로에 따라 실제로 학생들의 발달이 나타나는가를 조사하였다. 두 번째는 결과 타당도로서 학습 발달과정에 기반한 적응적 교수활동이 대부분의 학생들에게 향상된 학습효과를 산출하는가를 조사하였다. 이를 위해 서울, 강원, 광주 지역 소재 6개 초등학교에서 5학년 학생 373명과 교사 17명이 연구에 참여하였다. 초등학교 5학년의 태양계와 별 단원에서 지구의 운동과 태양계 관련 내용을 포함하는 적응적 교수활동을 개발하고, 교수활동 사전과 사후에 순위 선다형 문항(13개)으로 구성된 검사지를 투입하여 그 결과를 비교 분석하였다. 구인 타당도를 알아보기 위해 실험군 학생들을 대상으로 사전과 사후의 수준 변화를 분석한 결과, 약 64%에 해당하는 학생들이 적응적 교수활동에 의해 가설적으로 설정한 경로를 따라 발달하는 것으로 나타났으며, 사전/사후 검사 결과를 Rasch 모델로 적용한 분석 결과도 이를 뒷받침하였다. 결과 타당도를 알아보기 위해 실험군과 대조군의 사전검사를 공변량으로 한 공변량분석(ANCOVA)을 실시한 결과, 실험군 학생들의 수준 향상이 대조군 학생들의 경우에 비해 비해 통계적으로 유의미하게 높은 것으로 나타났으며(F=30.819, p=0.000), 실험군이 대조군보다 정적(+) 수준 변화 경향이 더 뚜렷하게 나타났다. 또한, Rasch 모델을 적용하여 결과 타당도를 검증한 결과, 실험군이 대조군보다 학생 능력치 상승이 더 높게 나타났으며, 이러한 차이는 통계적으로 유의미한 것으로 분석되었다(F=11.632, p=0.001).

여닫이형 방사선 치료의 검증: 잔여 움직임의 선량적 영향 (Verification of Gated Radiation Therapy: Dosimetric Impact of Residual Motion)

  • Yeo, Inhwan;Jung, Jae Won
    • 한국의학물리학회지:의학물리
    • /
    • 제25권3호
    • /
    • pp.128-138
    • /
    • 2014
  • 여닫이형 방사선 치료에서, 잔여 움직임으로 인하여 방사선은 실직적인 질병의 부위 뿐만이 아니라 주변 정상조직까지 투여 되도록 되어 있다. 비록 표적이 방사선 투여 중 움직이지만, 방사선이 최소한도로 실질적인 부위 (임상적 표적 체적)에 조사되기를 원한다. 본 연구의 목적은 여닫이형 치료에 있어서 방사선이 실질적인 표적에 투여되는지를 검증하고, 여닫이 범위, 움직임의 정도 및 임상적 표적체적의 크기의 변화에 따라, 표적및 주변 조직에 투여되는 방사선의 경향을 연구하는 데 있다. 이 목적을 달성하기 위하여, 실험 및 이론적인 연구를 고안하여 수행하였다. 직육각형 및 피라미드형의 표적 체적을 내포하는 팬텀을 만들어 움직이며 4차원 영상을 얻었다. 여러 여닫이 범위를 얻어진 영상에 적용하여 치료계획용 내부표적(표적체적 및 내부 움직임범위포함)을 만들었다. 직육각형 표적에는 전통적인 치료계획을 그리고 피라미드형 표적에는 세기 변조형 치료계획을 세웠다. 평판형 다이오드에 치료계획에서 얻어진 여닫이형 방사선을 수직으로 조사하여 실험적으로 선량평가를 수행하였고 또한 움직이는 상황에서 선량투여를 전산적으로 모사하였다. 본 연구는 두 표적에 대한 반음영 영역의 확장 및 움직임으로 인하여 방해 받았으나 확실하게 수행된 표적 선량투여 그리고 주변 조직에 투여된 상당량의 선량등을 수반하는 잔여움직임의 영향을 정량적으로 그리고 해석적으로 분석하였다. 선량-체적 히스토그램 분석에 따르면, 내부표적에는 여닫이 범위 또는 움직임 정도가 감소함에 따라 또한 표적체적이 증가함에 따라 선량이 증가함을 보였고, 내부 움직임 범위에 해당하는 체적에 대하여는 여닫이 범위 또는 움직임 정도가 감소함에 따라 선량이 증가하였고, 마지막으로 주변 정상조직에 대하여는, 내부 움직임 범위와는 반대의 경향을 보였다. 본 연구는 잔여움직임의 영향에 대하여 확실한 이해를 주었고 호흡행태가 재생되는한 불연속적인 투여과 표적의 움직임에도 불구하고 여당이형 방사선 치료는 안전함을 입증하였다. 본연구에서 수반된 절차와 전산적 모델은 여닫이형 치료의 시작점 검증, 주기적인 품질관리 및 환자별 검증에 사용될 수 있다. 환자별 영상에 선량을 재구성하는 방향으로 추후 연구가 필요하다.

상처와 주름이 있는 지문 판별에 효율적인 심층 학습 비교연구 (A Comparative Study on the Effective Deep Learning for Fingerprint Recognition with Scar and Wrinkle)

  • 김준섭;림빈 보니카;성낙준;홍민
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.17-23
    • /
    • 2020
  • 인간의 특성과 관련된 측정 항목을 나타내는 생체정보는 도난이나 분실의 염려가 없으므로 높은 신뢰성을 가진 보안 기술로서 큰 주목을 받고 있다. 이러한 생체정보 중 지문은 본인 인증, 신원 파악 등의 분야에 주로 사용된다. 신원을 파악할 때 지문 이미지에 인증을 수행하기 어려운 상처, 주름, 습기 등의 문제가 있을 경우, 지문 전문가가 전처리단계를 통해 직접 지문에 어떠한 문제가 있는지 파악하고 문제에 맞는 영상처리 알고리즘을 적용해 문제를 해결한다. 이때 지문에 상처와 주름이 있는 지문 영상을 판별해주는 인공지능 소프트웨어를 구현하면 손쉽게 상처나 주름의 여부를 확인할 수 있고, 알맞은 알고리즘을 선정해 쉽게 지문 이미지를 개선할 수 있다. 본 연구에서는 이러한 인공지능 소프트웨어의 개발을 위해 캄보디아 왕립대학교의 학생 1,010명, Sokoto 오픈 데이터셋 600명, 국내 학생 98명의 모든 손가락 지문을 취득해 총 17,080개의 지문 데이터베이스를 구축했다. 구축한 데이터베이스에서 상처나 주름이 있는 경우를 판별하기 위해 기준을 확립하고 전문가의 검증을 거쳐 데이터 어노테이션을 진행했다. 트레이닝 데이터셋과 테스트 데이터셋은 캄보디아의 데이터, Sokoto 데이터로 구성하였으며 비율을 8:2로 설정했다. 그리고 국내 학생 98명의 데이터를 검증 데이터 셋으로 설정했다, 구성된 데이터셋을 사용해 Classic CNN, AlexNet, VGG-16, Resnet50, Yolo v3 등의 다섯 가지 CNN 기반 아키텍처를 구현해 학습을 진행했으며 지문의 상처와 주름 판독에서 가장 좋은 성능을 보이는 모델을 찾는 연구를 수행했다. 다섯가지 아키텍처 중 지문 영상에서 상처와 주름 여부를 가장 잘 판별할 수 있는 아키텍처는 ResNet50으로 검증 결과 81.51%로 가장 좋은 성능을 보였다.

COMS 위성의 가시 및 적외 영상 채널로부터 복원된 대류운의 강우강도 향상과 검증 (Improvement and Validation of Convective Rainfall Rate Retrieved from Visible and Infrared Image Bands of the COMS Satellite)

  • 문윤섭;이강열
    • 한국지구과학회지
    • /
    • 제37권7호
    • /
    • pp.420-433
    • /
    • 2016
  • 본 연구의 목적은 2011년 4월 22일부터 10월 22일까지 우리나라에서 강수가 있는 총 75일 동안 COMS 위성의 적외 채널 $10.8{\mu}m$ 휘도 온도(IR), 적외 채널 $10.8{\mu}m$와 수증기 채널 $6.7{\mu}m$의 휘도 온도차(IR-WV), 정규화 된 가시반사도(VIS)와 기상 레이더의 강우강도를 이용하여 2-D와 3-D 대류운의 강우강도 (CRR) 조견표를 향상시키는 것이다. 특별히 한국형 2-D와 3-D CRR 조견표를 검증하기 위해 2011년 강수가 있는 24일 동안의 기상 레이더 강우강도 자료가 사용된다. 2-D와 3-D CRR 조견표는 각 채널의 등급 범주별 강우 총수와 비강우 총수의 행렬을 이용하여 구한 강우 확률에 평균 누적강우강도와 최대 강우강도를 각각 곱함으로써 2-D (IR, IR-WV)와 3-D (IR, IR-WV, VIS) 조견표의 기본과 최대 행렬을 얻을 수 있다. 최종적으로 새로운 2-D와 3-D의 CRR 조견표는 경험적으로 기본과 최대 강우강도 행렬의 회귀 분석으로 얻어진다. 그 결과 새로운 CRR 조견표는 기존보다 낮은 IR 휘도 온도, 낮은 IR-WV 휘도 온도차일 때에도 비교적 많은 강우 현상을 나타내며, $10mm\;h^{-1}$ 이상의 강우강도 영역이 확대되어 나타난다. 정확도와 범주별 통계가 주어진 기간 동안 발생했던 CRR 자료에 대해 계산된다. 새로운 2-D와 3-D CRR 조견표의 평균 오차, 평균절대 오차, 제곱근평균 오차가 기존 조견표보다 작게 나타나며, 예측 거짓경고비율은 감소하고, 탐지확률은 증가하며, 임계성공지수는 개선된다. 태풍과 뇌우와 같은 기상 이변에서의 강한 호우를 고려하기 위해서 습윤 보정 계수를 교정한다. 이 인자는 수치모델이나 COMS에서 복원한 지면에서 500 hPa까지 평균한 총가강수량과 상대습도의 곱 (PW RH)으로 정의된다. 이 연구에서는 PW RH에 근거하여 IR 운정 휘도 온도가 210 K 이하일 때, 상대습도가 40% 이상일 때 1에서 2사이를 경험적으로 정한다. 새로운 2-D와 3-D CRR 조견표를 적용한 결과 평균 오차, 평균 절대 오차, 제곱근 평균 오차가 줄어든다.

DISEASE DIAGNOSED AND DESCRIBED BY NIRS

  • Tsenkova, Roumiana N.
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1031-1031
    • /
    • 2001
  • The mammary gland is made up of remarkably sensitive tissue, which has the capability of producing a large volume of secretion, milk, under normal or healthy conditions. When bacteria enter the gland and establish an infection (mastitis), inflammation is initiated accompanied by an influx of white cells from the blood stream, by altered secretory function, and changes in the volume and composition of secretion. Cell numbers in milk are closely associated with inflammation and udder health. These somatic cell counts (SCC) are accepted as the international standard measurement of milk quality in dairy and for mastitis diagnosis. NIR Spectra of unhomogenized composite milk samples from 14 cows (healthy and mastitic), 7days after parturition and during the next 30 days of lactation were measured. Different multivariate analysis techniques were used to diagnose the disease at very early stage and determine how the spectral properties of milk vary with its composition and animal health. PLS model for prediction of somatic cell count (SCC) based on NIR milk spectra was made. The best accuracy of determination for the 1100-2500nm range was found using smoothed absorbance data and 10 PLS factors. The standard error of prediction for independent validation set of samples was 0.382, correlation coefficient 0.854 and the variation coefficient 7.63%. It has been found that SCC determination by NIR milk spectra was indirect and based on the related changes in milk composition. From the spectral changes, we learned that when mastitis occurred, the most significant factors that simultaneously influenced milk spectra were alteration of milk proteins and changes in ionic concentration of milk. It was consistent with the results we obtained further when applied 2DCOS. Two-dimensional correlation analysis of NIR milk spectra was done to assess the changes in milk composition, which occur when somatic cell count (SCC) levels vary. The synchronous correlation map revealed that when SCC increases, protein levels increase while water and lactose levels decrease. Results from the analysis of the asynchronous plot indicated that changes in water and fat absorptions occur before other milk components. In addition, the technique was used to assess the changes in milk during a period when SCC levels do not vary appreciably. Results indicated that milk components are in equilibrium and no appreciable change in a given component was seen with respect to another. This was found in both healthy and mastitic animals. However, milk components were found to vary with SCC content regardless of the range considered. This important finding demonstrates that 2-D correlation analysis may be used to track even subtle changes in milk composition in individual cows. To find out the right threshold for SCC when used for mastitis diagnosis at cow level, classification of milk samples was performed using soft independent modeling of class analogy (SIMCA) and different spectral data pretreatment. Two levels of SCC - 200 000 cells/$m\ell$ and 300 000 cells/$m\ell$, respectively, were set up and compared as thresholds to discriminate between healthy and mastitic cows. The best detection accuracy was found with 200 000 cells/$m\ell$ as threshold for mastitis and smoothed absorbance data: - 98% of the milk samples in the calibration set and 87% of the samples in the independent test set were correctly classified. When the spectral information was studied it was found that the successful mastitis diagnosis was based on reviling the spectral changes related to the corresponding changes in milk composition. NIRS combined with different ways of spectral data ruining can provide faster and nondestructive alternative to current methods for mastitis diagnosis and a new inside into disease understanding at molecular level.

  • PDF

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

식품의 일상섭취량 추정을 위한 식품섭취빈도의 활용가능성 및 타당도 연구 (Validation of Food Intake Frequency from Food Frequency Questionnaire for Use as a Covariate in a Model to Estimate Usual Food Intake)

  • 이자윤;김동우
    • 한국조리학회지
    • /
    • 제23권2호
    • /
    • pp.64-73
    • /
    • 2017
  • 본 연구에서는 국민건강영양조사의 식품섭취빈도 조사로부터 식품섭취빈도를 산출한 후 이를 24시간 회상법에서 조사된 식품별 섭취량과의 상관관계를 탐색하여 식품 수준의 일상 섭취량을 추정할 때 식품섭취빈도를 공변수의 형태로 활용할 수 있을지 타진해 보기 위해 수행되었다. 국민건강영양조사에서 식품섭취빈도 조사가 수행되기 시작한 2012년부터 2014년까지 총 3개년도의 자료를 사용하였으며, 24시간 회상법과 식품섭취빈도 조사 모두를 수행한 10,945명을 대상으로 하였다. 분석을 위해 식품섭취빈도 조사지에 수록된 112개 항목별로 24시간 회상법에서 산출된 식품별 섭취량을 재산출하였으며, 이 결과와 각 개인이 식품섭취빈도 조사법에서 응답한 섭취빈도 및 섭취분량 간의 스피어만 상관계수를 산출하였다. 상관계수를 분석한 결과, 24시간 회상법의 섭취량과 식품섭취빈도법의 섭취빈도 간에는 총 112개 식품 중 59개 식품(52.2%)에서 통계적으로 유의한 양의 상관관계를 보였으며, 24시간 회상법의 섭취량과 섭취분량 간에는 102개 식품(90.3%)에서 통계적으로 유의한 양의 상관관계를 보였다. 곡류, 과일류, 난류, 두류, 생선류, 서류, 우유류, 육류, 음료류, 주류, 채소류, 해조류, 기타류의 13개 식품군으로 묶어 분석한 결과에서도 섭취빈도의 13개 군(100%)에서 통계적으로 유의한 상관관계를 보였으며, 생선류, 해조류, 기타류는 음의 상관을 보였고, 나머지 10개 항목은 양의 상관을 보였다. 본 연구를 통해 식품섭취빈도조사로부터 산출한 식품섭취빈도와 24시간 회상법 섭취량간의 일관된 상관관계를 확인할 수 있었으며, 이는 식품(군) 수준의 일상 섭취량을 추정할 때 식품섭취빈도를 중요한 공변수로 활용할 수 있는 근거가 된다고 하겠다.