• 제목/요약/키워드: Cross-Validation

검색결과 990건 처리시간 0.036초

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

MODIS 지표면 온도 자료와 지구통계기법을 이용한 지상 기온 추정 (Estimation of Near Surface Air Temperature Using MODIS Land Surface Temperature Data and Geostatistics)

  • 신휴석;장은미;홍성욱
    • Spatial Information Research
    • /
    • 제22권1호
    • /
    • pp.55-63
    • /
    • 2014
  • 수문학, 기상학 및 기후학 등에서 필수적인 자료중의 하나인 지상기온 자료는 최근 보건, 생물, 환경 등의 다양한 분야로까지 활용영역이 확대되고 있어 그 중요성이 커지고 있으나 지상관측을 통한 지상기온자료의 취득은 시공간적인 제약이 크기 때문에 실측된 기온자료는 시공간 해상도가 낮아 높은 해상도가 요구되는 연구 분야에서는 활용성에 큰 제약을 갖게 된다. 이를 극복하기 위한 하나의 대안으로 상대적으로 높은 시공간 해상도를 가지고 있는 위성영상자료에서 얻을 수 있는 지표면온도 자료를 이용하여 지상기온을 추정하는 많은 연구들이 수행되어 왔다. 본 연구는 이러한 연구의 일환으로써 기상청에서 제공하고 있는 AWS(Automatic Weather Station)에서 취득된 2010년 지상 온도 자료(AWS data)를 바탕으로 대표적인 지표면 온도자료인 MODIS Land Surface temperature(LST data:MOD11A1)와 지상기온에 영향을 미칠 수 있는 Land Cover Data, DEM(digital elevation model) 등의 보조 자료와 함께 다양한 지구통계 기법들을 이용하여 남한 지역의 지상기온을 추정하였다. 추정 전 2010년 전체(365일) LST자료와 AWS자료와의 차이에 대한 RMSE(Root Mean Square Error)값의 계절별 피복별 분석결과 계절에 따른 RMSE값의 변동계수는 0.86으로 나타났으나 피복에 따른 변동계수는 0.00746으로 나타나 계절별 차이가 피복별 차이보다 큰 것으로 분석 되었다. 계절별 RMSE 값은 겨울철이 가장 낮은 것으로 나타났으며 AWS자료와 LST자료와 보조자료를 이용한 선형 회귀분석결과에서도 겨울철의 결정 계수가 가장 높은 0.818로 나타났으며, 여름철의 경우에는 0.078로 나타나 계절별 차이가 매우 크게 나타났다. 이러한 결과를 바탕으로 지구통계 기법들의 대표적인 방법론인 크리깅 방법 중 일반적으로 많이 사용되고 있는 정규 크리깅, 일반 크리깅, 공동 크리킹, 회귀 크리깅을 이용하여 지상기온을 추정한 후 모델의 정확도를 판단할 수 있는 교차 검증을 실시한 결과 정규 크리깅과 일반 크리깅에 의한 RMSE 값은 1.71, 공동 크리깅과 회귀 크리깅에 의한 RMSE 값은 각각 1.848, 1.63으로 나타나 회귀 크리깅 방법에 의한 추정의 정확도가 가장 높은 것으로 분석되었다.

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

Development of Prediction Equation of Diffusing Capacity of Lung for Koreans

  • Hwang, Yong Il;Park, Yong Bum;Yoon, Hyoung Kyu;Lim, Seong Yong;Kim, Tae-Hyung;Park, Joo Hun;Lee, Won-Yeon;Park, Seong Ju;Lee, Sei Won;Kim, Woo Jin;Kim, Ki Uk;Shin, Kyeong Cheol;Kim, Do Jin;Kim, Hui Jung;Kim, Tae-Eun;Yoo, Kwang Ha;Shim, Jae Jeong
    • Tuberculosis and Respiratory Diseases
    • /
    • 제81권1호
    • /
    • pp.42-48
    • /
    • 2018
  • Background: The diffusing capacity of the lung is influenced by multiple factors such as age, sex, height, weight, ethnicity and smoking status. Although a prediction equation for the diffusing capacity of Korea was proposed in the mid-1980s, this equation is not used currently. The aim of this study was to develop a new prediction equation for the diffusing capacity for Koreans. Methods: Using the data of the Korean National Health and Nutrition Examination Survey, a total of 140 nonsmokers with normal chest X-rays were enrolled in this study. Results: Using linear regression analysis, a new predicting equation for diffusing capacity was developed. For men, the following new equations were developed: carbon monoxide diffusing capacity (DLco)=-10.4433-0.1434${\times}$age (year)+0.2482${\times}$heights (cm); DLco/alveolar volume (VA)=6.01507-0.02374${\times}$age (year)-0.00233${\times}$heights (cm). For women the prediction equations were described as followed: DLco=-12.8895-0.0532${\times}$age (year)+0.2145${\times}$heights (cm) and DLco/VA=7.69516-0.02219${\times}$age (year)-0.01377${\times}$heights (cm). All equations were internally validated by k-fold cross validation method. Conclusion: In this study, we developed new prediction equations for the diffusing capacity of the lungs of Koreans. A further study is needed to validate the new predicting equation for diffusing capacity.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

연관지식의 효율적인 표현 및 추론이 가능한 지식그래프 기반 지식지도 (Knowledge graph-based knowledge map for efficient expression and inference of associated knowledge)

  • 유기동
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.49-71
    • /
    • 2021
  • 문제해결을 위해 지식을 활용하는 사용자는 내용 면에서 관련된 또 다른 지식, 즉 연관지식에 대한 교차적이고 순차적인 탐색을 진행한다. 지식지도는 관리하는 지식의 현황을 보여주는 도식이자 지식저장소의 분류체계로서, 지식 간 연관성에 기반한 사용자의 지식 탐색을 지원하는 도구이다. 따라서 지식지도는 지식 간 연관성에 의한 네트워크 형식으로 표현되며, 이를 정의 및 추론하는 데에 최적화된 기술을 접목하여 구현되어야 한다. 이를 위해 본 연구는 관리하는 개체와 개체 간 관계를 표현 및 추론하는 데에 최적화된 기능성을 발휘하는 것으로 알려진 그래프DB를 이용하여 지식그래프 기반 지식지도를 개발하는 방법론을 제시한다. 제시된 방법론의 유효성을 확인하기 위하여, 선행 연구의 온톨로지 기반 지식지도 구축 사례 데이터를 그래프DB에 적용하여 지식그래프 기반 지식지도를 구현하고, 구현된 지식 네트워크의 유효성과 Class 자동 구성 능력을 선행 연구의 결과와 비교하는 성능 테스트를 진행한다. 성능 테스트 결과, 본 연구의 지식그래프 기반 지식지도는 선행 연구의 온톨로지 기반 지식지도와 동일한 수준의 성능을 나타냈으며, 지식 및 지식 간 관계 정의 및 추론을 더욱 효율적으로 진행할 수 있음을 확인하였다. 본 연구의 결과는 연관지식에 대한 사용자의 인지과정을 반영한 지식 탐색 기능의 구현에 활용될 수 있으며, 추론에 의한 새로운 연관지식의 발견을 통해 자율적으로 확장되는 지능적 지식베이스의 개발에 응용될 수 있다.

고등학교 「식품안전과 건강」 워크북 개발 및 타당도 검증 (Development and Validation of the 'Food Safety and Health' Workbook for High School)

  • 박미정;정난희;유난숙;최성연
    • 한국가정과교육학회지
    • /
    • 제34권1호
    • /
    • pp.59-80
    • /
    • 2022
  • 본 연구는 「식품안전과 건강」과목의 수업과 평가를 지원할 수 있는 워크북을 개발하고 타당도를 검증하는 데 목적이 있다. 워크북 개발은 「식품안전과 건강」교육과정과 식생활 교육자료, 워크북 관련 선행연구를 분석하여 워크북의 개발 방향을 설정하고, 영역별 활동 아이디어를 도출하여 전체 구성을 설계하였다. 이후 초안을 개발하고 3차에 걸쳐서 교차 검토와 식품의약품안전처의 검토와 수정을 반복하여 편집본을 개발하였고, 9인의 전문가와 44인의 가정과교사들에게 타당도 검증을 받아 수정·보완하여 최종적으로 워크북을 완성하였다. 워크북은 4개 영역으로 '식품선택' 영역의 학습 주제 10개 36차시, '식중독과 식품 관리' 영역의 학습 주제 10개 36차시, '식품의 조리' 영역의 학습 주제 11개 43차시, '건강한 식사' 영역의 학습 주제 11개 55차시로 총 42개 학습 주제 170차시로 구성하였다. 워크북은 실천적 문제해결 역량, 생활자립 역량, 창의적사고 역량, 공동체 역량을 고루 배양할 수 있도록 하였으며, 문제를 인식하고 실험을 통해 문제를 해결하거나 발견학습을 통해 학습과제를 수행하고, 실험한 내용에 대해 심화 탐구학습을 진행하며, 평가를 통해 자가진단을 할 수 있도록 맥락적으로 구성하였다. 워크북의 타당도를 검증한 결과 학생 참여형 수업과 평가를 운영하고, 실험·실습을 강화하여 탐구하는 수업 분위기를 형성하는데 매우 적절한 것으로 평가되었다. 본 연구는 고교학점제 시행과 개별 학생의 학습 선택권이 강조되는 시점에서 가정계열 선택과목의 외연을 확장하고, 탐구 중심으로 학생이 주도하는 교실 수업을 구현하는데 기여할 것이다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

도심형 수요응답 교통서비스의 통행목적별 만족도 영향요인 비교연구: 세종특별자치시 셔클(Shucle)을 중심으로 (A Comparative Study on Factors Affecting Satisfaction by Travel Purpose for Urban Demand Response Transport Service: Focusing on Sejong Shucle)

  • 김원철;한우진;박준태
    • 한국ITS학회 논문지
    • /
    • 제23권2호
    • /
    • pp.132-141
    • /
    • 2024
  • 본 연구에서는 수요응답 교통서비스를 이용한 통행목적을 통근·통학과 쇼핑·여가로 구분하고 통행목적별 만족도와 영향변수의 차이를 비교한다. 세종특별자치시 '셔클(Shucle)' 이용자를 대상으로 실시한 만족도 설문조사 자료를 활용하고, 다중선형모델의 과적합(overfitting) 문제점을 최소화하기 위해 LASSO 회귀분석을 적용한다. 분석 결과, 수요응답 교통서비스 도입으로 기존 대중교통 사각지역의 공백이 해소되고, 자가용 이용 감소로 저탄소 및 대중교통 활성화 정책을 유인할 수 있으며, 간헐적인 통행행태를 갖는 행위자(예컨대 고령자, 주부 등)에게 최적의 이동 서비스를 제공할 수 있는 가능성이 확인되었다. 또한, 차량 호출 후 대기시간, 탑승 후 이동시간, 앱이용 편리성, 예상 출/도착 시간의 정시성, 승·하차 지점의 위치 요인은 통근·통학과 쇼핑·여가 통행 시 수요응답 교통서비스 만족도에 긍정적인 영향을 미치는 공통요인으로 나타났다. 한편, 타 교통수단과의 환승은 통근·통학의 경우에만 만족도에 영향을 미치고 쇼핑·여가의 경우는 미치지 않는 것으로 나타났다. 수요응답 교통서비스를 활성화하기 위해서는 분석된 5개의 영향요인에 대한 고려뿐만 아니라 통근·통학과 쇼핑·여가의 차별화 요인 즉, 통근·통학의 경우 행위자는 시간가치를 중요하게 여기므로 총 통행시간을 줄이기 위한 타교통수단과의 환승 편의를 도모하고, 쇼핑·여가 통행의 경우 이용자가 승·하차 지점의 위치를 쉽고 편하게 지정하여 이용할 수 있는 이용편의 조성방안의 고려가 필요할 것으로 사료된다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.