• 제목/요약/키워드: Regression models

검색결과 3,638건 처리시간 0.029초

한국(韓國)의 지류(紙類) 수요예측(需要豫測)에 관한 연구(硏究) (Forecasting of Demand for Papers in Korea)

  • 정일용;정영관
    • 한국산림과학회지
    • /
    • 제65권1호
    • /
    • pp.80-91
    • /
    • 1984
  • 1965~1981 년간(年間)의 시계열자료(時系列資料)를 이용(利用)하여 지류(紙類)의 국내수요함수(國內需要函數)를 추정(推定)하고 추정(推定)된 모형(模型)에 의하여 지류(紙類)의 장기국내수요(長期國內需要)를 예측(豫測)하였다. 지류(紙類)의 국내수요(國內需要)(DDP)는 GNP가 상승(上昇)함에 따라 증가(增加)하는 추세(趨勢)를 보였으며 증가율(增加率)은 실질(實質)GNP 연평균성장율(年平均成長率) 8.8%보다 높은 17.9:% 그리고 판지(板紙)는 무려 25.8% 수준(水準)으로 나타났다. 지류(紙類)의 국내수요(國內需要)에 영향(影響)을 미치는 주요변수(主要變數)는 1인당(人當) 실질국민총생산(實質國民總生産)(PG), 지류(紙類)의 실질도비가격지수(實質都費價格指數)(PWI), 지류수요산업(紙類需要産業)의 생산활동지수(生産活動指數(PDAV) 등이 있으며 이러한 제변수(諸變數)를 포함(包含)한 함수관계(函數關係)를 전대수회귀방정식(全對數回歸方程式)으로 표시(表示)하여 보통최소자승법(普通最少自乘法)으로 추정(推定)하였다. ${\ell}nDDP=2.452+1.986{\ell}nPG-0.844{\ell}nPWI$ $(33.397)^*\;(-6.149)^*\;R^2=0.997$ ${\ell}nDDP=6.468+0.827{\ell}nPDA$ $(17.403)^*\;R^2=0.950$ 이에 따른 지류(紙類)의 국내수요(國內需要)는 1인당(人當) GNP와 지류수요산업(紙類需要産業)의 생산활동지수(生産活動指數)에 대하여 부(負)의 상관(相關)을 그리고 1인당(人當) GNP가 설명변수(說明變數) 중에서 가장 탄력적(彈力的)이였으며 지류실질가격지수(紙類實質價格指數)에 대하여는 부(負)의 상관(相關)으로 나타났다. 이러한 결과(結果)는 통계적(統計的) 유의성(有意性) 인정(認定)되고 경제이론상(經齊理論上) 타당한 것으로 판명(判明)되었다. 1991 년도(年度) 지류(紙類)의 국내수요(國內需要)를 예측(豫測)한 결과(結果)는 3,152천(千)M/T 또는 4,470천(千)M/T에 달(達)할 것으로 추정(推定)되며, 1982~1991 년(年) 기간(期間)동안 연평증가율(年平增加率)은 5.0% 또는 12.4%로 나타났다. 또한 1991 년(年) 1인당(人當) 지류(紙類)의 국내수요(國內需要)는 69.1kg 또는98.0kg에 달(達)할 것으로 예측(豫測) 되었다.

  • PDF

감자수염진딧물(Macrosiphum euphorbiae Thomas)의 온도발육모형과 출산생명표 (Temperature-dependent developmental models and fertility life table of the potato aphid Macrosiphum euphorbiae Thomas on eggplant)

  • 전성욱;김강혁;이상계;이용환;박세근;강위수;박부용;김광호
    • 환경생물
    • /
    • 제37권4호
    • /
    • pp.568-578
    • /
    • 2019
  • 감자수염진딧물(Macrosiphum euphorbiae)의 온도별 발육은 12.5~27.5℃까지 2.5℃ 간격(상대습도 65±5%, 광주기 16L : 8D), 7개 온도조건에서 1~2령, 3~4령의 2단계로 구분하여 조사하였다. 약충의 사망률은 7개 온도 중 6개 온도에서 10% 미만이었으나, 27.5℃에서 사망률은 53.0%였다. 온도별 발육기간은 15.0℃에서 15.5일, 25.0℃에서는 6.7일로 고온으로 갈수록 발육기간은 짧아졌으나, 27.5℃에서는 발육기간이 다시 길어져 9.7일이었다. 약충의 발육 영점온도는 2.6℃였고, 유효적산온도는 144.5일도였다. 약충의 발육을 5가지 비선형발육모형에 적용한 결과 Logan6(r2=0.99) 모형이 발육에 적합하였고, 발육완료분포모형은 2-Weibull과 3-Weibull의 모형 적합성(r2)이 각각 0.92와 0.93으로 유사하였다. 성충 수명과 산자 수에서 성충 수명은 온도가 증가함에 따라 짧아지는 경향을 보였고, 산자수는 20.0℃에서 64.4개로 가장 많은 산자를 생산하였다. 생명표분석에서 순증가율(R0)은 20.0℃에서 63.2로 가장 컸고, 내적자연증가율(rm)은 25.0℃에서 1.393로 가장 컸다. 배수증가기간(Dt)은 25.0℃에서 2.091로 가장 짧았다. 기간자연증가율(λ)은 25℃에서 가장 컸고(1.393), 평균세대기간(T)은 25℃에서 9.929로 가장 짧았다.

생육모의에 의한 북한지방 시ㆍ군별 벼 재배기후 예비분석 (Agroclimatology of North Korea for Paddy Rice Cultivation: Preliminary Results from a Simulation Experiment)

  • 윤진일;이광회
    • 한국농림기상학회지
    • /
    • 제2권2호
    • /
    • pp.47-61
    • /
    • 2000
  • 북한 시ㆍ군별 벼 생육모의결과를 토대로 벼 재배 적합성 여부를 판정하였다. 생육모의에 필요한 시ㆍ군 별 일 기상자료는 지형기후학적 공간내삽기법을 근거로 한 3단계 과정을 통해 생산하였다. 우선 기온의 경우 51개 남북한 표준관측소의 14년간(1981~1994) 월평균값을 관측지점 위도, 해발고도, 해안거리, 경사도, 개방도 등 지리지형변수에 회귀시켜 얻은 통계모형(RMSE=0.4~1.6$^{\circ}C$)을 북한전역에 적용시켜 1 km$\times$1 km수평 격자점 단위로 월별 평균값을 추정하였다. 강수량의 경우 상대적으로 자료가 풍부한 남한의 지형-강수 관계를 도출하여 이를 북한지방에 적용한 윤 (2000)의 방법에 의해 월별 강수량 분포도를 작성하였다. 일사량의 경우 남한 19개 관측소의 14년간(1984~1997) 월 평균 수평면 전천일사량 관측값의 추정식([일사량, MJ m$^{-2}$ day$^{-1}$)=0.344+0.4756[대기외 일사량]+0.0299[남쪽 개방도]-1.307[운량]-0.01[상대습도], 결정계수 0.92, RMS error 0.95)에 의해 북한 지방 27개 지점의 일사량 자료를 복원하였다. 이를 거리역산가중법으로 공간내삽하여 북한전역의 월별 일사량 분포도를 작성하였다. 두 번째 단계에서는 얻어진 1 km$\times$1km 격자점 기후값을 183개 북한 시ㆍ군별로 공간평균값을 취했다. 마지막으로 시ㆍ군 단위 월별 기후값을 이용하여 통계적인 방법 (Pickering et al., 1994)에 의해 30년간의 일별 기상자료를 생성하였다. 북한의 대표적인 벼 품종 생육조사자료를 토대로 CERES-rice 모형의 유전적 모수를 조정하고, 준비된 기상자료를 입력시켜 183개 시ㆍ군별 벼의 생육을 30년치씩 모의하였다. 생육모의결과 중 성숙기와 수량 관련 특성을 점수화 하여 각 시ㆍ군의 벼 재배용 농업기후학적 잠재력을 정량적으로 표현하였다.

  • PDF

민간의료보험 가입이 의료이용에 미치는 영향 (Effects of Private Insurance on Medical Expenditure)

  • 윤희숙
    • KDI Journal of Economic Policy
    • /
    • 제30권2호
    • /
    • pp.99-128
    • /
    • 2008
  • 민간보험은 공적보험과 보완적인 관계를 형성함에도 불구하고 우리나라의 민간보험은 소득계층에 따른 접근성 차이로 인한 사회적 불평등, 도덕적 해이로 인한 공적보험 재정악화 등의 우려를 낳고 있다. 그러나 이에 관한 실증적 분석은 그간 이루어지지 못하여 정책적인 방향을 정립하는 데 장애가 되어 왔다. 본 연구는 건강보험공단, 심사평가원, 민간보험사, 행정자치부 주민등록세대정보 등의 관련 정보를 종합하여 이에 대한 실증분석을 시도했다. 그 결과, 우리나라의 민간보험 가입률은 전 국민의 64%에 달하고 있으며, 고소득층과 저소득층 간에 민간보험 가입률의 차이가 나타나지 않았다. 이는 공적보험의 보장성이 미흡한 상황에서 저소득층 역시 갑작스런 의료지출에 대비하고 있으며, 민간보험이 의료접근성의 계층화를 초래하지 않고 있다는 것을 시사한다. 또한 민간보험 가입자는 평균적으로 미가입자에 비해 의료이용량이 높지 않았으며, Two-Part Model을 통해 다양한 변수를 통제했을 경우에도 동일한 결과가 나타났다. 연령대에 따른 차이로 미루어 이러한 결과는 노동시장과 연관된 한시적인 성격일 것으로 추측되나, 현재로서는 민간보험 가입에 따른 도덕적 해이가 강하게 나타나고 있다는 근거는 발견되지 않았다.

  • PDF

暴雨의 時間的 分布에 關한 硏究 (Studies on the Time Distribution of Heavy Storms)

  • 이근후
    • 한국농공학회지
    • /
    • 제26권2호
    • /
    • pp.69-84
    • /
    • 1984
  • This study was carried out to investigate the time distribution of single storms and to establish the model of storm patterns in korea. Rainfall recording charts collected from 42 metheorological stations covering the Korean peninsula were analyzed. A single storm was defined as a rain period seperated from preceding and succeeding rainfall by 6 hours and more. Among the defined single storms, 1199 storms exceeding total rainfall of 80 mm were qualified for the study. Storm patterns were cklassified by quartile classification method and the relationship between cummulative percent of rainfalls and cummulative storm time was established for each quartile storm group. Time distribution models for each stations were prepared through the various analytical and inferential procedures. Obtained results are summarized as follows: 1. The percentile frequency of quartile storms for the first to the fourth quartile were 22.0%, 26.5%, 28.9% and 22.6%, respectively. The large variation of percentile frequency was show between the same quartile storms. The advanced type storm pattern was predominant in the west coastal type storm patterns predominantly when compared to the single storms with small total rainfalls. 3. The single storms with long storm durations tended to show delayed type storm patterns predominantly when compared to the single storms with short storm durations. 4. The percentile time distribution of quartile storms for 42 rin gaging stations was estimated. Large variations were observed between the percentiles of time distributions of different stations. 5. No significant differences were generally found between the time distribution of rainfalls with greater total rainfall and with less total rainfall. This fact suggests that the size of the total rainfall of single storms was not the main factor affecting the time distribution of heavy storms. 6. Also, no significant difference were found between the time distribution of rainfalls with long duration and with short duration. The fact indicates that the storm duration was no the main factor affecting the time distribution of heavy storms. 7. In Korea, among all single storms, 39.0% show 80 to 100mm of total rainfall which stands for the mode of the frequency distribution of total rainfalls. The median value of rainfalls for all single storms from the 42 stations was 108mm. The shape of the frequency distribution of total rainfalls showed right skewed features. No significant differences were shown in the shape of distribution histograms for total rainfall of quartile storms. The mode of rainfalls for the advanced type quartile storms was 80~100mm and their frequencies were 39~43% for respective quartiles. For the delayed type quartile storms, the mode was 80~100mm and their frequencies were 36!38%. 8. In Korea, 29% of all single storms show 720 to 1080 minutes of storm durations which was the highest frequency in the frequency distribution of storm durations. The median of the storm duration for all single storms form 42 stations was 1026 minutes. The shape of the frequency distribution was right skewed feature. For the advanced type storms, the higher frequency of occurrence was shown by the single storms with short durations, whereas for the delayed type quartile storms, the higher frequency was shown gy the long duration single storms. 9. The total rainfall of single storms was positively correlated to storm durations in all the stations throughout the nation. This fact was also true for most of the quartile storms. 10. The third order polynomial regression models were established for estimating the time distribution of quartile storms at different stations. The model test by relative error method resulted good agreements between estimated and observed values with the relative error of less than 0.10 in average.

  • PDF

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

Development and Testing of the Model of Health Promotion Behavior in Predicting Exercise Behavior

  • O'Donnell, Michael P.
    • Korean Journal of Health Education and Promotion
    • /
    • 제2권1호
    • /
    • pp.31-61
    • /
    • 2000
  • Introduction. Despite the fact that half of premature deaths are caused by unhealthy lifestyles such as smoking tobacco, sedentary lifestyle, alcohol and drug abuse and poor nutrition, there are no theoretical models which accurately explain these health promotion related behaviors. This study tests a new model of health behavior called the Model of Health Promotion Behavior. This model draws on elements and frameworks suggested by the Health Belief Model, Social Cognitive Theory, the Theory of Planned Action and the Health Promotion Model. This model is intended as a general model of behavior but this first test of the model uses amount of exercise as the outcome behavior. Design. This study utilized a cross sectional mail-out, mail-back survey design to determine the elements within the model that best explained intentions to exercise and those that best explained amount of exercise. A follow-up questionnaire was mailed to all respondents to the first questionnaire about 10 months after the initial survey. A pretest was conducted to refine the questionnaire and a pilot study to test the protocols and assumptions used to calculate the required sample size. Sample. The sample was drawn from 2000 eligible participants at two blue collar (utility company and part of a hospital) and two white collar (bank and pharmaceutical) companies located in Southeastern Michigan. Both white collar site had employee fitness centers and all four sites offered health promotion programs. In the first survey, 982 responses were received (49.1%) after two mailings to non-respondents and one additional mailing to secure answers to missing data, with 845 usable cases for the analyzing current intentions and 918 usable cases for the explaining of amount of current exercise analysis. In the follow-up survey, questionnaires were mailed to the 982 employees who responded to the initial survey. After one follow-up mailing to non-respondents, and one mailing to secure answers to missing data, 697 (71.0%) responses were received, with 627 (63.8%) usable cases to predict intentions and 673 (68.5%) usable cases to predict amount of exercise. Measures. The questionnaire in the initial survey had 15 scales and 134 items; these scales measured each of the variables in the model. Thirteen of the scales were drawn from the literature, all had Cronbach's alpha scores above .74 and all but three had scores above .80. The questionnaire in the second mailing had only 10 items, and measured only outcome variables. Analysis. The analysis included calculation of scale scores, Cronbach's alpha, zero order correlations, and factor analysis, ordinary least square analysis, hierarchical tests of interaction terms and path analysis, and comparisons of results based on a random split of the data and splits based on gender and employer site. The power of the regression analysis was .99 at the .01 significance level for the model as a whole. Results. Self efficacy and Non-Health Benefits emerged as the most powerful predictors of Intentions to exercise, together explaining approximately 19% of the variance in future Intentions. Intentions, and the interaction of Intentions with Barriers, with Support of Friends, and with Self Efficacy were the most consistent predictors of amount of future exercise, together explaining 38% of the variance. With the inclusion of Prior Exercise History the model explained 52% of the variance in amount of exercise 10 months later. There were very few differences in the variables that emerged as important predictors of intentions or exercise in the different employer sites or between males and females. Discussion. This new model is viable in predicting intentions to exercise and amount of exercise, both in absolute terms and when compared to existing models.

  • PDF

국가별 기술경쟁력이 유니콘기업 증가에 미치는 영향에 관한 연구 (The Effects of Technological Competitiveness by Country on The Increase of Unicorn Companies)

  • 조규훈;양동우
    • 벤처창업연구
    • /
    • 제19권1호
    • /
    • pp.55-73
    • /
    • 2024
  • 유니콘기업은 혁신적인 비즈니스 모델로 단기간 내 높은 기업가치를 인정받으며 전 세계적으로 주목을 받고 있다. 이들의 성장 과정은 스타트업 생태계에 좋은 교훈을 제시해주고 있고 국가 경제발전과 고용 창출 측면에서도 긍정적인 영향을 미치고 있다. 그러나 유니콘기업과 관련한 선행연구들은 이미 유니콘으로 인정받은 기업의 창업자 특성, 환경요인, 비즈니스 모델, 성공·실패 사례 등 다면적 접근보다는 '이벤트 스터디', '사례연구' 중심으로 이루어지고 있고 유니콘기업 발생과 관련한 요인에 대한 거시적 분석은 부족한 실정이다. 이러한 배경에서 본 연구는 선행연구를 통해 살펴본 유니콘의 특성 및 기술기업 비중이 높은 유니콘기업의 현황을 고려하여 '기술인적자원 지표', 'R&D 지표', '기술 인프라 지표' 등 국가의 기술경쟁력이 유니콘기업 증가에 미치는 영향을 분석하는 것을 목적으로 하였다. 통계분석을 위해 2017년부터 2020년까지 다양한 국제기구, 통계청에서 발표되는 자료와 CB Insights에서 집계한 유니콘기업 데이터를 44개 분석 대상 국가의 패널데이터로 활용하여 다중 회귀분석으로 검정하였다. 연구 결과 기술 인적자원 지표의 경우 과학 전공자 수가 유니콘기업 증가에 정(+)의 영향을 미치는 것으로 확인되었고 R&D 지표의 경우 R&D 투자총액은 유니콘기업 증가에 정(+)의 영향을 미치는 반면, 삼극 특허 건수(Triad Patent Families), 과학기술논문 발표 수는 유니콘기업 증가에 부(-)의 영향을 미치는 것으로 나타났다. 마지막으로 기술인프라 지표의 경우 세계 랭킹 500위 대학 수가 유니콘기업 증가에 정(+)의 영향을 미치는 것으로 확인되었다. 본 연구는 선행연구에서 미비하게 다루었던 국가별, 시계열 실증 데이터를 기반으로 국가 기술경쟁력과 유니콘기업 증가 간에 인과관계를 처음으로 밝혔다는 데 학술적 의미가 있으며 UN의 글로벌 산업경쟁력 지수 순위, OECD의 국가별 R&D 투자총액 비교 시 우리나라는 기술력, 성장잠재력이 있는 것으로 평가받고 있는 반면에 혁신경제의 리더로 성장을 견인하고 있는 유니콘기업 수는 상대적으로 적은 상황에 있어 향후 유니콘기업의 발굴, 육성을 위한 정책 수립 시 연구 결과를 활용할 수 있다는 실무적 의의를 가진다.

  • PDF

카테고리 연관 규칙 마이닝을 활용한 추천 정확도 향상 기법 (A Study on the Improvement of Recommendation Accuracy by Using Category Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.27-42
    • /
    • 2020
  • 인터넷이라는 가상 공간을 활용함으로써 물리적 공간의 제약을 갖는 오프라인 쇼핑의 한계를 넘어선 온라인 쇼핑은 다양한 기호를 가진 소비자를 만족시킬 수 있는 수많은 상품을 진열할 수 있게 되었다. 그러나, 이는 역설적으로 소비자가 구매의사결정 과정에서 너무 많은 대안을 비교 평가해야 하는 어려움을 겪게 함으로써 오히려 상품 선택을 방해하는 원인이 되기도 한다. 이런 부작용을 해소하기 위한 노력으로서, 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 구매의사결정 과정 중 정보탐색 및 대안평가에 소요되는 시간과 노력을 줄여주고 이탈을 방지하며 판매자의 매출 증대에 기여할 수 있다. 연관 상품 추천에 사용되는 연관 규칙 마이닝 기법은 통계적 방법을 통해 주문과 같은 거래 데이터로부터 서로 연관성 높은 상품을 효과적으로 발견할 수 있다. 하지만, 이 기법은 거래 건수를 기반으로 하므로, 잠재적으로 판매 가능성이 높을지라도 충분한 거래 건수가 확보되지 못한 상품은 추천 목록에서 누락될 수 있다. 이렇게 추천 시 제외된 상품은 소비자에게 구매될 수 있는 충분한 기회를 확보하지 못할 수 있으며, 또 다시 다른 상품에 비해 상대적으로 낮은 추천 기회를 얻는 악순환을 겪을 수도 있다. 본 연구는 구매의사결정이 결국 상품이 지닌 속성에 대한 사용자의 평가를 기반으로 한다는 점에 착안하여, 추천 시 상품의 속성을 반영하면 소비자가 특정 상품을 선택할 확률을 좀더 정확하게 예측할 수 있다는 점을 추천 시스템에 반영하기 위한 목적으로 수행되었다. 즉, 어떤 상품 페이지를 방문한 소비자는 그 상품이 지닌 속성들에 어느 정도 관심을 보인 것이며 추천 시스템은 이런 속성들을 기반으로 연관성을 지닌 상품을 더 정교하게 찾을 수 있다는 것이다. 상품의 주요 속성의 하나로서, 카테고리는 두 상품 간에 아직 드러나지 않은 잠재적인 연관성을 찾기에 적합한 대상이 될 수 있다고 판단하였다. 본 연구는 연관 상품 추천에 상품 간의 연관성뿐만 아니라 카테고리 간의 연관성을 추가로 반영함으로써 추천의 정확도를 높일 수 있는 예측모형을 개발하였고, 온라인 쇼핑몰로부터 수집된 주문 데이터를 활용하여 이루어진 실험은 기존 모형에 비해 추천 성능이 개선됨을 보였다. 실무적인 관점에서 볼 때, 본 연구는 소비자의 구매 만족도를 향상시키고 판매자의 매출을 증가시키는 데에 기여할 수 있을 것으로 기대된다.

Node2vec 그래프 임베딩과 Light GBM 링크 예측을 활용한 식음료 산업의 수출 후보국가 탐색 연구 (A Study on Searching for Export Candidate Countries of the Korean Food and Beverage Industry Using Node2vec Graph Embedding and Light GBM Link Prediction)

  • 이재성;전승표;서진이
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.73-95
    • /
    • 2021
  • 본 연구는 Node2vec 그래프 임베딩 방법과 Light GBM 링크 예측을 활용해 우리나라 식음료 산업의 미개척 수출 후보국가를 탐색한다. Node2vec은 네트워크의 공통 이웃 개수 등을 기반으로 하는 기존의 링크 예측 방법에 비해 상대적으로 취약하다고 알려져 있던 네트워크의 구조적 등위성 표현의 한계를 개선한 방법이다. 따라서 해당 방법은 네트워크의 커뮤니티 탐지와 구조적 등위성 모두에서 우수한 성능을 나타내는 것으로 알려져 있다. 이에 본 연구는 이상의 방법을 우리나라 식음료 산업의 국제 무역거래 정보에 적용했다. 이를 통해 해당 산업의 글로벌 가치사슬 관계에서 우리나라의 광범위한 마진 다각화 효과를 창출하는데 기여하고자 한다. 본 연구의 결과를 통해 도출된 최적의 예측 모델은 0.95의 정밀도와 0.79의 재현율을 기록하며 0.86의 F1 score를 기록해 우수한 성능을 나타냈다. 이상의 모델을 통해 도출한 우리나라의 잠재적 수출 후보국가들의 결과는 추가 조사를 통해 대부분 적절하게 나타난 것을 알 수 있었다. 이상의 내용을 종합하여 본 연구는 Node2vec과 Light GBM을 응용한 링크 예측 방법의 실무적 활용성에 대해 시사할 수 있었다. 그리고 모델을 학습하며 링크 예측을 보다 잘 수행할 수 있는 가중치 업데이트 전략에 대해서도 유용한 시사점을 도출할 수 있었다. 한편, 본 연구는 그래프 임베딩 기반의 링크 예측 관련 연구에서 아직까지 많이 수행된 적 없는 무역거래에 이를 적용했기에 정책적 활용성도 갖고 있다. 본 연구의 결과는 최근 미중 무역갈등이나 일본 수출 규제 등과 같은 글로벌 가치사슬의 변화에 대한 빠른 대응을 지원하며 정책적 의사결정을 위한 도구로써 충분한 유용성이 있다고 생각한다.