• 제목/요약/키워드: Random Models

검색결과 1,427건 처리시간 0.027초

봄철과 가을철의 기상에 의한 전국 통합 산불발생확률 모형 개발 (Development of the National Integrated Daily Weather Index (DWI) Model to Calculate Forest Fire Danger Rating in the Spring and Fall)

  • 원명수;장근창;윤석희
    • 한국농림기상학회지
    • /
    • 제20권4호
    • /
    • pp.348-356
    • /
    • 2018
  • 본 연구는 현 국가산불위험예보시스템에서 실시간으로 분석되는 기상에 의한 산불발생확률 모형의 문제점을 개선하기 위하여 수행하였다. 기존 시스템의 문제점은 제주도를 포함한 9개의 도별 산불발생확률모형으로 인해 행정경계 지역에서 산불위험등급(관심-주의-경계-심각 4단계)의 차이가 발생하여 산불담당자들간 혼선을 야기할 수 있고, 이로 인해 인접 시군 경계 간 산불대응력이 떨어질 수 있다는 것이다. 이의 해결을 위해 기존 9개의 산불발생확률모형을 하나로 통합하는 산불발생확률모형을 개발하여 신뢰도 검증과 실제로 산불이 발생한 지점에서 예측된 산불위험지수 값을 추출하여 정확도 평가를 실시하였다. 새롭게 개발한 기상에 의한 봄철과 가을철의 전국 통합 산불발생확률 모형(DWI)은 국립산림과학원에서 운영하는 국가산불위험예보시스템에 반영하여 예측모델을 개선하였다. 연구 결과, 봄철 산불발생에 영향을 주는 기상변수로는 해당 시간대의 평균기온, 상대습도, 실효습도, 평균풍속이었으며, 가을철은 평균기온, 상대습도, 평균풍속으로 나타났으며 모두 99% 신뢰수준에서 통계적으로 유의한 것으로 나타났다. 봄철과 가을철의 전국 통합 산불발생확률 모형은 각각 $[1+{\exp}\{-(2.706+(0.088^*T_{mean})-(0.055^*Rh)-(0.023^*Eh)-(0.014^*W_{mean}))\}^{-1}]^{-1}$, $[1+{\exp}\{-(1.099+(0.117^*T_{mean})-(0.069^*Rh)-(0.182^*W_{mean}))\}^{-1}]^{-1}$으로 표본내 예측력은 봄철이 71.7%, 가을철은 86.9%로 나타나 모형의 적합도는 매우 높은 것으로 나타났다. 기존의 도별 9개 모형을 하나의 전국 통합 모형으로 적용할 경우 인접 행정경계에서 발생하는 위험등급의 차이를 해소하여 산불조심기간 중 발효되는 산불위험 단계별 조치사항의 이행에 혼란을 피할 수 있다는 장점이 있다. 새롭게 개발한 전국 통합 산불발생확률 모형(DWI)의 예측 결과 검증을 위해 2014년 봄철 발생한 산불 66건을 대상으로 산불위험지수의 정확도를 평가하였으며, 주의 단계인 산불위험지수 51이상으로 예측된 지역에서 실제로 산불이 발생한 비율은 기존 9개 모형에서 74.24% (산불 49건), 새롭게 개발한 전국 통합 모형에서는 83.33% (산불 55건)가 발생하여 약 9%의 정확도 향상을 보였다. 개발된 모형은 현재 운영중인 산림청 국립산림과학원의 국가산불위험예보시스템에 반영하여 산불이 가장 많이 발생하는 봄철과 가을철 건조시기의 산불발생위험을 정확히 예측하여 산불예방은 물론 진화자원의 효율적인 배치를 통해 시간과 인적 경제적 비용을 절감하고 산불피해를 최소화 할 수 있는 선택과 집중의 산불정책에 일조할 수 있을 것으로 기대된다.

통계분석 및 전산모사 기법을 이용한 적응광학 시스템 성능 예측 (Performance Prediction for an Adaptive Optics System Using Two Analysis Methods: Statistical Analysis and Computational Simulation)

  • 한석기;주지용;이준호;박상영;김영수;정용석;정도환;허준;이기훈
    • 한국광학회지
    • /
    • 제33권4호
    • /
    • pp.167-176
    • /
    • 2022
  • 적응 광학(adaptive optics, AO)은 대기 외란을 실시간으로 보정하는 기술을 말하고, 이러한 적응광학의 효율적 개발을 위하여, 다양한 성능 예측 기법을 도입하여 적응광학이 적용된 시스템 성능 예측을 실시한다. 적응광학의 성능 예측 기법으로 자주 사용되는 기법으로는 통계분석, 전산모사 및 광학 벤치 테스트가 있다. 통계분석에서는 적응광학 시스템을 통계 분석 모델로 가정하여 오차값(분산)의 제곱을 전부 합쳐 스트렐비를 간단하게 추정한다. 다만, 하위 변수 간의 상관 관계는 무시되어 이에 따른 추정의 오류는 존재한다. 다음으로, 전산모사는 대기 난류, 파면센서, 변형거울, 폐쇄 루프 등 모든 구성요소를 가능한 한 실제와 가깝게 모델링하고, 시간 흐름에 따른 적응광학 시스템의 변화를 모두 구현하여 성능 예측을 수행한다. 다만, 전산모사 모델과 현실 사이에는 여전히 일부 차이가 있어, 광학 벤치 테스트를 통하여 시스템 성능을 확인한다. 최근 국내에서 개발된 변형 거울을 적용한 1.6 m 지상 망원경용 적응광학 시스템을 개발 중에 있어, 이에 적용 가능한 적응광학 시스템을 통하여 성능 예측 기법이 요구되며 동시에 성능 예측 기법의 비교를 진행하고자 한다. 앞서 언급된 통계분석 및 전산모사를 이용하여 시스템 성능 예측을 수행하였으며, 성능 예측의 분석을 위해 각각의 성능 예측 기법의 망원경 및 적응광학 시스템 모델링 과정 및 결과를 제시하였다. 이때 성능 예측을 위한 대기 조건으로는 보현산 관측 중앙값(median)을 적용하였다. 그 결과 통계 분석 방법의 경우 평균 스트렐 비가 0.31이 도출됨을 확인하였고, 전산모사 방법의 경우 평균 스트렐 비가 0.32를 가짐을 확인함으로써 두 방법에 의한 예측이 거의 유사함을 확인할 수 있었다. 추가적으로, 전산모사의 경우 해석 결과의 신뢰성을 확보하기 위하여, 모사 시간이 대기 임계 시간 상수의 약 240배인 0.9초 이상 수행되어야 함을 알 수 있었다.

수치표고모델 및 PSInSAR 기법을 이용한 강원도 태백시 장성동 폐석적치장의 적치량과 침하관측 (Observation of Volume Change and Subsidence at a Coal Waste Dump in Jangseong-dong, Taebaek-si, Gangwon-do by Using Digital Elevation Models and PSInSAR Technique)

  • 최은철;문지현;강태민;이훈열
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1371-1383
    • /
    • 2022
  • 본 연구에서는 강원도 태백시 장성동에 위치한 석탄 폐석 적치장에 대해 2006년부터 2018년 사이에 제작된 6개의 수치표고모델(Digital Elevation Model)을 이용하여 폐석 적치량을 산정하고, Sentinel-1 SAR 영상에 Persistent Scatterer Interferometric SAR (PSInSAR) 기법을 이용하여 침하를 관찰하였다. 수치표고모델을 이용하여 적치 활동 양상을 확인한 결과, 2006년부터 2018년까지 약 12년 동안 총 1,668,980 m3의 폐석이 적치되었다. PSInSAR 수행 후 관측되는 침하속도는 상향 및 하향 궤도 방향으로 각각 -32.3 mm/yr, -40.2 mm/yr의 최대 침하속도를 보였다. 폐석 두께가 증가함에 따라 빠른 침하속도가 관측되었으며, 적치 완료 시점이 최근일수록 침하가 빠르게 발생하는 경향이 나타났다. 상향 및 하향 궤도의 침하속도를 수직, 수평 성분으로 변환하고 임의의 참조점 22개를 설정하여 침하속도와 폐석 두께 및 적치 완료 시점과 비교하였다. 그 결과, 참조점의 침하속도는 폐석 두께와의 관계에 있어서 PSInSAR 결과와 유사하게 폐석의 두께가 두꺼워질수록 빠르게 관측되는 경향을 보였다. 반면에 적치 완료 시점과 참조점에서의 침하속도 사이의 뚜렷한 상관성이 파악되지 않았는데 22개의 참조점 중 5개를 제외한 나머지 참조점에서의 적치 완료 시점이 2010년에 지나치게 편중되어 상관성 분석이 무의미하였다. 이 연구와 같이 수치표고모델과 PSInSAR를 이용하면 폐석 적치장의 안전 관리에 있어 부족한 현장자료를 보완할 효과적인 대안책이 될 수 있을 것이라 기대된다.

Development and Testing of the Model of Health Promotion Behavior in Predicting Exercise Behavior

  • O'Donnell, Michael P.
    • Korean Journal of Health Education and Promotion
    • /
    • 제2권1호
    • /
    • pp.31-61
    • /
    • 2000
  • Introduction. Despite the fact that half of premature deaths are caused by unhealthy lifestyles such as smoking tobacco, sedentary lifestyle, alcohol and drug abuse and poor nutrition, there are no theoretical models which accurately explain these health promotion related behaviors. This study tests a new model of health behavior called the Model of Health Promotion Behavior. This model draws on elements and frameworks suggested by the Health Belief Model, Social Cognitive Theory, the Theory of Planned Action and the Health Promotion Model. This model is intended as a general model of behavior but this first test of the model uses amount of exercise as the outcome behavior. Design. This study utilized a cross sectional mail-out, mail-back survey design to determine the elements within the model that best explained intentions to exercise and those that best explained amount of exercise. A follow-up questionnaire was mailed to all respondents to the first questionnaire about 10 months after the initial survey. A pretest was conducted to refine the questionnaire and a pilot study to test the protocols and assumptions used to calculate the required sample size. Sample. The sample was drawn from 2000 eligible participants at two blue collar (utility company and part of a hospital) and two white collar (bank and pharmaceutical) companies located in Southeastern Michigan. Both white collar site had employee fitness centers and all four sites offered health promotion programs. In the first survey, 982 responses were received (49.1%) after two mailings to non-respondents and one additional mailing to secure answers to missing data, with 845 usable cases for the analyzing current intentions and 918 usable cases for the explaining of amount of current exercise analysis. In the follow-up survey, questionnaires were mailed to the 982 employees who responded to the initial survey. After one follow-up mailing to non-respondents, and one mailing to secure answers to missing data, 697 (71.0%) responses were received, with 627 (63.8%) usable cases to predict intentions and 673 (68.5%) usable cases to predict amount of exercise. Measures. The questionnaire in the initial survey had 15 scales and 134 items; these scales measured each of the variables in the model. Thirteen of the scales were drawn from the literature, all had Cronbach's alpha scores above .74 and all but three had scores above .80. The questionnaire in the second mailing had only 10 items, and measured only outcome variables. Analysis. The analysis included calculation of scale scores, Cronbach's alpha, zero order correlations, and factor analysis, ordinary least square analysis, hierarchical tests of interaction terms and path analysis, and comparisons of results based on a random split of the data and splits based on gender and employer site. The power of the regression analysis was .99 at the .01 significance level for the model as a whole. Results. Self efficacy and Non-Health Benefits emerged as the most powerful predictors of Intentions to exercise, together explaining approximately 19% of the variance in future Intentions. Intentions, and the interaction of Intentions with Barriers, with Support of Friends, and with Self Efficacy were the most consistent predictors of amount of future exercise, together explaining 38% of the variance. With the inclusion of Prior Exercise History the model explained 52% of the variance in amount of exercise 10 months later. There were very few differences in the variables that emerged as important predictors of intentions or exercise in the different employer sites or between males and females. Discussion. This new model is viable in predicting intentions to exercise and amount of exercise, both in absolute terms and when compared to existing models.

  • PDF

1시간 호우피해 규모 예측을 위한 AI 기반의 1ST-모형 개발 (Development of 1ST-Model for 1 hour-heavy rain damage scale prediction based on AI models)

  • 이준학;이하늘;강나래;황석환;김형수;김수전
    • 한국수자원학회논문집
    • /
    • 제56권5호
    • /
    • pp.311-323
    • /
    • 2023
  • 집중호우, 홍수 및 도시침수와 같은 재해를 저감시키기 위하여 자연 재난으로 인한 재해의 발생 여부를 사전에 파악하는 것은 중요하다. 현재 국내는 기상청에서 운영하고 있는 호우주의보 및 호우경보를 발령하고 있지만, 이는 전국에 일괄적인 기준으로 적용하고 있어 사전에 호우로 인한 피해를 명확하게 인지하지 못하고 있는 실정이다. 따라서, 일괄된 기준을 지역적 특성을 반영한 호우특보 기준으로 재설정하고 1시간 후에 강우로 발생할 수 있는 피해의 규모를 예측하고자 하였다. 연구 대상 지역으로는 호우피해가 가장 빈번하게 발생하였던 경기도 지역으로 선정하였고, 강우량 및 호우 피해액 자료를 활용하여 지역적 특성을 고려한 시간단위 재해 유발 강우를 설정하였다. 강우에 의한 호우피해 발생 여부를 예측하는 모형을 개발하기 위해 재해 유발 강우 및 강우 자료를 활용하였으며, 머신러닝 기법인 의사 결정 나무 모형과 랜덤 포레스트 모형을 활용하여 분석 및 비교하였다. 또한 1시간 후의 강우를 예측하기 위한 모형으로는 장단기 메모리, 심층 신경망 모형을 활용하여 분석 및 비교하였다. 최종적으로 예측 모형을 통해 예측된 강우를 훈련된 분류 모형에 적용하여 1시간 후 호우에 의한 규모별 피해 발생 여부를 예측하였고, 이를 1ST-모형이라고 정의하였다. 본 연구를 통해 개발된 1ST-모형을 활용하여 예방 및 대비 차원의 재난관리를 실시한다면 호우로 인한 피해를 저감하는데 기여 할 수 있을 것으로 판단된다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

집중형센터를 가진 역물류네트워크 평가 : 혼합형 유전알고리즘 접근법 (Evaluating Reverse Logistics Networks with Centralized Centers : Hybrid Genetic Algorithm Approach)

  • 윤영수
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.55-79
    • /
    • 2013
  • 본 연구에서는 집중형 센터를 가진 역물류네트워크(Reverse logistics network with centralized centers : RLNCC)를 효율적을 해결하기 위한 혼합형 유전알고리즘(Hybrid genetic algorithm : HGA) 접근법을 제안한다. 제안된 HGA에서는 유전알고리즘(Genetic algorithm : GA)이 주요한 알고리즘으로 사용되며, GA 실행을 위해 0 혹은 1의 값을 가질 수 있는 새로운 비트스트링 표현구조(Bit-string representation scheme), Gen and Chang(1997)이 제안한 확장샘플링공간에서의 우수해 선택전략(Elitist strategy in enlarged sampling space) 2점 교차변이 연산자(Two-point crossover operator), 랜덤 돌연변이 연산자(Random mutation operator)가 사용된다. 또한 HGA에서는 혼합형 개념 적용을 위해 Michalewicz(1994)가 제안한 반복적언덕오르기법(Iterative hill climbing method : IHCM)이 사용된다. IHCM은 지역적 탐색기법(Local search technique) 중의 하나로서 GA탐색과정에 의해 수렴된 탐색공간에 대해 정밀하게 탐색을 실시한다. RLNCC는 역물류 네트워크에서 수집센터(Collection center), 재제조센터(Remanufacturing center), 재분배센터(Redistribution center), 2차 시장(Secondary market)으로 구성되며, 이들 각 센터 및 2차 시장들 중에서 하나의 센터 및 2차 시장만 개설되는 형태를 가지고 있다. 이러한 형태의 RLNCC는 혼합정수계획법(Mixed integer programming : MIP)모델로 표현되며, MIP 모델은 수송비용, 고정비용, 제품처리비용의 총합을 최소화하는 목적함수를 가지고 있다. 수송비용은 각 센터와 2차 시장 간에 제품수송에서 발생하는 비용을 의미하며, 고정비용은 각 센터 및 2차 시장의 개설여부에 따라 결정된다. 예를 들어 만일 세 개의 수집센터(수집센터 1, 2, 3의 개설비용이 각각 10.5, 12.1, 8.9)가 고려되고, 이 중에서 수집센터 1이 개설되고, 나머지 수집센터 2, 3은 개설되지 않을 경우, 전체고정비용은 10.5가 된다. 제품처리비용은 고객으로부터 회수된 제품을 각 센터 및 2차 시장에서 처리할 경우에 발생되는 비용을 의미한다. 수치실험에서는 본 연구에서 제안된 HGA접근법과 Yun(2013)의 연구에서 제안한 GA접근법이 다양한 수행도 평가 척도에 의해 서로 비교, 분석된다. Yun(2013)이 제안한 GA는 HGA에서 사용되는 IHCM과 같은 지역적탐색기법을 가지지 않는 접근법이다. 이들 두 접근법에서 동일한 조건의 실험을 위해 총세대수 : 10,000, 집단의 크기 : 20, 교차변이 확률 : 0.5, 돌연변이 확률 : 0.1, IHCM을 위한 탐색범위 : 2.0이 사용되며, 탐색의 랜덤성을 제거하기 위해 총 20번의 반복실행이 이루어 졌다. 사례로 제시된 두 가지 형태의 RLNCC에 대해 GA와 HGA가 각각 실행되었으며, 그 실험결과는 본 연구에서 제안된 HGA가 기존의 접근법인 GA보다 더 우수하다는 것이 증명되었다. 다만 본 연구에서는 비교적 규모가 작은 RLNCC만을 고려하였기에 추후 연구에서는 보다 규모가 큰 RLNCC에 대해 비교분석이 이루어 져야 할 것이다.

효과적인 입력변수 패턴 학습을 위한 시계열 그래프 기반 합성곱 신경망 모형: 주식시장 예측에의 응용 (A Time Series Graph based Convolutional Neural Network Model for Effective Input Variable Pattern Learning : Application to the Prediction of Stock Market)

  • 이모세;안현철
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.167-181
    • /
    • 2018
  • 지난 10여 년간 딥러닝(Deep Learning)은 다양한 기계학습 알고리즘 중에서 많은 주목을 받아 왔다. 특히 이미지를 인식하고 분류하는데 효과적인 알고리즘으로 알려져 있는 합성곱 신경망(Convolutional Neural Network, CNN)은 여러 분야의 분류 및 예측 문제에 널리 응용되고 있다. 본 연구에서는 기계학습 연구에서 가장 어려운 예측 문제 중 하나인 주식시장 예측에 합성곱 신경망을 적용하고자 한다. 구체적으로 본 연구에서는 그래프를 입력값으로 사용하여 주식시장의 방향(상승 또는 하락)을 예측하는 이진분류기로써 합성곱 신경망을 적용하였다. 이는 그래프를 보고 주가지수가 오를 것인지 내릴 것인지에 대해 경향을 예측하는 이른바 기술적 분석가를 모방하는 기계학습 알고리즘을 개발하는 과제라 할 수 있다. 본 연구는 크게 다음의 네 단계로 수행된다. 첫 번째 단계에서는 데이터 세트를 5일 단위로 나눈다. 두 번째 단계에서는 5일 단위로 나눈 데이터에 대하여 그래프를 만든다. 세 번째 단계에서는 이전 단계에서 생성된 그래프를 사용하여 학습용과 검증용 데이터 세트를 나누고 합성곱 신경망 분류기를 학습시킨다. 네 번째 단계에서는 검증용 데이터 세트를 사용하여 다른 분류 모형들과 성과를 비교한다. 제안한 모델의 유효성을 검증하기 위해 2009년 1월부터 2017년 2월까지의 약 8년간의 KOSPI200 데이터 2,026건의 실험 데이터를 사용하였다. 실험 데이터 세트는 CCI, 모멘텀, ROC 등 한국 주식시장에서 사용하는 대표적인 기술지표 12개로 구성되었다. 결과적으로 실험 데이터 세트에 합성곱 신경망 알고리즘을 적용하였을 때 로지스틱회귀모형, 단일계층신경망, SVM과 비교하여 제안모형인 CNN이 통계적으로 유의한 수준의 예측 정확도를 나타냈다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.