• 제목/요약/키워드: Training Data Set

검색결과 812건 처리시간 0.028초

피에조콘을 이용한 선행압밀하중 결정 신경망 모델의 구조 최적화 및 초기 연결강도 의존성 개선 (Structural Optimization and Improvement of Initial Weight Dependency of the Neural Network Model for Determination of Preconsolidation Pressure from Piezocone Test Result)

  • 김영상;주노아;박현일;박솔지
    • 대한토목학회논문집
    • /
    • 제29권3C호
    • /
    • pp.115-125
    • /
    • 2009
  • 지반의 응력이력을 정의하는데 이용되는 선행압밀하중은 일반적으로 일차원 실내압밀실험으로부터 결정되어져 왔으나 피에조콘과 같은 원위치 시험의 관측값을 이용한 이론적인 방법과 경험적인 상관관계를 통한 결정도 가능하다. 최근 선행압밀하중을 결정하기 위한 인공신경망 모델들이 제안된 바 있으며, 기존의 이론적 경험적 선행압밀하중 추정 방법들이 갖는 지역의존성의 문제를 극복하고 예측 정확도 면에서도 크게 개선된 것으로 보고되었다. 그러나 인공신경망 모델은 모델구조와 학습과정에서 초기에 무작위로 부여되는 연결강도에 영향을 받아 예측에 변동성이 존재한다. 본 연구에서는 기존의 피에조콘 결과를 이용한 선행압밀하중 추정 인공신경망 모델이 연약지반에서 선행압밀하중 예측 시 보이는 변동성을 개선하기 위하여 신경망 모델의 구조 최적화를 수행하고 군집신경망 모델을 구축하였다. 제안된 군집신경망 모델을 이용한 예측결과는 기존의 다층신경망 모델 및 이론적 경험적 모델들과 비교되었다. 연구결과, 최적화된 구조를 갖는 다층신경망 모델일지라도 초기 연결강도에 따라 최종 학습 후 예측결과의 변동성이 여전히 존재하나, 다층신경망을 네트워크로 연결하여 제안된 군집신경망 모델은 기존의 다층신경망 모델들이 갖는 초기 연결강도 의존성을 개선하여 다층신경망 모델에 비해 일관성 있으며 보다 정확한 예측이 가능한 것으로 나타났다.

Deep Learning-Based Computed Tomography Image Standardization to Improve Generalizability of Deep Learning-Based Hepatic Segmentation

  • Seul Bi Lee;Youngtaek Hong;Yeon Jin Cho;Dawun Jeong;Jina Lee;Soon Ho Yoon;Seunghyun Lee;Young Hun Choi;Jung-Eun Cheon
    • Korean Journal of Radiology
    • /
    • 제24권4호
    • /
    • pp.294-304
    • /
    • 2023
  • Objective: We aimed to investigate whether image standardization using deep learning-based computed tomography (CT) image conversion would improve the performance of deep learning-based automated hepatic segmentation across various reconstruction methods. Materials and Methods: We collected contrast-enhanced dual-energy CT of the abdomen that was obtained using various reconstruction methods, including filtered back projection, iterative reconstruction, optimum contrast, and monoenergetic images with 40, 60, and 80 keV. A deep learning based image conversion algorithm was developed to standardize the CT images using 142 CT examinations (128 for training and 14 for tuning). A separate set of 43 CT examinations from 42 patients (mean age, 10.1 years) was used as the test data. A commercial software program (MEDIP PRO v2.0.0.0, MEDICALIP Co. Ltd.) based on 2D U-NET was used to create liver segmentation masks with liver volume. The original 80 keV images were used as the ground truth. We used the paired t-test to compare the segmentation performance in the Dice similarity coefficient (DSC) and difference ratio of the liver volume relative to the ground truth volume before and after image standardization. The concordance correlation coefficient (CCC) was used to assess the agreement between the segmented liver volume and ground-truth volume. Results: The original CT images showed variable and poor segmentation performances. The standardized images achieved significantly higher DSCs for liver segmentation than the original images (DSC [original, 5.40%-91.27%] vs. [standardized, 93.16%-96.74%], all P < 0.001). The difference ratio of liver volume also decreased significantly after image conversion (original, 9.84%-91.37% vs. standardized, 1.99%-4.41%). In all protocols, CCCs improved after image conversion (original, -0.006-0.964 vs. standardized, 0.990-0.998). Conclusion: Deep learning-based CT image standardization can improve the performance of automated hepatic segmentation using CT images reconstructed using various methods. Deep learning-based CT image conversion may have the potential to improve the generalizability of the segmentation network.

생성형 AI의 의료적 활용과 개인정보보호 (A Study on the Medical Application and Personal Information Protection of Generative AI)

  • 이수경
    • 의료법학
    • /
    • 제24권4호
    • /
    • pp.67-101
    • /
    • 2023
  • 생성형 AI의 활용은 교육계를 넘어서 이미 의료계에서도 의료 기기에 임상 소프트웨어 등의 도입 등으로 연구되고 있다. 생성형 AI는 대규모 대화형 언어모델을 활용하여 방대한 데이터를 이해하고 자료를 선별하는 시간과 에너지를 줄여주면서 사용자와 끊임없는 대화를 통한 정보의 전달이 가능하다. 바로 이러한 점이 인류에게 생성형 AI가 혁신적인 기술의 등장으로 인정받고 있는 점이기도 하다. 그러나 반면 사용자에게 제공되는 컨텐츠의 정합성은 출처나 근거 없이 사용자에게 판단의 영역으로 맡겨지고 있다. 그러나 이 글에서는 생성형 AI를 활용함에 있어서 가장 직접적으로 발생할 수 있는 쟁점을 우선적으로 살펴보기로 한다. 따라서 이 글에서는 생성형 AI의 대표적인 프로그램인 Chat GPT의 발전과 이용자의 활용에 대비하여 특히 개인정보 보호의 쟁점에 대하여 논의하였다. 이를 위하여 먼저 생성형 AI의 기술적인 특성을 살펴본 뒤에 발생 가능한 민사적 쟁점 가운데에서도 개인정보 보호에 관한 문제를 우선적으로 살펴보았다. 생성형 AI는 그 자체로서 학습 데이터의 편향이나 출처 없는 결과값의 제공 등 여러 문제점이 제기되고 있으나, 이러한 문제점은 윤리적 문제를 내포하는 것으로 당장 임상 소프트웨어로서 의료기기에서 활용될 경우 개인정보 보호법제와 보건의료데이터의 활용 가이드로 환자 혹은 이용자의 개인정보를 보호할 수 있을 것인가에 대한 의문에 대한 논의가 시급하다고 판단되었다. 우리나라의 개인정보 보호법제는 특히 보건의료데이터의 활용에서 특정 개인의 개인정보를 가명처리하고 비식별조치를 취하는 데에 적절한 프로세스를 갖추고 있는 것으로 보이나, 생성형 AI이 소프트웨어로서 의료기기에 적용되었을 경우에도 이 법제로서 개인정보 보호의 목적을 이루기에는 어려운 점이 있다. 임상 소프트웨어에서 활용될 생성형 AI의 기능을 대비하기 위해서는 생성형 AI에 걸맞는 개인정보 보호의 법제가 필요할 것으로 보인다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

공업계열 전문계고등학교 '디지털 논리 회로' 수업에서 PSpice를 이용한 수업의 효과 (The Effect of the Instruction Using PSpice Simulation in 'Digital Logic Circuit' Subject at Industrial High School)

  • 최승우;우상호;김진수
    • 대한공업교육학회지
    • /
    • 제33권1호
    • /
    • pp.149-168
    • /
    • 2008
  • 이 연구의 목적은 공업계열 전문계고등학교의 디지털 논리 회로 과목에서 '조합 논리 회로'단원에 시뮬레이션 수업을 적용하여 학생들의 디지털 논리회로에 대한 학업성취도에 미치는 효과를 알아보는 데 있다. 이 연구를 위해 경상북도에 소재한 공업계열 전문계고등학교 3학년 2개 학급을 실험 집단과 통제 집단으로 선정하였고, 3개의 영가설을 설정하여 검증하였다. 실험 설계는 이질통제집단 전후검사 설계를 사용하였다. 실험은 총 6차시에 걸쳐 이루어 졌으며, 실험 집단에는 PSpice 시뮬레이션 수업을 적용한 후 브레드보드를 이용한 실습을 실시하였고, 통제 집단에는 전통적인 강의식 수업을 적용한 후 브레드보드를 이용한 실습을 실시하였다. 자료의 통계 처리는 SPSSWIN (ver 10.0) 프로그램을 사용하였고, 두 집단의 평균 차이가 통계적으로 유의미한지 알아보기 위해 유의수준 .05로 설정하여 독립표본 t-검증을 하였다. 이 연구에서 얻어진 결론은 다음과 같다. 첫째, 시뮬레이션 수업은 집단 유형에 따른 학업성취 전체 영역에 대해서는 효과적인 수업 방법이라고 할 수 없다. 그러나 심동적 영역에서는 학업 성취도 향상에 효과적이었다. 둘째, 시뮬레이션 수업은 학업 수준에 따른 학업성취 전체 영역에 대해서는 효과적인 수업 방법이라고 할 수 없다. 그러나 인지적 영역과 심동적 영역에서는 중 하위 집단에, 정의적 영역에서는 하위 집단에 효과적이었다. 셋째, 시뮬레이션 수업은 실습 소요 시간의 단축에 효과적인 수업 방법이라고 할 수 없다. 그러나 하위 집단의 실습 소요 시간의 단축에는 효과적이었다. 이상의 연구 결과 시뮬레이션 수업은 주로 심동적 영역에서 효과적이었고, 상위 집단보다는 하위 집단으로 갈수록 학업 성취에 있어서 효과적이라는 것을 알 수 있었다. 그러므로 다양한 교수 학습 방법을 활용함으로써 학습 효과를 높일 수 있다는 점을 시사해 준다.

혈류제한 유산소운동 프로그램의 웰니스를 위한 효과검정 - 근활성도와 운동신경원을 중심으로 - (Effect for Wellness of Blood Flow Restriction Aerobic Exercise Program - Focusing on Mscle Ativity and Mtor Nurons -)

  • 정대근;강정일;장준민
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권7호
    • /
    • pp.225-233
    • /
    • 2021
  • 본 연구는 정상인을 대상으로 건강을 위한 유산소 능력과 관계가 깊은 하지에 혈류제한 유산소 훈련을 시행함으로써 하지 근활성도와 운동신경원을 정량적으로 비교·분석하여 효과적인 혈류제한 운동프로그램의 효용성을 제시하는 기초자료를 제공하고자 한다. 압력 정도가 140 mmHg으로 혈류제한하여 트레드밀 위에서 유산소 운동을 적용한 집단 10명을 실험군I, 트레드밀 위에서 유산소 운동만 적용한 집단을 11명을 대조군으로 각각 무작위 배치한 후, 트레드밀에서 4주간, 주 3회, 1일 1회, 1회 30분간 중재 프로그램을 시행하였다. 중재 전 표면근전도를 활용하여 근활성도와 운동신경원을 측정하여 분석하였다. 연구 결과는 실험군I의 집단 내 전후 비교에서 넙다리곧은근, 넙다리두갈래근, 앞정강근 및 장딴지근의 근활성도가 유의하게 증가하였다(p<.001). 대조군의 집단 내 전후 비교에서는 넙다리곧은근, 넙다리두갈래근, 앞정강근 및 장딴지근의 근활성도가 유의하게 증가하였다(p<.001). 집단 간 변화 비교에서는 넙다리곧은근의 활성도가 유의한 차이가 있었다(p<.05). 하지 혈류제한과 병행하여 유산소운동을 접목하는 것은 엘리트선수 육성과 관절이 약한 노인 등 재활 트레이닝에 기능적인 활동을 회복시킬 수 있는 부상방지 운동프로그램 등으로 발전시킬 수 있을 것이며, 향후 연구에서 이러한 결과를 바탕으로 하여 정상인이 아닌 대상의 영역을 확대하고, 압력강도에 따른 다각적인 연구들이 필요할 것으로 사료된다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

한국 NPL시장 수익률 예측에 관한 연구 (A study on the prediction of korean NPL market return)

  • 이현수;정승환;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.123-139
    • /
    • 2019
  • 국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.