• 제목/요약/키워드: Text-Mining

검색결과 1,510건 처리시간 0.028초

산지하천을 대상으로 한 국내 연구동향 분석: 국제 연구동향과의 비교 (Analysis of Research Trends on Mountain Streams in the Republic of Korea: Comparison to International Research Trends)

  • 이상인;서정일;이요한;김석우;전근우
    • 한국환경생태학회지
    • /
    • 제33권2호
    • /
    • pp.216-227
    • /
    • 2019
  • 이 연구에서는 우리나라의 자연환경 조건 및 사회적 요구를 반영한 산지하천의 합리적 관리방안을 제시하기 위한 연구의 일환으로 산지하천을 대상으로 한 국제 국내 연구논문을 수집 및 분석한 후, VOSviewer 프로그램을 이용한 텍스트마이닝과 동시출현단어 분석을 통하여 연구주제에 따른 연구영역을 구별하였으며, 이후 각 연구영역별로 시 공간적인 연구동향을 비교하였다. 그 결과, 산지하천을 대상으로 한 국내 연구논문은 국제 연구논문에 비하여 초보적인 단계에 있음을 확인할 수 있었다. 즉, 국제 연구논문은 산지하천의 어류 및 무척추동물의 서식환경과 종구성에 관한 연구영역(제1연구영역), 산지하천에서의 수문현상 및 양분이동에 관한 연구영역(제2연구영역), 산지하천에서의 유수에 의한 하상물질 이동 및 지형 변화에 관한 연구영역(제3연구영역), 산지하천 주변의 식물종 구성에 관한 연구영역(제4연구영역)으로 구분되었다. 이 중 제1연구영역과 관련된 국내 연구논문은 주로 대형무척추동물만을 연구소재로 하고 있었으며, 제3연구영역과 관련된 국내 연구논문은 유수에 의한 하상물질 이동 및 지형 변화를 생태계의 교란작용이 아닌 산지토사재해의 원인으로 간주하고 있다는 것을 알 수 있었다. 이렇게 구분된 각 연구영역이 전체 연구논문 중에서 점유하고 있는 비율을 시기별 국가별로 파악한 결과, 국제 연구논문의 경우 3 4연구영역에 해당하는 연구논문이 증가하는 것으로 나타났으며, 여기에는 미국을 중심으로 브라질 캐나다 중국의 영향이 크게 작용하였다. 이와 달리 국내 연구논문의 경우 1 3연구영역에 해당하는 연구논문이 시간의 경과에 따라 다소 증가하였으나, 이 두 연구영역 간 상호 연관성은 다소 부족한 것으로 나타났다. 따라서 향후에는 이를 보완한 하이브리드 성격의 연구가 필요할 것으로 사료된다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.

온라인 과학 기사 텍스트 마이닝을 통해 분석한 에너지 용어 사용의 맥락 (Analyzing Different Contexts for Energy Terms through Text Mining of Online Science News Articles)

  • 오치영;강남화
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.292-303
    • /
    • 2021
  • 본 연구에서는 일상생활에서 에너지 용어가 사용되는 맥락을 알아보기 위하여 온라인 과학 기사를 수집하여 언어 네트워크, 토픽 모델링 분석 기법을 활용해 에너지 관련 기사에 사용된 용어의 빈도, 용어 네트워크, 기사의 주제를 분석하였다. 분석에 사용된 자료는 2018.3.1.부터 1년간의 온라인 과학 분야의 기사 중 에너지를 검색어로 하여 10개의 국내 중앙지에서 검색 및 선정된 2,171편이다. 이 기사들을 자연어 처리하여 51,224개의 문장과 507,901개의 단어로 데이터를 구성하였다. R 프로그램을 활용하여 용어 빈도수 분석 및 언어 네트워크 분석을 실시하였고, 에너지 용어 사용의 맥락 탐색을 위해 구조적 토픽 모델링 분석을 적용해 기사의 주제를 도출하였다. 기사에 사용된 용어 중 빈도수가 유난히 높은 용어는 기술, 연구, 개발로 새로운 소식을 알리는 기사의 특성을 반영한 것으로 나타났다. 한편, 기사 2편당 한 번 이상의 빈도로 사용되는 용어에는 산업 관련 용어(산업, 제품, 시스템, 생산, 시장)와 '전기', '환경'과 같이 에너지 관련 용어로 충분히 기대되는 용어들이 있었다. 한편, 에너지 관련 과학 수업에서 자주 사용되는 '태양', '열', '온도', '발전'도 빈도수 상위에 속하는 용어로 드러났다. 용어 네트워크 분석에서는 산업 및 기술과 관련된 용어와 기초과학 및 연구 관련 용어들이 약한 강도이지만 서로 군집을 이루는 것을 확인하였다. 한편, 에너지와 쌍을 이루는 용어의 분석에서는 '에너지 효율'을 비롯해 '에너지 절감', '에너지 소비' 등과 같이 에너지의 사용에 관한 용어들이 다수를 이루고 그 사용 빈도가 가장 높았다. 에너지 용어가 사용되는 맥락은 16개의 주제를 분류한 4가지 영역으로 '첨단산업', '산업', '기초과학', '환경 및 건강'으로 나타났다. 에너지 사용 관련 용어가 상당히 많이 사용된다는 결과는 에너지 수업의 시작점으로 에너지 저급화 개념의 도입이 효과적일 수 있음을 시사한다. 또한, 첨단산업이나 환경 및 건강의 맥락을 에너지 학습에 도입할 필요성도 보여준다. 본 연구에서 드러난 16개 주제에서 보이는 다양한 에너지 용어가 사용되는 맥락을 재구성해 에너지 관련 수업에 활용한다면 학생들이 학교에서의 에너지 학습과 일상적 상황을 통합적으로 인식하는 데 도움이 될 것이다.

산업별 지속가능경영 전략 고찰: ESG 보고서와 뉴스 기사를 중심으로 (A Study on Industry-specific Sustainability Strategy: Analyzing ESG Reports and News Articles)

  • 김원희;권영옥
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.287-316
    • /
    • 2023
  • 최근 전 세계적으로 기업의 환경(Environmental)·사회(Social)·지배구조(Governance)의 비재무적 요소를 고려한 지속가능경영이 필수적으로 요구되면서, 각 기업들은 이에 대응할 수 있는 전략적 방향 수립이 중요해지고 있다. 특히 기업이 속한 산업별로 상이한 ESG 이슈에 대한 이해를 바탕으로 산업과 개별 기업의 특성을 반영한 전략을 개발하고 추진할 수 있어야 할 것이다. 이에 본 연구에서는 금융, 제조, IT 분야별로 나누어 주요 국내 기업들의 ESG 보고서와 관련 뉴스 기사를 이용하여 산업별 ESG 동향과 활동을 비교 분석하였다. 키워드 빈도분석과 토픽 모델링을 활용한 분석 결과, 국내 ESG 선도 기업들의 지속가능경영 활동에서의 산업별 차이를 도출 할 수 있다. 금융 분야에서는 '고객 중심 경영'과 '기후 변화 대응', 제조 분야에서는 '지속가능한 공급망 관리'와 '탄소중립', IT 분야에서는 '기술혁신'과 '디지털 책임'이 강조되었다. ESG 요소별 우선 순위가 높은 활동의 예를 들면, 환경 측면에서는 '에너지 절감과 친환경 활동', 사회 측면에서는 '사회공헌과 상생', 지배구조 측면에서는 '이사회 독립성 강화와 리스크 관리' 등으로 나타났다. 더 나아가 산업별 각 ESG 요소의 핵심 이슈 뿐 아니라 ESG 보고서와 뉴스 기사의 내용 유사성 및 차별점도 확인하였다. 연구의 결과는 산업별 동향을 고려한 ESG 경영 전략 및 정책의 방향성을 제시하고 있으며 이는 산업별 ESG 평가체계 수립에도 도움이 될 것으로 기대한다.

건강추천시스템(HRS) 연구 동향: 인용네트워크 분석과 GraphSAGE를 활용하여 (Research Trends of Health Recommender Systems (HRS): Applying Citation Network Analysis and GraphSAGE)

  • 장하렴;유지수;양성병
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.57-84
    • /
    • 2023
  • 현대사회는 정보통신기술 및 빅데이터 기술의 발전으로 누구나 인터넷을 통해 손쉽게 방대한 데이터를 얻고 활용할 수 있는 시대로, 양질의 데이터를 수집하는 능력을 넘어 수많은 정보 속에서 올바른 데이터만을 선별하는 능력이 더욱 중요해지고 있다. 이러한 기조는 학계에서도 이어지고 있는데, 축적되는 연구물 속에서 양질의 연구를 선별하여 올바른 지식구조를 형성하기 위해, 다양한 연구 분야에서 체계적 고찰(systematic review) 및 비체계적 고찰(non-systematic review)과 같은 문헌연구(literature review)가 수행되고 있다. 한편, 코로나19 팬데믹 이후 의료산업에서도 그동안 합의에 이르지 못했던 원격의료가 제한적으로나마 허용되고, 인공지능 및 빅데이터 기술이 응용된 건강추천시스템(health recommender systems: HRS)과 같은 새로운 의료서비스가 각광을 받고 있다. 하지만, 실무적으로 HRS가 미래 의료산업 발전을 이끌 중요한 기술로 평가받고 있음에도 불구하고, 학술적인 문헌연구는 다른 분야에 비해 매우 부족한 실정이다. 더불어 HRS는 학제적 성격이 강한 융합 분야임에도 불구하고, 기존의 문헌연구는 비체계적 고찰과 체계적 고찰 방법만을 주로 활용하여 이뤄졌기 때문에, 다른 연구 분야와의 상호작용이나 동적인 관계를 유추하기에는 한계가 존재한다. 이에, 본 연구에서는 인용네트워크 분석(citation network analysis: CNA)을 활용하여 HRS 및 주변 연구 분야의 전체적인 네트워크 구조를 파악하였다. 또한, 이 과정에서 최신 논문이 인용 관계가 잘 나타나지 않는 문제를 보완하기 위해 GraphSAGE 알고리즘을 적용함으로써, HRS 연구에 있어 'recommender system', 'wireless & IoT', 'computer vision', 'text mining' 등과 같은 연구 분야들의 중요도가 높아지고 있음을 파악하였으며, 이와 동시에 개인화(personalization) 및 개인정보보호(privacy) 등과 같은 새로운 키워드가 주요 이슈로 등장하고 있음을 확인하였다. 본 연구를 통해 HRS 연구 커뮤니티의 구조를 파악하고, 관련된 연구 동향을 살펴보며, 미래 HRS 연구 방향을 설계함에 있어 실질적인 통찰을 제공할 수 있을 것으로 기대한다.

국내 ESG 연구동향 탐색: 2012~2021년 진행된 국내 학술연구 중심으로 (Exploring Domestic ESG Research Trends: Focusing on Domestic Research on ESG from 2012 to 2021)

  • 박재현;한향원;김나라
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.191-211
    • /
    • 2022
  • 글로벌 지속가능성이 큰 기업들의 가치가 높아짐에 따라 ESG가 최대 화두로 주목받고 있다. 이러한 배경에서 전반적인 글로벌 흐름에 맞추어 국내 ESG에 관한 학문 연구도 급속하게 증가하고 있다. 이에 본 연구에서는 국내 ESG 연구 동향을 살펴보기 위해 체계적 문헌 고찰방법론을 활용하여 ESG 연구의 학문적 관심도 변화를 살펴보고 연구의 주요키워드들을 추출하였다. 이를 위해 지난 10년간 연구가 진행된 ESG 학술논문들을 연도별로 수집하고, 핵심주제어와 논문 제목을 활용하여 텍스트마이닝 기법으로 빈도분석을 하였다. 연구결과 첫째, 국내 ESG 학술논문들의 연도별 게재 수를 계랑 서지학 분석의 누적 수로 분석한 결과 해마다 ESG 연구논문들의 게재수가 증가하고 있으며 이를 통해 ESG 이슈에 대한 학문적 관심도의 지속적인 증가를 확인하였다. 둘째, 연구대상 논문들의 핵심주제어와 논문 제목의 빈도분석 결과로 ESG, 기업, 사회, 책임, 경영, 투자, 지속가능의 단어들이 추출되었다. 또한, 해외에서 체계적 문헌고찰로 진행된 연구를 바탕으로 국내외 ESG 주요키워드들이 공통으로 책임, 지속가능, 경영 임을 확인하였다. 그리고 최근 국외 연구에서 제시한 ESG 주요 이슈와 본 연구에서 제시한 ESG 핵심키워드들의 공통요소들을 비교한 결과 과거 연구들과 비교하면 최근 연구의 관심사가 환경임을 확인할 수 있었다. 셋째, 국내 ESG 연구들이 활용한 데이터들은 주로 KEJI 지수, KRX 지수, KCGS ESG 평가지수 등이 있음을 알 수 있었고, 그리고 중소기업을 대상으로 한 연구는 전체 152편 중 총 8편으로 현저하게 부족함을 확인하였다. 본 연구를 통해 ESG 연구 동향과 연구의 증가 폭을 확인할 수 있었으며, 향후 후속 연구자들이 연구주제 및 연구키워드에 대해 구분하고 더욱 다양한 연구주제 선정하는데 기초자료를 제시하였다. 또한, 중소기업 대상 학문 연구는 아직 미흡하거나 부족하여 이에 관한 관심과 연구가 강화될 필요가 있으며, 빠르게 급변하는 시장에서 실무적으로 접목할 수 있는 ESG 실천 지침 등을 고려한 후속 연구가 필요하다.

데이터 마이닝과 텍스트 마이닝의 통합적 접근을 통한 병사 사고예측 모델 개발 (Development of the Accident Prediction Model for Enlisted Men through an Integrated Approach to Datamining and Textmining)

  • 윤승진;김수환;신경식
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.1-17
    • /
    • 2015
  • 최근, 군에서 가장 이슈가 되고 있는 문제는 기강 해이, 복무 부적응 등으로 인한 병력 사고이다. 이 같은 사고를 예방하는 데 있어 가장 중요한 것은, 사고의 요인이 될 수 있는 문제를 사전에 식별 관리하는 것이다. 이를 위해서 지휘관들은 병사들과의 면담, 생활관 순찰, 부모님과의 대화 등 나름대로의 노력을 기울이고 있기는 하지만, 지휘관 개개인의 역량에 따라 사고 징후를 식별하는 데 큰 차이가 나는 것이 현실이다. 본 연구에서는 이러한 문제점을 극복하고자 모든 지휘관들이 쉽게 획득 가능한 객관적 데이터를 활용하여 사고를 예측해 보려 한다. 최근에는 병사들의 생활지도기록부 DB화가 잘 되어있을 뿐 아니라 지휘관들이 병사들과 SNS상에서 소통하며 정보를 얻기 때문에 이를 데이터화 하여 잘 활용한다면 병사들의 사고예측 및 예방이 가능하다고 판단하였다. 본 연구는 이러한 병사의 내부데이터(생활지도기록부) 및 외부데이터(SNS)를 활용하여 그들의 관심분야를 파악하고 사고를 예측, 이를 지휘에 활용하는 데이터마이닝 문제를 다루며, 그 방법으로 토픽분석 및 의사결정나무 방법을 제안한다. 연구는 크게 두 흐름으로 진행하였다. 첫 번째는 병사들의 SNS에서 토픽을 분석하고 이를 독립변수화 하였고 두 번째는 병사들의 내부데이터에 이 토픽분석결과를 독립변수로 추가하여 의사결정나무를 수행하였다. 이 때 종속변수는 병사들의 사고유무이다. 분석결과 사고 예측 정확도가 약 92%로 뛰어난 예측력을 보였다. 본 연구를 기반으로 향후 장병들의 사고예측을 과학적으로 분석, 맞춤식으로 관리한다면 군대 내 각종 사고를 미연에 예방하는데 기여할 것으로 기대된다.

사용자 리뷰의 평가기준 별 이슈 식별 방법론: 호텔 리뷰 사이트를 중심으로 (Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria: Focus on a Hotel Information Site)

  • 변성호;이동훈;김남규
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.23-43
    • /
    • 2016
  • 최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.