• 제목/요약/키워드: business intelligence

검색결과 1,224건 처리시간 0.024초

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

음악과 플레이리스트의 메타데이터를 활용한 하이브리드 음악 추천 시스템에 관한 연구 (Research on hybrid music recommendation system using metadata of music tracks and playlists)

  • 이현태;임규건
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.145-165
    • /
    • 2023
  • 추천 시스템은 인터넷의 발달로 급격하게 증가하는 정보의 양으로 인해 생긴 정보 선택의 어려움을 소비자에게 덜어주고 각 개인의 취향에 맞는 정보를 효율적으로 보여주는 중요한 역할을 한다. 특히, E-commerce와 OTT 기업은 상품과 콘텐츠 양이 급격하게 증가하면서 추천 시스템의 도움 없이는 인기 있는 상품만 소비되는 현상을 극복하지 못한다. 이러한 현상을 극복하고 고객 개인 취향에 맞는 정보 혹은 콘텐츠를 제공해 고객의 소비를 유도하기 위해 추천 시스템의 연구가 활발히 진행되고 있다. 일반적으로 유저(user)의 과거 행동 이력을 활용한 협업 필터링이 유저가 선호한 콘텐츠의 정보를 활용하는 콘텐츠 기반 필터링에 비해 높은 성능을 보여준다. 하지만 협업 필터링은 과거 행동 데이터가 부족한 유저에 대해서는 추천의 성능이 낮아지는 콜드 스타트(Cold Start) 문제를 겪게 된다. 본 논문에서는 카카오 아레나 경진대회에서 주어진 음악 스트리밍 서비스 멜론의 플레이리스트 데이터를 기반으로 앞에서 언급한 콜드 스타트 문제를 해결할 수 있는 하이브리드 음악 추천 시스템을 제시했다. 본 연구에서는 플레이리스트에 수록된 곡 목록과 각 음악과 플레이리스트의 메타데이터를 활용해 절반 혹은 전부 가려진 플레이리스트의 다른 수록 곡을 예측하는 것을 목표로 하였다. 이를 위해 플레이리스트 안에 곡이 있는 경우와 아예 곡이 없는 경우를 나눠서 추천을 진행하였다. 플레이리스트 안에 곡이 있는 경우에는 해당 플레이리스트의 곡 목록과 각 곡의 메타데이터를 활용하기 위해 LightFM을 활용하였다. 그 다음에 Item2Vec을 활용해 플레이리스트에 있는 수록 곡과 태그 및 제목의 임베딩 벡터를 생성하고 이를 추천에 활용하였다. 최종적으로 LightFM과 Item2Vec 모델의 앙상블을 통해 최종 추천 결과를 생성하였다. 플레이리스트 안에 곡이 없고 태그 혹은 제목만이 존재할 경우에는 플레이리스트의 메타데이터인 태그와 제목을 FastText를 활용해 사전 학습을 시켜 생성된 플레이리스트 벡터를 기반으로 플레이리스트 간의 유사도를 활용하여 추천을 진행하였다. 이렇게 추천한 결과, 기존 Matrix Factorization(MF)에서 해결하지 못한 콜드 스타트 문제를 해결할 수 있었을 뿐만 아니라 곡과 플레이리스트의 메타데이터를 활용해 기존 MF 모델인 ALS와 BPR 그리고 Word2Vec 기반으로 추천해 주는 Item2Vec 기술보다 높은 추천 성능을 낼 수 있었다. 또한, LightFM을 토대로 다양한 곡의 메타데이터를 실험한 결과, 여러 메타데이터 중에서 아티스트 정보를 단독으로 활용한 LightFM 모델이 다른 메타데이터를 활용한 LightFM 모델들과 비교해 가장 높은 성능을 보여준다는 것을 확인할 수 있었다.

산업별 지속가능경영 전략 고찰: ESG 보고서와 뉴스 기사를 중심으로 (A Study on Industry-specific Sustainability Strategy: Analyzing ESG Reports and News Articles)

  • 김원희;권영옥
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.287-316
    • /
    • 2023
  • 최근 전 세계적으로 기업의 환경(Environmental)·사회(Social)·지배구조(Governance)의 비재무적 요소를 고려한 지속가능경영이 필수적으로 요구되면서, 각 기업들은 이에 대응할 수 있는 전략적 방향 수립이 중요해지고 있다. 특히 기업이 속한 산업별로 상이한 ESG 이슈에 대한 이해를 바탕으로 산업과 개별 기업의 특성을 반영한 전략을 개발하고 추진할 수 있어야 할 것이다. 이에 본 연구에서는 금융, 제조, IT 분야별로 나누어 주요 국내 기업들의 ESG 보고서와 관련 뉴스 기사를 이용하여 산업별 ESG 동향과 활동을 비교 분석하였다. 키워드 빈도분석과 토픽 모델링을 활용한 분석 결과, 국내 ESG 선도 기업들의 지속가능경영 활동에서의 산업별 차이를 도출 할 수 있다. 금융 분야에서는 '고객 중심 경영'과 '기후 변화 대응', 제조 분야에서는 '지속가능한 공급망 관리'와 '탄소중립', IT 분야에서는 '기술혁신'과 '디지털 책임'이 강조되었다. ESG 요소별 우선 순위가 높은 활동의 예를 들면, 환경 측면에서는 '에너지 절감과 친환경 활동', 사회 측면에서는 '사회공헌과 상생', 지배구조 측면에서는 '이사회 독립성 강화와 리스크 관리' 등으로 나타났다. 더 나아가 산업별 각 ESG 요소의 핵심 이슈 뿐 아니라 ESG 보고서와 뉴스 기사의 내용 유사성 및 차별점도 확인하였다. 연구의 결과는 산업별 동향을 고려한 ESG 경영 전략 및 정책의 방향성을 제시하고 있으며 이는 산업별 ESG 평가체계 수립에도 도움이 될 것으로 기대한다.

미세먼지 예측 성능 개선을 위한 시공간 트랜스포머 모델의 적용 (Application of spatiotemporal transformer model to improve prediction performance of particulate matter concentration)

  • 김영광;김복주;안성만
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.329-352
    • /
    • 2022
  • 미세먼지는 폐나 혈관에 침투해 각종 심장 질환이나 폐암 등의 호흡기 질환을 일으키는 것으로 보고되고 있다. 지하철은 일 평균 천만 명이 이용하는 교통수단으로, 깨끗하고 쾌적한 환경조성이 중요하나 지하터널을 통과하는 지하철의 운행 특성과 터널에 갇힌 미세먼지가 열차 풍으로 인해 지하역사로 이동하는 등의 문제로 지하역사의 미세먼지 오염도는 높은 것으로 나타나고 있다. 환경부와 서울시는 지하역사 공기질 개선대책을 수립하여 다양한 미세먼지 저감 노력을 기울이고 있다. 스마트 공기질 관리 시스템은 공기질 데이터 수집 및 미세먼지 농도를 예측하여 공기질을 관리하는 시스템으로 미세먼지 농도 예측 모델이 중요한 구성 요소이다. 그동안 시계열 데이터 예측에 관한 다양한 연구가 진행되어왔지만, 지하철 역사의 미세먼지 농도 예측과 관련해서는 통계나 순환신경망 기반의 딥러닝 모델 연구에 국한되어 있다. 이에 본 연구에서는 시공간 트랜스포머를 포함한 4개의 트랜스포머 기반 모델을 제안한다. 서울시 지하철 역사의 대합실을 대상으로 한 시간 후의 미세먼지 농도 예측실험을 수행한 결과, 트랜스포머 기반 모델들의 성능이 기존의 ARIMA, LSTM, Seq2Seq 모델들에 비해 우수한 성능을 나타냄을 확인하였다. 트랜스포머 기반 모델 중에서는 시공간 트랜스포머의 성능이 가장 우수하였다. 데이터 기반의 예측을 통하여 운영되는 스마트 공기질 관리 시스템은 미세먼지 예측의 정확도가 향상될수록 더욱더 효과적이고 에너지 효율적으로 운영될 수 있다. 본 연구 결과는 스마트 공기질 관리 시스템의 효율적 운영에 기여할 수 있을 것으로 기대된다.

온라인 언급이 기업 성과에 미치는 영향 분석 : 뉴스 감성분석을 통한 기업별 주가 예측 (Influence analysis of Internet buzz to corporate performance : Individual stock price prediction using sentiment analysis of online news)

  • 정지선;김동성;김종우
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.37-51
    • /
    • 2015
  • 인터넷 기술의 발전과 인터넷 상 데이터의 급속한 증가로 인해 데이터의 활용 목적에 적합한 분석방안 연구들이 활발히 진행되고 있다. 최근에는 텍스트 마이닝 기법의 활용에 대한 연구들이 이루어지고 있으며, 특히 문서 내 텍스트를 기반으로 문장이나 어휘의 긍정, 부정과 같은 극성 분포에 따라 의견을 스코어링(scoring)하는 감성분석과 관련된 연구들도 다수 이루어지고 있다. 이러한 연구의 연장선상에서, 본 연구는 인터넷 상의 특정 기업에 대한 뉴스 데이터를 수집하여 이들의 감성분석을 실시함으로써 주가의 등락에 대한 예측을 시도하였다. 개별 기업의 뉴스 정보는 해당 기업의 주가에 영향을 미치는 요인으로, 적절한 데이터 분석을 통해 주가 변동 예측에 유용하게 활용될 수 있을 것으로 기대된다. 따라서 본 연구에서는 개별 기업의 온라인 뉴스 데이터에 대한 감성분석을 바탕으로 개별 기업의 주가 변화 예측을 꾀하였다. 이를 위해, KOSPI200의 상위 종목들을 분석 대상으로 선정하여 국내 대표적 검색 포털 서비스인 네이버에서 약 2년간 발생된 개별 기업의 뉴스 데이터를 수집 분석하였다. 기업별 경영 활동 영역에 따라 기업 온라인 뉴스에 나타나는 어휘의 상이함을 고려하여 각 개별 기업의 어휘사전을 구축하여 분석에 활용함으로써 감성분석의 성능 향상을 도모하였다. 분석결과, 기업별 일간 주가 등락여부에 대한 예측 정확도는 상이했으며 평균적으로 약 56%의 예측률을 보였다. 산업 구분에 따른 주가 예측 정확도를 통하여 '에너지/화학', '생활소비재', '경기소비재'의 산업군이 상대적으로 높은 주가 예측 정확도를 보임을 확인하였으며, '정보기술'과 '조선/운송' 산업군은 주가 예측 정확도가 낮은 것으로 확인되었다. 본 논문은 온라인 뉴스 정보를 활용한 기업의 어휘사전 구축을 통해 개별 기업의 주가 등락 예측에 대한 분석을 수행하였으며, 향후 감성사전 구축 시 불필요한 어휘가 추가되는 문제점을 보완한 연구 수행을 통하여 주가 예측 정확도를 높이는 방안을 모색할 수 있을 것이다.

사용자 리뷰를 통한 소셜커머스와 오픈마켓의 이용경험 비교분석 (A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce)

  • 채승훈;임재익;강주영
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.53-77
    • /
    • 2015
  • 국내 모바일 커머스 시장은 현재 소셜커머스가 이용자 수 측면에서 오픈마켓을 압도하고 있는 상황이다. 산업계에서는 모바일 시장에서 소셜커머스의 성장에 대해 빠른 모바일 시장진입, 큐레이션 모델 등을 주요 성공요인으로 제시하고 있지만, 이에 대한 학계의 실증적인 연구 및 분석은 아직 미미한 상황이다. 본 연구에서는 사용자 리뷰를 바탕으로 모바일 소셜커머스와 오픈마켓의 사용자 이용경험을 비교 분석하는 탐험적인 연구를 수행하였다. 먼저 본 연구는 구글 플레이에 등록된 국내 소셜커머스 주요 3개 업체와 오픈마켓 주요 3개 업체의 모바일 앱 리뷰를 수집하였다. 본 연구는 LDA 토픽모델링을 통해 1만여건에 달하는 모바일 소셜커머스와 오픈마켓 사용자 리뷰를 지각된 유용성과 지각된 편리성 토픽으로 분류한 뒤 감정분석과 동시출현단어분석을 수행하였다. 이를 통해 본 연구는 국내 모바일 커머스 상에서 오픈마켓 이용자들에 비해 소셜커머스 이용자들이 서비스와 이용편리성 측면에서 더 긍정적인 경험을 하고 있음을 증명하였다. 소셜커머스는 '배송', '쿠폰', '할인'을 중심으로 서비스 측면에서 이용자들에게 긍정적인 이용경험을 이끌어내고 있는 반면, 오픈마켓의 경우 '로그인 안됨', '상세보기 불편', '멈춤'과 같은 기술적 문제 및 불편으로 인한 이용자 불만이 높았다. 이와 같이 본 연구는 사용자 리뷰를 통해 서비스 이용경험을 효과적으로 비교 분석할 수 있는 탐험적인 실증연구법을 제시하였다. 구체적으로 본 연구는 LDA 토픽모델링과 기술수용모형을 통해 사용자 리뷰를 서비스와 기술 토픽으로 분류하여 효과적으로 분석할 수 있는 새로운 방법을 제시하였다는 점에서 의의가 있다. 또한 본 연구의 결과는 향후 소셜커머스와 오픈마켓의 경쟁 및 벤치마킹 전략에 중요하게 활용될 수 있을 것으로 기대된다.

신규시장 성장모형의 모수 추정을 위한 전문가 시스템 (An Expert System for the Estimation of the Growth Curve Parameters of New Markets)

  • 이동원;정여진;정재권;박도형
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.17-35
    • /
    • 2015
  • 시장 수요 예측은 일정 기간 동안 소비자에게 판매되는 동종 제품 또는 서비스의 수량 혹은 매출액의 규모를 추정하는 활동으로서, 기업경영활동에 있어 효율적인 의사결정을 내릴 수 있는 근거로 활용된다는 점에서 중요하게 인식되고 있다. 신규 시장의 수요를 예측하기 위해 다양한 시장성장모형이 개발되어 왔다. 이런 모형들은 일반적으로 시장의 크기 변화의 동인을 신기술 확산으로 보고 소비자인 개인에게 기술이 확산되는 과정을 통해 시장 크기가 변하는 과정을 확산모형으로 구현하게 된다. 그러나, 시장이 형성된 직후에는 수요 관측치의 부족으로 인해 혁신계수, 모방계수와 같은 예측모형의 모수를 정확하게 추정하는 것이 쉽지 않다. 이런 경우, 전문가의 판단 하에 예측하고자 하는 시장과 유사한 시장을 결정하고 이를 참고하여 모수를 추정하게 되는데, 어떤 시장을 유사하다고 판단하느냐에 따라 성장모형은 크게 달라지게 되므로, 정확한 예측을 위해서는 유사 시장을 찾는 것은 매우 중요하다. 그러나, 이런 방식은 직관과 경험이라는 정성적 판단에 크게 의존함으로써 일관성이 떨어질 수밖에 없으며, 결국, 만족할 만한 수준의 결과를 얻기 힘들다는 단점을 지닌다. 이런 정성적 방법은 유사도가 더 높은 시장을 누락시키고 유사도가 낮은 시장을 선택하는 오류를 일으킬 수 있다. 이런 이유로, 본 연구는 신규 시장의 모수를 추정하기 위해 필요한 유사시장을 누락 없이 효과적으로 찾아낼 수 있는 사례기반 전문가 시스템을 설계하고자 수행되었다. 제안된 모형은 데이터 마이닝의 군집분석 기법과 추천 시스템의 내용 기반 필터링 방법론을 기반으로 전문가 시스템으로 구현되었다. 본 연구에서 개발된 시스템의 유용성을 확인하고자 정보통신분야 시장의 모수를 추정하는 실험을 실시하였다. 전문가를 대상으로 실시된 실험에서, 시스템을 사용한 모수의 추정치가 시스템을 사용하지 않았을 때와 비교하여 실제 모수와 더 가까움을 보임으로써 시스템의 유용성을 증명하였다.

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

  • 이정미;류미나;임규건
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.149-169
    • /
    • 2018
  • 본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.

지식 공유의 파레토 비율 및 불평등 정도와 가상 지식 협업: 위키피디아 행위 데이터 분석 (Pareto Ratio and Inequality Level of Knowledge Sharing in Virtual Knowledge Collaboration: Analysis of Behaviors on Wikipedia)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.19-43
    • /
    • 2014
  • 전체 결과의 80%가 전체 원인의 20%에 의해 일어난다는 파레토 법칙(Pareto principle)은 상위 20%의 핵심 고객에 대한 우선적인 마케팅을 비롯하여 기업 경영의 많은 부분에서 적용되어 왔다. 파레토 법칙과는 대조적으로, 80%의 사소한 다수가 20%의 핵심적인 소수보다 우월한 가치를 창출한다는 롱테일 법칙(Long Tail theory)은 ICT(Information and Communication Technology)의 발전과 함께 새로운 경영 패러다임으로 주목 받아오고 있다. 본 연구의 목적은 경영 현장에서 양대 흐름을 형성해온 이러한 법칙들이 변화무쌍한 글로벌 가상화 환경에서 기업의 핵심적인 성공 요인이라고 할 수 있는 가상 지식 협업에는 어떻게 관련되는지를 규명하는 것이다. 이를 위해, 대표적인 가상 지식 협업 커뮤니티인 위키피디아에서 품질 최상위 등급인 피쳐드 아티클(Featured Article) 레벨로 승급된 2,978개의 아티클에 대한 협업 행위를 분석하였다. 즉, 각 아티클 그룹에서 편집 횟수 기준 상위 20%에 속하는 참여자들의 총 편집 횟수가 전체 편집 횟수에서 차지하는 비율인 파레토 비율(Pareto ratio)이 지식 협업 효율성과 어떤 관계를 가지고 있는지를 도출하였다. 그리고, 이러한 연구를 편집 참여를 통한 지식 공유에 대한 전체적인 불평등 정도를 나타내는 지니 계수(Gini coefficient)의 영향 및 그룹의 작업 특성을 반영하도록 확장하였다. 결과적으로, 지식 공유의 파레토 비율과 지니 계수가 증가하면 지식 협업 효율성도 높아지지만, 이러한 변수들이 일정 수준 이상으로 증가하면 오히려 지식 협업 효율성이 낮아지는 역 U자(inverted U-shaped) 관계가 있음을 확인하였다. 그리고, 이러한 관계는 인지적 노력을 상대적으로 더 많이 요구하는 학문적인 특성의 작업에서 더 민감하게 작용하는 것으로 보인다.

뉴스기사를 이용한 소비자의 경기심리지수 생성 (Construction of Consumer Confidence index based on Sentiment analysis using News articles)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.1-27
    • /
    • 2017
  • 경제주체들의 경기상황에 대한 판단 및 전망은 경기변동에 영향을 미치므로 경기심리지수와 거시경제지표들 간에는 밀접한 관련성을 나타내는 것으로 알려져 있다. 경기선행지표로 국내에서 많이 사용되는 경기심리지수에는 소비자동향조사, 기업경기조사, 경제심리지수가 있다. 그러나 설문조사를 통해 생성된 지수는 자료의 성격상 속보성이 떨어지는 문제가 있다. 본 연구에서는 이러한 정형데이터의 한계를 보완할 수 있도록 비정형데이터에서 정보를 추출해 경기심리지수를 생성하고, 경제분석에서의 활용 가능성을 검토하였다. 민간소비와 관련된 실물지표에는 소매판매업지수와 서비스업생산지수를 사용하였고, 고용지표에는 고용률과 실업률을, 가격지표에는 소비자물가상승률과 가계의 대출금리를 사용하여 지표들 간의 추이 분석 및 시차구조 파악을 위한 교차상관분석을 수행하였다. 마지막으로 이들 지표들에 대한 예측 가능성을 점검하였다. 분석결과, 다른 지표들의 선행지수로 많이 사용되는 소비자심리지수와 비교해 선택 지표들과 높은 상관관계를 보이며, 1~2개월 선행한 것으로 나타났다. 예측력 또한 향상되어 텍스트데이터에서 생성한 소비자 경기심리지수의 유용성이 확인되었다. 온라인에서 생성되는 뉴스기사나 소셜 SNS 등의 텍스트 데이터는 속보성이 뛰어나고, 커버리지가 넓어 특정 경제적 이슈가 발생할 경우 이것이 경제에 미치는 영향을 빠르게 파악할 수 있다는 점에서 경기판단지표로써의 잠재적 가능성이 클 것으로 보인다. 경제분석에서 비정형데이터를 활용한 국내연구는 초기 단계지만 데이터의 유용성이 확인되면 그 활용도가 크게 높아질 것으로 기대한다.