• 제목/요약/키워드: Data mining analysis

검색결과 2,192건 처리시간 0.033초

미 연준 통화정책방향 의결문의 시그널링 효과 분석 (An analysis of the signaling effect of FOMC statements)

  • 우신욱;장영재
    • 응용통계연구
    • /
    • 제33권3호
    • /
    • pp.321-334
    • /
    • 2020
  • 최근 미 연준이 정책금리 인하를 결정하면서 향후 통화정책 운용방향에 관해 관심이 고조되고 있다. 과거 금리동결 시점이나 동결기간 중, 그리고 인상이나 인하 시점이 다가왔을 때 통화정책 의결문의 표현을 살펴보면 단어 선택의 변화 등을 통해 시장과 꾸준하게 커뮤니케이션해 왔었다는 것을 알 수 있다. 하지만 이렇게 의결문의 표현을 문맥을 통해 분석하는 방법이 다소 주관적이고 정성적인 분석에 그칠 수 있다는 비판이 있다. 이런 점을 고려하여 Woo와 Chang (2016)에서는 데이터마이닝 기법 중 하나인 텍스트마이닝 방법을 통해 의결문 분석 과정을 보완할 수 있는 방법을 제안한 바 있다. 본 논문에서는 선행 연구 결과를 토대로 미 연준의 통화정책 의결문의 정책 시그널링 효과를 평가해 보았다. 의결문의 특성을 텍스트마이닝 관점에서 분석하고 의결문 간 표현의 변화를 포착하여 향후 정책 기조 변화를 예측하고자 하였다. 이를 위해 대표적인 데이터마이닝 기법인 의사결정나무모형과 신경망모형을 사용하였다. 분석 결과, 대체로 의결문 간 비유사성의 변화가 향후 정책 변화를 효과적으로 예측할 수 있는 것으로 평가되었으며, 그동안 미 연준이 의결문을 통해 체계적으로 정책 시그널링을 실시해 온 결과로 판단할 수 있다.

토픽모델링을 활용한 조세순응 연구 동향 분석 (Analysis of Research Trends in Tax Compliance using Topic Modeling)

  • 강민조;백평구
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.99-115
    • /
    • 2022
  • 본 연구의 목적은 사회과학 전반에 걸쳐서 수행되고 있는 조세 분야의 대표적인 연구주제로서 조세순응, 납세의식, 성실납세(이하 "조세순응")에 관한 연구의 흐름을 정리함으로써 융합학문으로서 세무학의 지평을 확장하는 것이다. 이에 조세순응에 관한 국내 학술지 논문을 학제적 관점에서 종합적으로 분석하기 위하여 텍스트마이닝의 일환으로 토픽모델링 기법을 적용하였다. 데이터 수집-키워드 전처리-토픽모델 분석의 흐름으로 총 347편의 논문에 연구자가 등록한 조세순응 관련 키워드들로부터 잠재적인 연구주제를 제시하고자 하였다. 본 연구의 분석 결과로 첫째, 키워드 분석에서는 세무조사, 조세회피, 성실신고확인제도 등의 키워드가 단순 빈도 기준으로 상위 5개 키워드에 포함되었고, 키워드의 상대적 중요도를 감안한 TF-IDF 값에서도 상위 5개 키워드에 포함되었다. 한편 탈세라는 키워드는 단순빈도에서 부각되지 않은 것에 비해 TF-IDF 값 기준으로 상위 키워드에 포함되었다. 둘째, 토픽모델링을 통해 잠재적인 8개의 연구주제를 도출하였다. 해당 주제는 (1) 조세공정성과 조세범칙행위의 억제, (2) 조세법의 이념과 조세정책의 타당성, (3) 실질과세원칙과 조세채권의 담보 (4) 납세협력비용과 세무행정 서비스, (5) 신고납세제도와 세무전문가, (6) 조세풍토와 전략적 조세행동, (7) 조세행동의 다면성과 차별적 순응의도, (8) 과세정보시스템과 효율적 세원관리와 같다. 본 연구는 학문 간의 경계를 넘어 조세순응이라는 주제어를 바라보는 다양한 관점을 포괄적으로 조망함으로써 학제간 소통의 기회를 마련하고 합리적인 조세제도를 구축하는데 실천적 시사점을 제시하고자 하였다.

토픽 모델링을 활용한 코로나19 초기 생활체육 이슈 분석 (Trend Analysis of Sports for All-Related Issues in Early Stage of COVID-19 Using Topic Modeling)

  • 정연길;서수민;강현민
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.57-79
    • /
    • 2022
  • 지난 2019년 12월 시작된 코로나19는 정치, 경제, 사회, 문화 등 우리 삶의 전반에 많은 영향을 끼쳐 왔으며, 스포츠, 공연 예술 등의 분야 역시 이로 인해 큰 폭으로 활동이 위축되었다. 스포츠 분야의 경우 참여스포츠를 대표하는 생활체육 분야에서의 변화가 특히 크게 나타났으며, 헬스장, 탁구장, 배드민턴 동호회 등 국민 삶과 밀접한 장소에서의 확진자 발생은 코로나19의 확산에 대한 사회적 공포감을 증폭시키는 원인이 되기도 하였다. 이에 본 연구에서는 코로나19가 최초 확산한 시기의 생활체육 관련 국내 언론 기사를 분석하여, 코로나19 사태로 인해 생활체육 분야에서 어떤 이슈들이 현장에서 등장하고 있으며 어떠한 논의들이 이루어지고 있는지 살펴본다. 구체적으로 본 연구는 국내 대표적인 포털 뉴스 사이트로부터 생활체육과 관련된 코로나19 이슈를 다루고 있는 뉴스 기사를 수집한 후, 이에 대한 토픽 모델링(Topic Modeling) 분석을 통해 코로나19 환경에서의 주요 생활체육 이슈를 파악하였다. 분석을 통해 체육시설 코로나 발생, 체육활동 지원, 생활체육활동 변화 등의 의미있는 이슈를 발견하였으며, 이들 주요 이슈에 대한 워드 클라우드(Wordcloud) 분석을 통해 이슈를 시각적으로 이해하고 시간의 흐름에 따라 이러한 이슈가 변화하는 양상을 확인하였다.

태양광 폐모듈 실리콘을 재활용한 메커니컬 실 제조공정의 환경성평가 (Environmental Impact Evaluation of Mechanical Seal Manufacturing Process by Utilizing Recycled Silicon from End-of-Life PV Module)

  • 신병철;신지원;권우택;최준철;선주형;장근용
    • 청정기술
    • /
    • 제28권3호
    • /
    • pp.203-209
    • /
    • 2022
  • 본 연구에서는 태양광 폐모듈 해체과정에서 회수한 실리콘을 재활용하여 기계구조용 메커니컬 실을 제조하는 공정에 대해 전과정평가 방법에 의한 환경성평가를 수행하였다. 재활용 실리콘은 고순도 정제 후 탄소와 반응시켜 β-SiC 입자로 합성하고 압축 성형, 소결 및 열처리를 거쳐 제품을 생산한다. 현장 데이터 수집 및 환경부 LCI DB를 활용하여 각 단계별로 자원고갈, 산성화, 부영양화, 지구온난화, 오존층파괴, 광화학산화물 등 6개 영역의 환경영향을 산정하였다. 영향범주 별 환경영향은 지구온난화 45 kg CO2, 광화학산화물 2.23 kg C2H4으로 크게 나타났으며 가중화 분석결과 광화학산화물, 자원고갈 및 지구온난화에 의한 환경영향이 98.7%로 높은 기여도를 차지하였다. 원료 실리콘과 탄소를 미분쇄 혼합하는 습식공정과 β-SiC 과립화 공정이 주요한 환경영향 유발요인이므로 건식공정으로 전환 및 대기 배출되는 용매는 회수하여 재이용하는 시스템으로 개선이 필요하다. 폐모듈 실리콘의 재활용에 의해 자원고갈의 영향은 53.9%, 지구온난화는 60.7% 감소하며 가중화 결과 전체적인 환경영향이 27% 감소하는 것으로 분석되어 폐모듈 재활용은 자원절약과 탄소중립 실현의 주요 수단이 될 수 있음을 LCA 분석으로 확인하였다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

트위터에서의 COVID-19와 관련된 반시민성 주제 탐색: 혐오 대상 및 키워드 분석 (Investigating Topics of Incivility Related to COVID-19 on Twitter: Analysis of Targets and Keywords of Hate Speech)

  • 김규리;오찬희;주영준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.331-350
    • /
    • 2022
  • 본 연구는 코로나바이러스감염증-19 (이하 코로나19)로 인해 생겨난 코로나19 반시민성 주제와 코로나19 혐오 정서를 파악하기 위해 소셜미디어 중 하나인 트위터의 코로나19 관련 게시물을 분석하였다. 2019년 12월 1일부터 2021년 8월 31일까지 21개월 동안 작성된 코로나19 관련 혐오 대상별(지역, 공공시설 혐오, 특정 인구 집단 혐오, 종교 혐오) 게시물 수집 및 전처리를 진행하여 총 63,802개의 게시물을 분석하였다. 혐오 대상별 빈도 분석, 다이나믹 토픽 모델링, 키워드 동시 출현 네트워크 분석 기법을 통하여 혐오 대상별 반시민성 주제와 혐오 키워드를 파악하였다. 첫째, 빈도 분석 결과, 지역, 공공시설 혐오는 상대적으로 증가하는 추세를 보이고 특정 인구 집단과 종교 혐오는 상대적으로 감소하는 추세를 확인할 수 있었다. 둘째, 다이나믹 토픽 모델링 분석 결과, 지역, 공공시설 혐오는 '대구, 경북지방 혐오', '지역 간 혐오', '공공시설 혐오'로 나타났고, 특정 인구 집단 혐오는 '중국 혐오', '바이러스 전파자', '실외(야외)활동 제재'로 나타났으며, 종교 혐오는 '신천지', '기독교', '종교 내 감염', '방역 의무 거부', '확진자 동선 비난'으로 나타났다. 셋째, 키워드 동시 출현 네트워크 분석 결과, 지역, 공공시설 혐오(코로나, 대구, 확진자, 신천지, 경북, 지역), 특정 인구 집단 혐오(코로나바이러스, 우한폐렴, 우한, 중국, 중국인, 사람, 입국, 금지), 종교 혐오(신천지, 코로나, 교회, 대구, 확진자, 감염) 등을 핵심 키워드로 확인할 수 있었다. 본 연구는 소셜 미디어를 활용한 국내 코로나19 혐오 대상 및 키워드 파악을 통해 코로나19 관련한 대중의 반시민성 여론을 파악하고자 하였다. 특히 기존의 선행연구에서 시도하지 않았던 주제인 코로나19 관련 혐오에 데이터 마이닝기법을 이용하여 소셜 미디어에서 표출하는 대중의 반시민성 주제와 혐오 정서 탐색은 대중들의 여론을 파악하는 것이 의의가 있다. 더불어 본 연구 결과는 포스트 코로나 시대를 대비하는 문화적 소통 방안의 제도 및 정책 수립 기여를 위한 기본 자료에 기초할 수 있다는 점에서 실질적 함의를 시사한다.

온라인 상품평의 내용적 특성이 소비자의 인지된 유용성에 미치는 영향 (Impact of Semantic Characteristics on Perceived Helpfulness of Online Reviews)

  • 박윤주;김경재
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.29-44
    • /
    • 2017
  • 인터넷 상거래에서, 소비자들은 기존에 제품을 구매한 다른 사용자들이 작성한 상품평에 많은 영향을 받는다. 그러나, 상품평이 점차 축적되어감에 따라, 소비자들이 방대한 상품평을 일일이 확인하는데 많은 시간과 노력이 소요되고, 또한 무성의하게 작성된 상품평들은 오히려 소비자들의 불편을 초래하기도 한다. 이에, 본 연구는 온라인 상품평의 유용성에 영향을 미치는 요인들을 분석하여, 소비자들에게 실제로 도움이 될 수 있는 상품평을 선별적으로 제공하는 예측모형을 도출하는 것을 목적으로 한다. 이를 위해, 텍스트마이닝 기법을 사용하여, 상품평에 포함되어있는 다양한 언어적, 심리적, 지각적 요소들을 추출하였으며, 이러한 요소들 중에서 상품평의 유용성에 영향을 미치는 결정요인이 무엇인지 파악하였다. 특히, 경험재인 의류군과 탐색재인 전자제품군에 대한 상품평의 특성 및 유용성 결정요인이 상이할 수 있음을 고려하여, 제품군별로 상품평의 특성을 비교하고, 각각의 결정요인을 도출하였다. 본 연구에는 아마존닷컴(Amazon.com)의 의류군 상품평 7,498건과 전자제품군 상품평 106,962건이 사용되었다. 또한, 언어분석 소프트웨어인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 상품평에 포함된 특징들을 추출하였고, 이후, 데이터마이닝 소프트웨어인 RapidMiner를 사용하여, 회귀분석을 통한, 결정요인 분석을 수행하였다. 본 연구결과, 제품에 대한 리뷰어의 평가가 높고, 상품평에 포함된 전체 단어 수가 많으며, 상품평의 내용에 지각적 과정이 많이 포함되어 있는 반면, 부정적 감정은 적게 포함된 상품평들이 두 제품 모두에서 유용하다고 인식되는 것을 알 수 있었다. 그 외, 의류군의 경우, 비교급 표현이 많고, 전문성 지수는 낮으며, 한 문장에 포함된 단어 수가 적은 간결한 상품평이 유용하다고 인식되고 있었으며, 전자제품의 경우, 전문성 지수가 높고, 분석적이며, 진솔한 표현이 많고, 인지적 과정과 긍정적 감정(PosEmo)이 많이 포함된 상품평이 유용하게 인식되고 있었다. 이러한 연구결과는 향후, 소비자들이 효과적으로 유용한 상품평들을 확인하는데 도움이 될 것으로 기대된다.

오피니언 마이닝과 네트워크 분석을 활용한 상품 커뮤니티 분석: 영화 흥행성과 예측 사례 (Product Community Analysis Using Opinion Mining and Network Analysis: Movie Performance Prediction Case)

  • 진위;김정수;김종우
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.49-65
    • /
    • 2014
  • 구전(WOM: Word of Mouth)는 주변 사람들에게 상품에 대한 경험을 입에서 입으로 전달하는 현상을 말하며 소셜 미디어의 발전으로 온라인 구전(eWOM: Electronic Word of Mouth) 형태로 발전하였다. 구전 효과의 중요성으로 인해서 대부분의 기업들의 자사의 상품이나 서비스에 대한 온라인 구전에 촉각을 세우고 있으며, 특히 영화와 같은 경험재의 경우에는 그 영향력이 더욱 크다. 본 연구에서는 영화 커뮤니티에 대한 사회 네트워크 분석을 통해서 영화 흥행성과 지표인 매출에 미치는 영향요인을 규명하고자 한다. 영화 흥행성과 연구들에서 주요하게 다루어진 영화에 대한 구전의 크기(volume)와 방향성(valence)과 같은 구전 요인들을 추가하여, 구전 네트워크의 중심성 척도를 영향 요인에 고려하였다. 구전의 크기, 방향성, 그리고 3가지 중심성 척도(연결 중심성, 매개 중심성, 근접 중심성)의 최종 영화 매출에 영향 관계를 가설로 설정하였다. 제시한 연구 모형을 검증하기 위하여 대표적인 온라인 영화 커뮤니티 사이트인 IMDb(Internet Movie Database)에서 영화 구전 데이터를 수집하였고, Box-Office-Mojo사이트에서 영화 매출 데이터를 수집하였다. 2012년 9월부터 1년 동안, 주간 Top-10에 포함된 적이 있는 영화들을 대상으로 하였으며, 총 103개의 영화가 선정되어 이 영화들에 대한 메타 데이터와 커뮤니티 데이터가 수집되었다. 영화 커뮤니티 네트워크는 평가자들간의 댓글 관계를 기초로 구축하였다. 본 연구에서 사용한 3가지 중심성 척도는 사회 네트워크 분석 도구인 NodeXL을 사용하여 계산되었으며, 각 영화별 커뮤니티 참여자들의 중심성 척도의 평균값을 활용하였다. 가설 검증의 사전 분석을 위한 상관관계 분석에서는 3가지 중심성 척도간에 상관 관계가 높은 것으로 파악되어서, 각각에 대하여 별도로 회귀분석을 수행하였다. 분석 결과, 기존 연구와 일관성 있게 구전의 크기와 방향성은 영화 성과지표인 최종 매출에 긍정적인 영향을 미치는 것으로 파악되었다. 또한 구전 네트워크 내의 참여자 매개중심성 평균은 영화의 최종 매출에 영향을 미치는 것으로 파악되었다. 하지만 연결중심성과 근접중심성은 최종 매출에 영향을 주지 못하는 것으로 나타났다.

복합만성질환 입원환자의 중증도 보정 사망비에 대한 융복합 연구 (A Convergence Study in the Severity-adjusted Mortality Ratio on inpatients with multiple chronic conditions)

  • 서영숙;강성홍
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.245-257
    • /
    • 2015
  • 본 연구는 복합만성질환 입원환자를 대상으로 중증도 보정 사망 예측모형을 개발하고, 중증도 보정 사망비의 변이 요인을 규명하여 변이를 줄일 수 있는 방안을 제시하고자 하였다. 이를 위해 퇴원손상심층조사 자료 2008년부터 2010년까지 자료를 수집하고 주진단이 만성질환이면서 주진단을 포함하여 2개 이상의 만성질환을 보유한 30세 이상의 복합만성질환 입원환자 110,700건을 최종 연구대상으로 선정하였다. 예측 모형 개발 시 데이터마이닝 기법(로지스틱회귀분석, 의사결정나무, 신경망 기법)을 적용하였다. 본 연구에서는 Elixhauser comorbidity index 동반상병 보정지수를 이용하여 의사결정나무분석으로 복합만성질환 입원환자의 중증도 보정 사망 예측모형을 개발하였다. 복합만성질환 입원환자의 의료기관 중증도 보정 사망비(HSMR)를 산출 한 결과 진료비 지불방법별, 병상규모별, 의료기관소재지별로 통계적으로 유의한 차이가 있는 것으로 나타났다. 상기 분석결과를 바탕으로 국가적 차원에서 복합만성질환 입원환자의 사망비를 효율적으로 관리하여 의료의 질 향상과 증가하는 의료비 부담 감소를 위해 지속적인 관심과 노력을 기울여야 할 것이다.