• Title/Summary/Keyword: Business information

검색결과 14,466건 처리시간 0.043초

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

북한 테러범죄의 변화양상에 따른 대응방안 -김정일 정권 이후 고위층 권력 갈등을 중심으로 (The Changing Aspects of North Korea's Terror Crimes and Countermeasures : Focused on Power Conflict of High Ranking Officials after Kim Jong-IL Era)

  • 변찬호;김은정
    • 시큐리티연구
    • /
    • 제39호
    • /
    • pp.185-215
    • /
    • 2014
  • 한국은 지금까지 북한의 테러범죄로 인해 많은 피해를 입었다. 현재 북한정권에 의한 테러 범죄행위 발생 가능성은 그 어느 때보다 높은 시점이고, 김일성 정권의 북한 테러범죄 행위는 통치자금 확보라는 목적 하에 독재로 자행되어 왔다. 이후 김정일 김정은 정권 동안 테러범죄 행위를 살펴보면, 비(非)권력 집단의 목표인 권력쟁취 경제이권 확보 등을 성취하고자 하는 갈등이 원인으로 작용하여 범죄행위로 표출되고 있음이 드러난다. 본 연구는 테러 대책의 궁극적인 목적이 장차 발생할 가능성 높은 위협에 대하여 사전예측 대비해야 한다는 측면에 초점을 맞추었으며, 이를 위해 집단 간 권력 갈등이 범죄의 한 요인이 된다고 설명하는 George B. Vold(1958)의 이론을 적용했다. 이에 다양한 북한 테러범죄 원인 중 각 시대별 고위층 권력 갈등으로 인한 테러범죄 행위를 분석하고, 이러한 시대적 흐름에 맞는 향후 대응방안을 제시하였다. 북한의 테러범죄 행위는 김정일 정권 이후, 고위층 간 권력 판도가 시대별로 급격히 변화하면서 세력 쟁취와 이권 강탈을 위한 권력 갈등으로 인해 더욱 심화되었다. 북한 고위층의 권력 갈등이 북한 테러범죄에 많은 영향을 미치고 있음에도 불구하고, 이에 관련된 정보 첩보 수집이 단편적인데다가 미국에 의존하는 등 실제적인 대응이 미약한 실정이다. 게다가 북한 테러범죄에 대한 심각성 및 시급함의 공감도 역시 높지 않아서 체계적인 국제공조가 이루어지지 않고 있으며, 공조 방안에 대한 논의조차 원활하게 진행되지 않고 있다. 더욱이 최근 DDoS공격 청와대 홈페이지 변조 GPS 교란전파 발사 무인정찰기 침투 등 수 많은 테러범죄 행위가 있었음에도 불구하고, 한국은 이 같은 비(非)대칭 테러범죄 행위가 미칠 파문에 비해 그 심각성을 깊이 인식하지 못하고 있다. 이제 북한 테러범죄의 원인을 밝히고 대응하기 위해 휴민트(HUMINT) 테킨트(TECHINT) 등을 통한 고위층 정보 수집을 확대하고, 이를 종합 분석하는 전담부서를 설치하는 한편, 탈북자 등 정보원의 보호 및 감독을 통한 포괄적인 수집체제를 확립해야 한다. 그리고 북한 테러와 관련된 국제협력에 적극 동참하여, 국제협약을 이끌어낼 수 있도록 국제적인 공조를 구축해야 한다. 또한 핵 미사일 테러와 함께 한층 정교해지고 첨단화 되어가는 사이버 전자 테러 전문기술에 대비하기 위해 법령 제 개정 및 관련 기구 예산 등 제도적 정비와 기술을 보완할 수 있는 전문 인력 양성 및 기술개발 등 실질적인 대응방안을 마련해야 할 것이다.

  • PDF

제품태도에 대한 회복노력의 차별적 효과 (Differential Effects of Recovery Efforts on Products Attitudes)

  • 김천길;최정미
    • 마케팅과학연구
    • /
    • 제18권1호
    • /
    • pp.33-58
    • /
    • 2008
  • 본 연구는 서비스실패가 아니라 제품실패 이후, 회복노력의 효과를 실패심각성에 따라 확인하는 것이다. 회복노력은 보상노력, 장점노력 및 단점노력으로 구분되었다. 보상노력은 실패상황을 직접적으로 되돌리려는 의도로 구체적인 보상을 제공하는 방안으로, 장점노력은 제품실패를 초래하는 이유가 특정한 장점을 추구하는 과정에서 불가피하게 발생할 수 있는 문제임을 언급하는 것과 같이 추가적인 상대적 장점을 설명하는 방식으로, 그리고 단점노력은 자사제품이 서비스실패를 초래할 수 있는 문제점을 지니고 있는 반면에 경쟁제품은 또 다른 측면의 단점을 지니고 있다는 점을 부각시켜 소비자의 자사제품에 대한 부정적 태도를 회복시키려고 방안이라고 개념화되었다. 그러한 회복노력들이 실질적으로 효과가 있다고 결론을 내리기 위해서, 회복노력이 제공되지 않는 상황과 비교하여 소비자의 태도나 의향이 우호적인지 검토된다. 가설검증을 위해 화장품산업에서 소비자들을 대상으로 가상적인 시나리오를 이용한 실험을 실시하였다. 연구 결과, 전반적으로 회복노력들은 효과적인 전략임이 확인되었고, 보상노력은 장점노력이나 단점 노력보다 효과적이었다. 특히 심각성이 높은 실패조건에서 단점노력은 장점노력보다 긍정적인 제품태도를 유도하였다. 심각성이 낮은 실패조건에서 장점노력과 장점노력의 효과는 기대할 수 없었다.

  • PDF

집중형센터를 가진 역물류네트워크 평가 : 혼합형 유전알고리즘 접근법 (Evaluating Reverse Logistics Networks with Centralized Centers : Hybrid Genetic Algorithm Approach)

  • 윤영수
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.55-79
    • /
    • 2013
  • 본 연구에서는 집중형 센터를 가진 역물류네트워크(Reverse logistics network with centralized centers : RLNCC)를 효율적을 해결하기 위한 혼합형 유전알고리즘(Hybrid genetic algorithm : HGA) 접근법을 제안한다. 제안된 HGA에서는 유전알고리즘(Genetic algorithm : GA)이 주요한 알고리즘으로 사용되며, GA 실행을 위해 0 혹은 1의 값을 가질 수 있는 새로운 비트스트링 표현구조(Bit-string representation scheme), Gen and Chang(1997)이 제안한 확장샘플링공간에서의 우수해 선택전략(Elitist strategy in enlarged sampling space) 2점 교차변이 연산자(Two-point crossover operator), 랜덤 돌연변이 연산자(Random mutation operator)가 사용된다. 또한 HGA에서는 혼합형 개념 적용을 위해 Michalewicz(1994)가 제안한 반복적언덕오르기법(Iterative hill climbing method : IHCM)이 사용된다. IHCM은 지역적 탐색기법(Local search technique) 중의 하나로서 GA탐색과정에 의해 수렴된 탐색공간에 대해 정밀하게 탐색을 실시한다. RLNCC는 역물류 네트워크에서 수집센터(Collection center), 재제조센터(Remanufacturing center), 재분배센터(Redistribution center), 2차 시장(Secondary market)으로 구성되며, 이들 각 센터 및 2차 시장들 중에서 하나의 센터 및 2차 시장만 개설되는 형태를 가지고 있다. 이러한 형태의 RLNCC는 혼합정수계획법(Mixed integer programming : MIP)모델로 표현되며, MIP 모델은 수송비용, 고정비용, 제품처리비용의 총합을 최소화하는 목적함수를 가지고 있다. 수송비용은 각 센터와 2차 시장 간에 제품수송에서 발생하는 비용을 의미하며, 고정비용은 각 센터 및 2차 시장의 개설여부에 따라 결정된다. 예를 들어 만일 세 개의 수집센터(수집센터 1, 2, 3의 개설비용이 각각 10.5, 12.1, 8.9)가 고려되고, 이 중에서 수집센터 1이 개설되고, 나머지 수집센터 2, 3은 개설되지 않을 경우, 전체고정비용은 10.5가 된다. 제품처리비용은 고객으로부터 회수된 제품을 각 센터 및 2차 시장에서 처리할 경우에 발생되는 비용을 의미한다. 수치실험에서는 본 연구에서 제안된 HGA접근법과 Yun(2013)의 연구에서 제안한 GA접근법이 다양한 수행도 평가 척도에 의해 서로 비교, 분석된다. Yun(2013)이 제안한 GA는 HGA에서 사용되는 IHCM과 같은 지역적탐색기법을 가지지 않는 접근법이다. 이들 두 접근법에서 동일한 조건의 실험을 위해 총세대수 : 10,000, 집단의 크기 : 20, 교차변이 확률 : 0.5, 돌연변이 확률 : 0.1, IHCM을 위한 탐색범위 : 2.0이 사용되며, 탐색의 랜덤성을 제거하기 위해 총 20번의 반복실행이 이루어 졌다. 사례로 제시된 두 가지 형태의 RLNCC에 대해 GA와 HGA가 각각 실행되었으며, 그 실험결과는 본 연구에서 제안된 HGA가 기존의 접근법인 GA보다 더 우수하다는 것이 증명되었다. 다만 본 연구에서는 비교적 규모가 작은 RLNCC만을 고려하였기에 추후 연구에서는 보다 규모가 큰 RLNCC에 대해 비교분석이 이루어 져야 할 것이다.

지능형 변동성트레이딩시스템개발을 위한 GARCH 모형을 통한 VKOSPI 예측모형 개발에 관한 연구 (A Study on Developing a VKOSPI Forecasting Model via GARCH Class Models for Intelligent Volatility Trading Systems)

  • 김선웅
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.19-32
    • /
    • 2010
  • 학계와 금융파생상품 가격결정이나 변동성매매와 같은 실무영역 모두에서 주식시장의 변동성은 중요한 역할을 한다. 본 연구는 GARCH 모형에 기초하여 한국주식시장의 변동성을 정확히 예측함으로써 변동성매매시스템의 성과를 높일 수 있는 새로운 방법을 제시하였다. 특히, 여러 연구 자료에서 밝혀지고 있는 변동성 비대칭성개념을 도입하였다. 최근 새로 개발된 한국주식시장 변동성 지수인 VKOSPI를 변동성 대용값으로 사용한다. VKOSPI는 KOSPI 200 지수옵션의 가격을 이용하여 계산된 값으로서 옵션딜러들의 변동성 예측치를 반영하고 있다. KOSPI 200 옵션시장은 1997년 시작되었으며, 발전을 거듭하여 현재 하루 거래량이 1,000만 계약을 넘어서면서 세계 최고의 지수옵션시장으로 발전하였다. 이러한 옵션시장에 반영된 변동성을 분석하는 것은 투자자들에게 좋은 투자정보를 제공하게 될 것이다. 특히, 변동성 대용값으로 VKOSPI를 사용하면 다른 변동성 대용치를 사용할 때 발생하는 통계적 추정의 문제를 피해 갈 수 있다. 본 연구는 2003년부터 2006년의 KOSPI 200 지수 일별자료를 대상으로 최우도추정방법(MLE)을 이용하여 GARCH 모형을 추정한다. 비대칭 GARCH 모형으로는 Glosten, Jagannathan, Runke의 GJR-GARCH 모형, Nelson의 EGARCH 모형, 그리고 Ding, Granger, Engle의 PARCH모형을 포함하며 대칭 GARCH 모형은 (1, 1) GARCH 모형을 이용한다. 2007년부터 2009년까지의 KOSPI 200 지수 일별자료를 대상으로 반복적 계산과정을 통해 내일의 변동성 예측값과 오르고 내리는 변화방향을 예측하였다. 분석 결과 시장변동성과 예기치 않은 주가변동 사이에는 음의 상관관계가 존재하며, 음의 주가변동은 동일한 크기의 양의 주가변동보다 훨씬 더 큰 변동성의 증가를 가져옴을 알 수 있다. 즉, 한국 주식시장에도 변동성 비대칭성이 존재함을 보여주었다. GARCH 모형을 이용하여 내일의 VKOSPI의 등락방향을 예측하고 이를 이용하여 변동성 매매시스템을 개발하였다. 내일의 변동성이 상승할 것으로 예측되면 스트래들매수전략을 이용하고 반대로 변동성이 하락할 것으로 예측되면 스트래들 매도전략을 이용한다. 변동성의 변화방향성을 맞춘 경우에는 VKOSPI 변동분을 더하고 틀린 경우에는 변동분을 뺀 누적합을 이용하여 변동성매매전략의 총수익을 계산한다. 모형추정용 자료구간의 경우 통계적 기준인 MSPE 기준으로는 PARCH 모형의 적합도가 가장 높고, 예측방향의 적중도를 재는 MCP 기준으로는 EGARCH 모형이 가장 높은 값을 보여주었다. 테스트용 자료구간의 경우에는 PARCH 모형이 모형적합도와 내일의 변동성 등락방향 예측에서 가장 좋은 결과를 보여주었다. 모형추정용 자료구간의 경우 GARCH 모형 전체에서 매매이익을 기록하고 있고 테스트용 자료구간의 경우에는 EGARCH 모형을 제외한 GARCH 모형들이 매매이익을 보여주었다. 본 연구에서 나타난 변동성의 군집과 비대칭성 현상으로부터 변동성에 비선형성이 존재함을 알 수 있었으며, 비선형성에서 좋은 결과를 보이고 있는 인공지능시스템과 비대칭 GARCH 모형을 결합한다면 제안된 변동성매매시스템의 성과를 많이 개선할 수 있을 것으로 판단된다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

TV 시청률과 마이크로블로그 내용어와의 시간대별 관계 분석 (Analysis of the Time-dependent Relation between TV Ratings and the Content of Microblogs)

  • 최준연;백혜득;최진호
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.163-176
    • /
    • 2014
  • 소셜미디어 확산으로 많은 사용자들이 SNS를 통해 자신의 생각과 의견을 표출하며 다른 사용자들과 상호작용하고 있다. 특히 트위터와 같은 마이크로블로그는 짧은 문장을 통해 영화, TV, 사회 현상 등과 같은 공통의 주제에 대해 많은 사람이 즉각적으로 의견을 표출하고 교환하는 플랫폼의 역할을 수행하고 있다. TV방송 프로그램에 대해서도 의견과 감정을 마이크로블로그를 통해 표출하고 있는데, 본 연구에서는 마이크로블로그의 내용과 시청률과의 관계를 살펴보기 위해, 지난 공중파 방송 프로그램에 대한 트윗을 수집하고 부적절한 트윗들을 제거한 후 형태소 분석을 수행하였다. 추출된 형태소뿐 아니라 이모티콘, 신조어 등 사용자가 입력한 모든 단어들을 후보 자질로 삼아 시청률과의 상관관계를 분석하였다. 실험을 위해 2013년 1월부터 10개월간의 예능프로그램 트윗의 데이터를 수집하여 전국 시청률 데이터와 비교 분석을 수행하였다. 트윗의 발생량은 일주일 중 방송된 요일에 가장 많았으며, 특히 방송시간 부근에서 급격히 증가하는 모습을 보였다. 이것은 전국에 동시간에 방송되는 공중파 프로그램의 특성상 공통된 관심 주제를 제공하기 때문에 나타나는 현상으로 여겨진다. 횟수 기반 자질로 방송 일의 총 트윗 수와 리트윗 수, 방송시간 중의 트윗 수와 리트윗 수와 시청률과의 상관 관계를 분석하였으나 모두 낮은 상관 계수를 나타냈다. 이것은 단순한 트윗 발생 빈도는 방송 프로그램의 만족도 또는 시청률을 제대로 반영하고 있지 못함을 의미한다. 내용 기반 자질로 추출한 단어들 중에는 높은 상관관계를 보여주는 단어들이 발견되었으며, 표준어가 아닌 이모티콘과 신조어 중에도 높은 상관관계를 보여주는 자질이 나타났다. 또한 방송시작 전과 후에 따라 상관계수가 높은 단어가 상이함을 발견하였다. 매주 같은 시간에 방송되는 TV 프로그램의 특성상, 방송을 기다리고 기대하는 내용의 트윗과 방송 후 소감을 표현하는 트윗의 내용에 차이가 존재하였다. 이러한 분석결과는 단어에 따라 시청률과 연관성이 높은 시간대가 달라짐을 의미하며, 시청률을 측정하고자 할 때 각 단어들의 시간대를 고려해서 사용해야 함을 의미한다. 본 연구에서 제안한 방법은 기존의 표본 추출을 통해 이루어지는 TV 시청률 측정을 보완할 수 있는 방법에 활용할 수 있으리라 기대된다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.