• 제목/요약/키워드: intelligent structure

검색결과 1,230건 처리시간 0.03초

기업의 SNS 마케팅 활동이 이용자 행동에 미치는 영향: 페이스북 팬페이지 애널리틱스를 중심으로 (The Effect of Corporate SNS Marketing on User Behavior: Focusing on Facebook Fan Page Analytics)

  • 전형준;서봉군;박도형
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.75-95
    • /
    • 2020
  • 소셜네트워크서비스(SNS)의 성장과 함께 다양한 형태의 SNS가 등장했다. 상호작용성, 정보 교류, 엔터테인먼트 등 다양한 이용 동기를 바탕으로 SNS 이용자 또한 빠르게 증가하는 추세이다. 그중 페이스북은 대표하는 SNS 채널로서 기업에서도 페이스북 페이지를 활용해 홍보 채널로 활용하기 시작했다. 이를 위해 운영 초기, 기업은 팬 수 확보에 나섰고 그 결과 최근 기업 페이스북 팬 수는 많게는 수백만에 이를 정도로 늘어났다. 기업의 목표는 팬 수 확보를 넘어 콘텐츠를 통해 고객에게 기업 브랜드 이미지를 재고하고, 나아가 소통하는 수단으로 활용하고 있다. 이를 평가하는 주요 수치가 바로 본 연구의 종속변수에 해당하는 페이스북의 '좋아요', '댓글', '공유', '클릭 수' 등이다. 해당 수치 달성을 위해 콘텐츠 제작에 대한 고민이 선행되어야 하는데, 본 연구에서는 콘텐츠 제작 고려 사항을 3가지로 나눠 독립변수를 구성하였다. 콘텐츠 소재, 콘텐츠 구조, 메시지 스타일 등이 페이스북의 이용자 행동에 미치는 영향을 회귀분석을 이용해 분석하였다. 종속변수의 경우, 콘텐츠상에 모든 이용자의 행동 '전체 클릭 수'로 설정하였다. 본 연구에서는 각 독립 변수를 기존 연구 문헌을 통해 정의하고, 종속변수에 미치는 영향을 분석하였는데, '전체 클릭 수'의 경우, '자사연관', '실생활 관여도', '격식 x 관여도' 등의 변수가 유의미한 영향을 갖는 것으로 나타났다. 연구 결과를 통해, 콘텐츠 목적에 따른 최적화된 콘텐츠 전략을 제시함으로써, 기업 페이스북 운영자와 콘텐츠 제작자의 운영, 제작 전략에 기여할 수 있을 것으로 보인다.

비대칭적 전이효과와 SVM을 이용한 변동성 매도전략의 수익성 개선 (Performance Improvement on Short Volatility Strategy with Asymmetric Spillover Effect and SVM)

  • 김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.119-133
    • /
    • 2020
  • Fama에 의하면 효율적 시장에서는 일시적으로 높은 수익을 얻을 수는 있지만 꾸준히 시장의 평균적인 수익을 초과하는 투자전략을 만드는 것은 불가능하다. 본 연구의 목적은 변동성의 장중 비대칭적 전이효과를 이용하는 변동성 매도전략을 기준으로 투자 성과를 추가적으로 개선하기 위하여 SVM을 활용하는 투자 전략을 제안하고 그 투자성과를 분석하고자 한다. 한국 시장에서 변동성의 비대칭적 전이효과는 미국 시장의 변동성이 상승한 날은 한국 시장의 아침 동시호가에 변동성 상승이 모두 반영되지만, 미국 시장의 변동성이 하락한 날은 한국 시장의 변동성이 아침 동시호가에서 뿐만 아니라 장 마감까지 계속해서 하락하는 이상현상을 말한다. 분석 자료는 2008년부터 2018년까지의 S&P 500, VIX, KOSPI 200, V-KOSPI 200 등의 일별 시가지수와 종가지수이다. 11년 동안의 분석 결과, 미국 시장의 변동성이 상승으로 마감한 날은 그 영향력이 한국 시장의 아침 동시호가 변동성에 모두 반영되지만, 미국 시장의 변동성이 하락으로 마감한 날은 그 영향력이 한국 시장의 아침 동시호가뿐만 아니라 오후 장 마감까지도 계속해서 유의적으로 영향을 미치고 있다. 시장이 효율적이라면 미국 시장의 전일 변동성 변화는 한국 시장의 아침 동시호가에 모두 반영되고 동시호가 이후에는 추가적인 영향력이 없어야 한다. 이러한 변동성의 장중 비정상적 전이 패턴을 이용하는 변동성 매도전략을 제안하였다. 미국 시장의 전날 변동성이 하락한 경우 한국 시장에서 아침 동시호가에 변동성을 매도하고 장 마감시에 포지션을 청산하는 변동성 데이트레이딩전략을 분석하였다. 연수익률은 120%, 위험지표인 MDD는 -41%, 위험과 수익을 고려한 성과지수인 Sharpe ratio는 0.27을 기록하고 있다. SVM 알고리즘을 이용해 변동성 데이트레이딩전략의 성과 개선을 시도하였다. 2008년부터 2014년까지의 입력자료를 이용하여 V-KOSPI 200 변동성지수의 시가-종가 변동 방향을 예측하고, 시가-종가 변동율이(-)로 예측되는 경우에만 변동성 매도포지션을 진입하였다. 거래비용을 고려하면 2015년부터 2018년까지 테스트기간의 연평균수익률은 123%로 기준 전략 69%보다 크게 높아지고, 위험지표인 MDD도 -41%에서 -29%로 낮아져, Sharpe ratio가 0.32로 개선되고 있다. 연도별로도 모두 수익을 기록하면서 안정적 수익구조를 보여주고 있고, 2015년을 제외하고는 투자 성과가 개선되고 있다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

인공지능 기술 기반 인슈어테크와 디지털보험플랫폼 성공사례 분석: 중국 평안보험그룹을 중심으로 (Analysis of Success Cases of InsurTech and Digital Insurance Platform Based on Artificial Intelligence Technologies: Focused on Ping An Insurance Group Ltd. in China)

  • 이재원;오상진
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.71-90
    • /
    • 2020
  • 최근 전 세계 보험업계에도 기계학습, 자연어 처리, 딥러닝 등의 인공지능 기술 활용을 통한 디지털 전환이 급속도로 확산하고 있다. 이에 따라 인공지능 기술을 기반으로 한 인슈어테크와 플랫폼 비즈니스 성공을 이룬 해외 보험사들도 증가하고 있다. 대표적으로 중국 최대 민영기업인 평안보험그룹은 '금융과 기술', '금융과 생태계'를 기업의 핵심 키워드로 내세우며 끊임없는 혁신에 도전한 결과, 인슈어테크와 디지털플랫폼 분야에서 괄목할만한 성과를 보이며 중국의 글로벌 4차 산업혁명을 선도하고 있다. 이에 본 연구는 평안보험그룹 인슈어테크와 플랫폼 비즈니스 활동을 ser-M 분석 모델을 통해 분석하여 국내 보험사들의 인공지능 기술기반 비즈니스 활성화를 위한 전략적 시사점을 제공하고자 했다. ser-M 분석 모델은 기업의 경영전략을 주체, 환경, 자원, 메커니즘 관점에서 통합적으로 해석이 가능한 프레임으로, 최고경영자의 비전과 리더십, 기업의 역사적 환경, 다양한 자원 활용, 독특한 메커니즘 관계가 통합적으로 해석되도록 연구하였다. 사례분석 결과, 평안보험은 안면·음성·표정 인식 등 핵심 인공지능 기술을 활용하여 세일즈, 보험인수, 보험금 청구, 대출 서비스 등 업무 전 영역을 디지털로 혁신함으로써 경비 절감과 고객서비스 발전을 이루었다. 또한 '중국 내 온라인 데이터'와 '회사가 축적한 방대한 오프라인 데이터 및 통찰력'을 인공지능, 빅데이터 분석 등 신기술과 결합하여 금융 서비스와 디지털 서비스 사업이 통합된 디지털 플랫폼을 구축하였다. 이러한 평안보험그룹의 성공 배경을 ser-M 관점에서 분석해 보면, 창업자 마밍즈 회장은 4차 산업혁명 시대의 디지털 기술발전, 시장경쟁 및 인구 구조의 변화를 빠르게 포착하여 새로운 비전을 수립하고 디지털 기술중시의 민첩한 리더십을 발휘하였다. 환경변화에 대응한 창업자 주도의 강력한 리더십을 바탕으로 인공지능 기술 투자, 우수 전문인력 확보, 빅데이터 역량 강화 등 내부자원을 혁신하고, 외부 흡수역량의 결합, 다양한 업종 간의 전략적 제휴를 통해 인슈어테크와 플랫폼 비즈니스를 성공적으로 끌어냈다. 이와 같은 성공사례 분석을 통하여 인슈어테크와 디지털플랫폼 도입을 본격 준비하고 있는 국내 보험사들에게 디지털 시대에 필요한 경영 전략과 리더십에 대한 시사점을 줄 수 있다.

오피니언 마이닝과 네트워크 분석을 활용한 상품 커뮤니티 분석: 영화 흥행성과 예측 사례 (Product Community Analysis Using Opinion Mining and Network Analysis: Movie Performance Prediction Case)

  • 진위;김정수;김종우
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.49-65
    • /
    • 2014
  • 구전(WOM: Word of Mouth)는 주변 사람들에게 상품에 대한 경험을 입에서 입으로 전달하는 현상을 말하며 소셜 미디어의 발전으로 온라인 구전(eWOM: Electronic Word of Mouth) 형태로 발전하였다. 구전 효과의 중요성으로 인해서 대부분의 기업들의 자사의 상품이나 서비스에 대한 온라인 구전에 촉각을 세우고 있으며, 특히 영화와 같은 경험재의 경우에는 그 영향력이 더욱 크다. 본 연구에서는 영화 커뮤니티에 대한 사회 네트워크 분석을 통해서 영화 흥행성과 지표인 매출에 미치는 영향요인을 규명하고자 한다. 영화 흥행성과 연구들에서 주요하게 다루어진 영화에 대한 구전의 크기(volume)와 방향성(valence)과 같은 구전 요인들을 추가하여, 구전 네트워크의 중심성 척도를 영향 요인에 고려하였다. 구전의 크기, 방향성, 그리고 3가지 중심성 척도(연결 중심성, 매개 중심성, 근접 중심성)의 최종 영화 매출에 영향 관계를 가설로 설정하였다. 제시한 연구 모형을 검증하기 위하여 대표적인 온라인 영화 커뮤니티 사이트인 IMDb(Internet Movie Database)에서 영화 구전 데이터를 수집하였고, Box-Office-Mojo사이트에서 영화 매출 데이터를 수집하였다. 2012년 9월부터 1년 동안, 주간 Top-10에 포함된 적이 있는 영화들을 대상으로 하였으며, 총 103개의 영화가 선정되어 이 영화들에 대한 메타 데이터와 커뮤니티 데이터가 수집되었다. 영화 커뮤니티 네트워크는 평가자들간의 댓글 관계를 기초로 구축하였다. 본 연구에서 사용한 3가지 중심성 척도는 사회 네트워크 분석 도구인 NodeXL을 사용하여 계산되었으며, 각 영화별 커뮤니티 참여자들의 중심성 척도의 평균값을 활용하였다. 가설 검증의 사전 분석을 위한 상관관계 분석에서는 3가지 중심성 척도간에 상관 관계가 높은 것으로 파악되어서, 각각에 대하여 별도로 회귀분석을 수행하였다. 분석 결과, 기존 연구와 일관성 있게 구전의 크기와 방향성은 영화 성과지표인 최종 매출에 긍정적인 영향을 미치는 것으로 파악되었다. 또한 구전 네트워크 내의 참여자 매개중심성 평균은 영화의 최종 매출에 영향을 미치는 것으로 파악되었다. 하지만 연결중심성과 근접중심성은 최종 매출에 영향을 주지 못하는 것으로 나타났다.

스마트교육을 위한 오픈 디지털교과서 (Open Digital Textbook for Smart Education)

  • 구영일;박충식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.177-189
    • /
    • 2013
  • 스마트교육에서 디지털교과서의 역할은 학습자와 대면하는 교육미디어로써 그 중요성은 재론의 여지없다. 이러한 디지털교과서는 학습자의 편의와 더불어 교수자, 콘텐츠 제작자, 유통업자를 위하여 표준화되어야 활성화되고 산업화될 수 있다. 본 연구에서는 다음과 같은 3가지 목표를 지향하는 디지털교과서 표준화 방안을 모색한다. (1) 디지털교과서는 온-오프 수업을 모두 지원하는 혼합학습 매체의 역할을 해야 하며, 특별한 전용뷰어 없이 표준을 준수하는 모든 EPUB 뷰어에서 실행가능 해야 하며, 기존의 이러닝 학습 콘텐츠와 학습관리시스템를 활용할 수 있도록 하며, 디지털 교과서를 사용하는 학습자의 정보를 추적 관리할 수 있는 트랙킹기능이 있으면서도, 오프라인 동안의 정보를 축적하여 서버와 통신할 수 있는 기능도 필요하다. 디지털교과서의 표준으로서 EPUB을 고려하는 이유는 디지털교과서가 책의 형태를 가져야 하는데 이를 위해서 따로 표준을 정할 필요가 없으며, EPUB 표준을 채택함으로써 풍부한 콘텐츠, 유통구조, 산업기반을 활용할 수 있기 때문이다. (2) 디지털교과서는 오픈소스를 적극 활용하여 저비용으로 현재 사용가능한 서비스를 구성하여 표준과 더불어 실제 실행 가능한 프로그램으로 제시되어야 하며, 관련 학습 콘텐츠가 오픈마켓의 형태로 운영될 수 있어야 한다. (3) 디지털교과서는 학습자에게 적절한 학습 피드백을 제공하기 위하여 모든 학습활동 정보를 축적하고 관리될 수 있는 인프라를 표준에 따라 구축하여 교육 빅데이터 처리의 기반을 제공하여야 한다. 이북 표준인 EPUB 3.0을 기반으로 하는 오픈 디지털교과서는 (1) 학습활동 정보를 기록하고 (2) 이 학습활동 지원을 위한 서버와 통신하여야 한다. 현재 표준으로 정해져 있지 않은 이북의 기록과 통신 기능을 EPUB 3.0의 JavaScript로 구현하여 현재 EPUB 3.0 뷰어에서도 활용하면서 이를 차세대 이북 표준 또는 교육을 위한 이북 표준(EPUB 3.0 for education)으로 제안하여 향후 제정된 표준 이북 뷰어에서는 JavaScript없이도 처리되도록 하는 전략이 필요하다. 향후 연구는 제안한 오픈 디지털교과서 표준에 의한 오픈소스 프로그램을 개발하고, 개발된 오픈 디지털교과서의 학습활동정보를 활용한 새로운 교육서비스 방안(교육 빅데이터 활용방안 포함)을 제시하는 것이다.

키워드 네트워크 분석을 통해 살펴본 기술경영의 최근 연구동향 (A Study on Recent Research Trend in Management of Technology Using Keywords Network Analysis)

  • 고재창;조근태;조윤호
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.101-123
    • /
    • 2013
  • 최근 경제 패러다임의 변화로 인해 기업이 글로벌 경쟁우위 및 미래 성장동력 확보하기 위해서는 기술과 경영을 통합적으로 이해할 수 있는 학제적 지식을 바탕으로 기술연구의 동향을 파악하고 융합기술 및 유망기술 예측하여 지속적 혁신, 핵심역량 강화, 핵심기술 보유, 기술 융합 등을 통해 새로운 가치를 창출할 필요가 있다. 따라서 본 연구는 기술경영관련 연구의 거시적인 흐름을 분석하기 위해 동시단어 분석기반의 계량서지학적 방법론을 사용하였다. 즉, 최근 10년 동안 기술경영분야의 주요 해외 저널에 게재된 논문의 키워드를 수집한 다음, 빈도 분석, 초기 키워드 네트워크의 구조 분석, 시간이 지남에 따른 새로 생성된 키워드의 선호적 연결 및 성장 분석, 전체 네트워크에 대한 컴포넌트 분석 및 중심성 분석을 수행하였다. 이를 통해 기술경영분야의 논문에 대한 구체적인 연구 주제를 파악할 수 있고, 이들 간의 관계를 파악함으로써, 학제적 연구와 통섭을 위한 구체적인 연구주제들의 조합을 제시할 수 있다. 본 연구결과를 살펴보면 다음과 같다. 첫째, 논문 별 키워드는 1개~23개의 분포를 지니고 있으며, 평균적으로 논문 당 4.574개의 키워드가 있다. 또한 키워드 중 90%가 10년 동안 3번 이하로 사용되었다. 특히 1번만 사용된 키워드는 약 75%의 비중을 차지하고 있음을 확인하였다. 둘째, 키워드 네트워크는 좁은 세상 네트워크 및 척도 없는 네트워크의 특징을 따르고 있음을 확인하였다. 특히 기술경영관련 논문에 사용된 키워드 중 소수의 키워드의 독점화 경향이 높음을 확인할 수 있었다. 셋째, 선호적 연결 및 성장 분석을 통해 기술경영분야의 키워드는 시간이 지남에 따라 선호적 연결을 통한 생존과 소멸 과정에 의해 부익부 빈익빈 현상이 고착되고 있고 있음을 확인하였다. 또한 신규 키워드의 선호적 연결 정도 분석을 통해 신규 연구분야 또는 새로운 연구영역을 창출할 가능성이 있는 키워드 관련 연구 주제에 대한 관심이 시간이 지남에 따라 증가하다가 일정 시점이 지나면 감소함을 확인하였다. 넷째, 컴포넌트 분석 및 중심성 분석을 통해 기술경영관련 연구 동향을 확인하였다. 특히 중심성 분석을 통해 Innovation(혁신), R&D(연구개발), Patent(특허), Forecast(예측), Technology transfer(기술이전), Technology(기술), SME(중소기업) 등의 키워드가 연결중심성, 매개중심성, 근접중심성이 높음을 확인하였다. 본 연구의 분석결과는 기술경영의 연구 동향, 타 학문과의 통섭 및 신규 연구주제 선정 시 참고할 수 있는 유용한 정보로 활용될 수 있다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

효율적 자원 탐색을 위한 소셜 웹 태그들을 이용한 동적 가상 온톨로지 생성 연구 (Dynamic Virtual Ontology using Tags with Semantic Relationship on Social-web to Support Effective Search)

  • 이현정;손미애
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.19-33
    • /
    • 2013
  • 본 논문에서는 네트워크 기반 대용량의 자원들을 효율적으로 검색하기 위해 사용자의 요구사항에 기반해 검색에 요구되는 태그들 간의 의미론에 기반한 동적 가상 온톨로지(Dynamic Virtual Ontology using Tags: DyVOT)를 추출하고 이를 이용한 동적 검색 방법론을 제안한다. 태그는 소셜 네트워크 서비스를 지원하거나 이로부터 생성되는 정형 및 비정형의 다양한 자원들에 대한 자원을 대표하는 특성을 포함하는 메타적 정보들로 구성된다. 따라서 본 연구에서는 이러한 태그들을 이용해 자원의 관계를 정의하고 이를 검색 등에 활용하고자 한다. 관계 등의 정의를 위해 태그들의 속성을 정의하는 것이 요구되며, 이를 위해 태그에 연결된 자원들을 이용하였다. 즉, 태그가 어떠한 자원들을 대표하고 있는 지를 추출하여 태그의 성격을 정의하고자 하였고, 태그를 포함하는 자원들이 무엇인지에 의해 태그간의 의미론적인 관계의 설정도 가능하다고 보았다. 즉, 본 연구에서 제안하는 검색 등의 활용을 목적으로 하는 DyVOT는 태그에 연결된 자원에 근거해 태그들 간의 의미론적 관계를 추출하고 이에 기반 하여 가상 동적 온톨로지를 추출한다. 생성된 DyVOT는 대용량의 데이터 처리를 위해 대표적인 예로 검색에 활용될 수 있으며, 태그들 간의 의미적 관계에 기반해 검색 자원의 뷰를 효과적으로 좁혀나가 효율적으로 자원을 탐색하는 것을 가능하도록 한다. 이를 위해 태그들 간의 상하 계층관계가 이미 정의된 시맨틱 태그 클라우드인 정적 온톨로지를 이용한다. 이에 더해, 태그들 간의 연관관계를 정의하고 이에 동적으로 온톨로지를 정의하여 자원 검색을 위한 동적 가상 온톨로지 DyVOT를 생성한다. DyVOT 생성은 먼저 정적온톨로지로부터 사용자 요구사항을 포함하는 태그를 포함한 부분-온톨로지들을 추출하고, 이들이 공유하는 자원의 정도에 따라 부분-온톨로지들 간의 새로운 연관관계 여부를 결정하여 검색에 요구되는 최소한의 동적 가상 온톨로지를 구축한다. 즉, 태그들이 공유하는 자원이 무엇인가에 의해 연관관계가 높은 태그들 간에는 이들의 관계를 설명하는 새로운 클래스를 가진 생성된 동적 가상 온톨로지를 이용하여 검색에 활용한다. 온톨로지의 인스턴스는 자원으로 정의되고, 즉 이는 사용자가 검색하고자 하는 해로서 정의된다. 태그들 간의 관계에 의해 생성된 DyVOT를 이용해 기존 정적 온톨로지나 키워드 기반 탐색에 비해 검색해야 할 자원의 량을 줄여 검색의 정확성과 신속성을 향상 시킨다.