• 제목/요약/키워드: Intelligence Technology

검색결과 3,471건 처리시간 0.031초

적응형 부스팅을 이용한 파산 예측 모형: 건설업을 중심으로 (Bankruptcy Forecasting Model using AdaBoost: A Focus on Construction Companies)

  • 허준영;양진용
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.35-48
    • /
    • 2014
  • 2013년 건설 경기 전망 보고서에 따르면 주택건설경기 침체 상황의 지속으로 건설 기업의 유동성 위기가 지속될 것으로 전망된다. 건설업은 파산으로 인한 사회적 파급효과가 다른 산업에 비해 큰 편이지만, 업종의 특성상 다른 산업과는 상이한 자본구조와 부채비율, 현금흐름을 가지고 있어서 기업의 파산 예측이 더 어려운 측면이 있다. 건설업은 레버리지가 큰 산업으로 부채비율이 매우 높은 업종이며 현금흐름이 프로젝트 후반부에 집중되는 특성이 있다. 그리고 경기사이클에 따른 부침이 매우 심하여 경기하강국면에선 파산이 급증하는 양상을 보인다. 건설업이 레버리지 산업인 이상 건설업체의 파산율 증가는 여신을 공여한 은행에 큰 부담으로 작용한다. 그럼에도 그간의 파산예측모델이 주로 금융기관에 집중되어 왔고 건설업종에 특화된 연구는 드물었다. 기업의 재무 자료를 바탕으로 한 파산 예측 모델에 대한 연구는 오래 전부터 다양하게 진행되었다. 하지만, 일반적인 기업 전체를 대상으로 하는 모델이기 때문에, 건설 기업과 같이 유동성이 큰 기업의 예측에는 적절하지 못할 수 있다. 건설 산업은 오랜 사업 기간과 대규모 투자, 그리고 투자금 회수가 오래 걸리는 특징을 갖는 자본 집약 산업이다. 이로 인해 다른 산업과는 상이한 자본 구조를 갖기 마련이고, 다른 산업의 기업 재무 위험도를 판단하는 기준과 동일한 적용이 곤란할 수 있다. 최근에는 기계 학습을 바탕으로 한 기업 파산 예측 연구가 활발하다. 기계 학습의 대표적 응용 분야인 패턴 인식을 기업의 파산 예측에 응용한 것이다. 기업의 재무 정보를 바탕으로 패턴을 작성하고 이 패턴이 파산 위험 군에 속하는지 안전한 군에 속하는지 판단하는 것이다. 전통적인 Z-Score와 기계 학습을 이용한 파산 예측과 같은 기존 연구들은 특정 산업 분야가 아닌 일반적인 기업을 대상으로 하기 때문에 기업들의 특성을 전혀 고려하고 있지 못하다. 본 논문에서는 건설 기업을 규모에 따라 각 기법들의 예측 능력을 비교하여 적응형 부스팅이 가장 우수함을 확인하였다. 본 논문은 건설 기업을 자본금 규모에 따라 세 등급으로 분류하고 각각에 대해 적응형 부스팅의 예측력을 분석하였다. 실험 결과 적응형 부스팅이 다른 기법에 비해 예측 결과가 좋았고, 특히 자본금 규모가 500억 이상인 기업의 경우 아주 우수한 결과를 보였다.

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.

고객 간 관계 네트워크가 조직성과에 미치는 영향: 페이스북 기업 팬페이지를 중심으로 (Effects of Customers' Relationship Networks on Organizational Performance: Focusing on Facebook Fan Page)

  • 전수현;곽기영
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.57-79
    • /
    • 2016
  • 최근 소셜 네트워크 서비스는 소비자와의 관계 마케팅 확산 및 확장을 위한 중요한 채널로 인식되며 많은 관심을 받고 있다. 기업이 온라인 환경에서 성공하기 위해서는 기업과 고객 사이의 관계 구축뿐만 아니라 고객들 간의 관계에 초점을 맞출 필요가 있다. 본 연구에서는 페이스북 팬 페이지에 참여하는 사용자들 사이의 네트워크를 분석하여 기업의 비즈니스 성과에 고객 간 네트워크의 구조적 특성이 미치는 영향을 실증적으로 분석하였다. 이를 위해 네트워크 데이터는 코스피 상장 기업 가운데 페이스북 팬 페이지에 100개 이상의 게시글을 올린 54개 기업으로부터 수집하였으며, 수집된 네트워크 데이터는 각 사용자를 노드로 하고 동일한 마케팅 활동에 대해 참여한 사용자간의 관계를 링크로 한 원모드 비방향 이진 네트워크(one-mode undirected binary network)이다. 본 연구에서는 이러한 네트워크 데이터를 핸들링하여 사용자들 간의 활동 관계를 분석할 수 있는 네트워크 지표(밀도, 글로벌 클러스터링 계수, 최단거리평균, 직경)를 도출하였으며, 이러한 고객 간 네트워크의 구조적 특징을 파악할 수 있는 지표와 기업의 과거실적(순이익), 그리고 미래 예측성과(토빈의 Q) 간의 관계를 분석하였다. 본 연구는 학문적 관점에서 소셜 미디어 채널을 비즈니스 관점에서 연구하려는 연구자들에게 소셜네트워크분석 방법을 통한 새로운 접근법을 제시한다. 실무적인 관점에서 본 연구는 소셜미디어를 통해 마케팅 활동을 수행하려는 기업의 관리자들에게 네트워크의 지표를 이용한 지능형 마케팅 서비스를 수행할 수 있는 토대를 제공할 것으로 기대한다.

키워드검색광고 포트폴리오 구성을 위한 통계적 최적화 모델에 대한 실증분석 (An Empirical Study on Statistical Optimization Model for the Portfolio Construction of Sponsored Search Advertising(SSA))

  • 양홍규;홍준석;김우주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.167-194
    • /
    • 2019
  • 본 논문은 키워드검색광고와 관련하여 의사결정자인 광고주의 입장에서 분석한 통계모델 기반 검색엔진최적화(Search Engine Optimization)논문이다. 일반적으로 키워드입찰은 노출순위를 대상으로 하는 입찰가액에 의해 이루어지고 있다. 그런데, 대부분 광고주는 수천 개 이상의 많은 키워드를 관리함에 있어, 매시간적으로 바뀌는 키워드별 입찰가액을 통해 입찰광고시스템을 관리하고 있는데, 사실상 시간과 인력자원측면에서 비효율적이다. 따라서, 본 논문에서는 기존의 입찰가액을 중심으로 하는 입찰시스템에 대해 의문점을 제기하고, 새로운 관점에서 노출순위를 의사결정변수로 하는 새로운 검색광고모델을 재정의하여 제시하였다. 새로운 검색광고모델에 대한 최적화실증분석을 위해 예측모델과 최적화모델을 제시하였다. 연구과정은 우선 키워드의 특성에 따라 키워드그룹을 원천 제조브랜드 유통브랜드의 범주화기준을 제시한 후, PC 와 모바일 매체별로 대표 키워드 선정한 후 노출순위와 클릭률이 비선형분포임을 보였고, 통계적 관계를 검토하였다. 클릭률예측 및 입찰가액예측을 위한 통계적 시나리오를 제시하였고, 적합성 분석을 통해 최적의 예측모델을 선정한 후, 선정된 예측모델을 기반으로 하여 클릭률과 기대이익(전환율)에 관한 최적화목적함수를 정의하고 실증분석을 진행하였다. 분석결과, 본 논문에서 제시한 검색광고모델은 클릭률 기반의 클릭수와 전환율 기반의 기대이익으로 표현되는 최적화모델 모두에서 개선효과가 있음을 확인하였다. 다만, 기대이익 최적화모델의 경우에는 핵심키워드임에도 불구하고 기대이익이 낮아 광고에서 배제되는 문제를 있음을 확인하고 대안을 제시했다. 마코브체인분석을 통해 핵심 경유키워드 개념을 도입하였고, 최적화목적함수에 대해 핵심경유키워드의 기회이익을 반영한 최적화수정모델을 제시하여 적용가능성을 확인하였다. 본 논문은 키워드입찰시스템의 의사결정변수를 노출순위의 관점으로 전환하는 새로운 모델을 제안하였고, 키워드 범주별 및 노출순위 기반의 통계적 예측을 제시하고, 포트폴리오 구성에서의 최적화실증분석을 통해 노출순위 기반 예측모델의 유효성을 확인함과 동시에, 키워드간의 확산효과를 포함하는 수정모델제시 등 전략적인 입찰을 제안한 점에 시사점이 있다.

빅데이터와 딥러닝을 활용한 동물 감염병 확산 차단 (Animal Infectious Diseases Prevention through Big Data and Deep Learning)

  • 김성현;최준기;김재석;장아름;이재호;차경진;이상원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.137-154
    • /
    • 2018
  • 조류인플루엔자와 구제역 같은 동물감염병은 거의 매년 발생하며 국가에 막대한 경제적 사회적 손실을 일으키고 있다. 이를 예방하기 위해서 그간 방역당국은 다양한 인적, 물적 노력을 기울였지만 감염병은 지속적으로 발생해 왔다. 최근 빅데이터와 딥러닝 기술을 활용하여 감염병의 예측모델을 개발하고자 하는 시도가 시작되고 있지만, 실제로 활용가능한 모델구축 연구와 사례보고는 활발히 진행되고 있지 않은 실정이다. KT와 과학기술정보통신부는 2014년부터 국가 R&D사업의 일환으로 축산관련 차량의 이동경로를 분석하여 예측하는 빅데이터 사업을 수행하고 있다. 동물감염병 예방을 위하여 연구진은 최초에는 차량이동 데이터를 활용한 회귀분석모델을 기반으로 한 예측모델을 개발하였다. 이후에는 기계학습을 활용하여 좀 더 정확한 예측 모델을 구성하였다. 특히, 2017년 예측모델에서는 시설물에 대한 확산 위험도를 추가하였고 모델링의 하이퍼 파라미터를 다양하게 고려하여 모델의 성능을 높였다. 정오분류표와 ROC 커브를 확인한 결과, 기계 학습 모델보다 2017년 구성된 모형이 우수함을 확인 할 수 있었다. 또한 2017에는 결과에 대한 설명을 추가하여 방역당국의 의사결정을 돕고 이해관계자를 설득할 수 있는 근거를 확보하였다. 본 연구는 빅데이터를 활용하여 동물감염병예방시스템을 구축한 사례연구로 모델주요변수값, 이에따른 실제예측성능결과, 그리고 상세하게 기술된 시스템구축 프로세스는 향후 감염병예방 영역의 지속적인 빅데이터활용 및 분석 모델 개발에 기여할 수 있을 것이다. 또한 본 연구에서 구축한 시스템을 통해 보다 사전적이고 효과적인 방역을 할 수 있을 것으로 기대한다.

사용자 로그 분석에 기반한 노인 돌봄 솔루션 구축 전략: 효돌 제품의 사례를 중심으로 (Implementation Strategy for the Elderly Care Solution Based on Usage Log Analysis: Focusing on the Case of Hyodol Product)

  • 이준식;유인진;박도형
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.117-140
    • /
    • 2019
  • 고령화 현상이 가속화되고, 취약계층 노인과 관련된 다양한 사회문제가 제기됨에 따라 노인세대의 건강과 안전을 보호하기 위한 효과적인 노인 돌봄 솔루션의 필요성이 커지고 있다. 최근에는 노인 돌봄의 수단으로 첨단화된 ICT 기술을 탑재한 스마트 토이를 활용하고자 하는 사례가 늘고 있다. 특히 스마트 토이를 통해 기록되는 노인 행태에 대한 로그 데이터는 노인 돌봄 관련 정책 수립, 노인 돌봄 서비스 컨셉 기획 및 개발과 같은 분야에 정량적이고 객관적인 설명지표로써 활용 가치가 높을 것으로 전망된다. 그러나 현재까지 노인 돌봄 스마트 토이와 관련된 연구 중 스마트 토이를 통해 기록된 사용자 행동 로그에 주목하여 이를 의사결정에 활용하고자 하는 연구는 부족한 실정이다. 본 연구는 기존에 충분히 논의되지 않았던 스마트 토이 사용자 행동 로그 데이터에 대한 분석을 중심으로, 노인 돌봄 솔루션의 사용자 경험 증진을 위한 효과적인 인사이트를 도출하는 것을 목적으로 한다. 구체적으로 사용자 프로파일링 기반 행태 분석과 사용 행태에 따른 삶의 질 변화 메커니즘 도출을 단계적으로 수행하였다. 분석 결과, 5개의 노인 생활관리 요인으로부터 노인집단 유형을 분류할 수 있는 2개의 중요한 차원을 도출하였으며, 도출한 차원에 근거하여 전체 노인 사용자를 3개의 유형으로 분류하고 유형별 스마트 토이 사용 행태 차이를 프로파일링 분석을 통해 확인할 수 있었다. 이후 스마트 토이 사용 행태에 따른 삶의 질 변화 메커니즘을 도출하기 위한 단계적 회귀분석을 수행하였으며, 스마트 토이와의 상호작용, 스마트 토이의 콘텐츠 사용, 스마트 토이가 관찰한 노인의 가정 내 활동 정도가 노인의 우울감 개선과 생활패턴 개선에 미치는 영향 및 이를 중재하는 경로로써 스마트 토이에 대한 사용자의 성능평가와 만족감의 역할을 밝혀내었다.

SANET-CC : 해상 네트워크를 위한 구역 IP 할당 프로토콜 (SANET-CC : Zone IP Allocation Protocol for Offshore Networks)

  • 배경율;조문기
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.87-109
    • /
    • 2020
  • 현재 육상에서는 유무선 통신의 발전으로 다양한 IT 서비스를 제공받고 있다. 이러한 변화는 육상을 넘어서서 해상에서 항해 중인 선박에서도 다양한 IT 서비스가 제공되어야 하며 육상에서 이용하는 것과 마찬가지로 양방향 디지털 데이터 전송, Web, App 등과 같은 다양한 IT 서비스들의 제공에 대한 요구가 증가될 것으로 예상하고 있다. 하지만 이러한 초고속 정보통신망은 AP(Access Point)와 기지국과 같은 고정된 기반 구조를 바탕으로 네트워크를 구성하는 지상에서는 쉽게 사용할 수 있는 반면 해상에서는 고정된 기반 구조를 이용하여 네트워크를 구성할 수 없다. 그래서 전송 거리가 긴 라디오 통신망 기반의 음성 위주의 통신 서비스를 사용하고 있다. 이러한 라디오 통신망은 낮은 전송 속도로 인해 매우 기본적인 정보만을 제공할 수 있었으며, 효율적인 서비스 제공에 어려움이 있다. 이를 해결하기 위해서 디지털 데이터 상호교환을 위한 추가적인 주파수가 할당되었으며 이 주파수를 사용하여 활용할 수 있는 선박 애드 혹 네트워크인 SANET(ship ad-hoc network)이 제안되었다. SANET은 높은 설치비용과 사용료의 위성 통신을 대신하여 해상에서 IP 기반으로 선박에 다양한 IT 서비스를 제공할 수 있도록 개발되었다. SANET에서는 육상 기지국과 선박의 연결성이 중요하다. 이러한 연결성을 갖기 위해서는 선박은 자신의 IP 주소를 할당 받아 네트워크의 구성원이 되어야 한다. 본 논문에서는 선박 스스로 자신의 IP 주소를 할당 받을 수 있는 SANET-CC(Ship Ad-hoc Network-Cell Connection) 프로토콜을 제안한다. SANET-CC는 중복되지 않는 다수의 IP 주소들을 육상기지국에서 선박들에 이어지는 트리 형태로 네트워크 전반에 전파한다. 선박은 IP 주소를 할당할 수 있는 육상 기지국 또는 나누어진 구역의 M-Ship(Mother Ship)들과 간단한 요청(Request) 및 응답(Response) 메시지 교환을 통해 자신의 IP 주소를 할당한다. 따라서 SANET-CC는 IP 충돌 방지(Duplicate Address Detection) 과정과 선박의 이동에 의해 발생하는 네트워크의 분리나 통합에 따른 처리 과정을 완전히 배제할 수 있다. 본 논문에서는 SANET-CC의 SANET 적용가능성을 검증하기 위해서 다양한 조건의 시뮬레이션을 수행하였으며 기존 연구와 비교 분석을 진행하였다.

이차원 고객충성도 세그먼트 기반의 고객이탈예측 방법론 (A Methodology of Customer Churn Prediction based on Two-Dimensional Loyalty Segmentation)

  • 김형수;홍승우
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.111-126
    • /
    • 2020
  • CRM의 하위 연구 분야로 진행되었던 고객이탈예측은 최근 비즈니스 머신러닝 기술의 발전으로 인해 빅데이터 기반의 퍼포먼스 마케팅 주제로 더욱 그 중요도가 높아지고 있다. 그러나, 기존의 관련 연구는 예측 모형 자체의 성능을 개선시키는 것이 주요 목적이었으며, 전체적인 고객이탈예측 프로세스를 개선하고자 하는 연구는 상대적으로 부족했다. 본 연구는 성공적인 고객이탈관리가 모형 자체의 성능보다는 전체 프로세스의 개선을 통해 더 잘 이루어질 수 있다는 가정하에, 이차원 고객충성도 세그먼트 기반의 고객이탈예측 프로세스 (CCP/2DL: Customer Churn Prediction based on Two-Dimensional Loyalty segmentation)를 제안한다. CCP/2DL은 양방향, 즉 양적 및 질적 로열티 기반의 고객세분화를 시행하고, 고객세그먼트들을 이탈패턴에 따라 2차 그룹핑을 실시한 뒤, 이탈패턴 그룹별 이질적인 이탈예측 모형을 독립적으로 적용하는 일련의 이탈예측 프로세스이다. 제안한 이탈예측 프로세스의 상대적 우수성을 평가하기 위해 기존의 범용이탈예측 프로세스와 클러스터링 기반 이탈예측 프로세스와의 성능 비교를 수행하였다. 글로벌 NGO 단체인 A사의 협력으로 후원자 데이터를 활용한 분석과 검증을 수행했으며, 제안한 CCP/2DL의 성능이 다른 이탈예측 방법론보다 우수한 성능을 보이는 것으로 나타났다. 이러한 이탈예측 프로세스는 이탈예측에도 효과적일 뿐만 아니라, 다양한 고객통찰력을 확보하고, 관련된 다른 퍼포먼스 마케팅 활동을 수행할 수 있는 전략적 기반이 될 수 있다는 점에서 연구의 의의를 찾을 수 있다.

협업 필터링 및 하이브리드 필터링을 이용한 동종 브랜드 판매 매장간(間) 취급 SKU 추천 시스템 (SKU recommender system for retail stores that carry identical brands using collaborative filtering and hybrid filtering)

  • 조용민;남기환
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.77-110
    • /
    • 2017
  • 최근 인터넷 기반의 웹 및 모바일 기기를 통한 소비 패턴의 다양화와 개성화가 급진전됨에 따라 전통적 유통채널인 오프라인 매장의 효율적 운영이 더욱 중요해졌다. 매장의 매출과 수익 모두를 제고하기 위해 매장은 소비자에게 가장 매력적인 상품을 적시에 공급-판매 해야 하는데 많은 상품들 중에서 어떤 SKU를 취급하는 것이 판매 확률을 높이고 재고 비용을 낮출 수 있는지에 대한 연구가 부족한 실정이다. 특히, 여러 지역에 걸쳐 다수의 오프라인 매장을 통해 상품을 판매하는 기업의 경우 고객에게 매력적인 적절한 SKU를 추천 받아 취급할 수 있다면 매장의 매출 및 수익률 제고에 도움이 될 것이다. 본 연구에서는 개인화 추천에 이용되어 왔던 협업 필터링과 하이브리드 필터링 등의 추천 시스템(Recommender System)을 국가별, 지역별로 복수의 판매 매장을 통해 동종 브랜드를 취급하는 유통 기업의 매장 단위 취급 SKU 추천 방식을 제안하였다. 각 매장의 취급 품목별 구매 데이터를 활용하여 각 매장 별 유사성(Similarity)을 계산하고 각 매장의 SKU별 판매 이력에 따라 협업 필터링을 하여 최종적으로 매장에 개별 SKU를 추천하였다. 또한 매장 프로파일 데이터를 활용하여 주변수 분석 (PCA : Principal Component Analysis) 및 군집 분석(Clustering)을 통하여 매장을 4개의 군집으로 분류한 뒤 각 군집 내에서 협업 필터링을 적용한 하이브리드 필터링 방식으로 추천 시스템을 구현하고 실제 판매 데이터를 바탕으로 두 방식의 성능을 측정하였다. 현존하는 대부분의 추천 시스템은 사용자에게 영화, 음악 등의 아이템을 추천하는 방식으로 연구가 진행되어 왔고 실제로 산업계에서의 적용 또한 개인화 추천 시스템이 주류를 이루고 있다. 그 동안 개인화 서비스 영역에서 주로 다루어져 왔던 이러한 추천 시스템을 동종 브랜드를 취급하는 유통 기업의 매장 단위에 적용하여 각 매장의 취급 SKU를 추천하는 방식에 대한 연구는 거의 이루어지지 않고 있는 실정이다. 기존 추천 방법론의 추천 적용 대상이 '개인의 영역이었다면 본 연구에서는 국가별, 지역별로 복수의 판매 매장을 통해 개인의 영역을 넘어 매장의 영역으로 확대하여 동종 브랜드를 취급하는 유통 기업의 매장 단위 취급 SKU 추천 방식을 제안하고 있다. 또한 기존의 추천시스템은 온라인에 한정되었다면 이를 오프라인으로 활용 범위를 넓히고, 기존 개인을 기반으로 분석을 하는 것보다 매장영역으로 확대 적용하기에 적합한 알고리즘을 개발하기 위해 데이터마이닝 기법을 적용하여 추천 방법을 제안한다. 본 연구의 결과가 갖는 의의는 개인화 추천 알고리즘을 동일 브랜드를 취급하는 복수의 판매 매장에 적용하여 의미 있는 결과를 도출하고 실제 기업을 대상으로 시스템으로 구축하여 활용할 수 있는 구체적 방법론을 제시했다는 데에 있다. 개인화 영역을 위주로 이루어졌던 기존의 추천 시스템과 관련한 학계의 연구 영역을 동종 브랜드를 취급하는 기업의 판매 매장으로 확장시킨 첫 시도라는 데에도 의미가 있다. 2014년 03주차 ~ 05주차 전(全) 매장 판매 수량 실적 Top 100개 SKU로 추천의 대상을 한정하여 협업 필터링과 하이브리드 필터링 방식으로 52개 매장 별로 취급 SKU를 추천하고, 추천 받은 SKU에 대한 2014년 06주차 매장별 판매 실적을 집계하여 두 추천 방식의 성과를 비교하였다. 두 추천 방식을 비교한 이유는 본 연구의 추천 방법이 기존 추천 방식 보다 높은 성과를 입증하기 위해 단순히 오프라인에 협업필터링을 적용한 것을 기준 모델로 정의하였다. 이 기준 모델에 오프라인 매장 관점의 특성을 잘 반영한 본 연구 모델인 하이브리드 필터링 방법과 비교 함으로써 성과를 입증한다. 연구에서 제안한 방식은 기존 추천 방식보다 높은 성과를 나타냈으며, 이는 국내 대기업 의류업체의 실제 판매데이터를 활용하여 입증하였다. 본 연구는 개인 수준의 추천시스템을 그룹수준으로 확장하여 효율적으로 접근하는 방법을 이론적인 프레임 워크를 만들었을 뿐 아니라 실제 데이터를 기반으로 분석하여 봄으로써 실제 기업들이 적용해 볼 수 있다는 점에서 연구의 가치가 크다.

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.