• 제목/요약/키워드: CASE TOOL

검색결과 2,722건 처리시간 0.025초

협력필터링과 사회연결망을 이용한 신규고객 추천방법에 대한 연구 (The Research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis)

  • 신창훈;이지원;양한나;최일영
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.19-42
    • /
    • 2012
  • 고객이 상품을 구매하는 패턴이 빠르게 변화하고 있다. 오프라인에서 고객이 직접 상품을 보고, 체험한 후 구매하던 패턴이 TV홈쇼핑, 인터넷 쇼핑 등 고객이 편리한 장소에서 자유롭게 구매하는 방법으로 확산되었다. 이처럼 구매 가능한 상품의 범위는 점점 더 다양해지고 있지만 이로 인하여 고객이 상품을 구매할 때 생기는 번거로움은 더욱 커지고 있다. 오프라인에서는 물건을 직접보고 구매하기 때문에 반품율이 낮은 반면에 온라인 구매 물품은 배송과 환불 등에서 복잡한 일들이 많이 발생한다. 온라인을 통해서 물건을 구매할 때 상품에 대한 사전 정보는 매우 한정적이며 실제로 물건을 구매했을 경우 고객이 생각했던 것과 다를 수 있다. 이러한 결과는 결국 고객의 불만족 및 구매취소로 이어진다. 또한 TV홈쇼핑이나 인터넷 쇼핑 등을 통해서 물건을 구매할 때 고객들은 이미 상품을 구매한 고객의 리뷰에도 관심을 기울이고 있다. 좋은 평가를 받은 상품은 더 많은 매출로 이어질 수 있기 때문에 기업은 이에 관심을 기울일 필요가 있다. 고객의 욕구를 만족시킬 수 있는 적절한 상품을 추천해 주고 이를 구매로 연결시키는 것은 기업의 이윤 창출과 직결되기 때문에 그 중요성이 강조된다. 고객을 위한 추천방법은 베스트셀러기반 추천방법, 인구통계 정보기반 추천방법, 최소질의대상 상품결정방법, 내용필터링기법, 협력필터링기법 등이 존재하며, 이에 대한 많은 연구가 활발하게 진행되고 있다. 그러나 위의 방법들을 신규고객에게 적용하는 것에는 문제가 발생할 수 있다. 신규고객은 상품에 대한 과거 구매이력이 존재하지 않기 때문이다. 이를 해결하기 위한 방안으로 가입 시, 고객의 인구통계적 정보나 선호도에 대한 응답을 유도하는 방법을 활용할 수 있다. 그러나 고객이 이에 대한 번거로움을 느낄 수도 있으며, 불완전한 답변을 하게 되면 추천의 정확도는 감소한다. 최근 이미 상품을 구매한 고객의 리뷰 및 기업에서 추천하는 제품에 의존하는 고객들이 증가하면서 이를 악용하는 사례도 자주 등장한다. 결국 추천에 대한 고객들의 신뢰는 감소하게 될 것이다. 따라서 좀 더 명확한 방식의 추천시스템이 절실하며, 이것이 개선된다면 는 곧 고객들의 신뢰 증가로 이어질 것이다. 본 연구에서는 협력필터링기법과 사회연결망기법의 중심성을 결합한 분석을 시도하였다. 중심성은 신규고객의 선호도를 기존고객들의 데이터를 통하여 유추하기 위하여 활용되는 정보이다. 기존 연구들에서는 기존고객들의 구매 가운데 구매성향이 유사한 고객들의 정보에 초점을 맞추고 있으며 구매성향이 다른 고객들의 정보에 대한 분석은 이루어지고 있지 않다. 그러나 이처럼 구매성향이 서로 다른 고객들의 정보를 활용한다면 추천의 정확성이 더 향상되지 않을까 하는 점을 기반으로 데이터들을 다양한 방식으로 분석하였다. 연구에 사용된 데이터는 미네소타대학의 GroupLens Research Project팀이 협력필터링기법을 통하여 영화를 추천하기 위해 만든 MovieLens의 데이터이다. 이는 1,684편의 영화에 대한 선호도를 943명이 응답한 정보로 총 100,000개의 데이터가 있다. 이를 시간 순으로 구분하여 초기 50,000개의 데이터를 기존고객의 데이터로, 후기 50,000개의 데이터를 신규고객의 데이터로 사용하였다. 이 때, 신규고객과 기존고객은 연구자가 임의로 구분한 것이다. 따라서 신규고객이라고 표현되는 고객의 데이터는 실제로 추천시스템을 통해 정보를 제공받은 고객이라고는 볼 수 없다. 그러나 현실적으로 실제 신규고객의 데이터를 수집하는 것이 쉽지 않기 때문에 전체 고객의 정보를 시간 순으로 구분하고 신규고객으로 분류한 것임을 밝혀둔다. 제시된 추천시스템은 [+]집단 추천시스템, [-]집단 추천시스템, 통합 추천시스템으로 총 3가지이다. [+]집단 추천시스템은 기존의 연구들과 유사한 방식으로 유사도가 높은 고객들을 신규고객의 이웃고객으로 분석하였다. 유사도가 높다는 것은 다른 고객들과 상품 구매에 대한 성향이 유사한 것을 의미한다. 또한 [-]집단 추천시스템은 유사도가 낮고 다른 고객들과 상품의 구매패턴이 반대에 가까운 고객들의 데이터를 활용하였으며, 통합 추천시스템은 [+]집단 추천시스템과 [-]집단 추천시스템을 결합한 방식이다. [+]집단 추천시스템과 [-]집단 추천시스템에서 각각 추천된 영화 가운데 중복되는 영화만을 신규고객에게 추천하는 방식이다. 다양한 방법의 시도를 통하여 적절한 추천시스템을 찾고, 추천시스템의 정확도를 향상시키는데 그 목적이 있다. 활용된 데이터의 분석 결과는 통합 추천시스템이 정확도가 가장 높았으며 [-]집단 추천시스템, [+]집단 추천시스템의 순인 것으로 나타났다. 이는 통합 추천시스템이 가장 효율적일 것이라는 연구자의 추측과 일치하는 결과이다. 각각의 추천시스템은 정확도의 변화를 쉽게 비교할 수 있도록 등고선지도 및 그래프를 이용하여 나타냈다. 연구의 한계점으로는 연구자가 제시한 통합 추천시스템과 [-]집단 추천시스템에 대한 정확도는 향상되었지만 이는 임의로 구분한 기준을 바탕으로 분석하였다는 점이다. 실제 추천된 영화를 바탕으로 신규고객이 영화를 선택 한 것이 아니라 기존고객의 데이터를 임의로 분류하였기 때문이다. 따라서 이는 추천 영화가 실제 고객에 미친 영향이 아니라는 한계가 존재한다. 또한 영화가 아닌 다른 상품에 대해서 이 추천시스템을 적용하였을 경우 추천 정확도에는 차이가 있을 수 있다. 따라서 추천시스템을 적용할 때에는 각 상품 및 고객집단의 특성에 적합한 적용이 필요하다.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.