• 제목/요약/키워드: New Approach

검색결과 10,443건 처리시간 0.043초

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

고객 간 관계 네트워크가 조직성과에 미치는 영향: 페이스북 기업 팬페이지를 중심으로 (Effects of Customers' Relationship Networks on Organizational Performance: Focusing on Facebook Fan Page)

  • 전수현;곽기영
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.57-79
    • /
    • 2016
  • 최근 소셜 네트워크 서비스는 소비자와의 관계 마케팅 확산 및 확장을 위한 중요한 채널로 인식되며 많은 관심을 받고 있다. 기업이 온라인 환경에서 성공하기 위해서는 기업과 고객 사이의 관계 구축뿐만 아니라 고객들 간의 관계에 초점을 맞출 필요가 있다. 본 연구에서는 페이스북 팬 페이지에 참여하는 사용자들 사이의 네트워크를 분석하여 기업의 비즈니스 성과에 고객 간 네트워크의 구조적 특성이 미치는 영향을 실증적으로 분석하였다. 이를 위해 네트워크 데이터는 코스피 상장 기업 가운데 페이스북 팬 페이지에 100개 이상의 게시글을 올린 54개 기업으로부터 수집하였으며, 수집된 네트워크 데이터는 각 사용자를 노드로 하고 동일한 마케팅 활동에 대해 참여한 사용자간의 관계를 링크로 한 원모드 비방향 이진 네트워크(one-mode undirected binary network)이다. 본 연구에서는 이러한 네트워크 데이터를 핸들링하여 사용자들 간의 활동 관계를 분석할 수 있는 네트워크 지표(밀도, 글로벌 클러스터링 계수, 최단거리평균, 직경)를 도출하였으며, 이러한 고객 간 네트워크의 구조적 특징을 파악할 수 있는 지표와 기업의 과거실적(순이익), 그리고 미래 예측성과(토빈의 Q) 간의 관계를 분석하였다. 본 연구는 학문적 관점에서 소셜 미디어 채널을 비즈니스 관점에서 연구하려는 연구자들에게 소셜네트워크분석 방법을 통한 새로운 접근법을 제시한다. 실무적인 관점에서 본 연구는 소셜미디어를 통해 마케팅 활동을 수행하려는 기업의 관리자들에게 네트워크의 지표를 이용한 지능형 마케팅 서비스를 수행할 수 있는 토대를 제공할 것으로 기대한다.

코로나19 공중보건 위기 상황에서의 자유권 제한에 대한 '해악의 원리'의 적용과 확장 - 2020년 3월 개정 「감염병의 예방 및 관리에 관한 법률」을 중심으로 - (Application and Expansion of the Harm Principle to the Restrictions of Liberty in the COVID-19 Public Health Crisis: Focusing on the Revised Bill of the March 2020 「Infectious Disease Control and Prevention Act」)

  • 유기훈;김도균;김옥주
    • 의료법학
    • /
    • 제21권2호
    • /
    • pp.105-162
    • /
    • 2020
  • 감염병의 팬데믹 상황 속에서, 국가의 방역 대책은 안보로서의 속성을 지니며, 공중보건과 공공의 이익의 이름으로 개인의 자유에 대한 일정한 제한이 정당화되어왔다. 2020년 3월, 대한민국 국회는 「감염병의 예방 및 관리에 관한 법률」 개정안을 통과시켰으며, 이를 통해 '감염의심자'의 검사 및 격리거부에 대한 처벌의 법적 근거를 신설하고 격리위반과 치료거부의 벌칙을 상향하였다. 본 논문에서는 국가가 개인의 자유를 제한하는 행위의 정당성 판별기준에 대한 자유주의 법철학의 논변과 원리들을 검토하고, 피해자임과 동시에 매개체로서의 속성을 지니는 감염병 환자(patient as victim and vector)에 대한 자유제한원리의 적용은 파인버그(Joel Feinberg)가 제시한 '스스로에 대한 해악(harm to self)'과 '타인에 대한 해악(harm to others)'이 중첩되는 지점에 있음을 개념화하였다. 파인버그가 제기한 자유제한원리(liberty-limiting principle)를 불확실성(uncertainty)을 지니는 팬데믹 상황에 적용하기 위해서는, 해악에서 리스크(risk)로 해악의 원리를 확장시킬 것이 요구된다. 이러한 해악에서 리스크로의 전환은, 불확실한 위기상황 하에서 국가가 사전주의 원칙(precautionary principle)을 통해 개인의 자유를 사전적으로 제한하는 것을 정당화함과 동시에, 충분한 근거 없이 개인의 행위를 처벌의 대상으로 삼는 과잉범죄화(overcriminalization)의 우려를 낳는다. 본 글에서는 리스크를 지닌 개인에 대한 사전적 자유제한을 둘러싼 사전주의의 원칙과 과잉범죄화의 우려 사이에서 균형을 이룰 수 있는 원칙들을 검토한다. 이어서 '타인에 대한 해악' 원칙이 공익과 공중보건 상황에 적용되기 위한 두 번째 확장으로, 인구집단 개념으로의 전환을 다룬다. 팬데믹과 같은 공중보건 위기 상황에서는 '개인'이 아닌 '인구집단'을 하나의 단위로 고려하는 인구집단 접근법(population approach)이 필요하며, 나아가 앞선 두 논의를 결합한 '인구집단에 대한 리스크(risk to population)'가 팬데믹 상황에서 해악의 원리의 중요한 구성요소로 고려되어야 함을 제안한다. 논문의 마지막에서는, 앞서 개념화한 '확장된 해악의 원리' 하에서 개정 「감염병의 예방 및 관리에 관한 법률」의 자유제한이 정당화될 수 있는지 검토한다. 격리위반 처벌조항은 '인구집단에 대한 리스크'에 대한 자유제한에 해당하여, 강제검사 또한 무증상 감염자라는 감염병의 특성에 의거하여 '확장된 해악의 원리'의 차원에서는 정당성이 부정되지 않음을 보일 수 있었다. 그러나 치료거부 처벌조항은 전통적 해악의 원리뿐만 아니라 '인구집단에 대한 리스크'라는 팬데믹의 특성을 고려한 '확장된 해악의 원리' 하에서도 정당화되기 어려우며, 추가적 단서조항을 포함하여야만 정당화 근거를 획득할 수 있을 것임을 논증하였다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

e-스포츠의 다양한 속성이 유동(flow)과 동일시에 미치는 영향에 관한 연구 (A Study on the Various Attributes of E-Sport Influencing Flow and Identification)

  • 서문식;안진우;김은영;엄성원
    • 마케팅과학연구
    • /
    • 제18권1호
    • /
    • pp.59-80
    • /
    • 2008
  • 인터넷의 급속한 발달과 온라인 사용이 급증함에 따라 e-스포츠와 같은 온라인 게임은 거대한 시장으로 성장하고 있다. 그렇지만, 많은 e-스포츠를 후원하는 기업의 효과를 검증하는 마케팅적 연구는 미진한 상태이다. 있다해도 단순히 온라인 게임과 관련한 연구가 대다수이다. 이에 본 연구는 e-스포츠 스폰서십을 통해 기업의 마케팅 커뮤니케이션 전략 수립을 위한 토대를 마련코자 하였으며 시작단계에 있는 e-스포츠의 향후 연구에 기여하고자 하였다. 중요 변수들은 첫째, e-스포츠의 주요한 게임속성으로 상호작용성, 익명성, 내용확장성을 들고 온라인 상황에서 주요한 매개의 역할로 다루어지는 유동(flow)과의 관계를 살펴보았다. 둘째, e-스포츠의 주요한 게이머속성(스포츠 경기에서의 팀과 플레이어의 속성에서 수정)인 매력성, 유사성, 경기결과가 유동(flow)과 게이머동일시(온라인 게임상황에 맞게 기존 팀동일시를 게이머동일시로 차용)에 미치는 영향관계를 살펴보았다. 마지막으로 유동(flow)과 게이머동일시와의 관계 그리고 게이머동일시와 기업동일시와의 관계를 최종적으로 점검하였다. 연구의 결과, 온라인의 기초적인 특성인 상호작용성은 유동(flow)에 유의한 영향이 있었고 게이머속성에서의 유사성과 경기결과도 유동(flow)에 유의한 영향이 있었다. 그리고 유사성은 게이머동일시에 정의 영향을 미치는 것으로 나타났다. 마지막으로 유동(flow)은 게이머동일시에 그리고 게이머동일시는 기업동일시에 정의 영향이 있는 것으로 나타났다. 결론적으로 e-스포츠를 후원하는 기업의 경우 일반 유저들과 유사한 특성인 가진 실력있는 게이머를 후원한다면 마케팅 효과를 극대화할 수 있다.

  • PDF

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

한강하류지형면의 분류와 지형발달에 대한 연구 (양수리에서 능곡까지)

  • 박노식
    • 동굴
    • /
    • 제68호
    • /
    • pp.23-73
    • /
    • 2005
  • Purpose of study; The purpose of this study is specifically classified as two parts. The one is to attempt the chronological annals of Quaternary topographic surface through the study over the formation process of alluvial surfaces in our country, setting forth the alluvial surfaces lower-parts of Han River area, as the basic deposit, and comparing it to the marginal landform surfaces. The other is to attempt the classification of micro morphology based on the and condition premising the land use as a link for the regional development in the lower-parts of Han river area. Reasons why selected the Lower-parts of Han river area as study objects: 1. The change of river course in this area is very serve both in vertical and horizontal sides. With a situation it is very easy to know about the old geography related to the formation process of topography. 2. The component materials of gravel, sand, silt and clay are deposited in this area. Making it the available data, it is possible to consider about not oかy the formation process of topography but alsoon the development history to some extent. 3. The earthen vessel, a fossil shell fish, bone, cnarcoal and sea-weed are included in the alluvial deposition in this area. These can be also valuable data related to the chronological annals. 4. The bottom set conglometate beds is also included in the alluvial deposits. This can be also valuable data related to the research of geomorphological development. 5. Around of this area the medium landform surface, lower landform surface, pediment and basin, are existed, and these enable the comparison between the erosion surfaces and the alluvial surfaces. Approach : 1. Referring to the change of river beds, I have calculated the vertical and horizontal differences comparing the topographic map published in 1916 with that published in 1966 and through the field work 2. In classifying the landform, I have applied the method of micro morphological classification in accordance with the synthetic index based upon the land conditions, and furthermore used the classification method comparing the topographic map published in 1916 and in that of 1966. 3. I have accorded this classification with the classification by mapping through appliying the method of classification in the development history for the field work making the component materials as the available data. 4. I have used the component materials, which were picked up form the outcrop of 10 places and bored at 5 places, as the available data. 5. I have referred to Hydrological survey data of the ministry of Construction (since 1916) on the overflow of Han-river, and used geologic map of Seoul metropolitan area. Survey Data, and general map published in 1916 by the Japanese Army Survbey Dept., and map published in 1966 by the Construction Research Laboratory and ROK Army Survey Dept., respectively. Conclusion: 1. Classification of Morphology: I have added the historical consideration for development, making the component materials and fossil as the data, to the typical consideration in accordance with the map of summit level, reliefe and slope distribution. In connection with the erosion surface, I have divided into three classification such as high, medium and low-,level landform surfaces which were classified as high and low level landform surfaces in past. furthermore I have divided the low level landform surface two parts, namely upper-parts(200-300m) and bellow-parts(${\pm}100m$). Accordingly, we can recognize the three-parts of erosion surface including the medium level landform surface (500-600m) in this area. (see table 22). In condition with the alluvial surfaces I have classified as two landform surfaces (old and new) which was regarded as one face in past. Meamwhile, under the premise of land use, the synthetic, micro morphological classification based upon the land condition is as per the draw No. 19-1. This is the quite new method of classification which was at first attempted in this country. 2. I have learned that the change of river was most severe at seeing the river meandering rate from Dangjung-ni to Nanjido. As you seee the table and the vertical and horizontal change of river beds is justly proportionable to the river meandering rate. 3. It can be learned at seeing the analysis of component materials of alluvial deposits that the component from each other by areas, however, in the deposits relationship upper stream, and between upper parts and below parts I couldn't always find out the regular ones. 4. Having earthern vessel, shell bone, fossil charcoal and and seaweeds includen in the component materials such as gravel, clay, sand and silt in Dukso and Songpa deposits area. I have become to attempt the compilation of chronicle as yon see in the table 22. 5. In according to hearing of basemen excavation, the bottom set conglomerate beds of Dukso beds of Dukso-beds is 7m and Songpa-beds is 10m. In according to information of dredger it is approx. 20m in the down stream. 6. Making these two beds as the standard beds, I have compared it to other beds. 7 The coarse sand beds which is covering the clay-beds of Dukso-beds and Nanjidobeds is shown the existence of so-called erosion period which formed the gap among the alluvial deposits of stratum. The former has been proved by the sorting, bedding and roundness which was supplied by the main stream and later by the branch stream, respectively. 8. If the clay-beds of Dukeo-bed and Songpa-bed is called as being transgressive overlap, by the Eustatic movement after glacial age, the bottom set conglomerate beds shall be called as being regressive overlap at the holocene. This has the closest relationship with the basin formation movement of Seoul besides the Eustatic movement. 9. The silt-beds which is the main component of deposits of flood plain, is regarded as being deposited at the Holocene in the comb ceramic and plain pottery ages. This has the closest relationship with the change of river course and river beds.

지능형 전망모형을 결합한 로보어드바이저 알고리즘 (Robo-Advisor Algorithm with Intelligent View Model)

  • 김선웅
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.39-55
    • /
    • 2019
  • 최근 은행과 증권회사를 중심으로 다양한 로보어드바이저 금융상품들이 출시되고 있다. 로보어드바이저는 사람 대신 컴퓨터가 포트폴리오 자산배분에 대한 투자 결정을 실행하기 때문에 다양한 자산배분 알고리즘이 활용되고 있다. 본 연구에서는 대표적 로보어드바이저 알고리즘인 블랙리터만모형의 강점을 살리면서 객관적 투자자 전망을 도출할 수 있는 지능형 전망모형을 제안하고 이를 내재균형수익률과 결합하여 최종 포트폴리오를 도출하는 로보어드바이저 자산배분 알고리즘을 새로이 제안하며, 실제 주가자료를 이용한 실증분석 결과를 통해 전문가의 주관적 전망을 대신할 수 있는 지능형 전망모형의 실무적 적용 가능성을 보여주고자 한다. 그동안 주가 예측에서 우수한 성과를 보여주었던 기계학습 방법 중 SVM 모형을 이용하여 각 자산별 기대수익률에 대한 예측과 예측 확률을 도출하고 이를 각각 기대수익률에 대한 투자자 전망과 전망에 대한 신뢰도 수준의 입력변수로 활용하는 지능형 전망모형을 제안하였다. 시장포트폴리오로부터 도출된 내재균형수익률과 지능형 전망모형의 기대수익률, 확률을 결합하여 최종적인 블랙리터만모형의 최적포트폴리오를 도출하였다. 주가자료는 2008년부터 2018년까지의 132개월 동안의 8개의 KOSPI 200 섹터지수 월별 자료를 분석하였다. 블랙리터만모형으로 도출된 최적포트폴리오의 결과가 기존의 평균분산모형이나 리스크패리티모형 등과 비교하여 우수한 성과를 보여주었다. 구체적으로 2008년부터 2015년까지의 In-Sample 자료에서 최적화된 블랙리터만모형을 2016년부터 2018년까지의 Out-Of-Sample 기간에 적용한 실증분석 결과에서 다른 알고리즘보다 수익과 위험 모두에서 좋은 성과를 기록하였다. 총수익률은 6.4%로 최고 수준이며, 위험지표인 MDD는 20.8%로 최저수준을 기록하였다. 수익과 위험을 동시에 고려하여 투자 성과를 측정하는 샤프비율 역시 0.17로 가장 좋은 결과를 보여주었다. 증권계의 애널리스트 전문가들이 발표하는 투자자 전망자료의 신뢰성이 낮은 상태에서, 본 연구에서 제안된 지능형 전망모형은 현재 빠른 속도로 확장되고 있는 로보어드바이저 관련 금융상품을 개발하고 운용하는 실무적 관점에서 본 연구는 의의가 있다고 판단된다.

평점과 리뷰 텍스트 감성분석을 결합한 추천시스템 향상 방안 연구 (How to improve the accuracy of recommendation systems: Combining ratings and review texts sentiment scores)

  • 현지연;유상이;이상용
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.219-239
    • /
    • 2019
  • 개인에게 맞춤형 서비스를 제공하는 것이 중요해지면서 개인화 추천 시스템 관련 연구들이 끊임없이 이루어지고 있다. 추천 시스템 중 협업 필터링은 학계 및 산업계에서 가장 많이 사용되고 있다. 다만 사용자들의 평점 혹은 사용 여부와 같은 정량적인 정보에 국한하여 추천이 이루어져 정확도가 떨어진다는 문제가 제기되고 있다. 이와 같은 문제를 해결하기 위해 현재까지 많은 연구에서 정량적 정보 외에 다른 정보들을 활용하여 추천 시스템의 성능을 개선하려는 시도가 활발하게 이루어지고 있다. 리뷰를 이용한 감성 분석이 대표적이지만, 기존의 연구에서는 감성 분석의 결과를 추천 시스템에 직접적으로 반영하지 못한다는 한계가 있다. 이에 본 연구는 리뷰에 나타난 감성을 수치화하여 평점에 반영하는 것을 목표로 한다. 즉, 사용자가 직접 작성한 리뷰를 감성 수치화하여 정량적인 정보로 변환해 추천 시스템에 직접 반영할 수 있는 새로운 알고리즘을 제안한다. 이를 위해서는 정성적인 정보인 사용자들의 리뷰를 정량화 시켜야 하므로, 본 연구에서는 텍스트 마이닝의 감성 분석 기법을 통해 감성 수치를 산출하였다. 데이터는 영화 리뷰를 대상으로 하여 도메인 맞춤형 감성 사전을 구축하고, 이를 기반으로 리뷰의 감성점수를 산출한다. 본 논문에서 사용자 리뷰의 감성 수치를 반영한 협업 필터링이 평점만을 고려하는 전통적인 방식의 협업 필터링과 비교하여 우수한 정확도를 나타내는 것을 확인하였다. 이후 제안된 모델이 더 개선된 방식이라고 할 근거를 확보하기 위해 paired t-test 검증을 시도했고, 제안된 모델이 더 우수하다는 결론을 도출하였다. 본 연구에서는 평점만으로 사용자의 감성을 판단한 기존의 선행연구들이 가지는 한계를 극복하고자 리뷰를 수치화하여 기존의 평점 시스템보다 사용자의 의견을 더 정교하게 추천 시스템에 반영시켜 정확도를 향상시켰다. 이를 기반으로 추가적으로 다양한 분석을 시행한다면 추천의 정확도가 더 높아질 것으로 기대된다.