• 제목/요약/키워드: 사용자 분류

검색결과 2,292건 처리시간 0.03초

국산 캐릭터를 테마로 한 어린이 실내 테마파크의 현황 및 시장전략에 관한 기초연구 (Foundational Research on the Market Strategies and Current Status of Children's Indoor Theme Parks with Korean Characters as Their Theme)

  • 박성식
    • 만화애니메이션 연구
    • /
    • 통권28호
    • /
    • pp.235-263
    • /
    • 2012
  • 본 연구는 문화콘텐츠 비즈니스의 한 분야인 테마파크 비즈니스와 관련하여, 기존의 대규모 야외 복합 테마파크 중심의 접근에서 벋어나 소규모 소자본 전략의 실내 테마파크를 지향하는 흐름에 주목하고 있다. 기존의 대규모 야외 복합 테마파크가 수천억 원 규모의 자본과 고난이도의 기술력, 최신 운영 노하우 등을 필요로 함으로써 큰 리스크와 함께 높은 신규 진입장벽을 가지고 있는 것에 반해, 최근의 실내 테마파크들은 효율적인 리스크 관리와 탄력적인 시장전략으로 시장진입에 성공하고 있기 때문이다. 본 연구에서는 이러한 실내 테마파크들 가운데 새로운 시장인 국산 캐릭터를 테마로 한 어린이 실내 테마파크 시장의 현황을 살펴보고, 국산 캐릭터의 프로퍼티 가치 확장과 국내 테마파크 시장의 확산이라는 두 가지 확장의 측면에서 이 시장의 시장전략을 살펴보고자 한다. 이를 위해 테마파크에 관한 선행연구들을 검토하여 공간적 분류와 테마별 분류, 주 사용자층에 따른 분류 등을 기준으로 국내에 존재하는 테마파크의 유형을 나누어보았다. 또한 국산 캐릭터를 테마로 한 어린이 실내 테마파크 가운데 수도권 소재 5개소를 직접 방문하여 현황조사를 실시하였고, 수도권 소재 2개소와 지방 4개소는 업체 담당자를 통해 현황자료를 입수하여 분석하였다. 또 올 4월 25일 신규 개관한 '디보빌리지' 청계천점을 방문한 관람객을 대상으로 만족도 조사를 시행하여 분석하였다. 이를 통해 현재 국산 캐릭터를 테마로 한 어린이 실내 테마파크 비즈니스의 구조를 분석하고 수행중인 시장전략의 유효성을 분석할 수 있는 토대를 제시하여 보았다. 본 연구를 통하여 테마파크 비즈니스의 틈새시장이라 할 수 있는 실내 테마파크 비즈니스에 대한 체계적이고 심도 있는 논의의 단초를 마련하여 소규모 지역밀착형 실내 테마파크들이 국내 테마파크 산업의 유력한 비즈니스 모델로 연구될 수 있기를 기대한다. 또한 캐릭터 비즈니스의 측면에서도 국산 애니메이션 캐릭터들의 프로퍼티 가치의 공간적 스토리텔링적 확장의 새로운 모델을 정립하는 계기가 될 수 있기를 바란다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

챗봇 환경에서 데이터 시각화 인터랙션을 위한 자연어처리 모델 (Natural Language Processing Model for Data Visualization Interaction in Chatbot Environment)

  • 오상헌;허수진;김성희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권11호
    • /
    • pp.281-290
    • /
    • 2020
  • 스마트폰의 보급으로 인해 개인화된 데이터를 활용하고자 하는 서비스들이 증가하고 있다. 특히, 헬스케어와 관련된 서비스들은 다양한 데이터를 다루며, 이를 효과적으로 보여주기 위해 데이터 시각화 기법을 활용하고 있다. 데이터 시각화 기법이 활용되면서 자연스럽게 시각화에서의 인터랙션 또한 함께 강조되고 있다. PC 환경에서 데이터 시각화에 대한 인터랙션은 마우스로 이루어지기 때문에, 데이터에 대한 필터링이 다양하게 제공되고 있다. 반면, 모바일 환경에서의 인터랙션은 화면의 크기가 작고, 인터랙션 가능 여부를 인지하기 어려워 버튼 터치 방식으로 앱에서 제공하는 제한된 시각화만을 제공받을 수 있다. 이러한 모바일 환경에서의 인터랙션 한계를 극복하기 위해, 챗봇과의 대화를 통해 데이터 시각화 인터랙션을 가능하게 하여 사용자들에게 개개인의 데이터를 다양한 시각화를 통해 확인할 수 있도록 하고자 한다. 이를 위해서는 사용자의 질의를 쿼리로 변환하여, 주기적으로 데이터를 축적하고 있는 데이터베이스에서 변환된 쿼리를 통해 결과 데이터를 불러올 수 있어야 한다. 자연어를 쿼리로 변환하는 연구는 현재 많이 이루어지고 있지만, 시각화를 기반으로 하여 사용자의 질의를 쿼리로 변환하는 연구에 대해서는 아직 이루어지지 않았다. 따라서, 본 논문에서는 사전에 데이터 시각화 기법이 정해진 상황에서의 쿼리 생성에 초점을 맞추고자 한다. 지원하는 인터랙션은 태스크 x-축 값에 대한 필터링 및 두 그룹 간 비교이다. 테스트 시나리오는 걸음 수에 대한 데이터를 활용하였으며, x-축 기간에 대한 필터링은 바 그래프, 두 그룹간 비교는 라인 그래프로 나타내었다. 시각화를 통해 요청한 정보를 제공받을 수 있는 자연어처리 모델을 개발하기 위해 1,000명을 대상으로 한 설문조사를 통해 약 15,800개의 학습 데이터를 수집하였다. 알고리즘 개발 및 성능 평가를 진행한 결과, 분류 모델에서는 약 89%, 쿼리 생성 모델에서는 약 99% 정확도를 보였다.

격자크기와 임계면적에 따른 홍수유출특성 변화 (Study of Rainfall-Runoff Variation by Grid Size and Critical Area)

  • 안승섭;이증석;정도준;한호철
    • 한국환경과학회지
    • /
    • 제16권4호
    • /
    • pp.523-532
    • /
    • 2007
  • 본 연구에서는 DEM격자 크기와 하천생성 임계면적크기에 따른 수문 지형특성인자의 변화특성과 이들 자료를 이용한 유출변화특성 분석함으로서 수치지형도를 이용한 강우-유출해석시에 수문기상학적 특성인자 추출에 소요되는 시간적 경제적 노력을 최소화 할 수 있는 적정 임계면적을 제안하는데 목적을 두었다. 1) 격자크기에 따른 유역형상을 검토한 결과 격자크기가 작을수록 해상도가 뚜렷하며, 정확도에서도 우수하게 나타났으며, 격자크기별 최소임계면적별 하천차수를 분석한 결과 격자크기가 하천차수에 영향을 미치지는 않으며, 하천의 갯수도 1차하천에서는 큰 차이가 있으나 2차하천이상의 개수는 큰 차이가 없는 것으로 분석되었고, 하천차수법칙을 설명하는 $R_A,\;R_B,\;R_L$의 검토결과 격자크기가 클수록 미소한 차이로 크게 나타났으며, 임계면적 $0.15km^2$를 기준으로 큰 변화를 나타내고 있었다. 2) GIUH모형의 모델매개변수인 N, K의 검토결과 격자크기의 영향은 없으나, 임계면적이 클수록 작은 값을 나타내고 있음을 알 수 있었다. 3) 분석결과로 볼 때 수치지형도를 이용한 유출해석 모형에서 사용되는 수문지형학적 매개변수 추출에 있어서 격자의 크기는 $R_B,\;R_L$에서는 격자크기 $10m{\times}10m,\;R_A$, N, K에서는 $30m{\times}30m$ 격자크기가 적합하며 하천생성을 위한 임계면적은 $0.15km^2{\sim}0.20km^2$가 적합한 것으로 판단된다. 그러나 본 연구는 1/25,000 수치지형도를 이용한 결과이므로 계속되는 연구에서는 1/5,000 및 1/50,000 지형도를 대상으로 추가로 분석함으로서 강우-유출해석시 적정 임계면적과 격자크기를 제안할 수 있을 것으로 판단된다.측할 수 있어 사용자 분류를 활용한 사용자인터페이스(UI)디자인의 가능성을 확대시킬 수 있을 것이다. 스크린의 사용에 있어서 사용자의 시각적 한계성을 극복하기 위한 새로운 GUI의 시도와 제안은 향후 모바일 기기 디자인의 새로운 방향성을 제시하고 있다.각되며 이를 위해서는 호스피스 관련 기관뿐만 아니라 국가적 차원의 아동 호스피스에 대한 관심과 지원이 요구된다고 생각한다. 양상과 일치하였고 표준조건(water flux 1 cm/일)에서 예측된 이동소요시간에 따라 metolcarb는 most mobile, molinate와 fenobucarb, isazofos는 mobile내지 most mobile, dimepiperate는 moderately mobile이나 mobile, diazinon은 mobile, fenitrothion과 parathion은 slightly mobile 또는 mobile, chloipyrifos-methyl은 immobile이나 slightly mobile 등급에 속하는 것으로 나타났다.히 요구되고 있는 현실이다.브로 출시에 따른 마케팅 및 고객관리와 관련된 시사점을 논의한다.는 교합면에서 2, 3, 4군이 1군에 비해 변연적합도가 높았으며 (p < 0.05), 인접면과 치은면에서는 군간 유의차를 보이지 않았다 이번 연구를 통하여 복합레진을 간헐적 광중합시킴으로써 변연적합도가 향상될 수 있음을 알 수 있었다.시장에 비해 주가가 비교적 안정적인 수준을 유지해 왔다고 볼 수 있다.36.4%)와 외식을 선호(29.1%)${\lrcorner}$ 하기 때문에 패스트푸드를 이용하게 된 것으로 응답 하였으며, 남 여 대학생간에는 유의한 차이(p<0.05)가 인정되었다. 응답자의 체형은 ${\ulcorner}$적당하다${\lrcorner}$고 응답한 경우가 가장 많이

연관지식의 효율적인 표현 및 추론이 가능한 지식그래프 기반 지식지도 (Knowledge graph-based knowledge map for efficient expression and inference of associated knowledge)

  • 유기동
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.49-71
    • /
    • 2021
  • 문제해결을 위해 지식을 활용하는 사용자는 내용 면에서 관련된 또 다른 지식, 즉 연관지식에 대한 교차적이고 순차적인 탐색을 진행한다. 지식지도는 관리하는 지식의 현황을 보여주는 도식이자 지식저장소의 분류체계로서, 지식 간 연관성에 기반한 사용자의 지식 탐색을 지원하는 도구이다. 따라서 지식지도는 지식 간 연관성에 의한 네트워크 형식으로 표현되며, 이를 정의 및 추론하는 데에 최적화된 기술을 접목하여 구현되어야 한다. 이를 위해 본 연구는 관리하는 개체와 개체 간 관계를 표현 및 추론하는 데에 최적화된 기능성을 발휘하는 것으로 알려진 그래프DB를 이용하여 지식그래프 기반 지식지도를 개발하는 방법론을 제시한다. 제시된 방법론의 유효성을 확인하기 위하여, 선행 연구의 온톨로지 기반 지식지도 구축 사례 데이터를 그래프DB에 적용하여 지식그래프 기반 지식지도를 구현하고, 구현된 지식 네트워크의 유효성과 Class 자동 구성 능력을 선행 연구의 결과와 비교하는 성능 테스트를 진행한다. 성능 테스트 결과, 본 연구의 지식그래프 기반 지식지도는 선행 연구의 온톨로지 기반 지식지도와 동일한 수준의 성능을 나타냈으며, 지식 및 지식 간 관계 정의 및 추론을 더욱 효율적으로 진행할 수 있음을 확인하였다. 본 연구의 결과는 연관지식에 대한 사용자의 인지과정을 반영한 지식 탐색 기능의 구현에 활용될 수 있으며, 추론에 의한 새로운 연관지식의 발견을 통해 자율적으로 확장되는 지능적 지식베이스의 개발에 응용될 수 있다.

인공지능 기반 금융서비스의 공정성 확보를 위한 체크리스트 제안: 인공지능 기반 개인신용평가를 중심으로 (A Checklist to Improve the Fairness in AI Financial Service: Focused on the AI-based Credit Scoring Service)

  • 김하영;허정윤;권호창
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.259-278
    • /
    • 2022
  • 인공지능(AI)의 확산과 함께 금융 분야에서도 상품추천, 고객 응대 자동화, 이상거래탐지, 신용 심사 등 다양한 인공지능 기반 서비스가 확대되고 있다. 하지만 데이터에 기반한 기계학습의 특성상 신뢰성과 관련된 문제 발생과 예상하지 못한 사회적 논란도 함께 발생하고 있다. 인공지능의 효용은 극대화하고 위험과 부작용은 최소화할 수 있는 신뢰할 수 있는 인공지능에 대한 필요성은 점점 더 커지고 있다. 이러한 배경에서 본 연구는 소비자의 금융 생활에 직접 영향을 끼치는 인공지능 기반 개인신용평가의 공정성 확보를 위한 체크리스트 제안을 통해 인공지능 기반 금융서비스에 대한 신뢰 향상에 기여하고자 하였다. 인공지능 신뢰성의 주요 핵심 요소인 투명성, 안전성, 책무성, 공정성 중 포용 금융의 관점에서 자동화된 알고리즘의 혜택을 사회적 차별 없이 모두가 누릴 수 있도록 공정성을 연구 대상으로 선정하였다. 문헌 연구를 통해 공정성이 영향을 끼치는 서비스 운용의 전 과정을 데이터, 알고리즘, 사용자의 세 개의 영역으로 구분하고, 12가지 하위 점검 항목과 항목별 세부 권고안으로 체크리스트를 구성하였다. 구성한 체크리스트는 이해관계자(금융 분야 종사자, 인공지능 분야 종사자, 일반 사용자)별 계층적 분석과정(AHP)을 통해 점검 항목에 대한 상대적 중요도 및 우선순위를 도출하였다. 이해관계자별 중요도에 따라 세 개의 그룹으로 분류하여 분석한 결과 학습데이터와 비금융정보 활용에 대한 타당성 검증 및 신규 유입 데이터 모니터링의 필요성 등 실용적 측면에서 구체적인 점검 사항을 파악하였고, 금융 소비자인 일반 사용자의 경우 결과에 대한 해석 오류 및 편향성 확인에 대한 중요도를 높게 평가한다는 것을 확인할 수 있었다. 본 연구의 결과가 더 공정한 인공지능 기반 금융서비스의 구축과 운영에 기여할 수 있기를 기대한다.

키오스크 소비자의 만족수준 연구: Kano, Timko, PCSI 방법론을 중심으로 (A Study on Kiosk Satisfaction Level Improvement: Focusing on Kano, Timko, and PCSI Methodology)

  • 최재훈;김판수
    • 벤처창업연구
    • /
    • 제17권4호
    • /
    • pp.193-204
    • /
    • 2022
  • 본 연구는 키오스크 사용자를 대상으로 소비자 만족 수준 측정 및 개선의 영향력 정도를 분석하였다. 현대에 이르러 기술의 발전과 온라인 환경의 개선으로 인해 단순노동 업무는 10여 년 후 사라질 확률이 90%가 임박한다. 국내 연구에서도 단순 노무 직종'이 약 36%의 확률로 진보된 기술에 영향을 받아 사라질 것으로 예측되며 기업으로서도 인력 구인과 인건비 등의 문제로 인해 점차 무인화를 진행하며 그 대체재로써 키오스크를 선호하고 있다. 특히 최근 전 세계적으로 큰 유행으로 번지고 있는 코로나19 바이러스로 인해 비대면 서비스에 대한 수요가 높아지며 키오스크 도입 경향은 더욱 가속화되어 세계시장에서 2021년 835억 원 규모로 성장하며 연평균 8.9%의 성장세를 보여주고 있다. 하지만, 이러한 키오스크의 무인이라는 특성으로 인해 일부 소비자는 여전히 사용에 어려움을 겪고 있으며 이러한 기술 사용이 익숙지 않은 소비자들을 중심으로 비대면 서비스 자체에 대한 거부감과 서비스 오류에 대한 불안감 등으로 서비스 공동 생산자에 대한 이해가 부족해 점원과 소비자 간의 역할 갈등을 유발하거나 기술 사용이 익숙한 세대와 서비스 제공 측면에서 불평등이 이루어지고 있다. 또한, 키오스크는 대표적인 기술 기반 셀프서비스 산업이기에 사용자가 불편함을 느끼거나 추가적인 노동을 한다고 여기면 전체적인 서비스 가치 하락을 경험하여 키오스크 산업 자체의 성장세를 억제할 수 있다는 점에서 소비자 중심의 키오스크 개선 방향성 연구는 중요하다. 이에 실제 사용자들을 중심으로 직접 사용함에서 중점 사항에 대한 인터뷰를 진행하여 디스플레이 배색, 글자 크기, 기기의 디자인, 기기의 크기, 내부 UI(인터페이스), 정보의 양, 인식 센서(바코드, NFC 등), 디스플레이 밝기, 자체 이벤트, 반응속도 항목을 추출하였다. 이후 설문을 활용하여 각 기대 평가 항목의 Kano 모델 품질 속성 분류를 진행하였으며 최빈값만을 고려하여 차순위의 통계적 의미가 무시된다는 Kano 모델의 단점을 보완하기 위하여 이를 정확한 수치로 계산할 수 있는 Timko의 고객 만족 계수를 활용하였으며 연구를 통해 키오스크 기대 평가 항목들의 개선 영향력을 최종적으로 분별하여 개선 우선순위를 도출하기 위하여 PCSI Index 분석을 추가로 진행하였다. 그 결과 개선의 영향력은 내부 UI(인터페이스), 글자 크기, 인식 센서(바코드, NFC 등), 반응속도, 자체 이벤트, 디스플레이 밝기, 정보의 양, 기기의 크기, 기기의 디자인, 디스플레이 배색 순으로 나타났으며 이를 통해 키오스크 기반 분야별 연구의 종합적인 비교 및 벤처 산업의 개선 방향성 설정에 이바지하고자 한다.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

사용자 리뷰의 평가기준 별 이슈 식별 방법론: 호텔 리뷰 사이트를 중심으로 (Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria: Focus on a Hotel Information Site)

  • 변성호;이동훈;김남규
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.23-43
    • /
    • 2016
  • 최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.