• 제목/요약/키워드: intelligent approach

검색결과 1,501건 처리시간 0.029초

관련 동영상 정보를 활용한 YouTube 가짜뉴스 탐지 기법 (Fake News Detection on YouTube Using Related Video Information)

  • 김준호;신용준;안현철
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.19-36
    • /
    • 2023
  • 정보통신기술의 발전으로 인해 누구나 쉽게 정보를 생산, 유포할 수 있게 되면서, 이를 악용하여 의도적으로 유포하는 거짓 정보인 가짜뉴스가 새로운 문제로 대두되기 시작하였다. 초기에 텍스트 방식으로 주로 전파되던 가짜뉴스는 점차 진화하여 이제는 멀티미디어 형식으로 퍼지고 있다. 유튜브는 2005년에 설립된 이후 세계 최고의 동영상 플랫폼으로 성장하면서 전 세계 사람들이 대부분 이용하고 있다. 하지만 유튜브는 가짜뉴스가 퍼지는 주요 창구가 되며 사회적인 문제를 일으키고 있다. 유튜브의 가짜뉴스를 탐지하기 위하여 다양한 학자들이 연구를 진행해 왔다. 가짜뉴스 탐지 연구에는 콘텐츠 기반의 접근과 배경정보 기반의 접근이 존재하는데 기존 가짜뉴스 연구와 유튜브의 가짜뉴스 탐지 연구를 살펴보면 콘텐츠 기반의 접근이 다수를 차지하고 있다. 본 연구에서는 콘텐츠 기반의 가짜뉴스 탐지가 아닌 배경정보 기반의 가짜뉴스 탐지기법을 제안하는데, 그 중에서도 유튜브에서 제공하는 관련 동영상 정보를 활용하여 가짜뉴스를 탐지하는 방법을 제안하고자 한다. 구체적으로 관련 동영상에서 얻은 정보와 원본 동영상에서 얻은 정보를 임베딩 기술인 Doc2vec을 이용하여 벡터화 한 후, 딥러닝 네트워크인 합성곱 신경망(CNN)을 통하여 가짜뉴스를 판별하고자 하였다. 실증분석 결과 제안 기법은 기존의 콘텐츠 기반으로 유튜브 가짜뉴스를 탐지하는 접근에 비해 보다 우수한 예측 성능을 보임을 확인하였다. 이러한 본 연구의 제안 기법은 파급력이 높은 유튜브 상에서 유포되는 가짜뉴스의 전파를 사전에 예방함으로써, 우리사회를 보다 안전하고 신뢰할 수 있도록 만드는데 기여할 수 있을 것으로 기대한다.

소셜 로봇과 노년층 사용자 간 대화 분석 기반의 사용자 특성 연구: 현상학적 분석 방법론과 군집 분석을 중심으로 (Study on User Characteristics based on Conversation Analysis between Social Robots and Older Adults: With a focus on phenomenological research and cluster analysis)

  • 최나래;박도형
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.211-227
    • /
    • 2023
  • 인구의 고령화와 기술의 성장으로 등장한 소셜 로봇의 한 유형인 개인형 서비스 로봇은 최근 가정에서 노년층의 독립 생활 연장에 도움이 될 수 있는 기술을 중심으로 변화하고 있다. 노년층이 일상 생활에서 소셜 로봇 신기술을 수용하고, 장기적으로 사용하기 위해서는 사용자 관점의 맥락과 감정을 보다 심층적으로 이해하는 능력이 필요하다. 본 연구에서는 정량 데이터와 정성 데이터를 통합한 혼합 방법(mixed-method)을 활용하여 노년층 사용자를 깊이 있게 이해하는 것을 목적으로 한다. 구체적으로 노년층 사용자와 소셜 로봇 간 음성 대화 기록을 감정과 대화 주체를 주요 변수로 하여 현상학적 방법론 중 하나인 Van Kaam 방법론을 활용하여 그룹핑함으로써 9개 유형으로 대화를 구분하고, 이를 개인화한 대화의 빈도와 비중을 기반으로 사용자를 세분화하였다. 그리고 인구 통계적 데이터와 건강지표에 관한 사전 설문조사 결과를 사용하여 프로파일링 분석을 진행하였다. 이어서 대화 분석을 토대로 K-means 군집분석을 실시하여 노년층 사용자를 3개의 집단으로 분류하고, 각 집단별 특성을 확인하였다. 본 연구에서 제시한 모형은 향후 일상 생활에서 돌봄 기능이 있는 소셜 로봇 제공을 위해 노년층 사용자의 이해를 필요로 하는 기업에게 노년층 사용자 세분화에 관한 방법론을 제공함으로써 사용자 이해를 위한 인사이트 도출과 관련 사업을 성장시키는데 기여할 것으로 기대된다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

산림 치유 공간에서의 개인 감정 인지 효과에 관한 연구 (A Study on Personalized Emotion Recognition in Forest Healing Space - Focus on Subjective Qualitative Analysis and Bio-signal Measurement -)

  • 이양우;서용모;이정년;황민철
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권2호
    • /
    • pp.57-65
    • /
    • 2019
  • 본 연구는 산림 자원의 다양한 효과 중에서 정서적인 안정과 같은 심리적 요인에 대한 과학적 접근이다. 본 연구를 진행하기 위하여 산림 치유공간을 다양한 공간으로 설정하여 피실험자들을 대상으로 실험을 진행하였다. 본 실험에 참여한 피실험자들은 20대 대학생들로 평균 나이가 22±1.25세였다. 피실험자들은 지정된 각기 다른 산림치유공간에서 주관적 서열평가를 통해 감성 단어들에 대한 평가를 실시하였다. 또한 이들의 인식하는 감성에 대한 생체반응을 측정하여 실제로 인지하고 있는 감성적 상태를 확인하였다. 본 연구에 적용된 생체신호반응 실험으로는 심박이 나타내는 BMP, SDNN, VLF, LF, HF, Amplitude 및 PPI를 활용하였다. 본 실험의 결과는 통계적 처리를 위해여 Friedman 검증과 Wilcoxon 검증을 적용하여 측정하였다. 본 연구에서는 주관적 감성어휘별에 대해서는 '좋은', '맑은' 및 '불편한' 단어가 산림치유공간의 지점별로 통계적 유의성을 확인하였다. 또한 산림 치유공간 각 지점에서의 정량적 생체신호 측정결과는 SDNN, HF 및 Amplitude가 통계적으로 유의하게 나타났다. 본 연구는 산림치유공간의 다양한 지역적 공간에서 인간이 인지하는 감성적 차원을 측정하였다. 산림 공간에 있어서도 공간적 입지가 인간의 감성적 차원을 유도하는 분위기가 다르다는 것을 확인한 것이다. 본 연구의 결과를 기반으로 산림치유공간 및 산림 자원의 활용 분야에 대한 적용방향과 전략적 활용방안을 제시할 수 있다. 이는 감성 기반의 산린 치유에 대한 공간적 시설 및 물리적 요건들을 통해 시설을 이용하는 이용객들에게 가이드를 제공할 뿐만 아니라 개인 맞춤형 감성 공간 디자인적 측면으로도 활용이 가능하다.

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.

평점 예측 모델 개발을 위한 관광지 만족도 정량 지수 구축: 제주도 관광지 리뷰를 중심으로 (Development of a Tourist Satisfaction Quantitative Index for Building a Rating Prediction Model: Focusing on Jeju Island Tourist Spot Reviews)

  • 윤동규;박기태;최상현
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.185-205
    • /
    • 2023
  • 코로나19 팬데믹 이후 관광 산업이 회복되면서 많은 관광객들이 다양한 플랫폼을 활용하고 리뷰를 남기고 있지만, 대량의 데이터 속에서 유용한 정보를 찾기 어려워 아직도 여행지 선정 과정에서 많은 시간과 비용이 낭비되고 있다. 이에 따라 많은 연구들이 진행되고 있지만, 평점이 없거나 플랫폼별로 다른 형태의 평점 제공으로 인해 연구에 한계를 가지고 있으며, 평점과 리뷰 내용이 일치하지 않는 경우도 있어 추천 모델 구축에 어려움을 주고 있다. 본 연구에서는 이러한 문제를 해결하기 위해 7,104개의 제주도 지역 관광지 리뷰를 활용하여 제주도에 특화된 관광지 만족도 정량 지수를 개발하고 이를 활용하여 '평점 예측 모델'을 구축하였다. 모델의 성능을 확인하기 위해 실험 데이터 700건의 평점을 본 연구에서 개발된 모델과 LSTM을 활용하여 예측 하였으며, 제안된 모델이 LSTM 보다 약 4.67% 높은 73.87%의 가중 정확도로 성능이 더 우수한 것을 확인하였다. 본 연구의 결과를 통해 평점과 리뷰 내용 사이의 불일치 문제를 해결하고, 평점이 없는 리뷰나 다양한 형태의 평점을 정형할 수 있으며, 다른 도메인에 적용하여 여행의 모든 분야에서 신뢰할 수 있는 평점 지표를 제공할 수 있을 것으로 기대된다.

A Study on the Intelligent Online Judging System Using User-Based Collaborative Filtering

  • Hyun Woo Kim;Hye Jin Yun;Kwihoon Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.273-285
    • /
    • 2024
  • 교육 분야에서 온라인 저지 시스템이 활발하게 활용됨에 따라 학습자 데이터를 활용하는 다양한 연구가 진행되고 있다. 본 연구에서는 학습자 데이터를 활용하여 학습자의 문제 선택을 지원할 수 있는 사용자 기반 협업 필터링 방식의 문제추천 기능을 제안한다. 온라인 저지 시스템에서 학습자의 문제 선택을 위한 지원은 그들의 향후 학습에 영향을 미치므로 교육의 효과성 제고를 위해 필요하다. 이를 위해 학습자의 문제풀이 성향과 유사한 학습자를 식별하고 그들의 문제풀이 이력을 활용한다. 제안 기능은 충북교육연구정보원에서 운영하는 알고리즘과 프로그래밍 관련 온라인 저지 사이트에 구현됐고, 서비스 유용성과 사용 편이성 측면에서 델파이 기법을 통한 전문가 검토를 수행했다. 또한 사이트 사용자 대상 시범 운영에서 바른코드 제출 비율을 분석한 결과 추천문제에 대해 제출한 경우가 전체 제출에 비해 16% 정도 높았고, 추천문제 사용자 대상 설문조사에서 '도움 된다' 응답은 78%였다. 시범 운영에서는 추천문제 선택과 사용자 피드백 관련 설문 응답 비율이 낮았으므로, 향후 연구과제로 제안 기능의 접근성 향상, 사용자 피드백 수집 및 학습자 데이터 분석 다각화 등을 제시했다.

Support Vector Regression을 이용한 GARCH 모형의 추정과 투자전략의 성과분석 (Estimation of GARCH Models and Performance Analysis of Volatility Trading System using Support Vector Regression)

  • 김선웅;최흥식
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.107-122
    • /
    • 2017
  • 주식시장의 주가 수익률에 나타나는 변동성은 투자 위험의 척도로서 재무관리의 이론적 모형에서뿐만 아니라 포트폴리오 최적화, 증권의 가격 평가 및 위험관리 등 투자 실무 영역에서도 매우 중요한 역할을 하고 있다. 변동성은 주가 수익률이 평균을 중심으로 얼마나 큰 폭의 움직임을 보이는가를 판단하는 지표로서 보통 수익률의 표준편차로 측정한다. 관찰 가능한 표준편차는 과거의 주가 움직임에서 측정되는 역사적 변동성(historical volatility)이다. 역사적 변동성이 미래의 주가 수익률의 변동성을 예측하려면 변동성이 시간 불변적(time-invariant)이어야 한다. 그러나 대부분의 변동성 연구들은 변동성이 시간 가변적(time-variant)임을 보여주고 있다. 이에 따라 시간 가변적 변동성을 예측하기 위한 여러 계량 모형들이 제안되었다. Engle(1982)은 변동성의 시간 가변적 특성을 잘 반영하는 변동성 모형인 Autoregressive Conditional Heteroscedasticity(ARCH)를 제안하였으며, Bollerslev(1986) 등은 일반화된 ARCH(GARCH) 모형으로 발전시켰다. GARCH 모형의 실증 분석 연구들은 실제 증권 수익률에 나타나는 두터운 꼬리 분포 특성과 변동성의 군집현상(clustering)을 잘 설명하고 있다. 일반적으로 GARCH 모형의 모수는 가우스분포로부터 추출된 자료에서 최적의 성과를 보이는 로그우도함수에 대한 최우도추정법에 의하여 추정되고 있다. 그러나 1987년 소위 블랙먼데이 이후 주식 시장은 점점 더 복잡해지고 시장 변수들이 많은 잡음(noise)을 띠게 됨에 따라 변수의 분포에 대한 엄격한 가정을 요구하는 최우도추정법의 대안으로 인공지능모형에 대한 관심이 커지고 있다. 본 연구에서는 주식 시장의 주가 수익률에 나타나는 변동성의 예측 모형인 GARCH 모형의 모수추정방법으로 지능형 시스템인 Support Vector Regression 방법을 제안한다. SVR은 Vapnik에 의해 제안된 Support Vector Machines와 같은 원리를 회귀분석으로 확장한 모형으로서 Vapnik의 e-insensitive loss function을 이용하여 비선형 회귀식의 추정이 가능해졌다. SVM을 이용한 회귀식 SVR은 두터운 꼬리 분포를 보이는 주식시장의 변동성과 같은 관찰치에서도 우수한 추정 성능을 보인다. 2차 손실함수를 사용하는 기존의 최소자승법은 부최적해로서 추정 오차가 확대될 수 있다. Vapnik의 손실함수에서는 입실론 범위내의 예측 오차는 무시하고 큰 예측 오차만 손실로 처리하기 때문에 구조적 위험의 최소화를 추구하게 된다. 금융 시계열 자료를 분석한 많은 연구들은 SVR의 우수성을 보여주고 있다. 본 연구에서는 주가 변동성의 분석 대상으로서 KOSPI 200 주가지수를 사용한다. KOSPI 200 주가지수는 한국거래소에 상장된 우량주 중 거래가 활발하고 업종을 대표하는 200 종목으로 구성된 업종 대표주들의 포트폴리오이다. 분석 기간은 2010년부터 2015년까지의 6년 동안이며, 거래일의 일별 주가지수 종가 자료를 사용하였고 수익률 계산은 주가지수의 로그 차분값으로 정의하였다. KOSPI 200 주가지수의 일별 수익률 자료의 실증분석을 통해 기존의 Maximum Likelihood Estimation 방법과 본 논문이 제안하는 지능형 변동성 예측 모형의 예측성과를 비교하였다. 주가지수 수익률의 일별 자료 중 학습구간에서 대칭 GARCH 모형과 E-GARCH, GJR-GARCH와 같은 비대칭 GARCH 모형에 대하여 모수를 추정하고, 검증 구간 데이터에서 변동성 예측의 성과를 비교하였다. 전체 분석기간 1,487일 중 학습 기간은 1,187일, 검증 기간은 300일 이다. MLE 추정 방법의 실증분석 결과는 기존의 많은 연구들과 비슷한 결과를 보여주고 있다. 잔차의 분포는 정규분포보다는 Student t분포의 경우 더 우수한 모형 추정 성과를 보여주고 있어, 주가 수익률의 비정규성이 잘 반영되고 있다고 할 수 있다. MSE 기준으로, SVR 추정의 변동성 예측에서는 polynomial 커널함수를 제외하고 linear, radial 커널함수에서 MLE 보다 우수한 예측 성과를 보여주었다. DA 지표에서는 radial 커널함수를 사용한 SVR 기반의 지능형 GARCH 모형이 가장 우수한 변동성의 변화 방향에 대한 방향성 예측력을 보여주었다. 추정된 지능형 변동성 모형을 이용하여 예측된 주식 시장의 변동성 정보가 경제적 의미를 갖는지를 검토하기 위하여 지능형 변동성 거래 전략을 도출하였다. 지능형 변동성 거래 전략 IVTS의 진입규칙은 내일의 변동성이 증가할 것으로 예측되면 변동성을 매수하고 반대로 변동성의 감소가 예상되면 변동성을 매도하는 전략이다. 만약 변동성의 변화 방향이 전일과 동일하다면 기존의 변동성 매수/매도 포지션을 유지한다. 전체적으로 SVR 기반의 GARCH 모형의 투자 성과가 MLE 기반의 GARCH 모형의 투자 성과보다 높게 나타나고 있다. E-GARCH, GJR-GARCH 모형의 경우는 MLE 기반의 GARCH 모형을 이용한 IVTS 전략은 손실이 나지만 SVR 기반의 GARCH 모형을 이용한 IVTS 전략은 수익으로 나타나고 있다. SVR 커널함수에서는 선형 커널함수가 더 좋은 투자 성과를 보여주고 있다. 선형 커널함수의 경우 투자 수익률이 +526.4%를 기록하고 있다. SVR 기반의 GARCH 모형을 이용하는 IVTS 전략의 경우 승률도 51.88%부터 59.7% 사이로 높게 나타나고 있다. 옵션을 이용하는 변동성 매도전략은 방향성 거래전략과 달리 하락할 것으로 예측된 변동성의 예측 방향이 틀려 변동성이 소폭 상승하거나 변동성이 하락하지 않고 제자리에 있더라도 옵션의 시간가치 요인 때문에 전체적으로 수익이 실현될 수도 있다. 정확한 변동성의 예측은 자산의 가격 결정뿐만 아니라 실제 투자에서도 높은 수익률을 얻을 수 있기 때문에 다양한 형태의 인공신경망을 활용하여 더 나은 예측성과를 보이는 변동성 예측 모형을 개발한다면 주식시장의 투자자들에게 좋은 투자 정보를 제공하게 될 것이다.

중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 (Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.129-142
    • /
    • 2016
  • 전자상거래에서 소비자들의 구매 의사결정에 판매 제품을 이미 구매하여 사용한 고객의 리뷰가 중요한 영향을 미치고 있다. 전자상거래 업체들은 고객들이 제품 리뷰를 남기도록 유도하고 있으며, 구매고객들도 적극적으로 자신의 경험을 공유하고 있다. 한 제품에 대한 고객 리뷰가 너무 많아져서 구매하려는 제품의 모든 리뷰를 읽고 제품의 장단점을 파악하는 것은 무척 힘든 일이 되었다. 전자상거래 업체들과 연구자들은 텍스트 마이닝을 활용하여 리뷰들 중에서 유용한 리뷰들의 속성을 파악하거나 유용한 리뷰와 유용하지 않은 리뷰를 미리 분류하는 노력을 수행하고 있다. 고객들에게 유용한 리뷰를 필터링하여 전달하는 방안이다. 본 연구에서는 문서-단어 매트릭스에서 단어의 제거 기준으로 온라인 고객 리뷰가 유용한 지, 그렇지 않은지를 구분하는 문제에서 단어들이 유용 리뷰 집합과 유용하지 않은 리뷰집합에 중복하여 등장하는 정도를 측정한 중립도를 제시한다. 제시한 중립도를 희소성과 함께 분석에 활용하여 제거할 단어를 선정한 후에 각 분류 알고리즘의 성과를 비교하였다. 최적의 성과를 보이는 중립도를 찾았으며, 희소성과 중립도에 따라 단어를 선택적으로 제거하였다. 실험은 Amazon.com의 'Cellphones & Accessories', 'Movies & TV program', 'Automotive', 'CDs & Vinyl', 'Clothing, Shoes & Jewelry' 제품 분야 고객 리뷰와 사용자들의 리뷰에 대한 평가를 활용하였다. 전체 득표의 수가 4개 이상인 리뷰 중에서 제품 카테고리 별로 유용하다고 판단되는 1,500개의 리뷰와 유용하지 않다고 판단되는 1,500개의 리뷰를 무작위로 추출하여 연구에 사용하였다. 데이터 집합에 따라 정확도 개선 정도가 상이하며, F-measure 기준으로는 두 알고리즘에서 모두 희소성과 중립도에 기반하여 단어를 제거하는 방안이 더 성과가 높았다. 하지만 Information Gain 알고리즘에서는 Recall 기준으로는 5개 제품 카테고리 데이터에서 언제나 희소성만을 기준으로 단어를 제거하는 방안의 성과가 높았으며, SVM에서는 전체 단어를 활용하는 방안이 Precision 기준으로 성과가 더 높았다. 따라서, 활용하는 알고리즘과 분석 목적에 따라서 단어 제거 방안을 고려하는 것이 필요하다.

연관상품 추천을 위한 회귀분석모형 기반 연관 규칙 척도 결합기법 (A Regression-Model-based Method for Combining Interestingness Measures of Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.127-141
    • /
    • 2017
  • 인터넷과 모바일 관련 기술의 발전과 기기의 보급은 물리적 공간의 제약을 극복하게 하고, 다양한 상품과 서비스를 소비자에게 제공함으로써, 소비자에게 선택의 폭을 넓히는 기회를 제공하는 반면, 많은 시간과 노력을 기울이고도 소비자가 자신의 기호에 적합한 품목을 선택하기 힘들어지는 부작용을 낳았다. 이에 따라, 기업은 추천 시스템을 활용하여 소비자가 원하는 품목을 더 쉽게 찾는 수단을 제공하고 있다. 상품 간의 연관성을 통계적으로 분석하는 연관 규칙 마이닝 기법은 직관적인 형태의 척도를 규칙과 함께 제공함으로써, 이로부터 도출된 규칙에 포함된 품목 간의 관계를 이해하고, 이를 추천에 적용하기 쉽다는 강점을 갖는다. 그러나, 서로 다른 규칙의 척도가 일관되게 어느 한 쪽의 규칙이 더 우위에 있음을 알려주지 못한다면, 수많은 품목 중 추천에 적합한 품목을 적절히 선별해내기 힘든 상황이 발생한다. 본 연구에서는 추천 상품의 순위를 결정할 수 있도록 연관 규칙 마이닝 기법에 회귀분석모형을 보완적으로 적용하는 방안을 제시하고자 수행되었다. 연관 규칙 마이닝에서 보편적으로 사용되고 있는 지지도, 신뢰도, 향상도를 활용하여 모형을 구현함으로써, 직관적으로 이해하기 쉬울 뿐만 아니라, 실무에서도 활용하기 쉬운 방안을 제시하고자 하였다. 국내 최대규모의 온라인 쇼핑몰의 주문 데이터를 활용한 실험을 통해, 제안된 모형으로부터 얻어진 추천 점수를 기반으로 추천상품을 결정하고, 이를 추천에 적용함으로써 추천 적중률을 향상시킬 수 있음을 보였다. 특히, 최근 모바일 상거래가 빠르게 확산됨에 따라, 제한된 화면에 한정된 수의 추천 품목을 제시해야 하는 상황에서 적합한 추천 기법임을 확인할 수 있었다.