• 제목/요약/키워드: machine learning techniques

검색결과 1,088건 처리시간 0.025초

검색 키워드를 활용한 하이브리드 협업필터링 기반 상품 추천 시스템 (A Hybrid Collaborative Filtering-based Product Recommender System using Search Keywords)

  • 이윤주;원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.151-166
    • /
    • 2020
  • 추천시스템(recommender system)은 고객의 선호도를 예측하여 상품과 서비스를 제공하는 기법으로, 현재 다양한 온라인 서비스에 활용되고 있다. 이와 관련된 많은 선행 연구들은 협업필터링(collaborative filtering)에 기반한 추천시스템을 제안하였는데, 대부분의 경우 고객의 구매 내역 또는 평점 데이터만 사용하여 진행되었다. 오늘날 소비자들은 제품을 구매하는 과정에서 온라인 검색 행동을 하여 관심있는 제품을 찾는다. 그렇기 때문에 검색 키워드 데이터는 고객의 선호도를 파악하는데 매우 유용한 정보일 수 있다. 그러나 지금까지 추천시스템 연구에서 사용되는 경우는 거의 없었다. 이에 본 연구는 고객의 검색 행동에 주목하여 온라인 쇼핑몰 고객의 검색 키워드 데이터와 구매 데이터를 고려한 하이브리드 협업 필터링을 제안하였다. 본 연구는 제안된 모델의 적용 가능성을 검증하기 위해 실제 온라인 쇼핑몰 데이터를 사용하여 성능을 검증하였다. 연구 결과, 추천 상품의 개수가 많아질수록 고객의 검색 키워드를 기반으로 구축된 협업필터링의 추천 성능이 향상되는 반면 일반적인 협업필터링의 성능은 추천된 상품의 개수가 많아질수록 점차 감소함을 발견하였다. 따라서 본 연구는 검색 키워드 데이터를 활용한 하이브리드 협업필터링이 고객의 선호도를 반영한 추천할 수 있으며, 구매이력 데이터의 정보부족을 해결할 수 있음을 확인하였다. 이는 기존의 정량 데이터만을 활용한 추천 시스템이 아닌, 비정형 데이터인 텍스트를 사용함으로써 새로운 하이브리드 협업필터링 구축 방법을 제안했다는 점에서 의의가 있다.

감성분석 기반의 게임 소비자 온라인 구전효과 연구 (A Study on the Effects of Online Word-of-Mouth on Game Consumers Based on Sentimental Analysis)

  • 정근웅;김종욱
    • 디지털융복합연구
    • /
    • 제16권3호
    • /
    • pp.145-156
    • /
    • 2018
  • 배급사가 소매점을 통해 게임을 유통했던 과거와 다르게 현재는 디지털 콘텐츠인 게임을 온라인 기반의 유통채널을 활용하여 판매를 실시하고 있다. 본 연구는 온라인 디지털 콘텐츠 유통 채널인 스팀(Steam)에서 판매되는 게임의 판매량에 대해서 eWOM(전자구전효과)의 요인들이 어떤 영향을 미치는지 분석한다. 최근 빅데이터 기반의 데이터 마이닝 기법을 이용한 연구가 많이 진행되고 있는데, 본 연구에서 eWOM의 요인 중 각 리뷰의 감성을 분석할 수 있는 텍스트 마이닝 기법인 감성분석을 실시하여 eWOM의 감성지수를 도출한다. 감성분석은 나이브 베이즈(Naive Bayes)와 지지벡터기(SVM) 분류기를 활용하고, 정확도가 높은 지지벡터기(SVM) 분류기를 통해 감성지수를 산출한다. 도출한 감성지수와 eWOM의 크기인 각 게임의 리뷰의 수, eWOM의 평점인 각 게임의 유저점수를 독립변수로 하여 종속변수인 판매변화량에 대해서 회귀분석을 실시한다. 회귀분석 결과, 독립변수인 eWOM의 크기와 eWOM의 감성지수가 종속변수인 판매변화량에 영향을 미치는 것을 확인하였다. 본 연구는 연구결과를 통해 국내 게임 기업들이 스팀을 기반으로 해외진출 시 판매량에 영향을 미치는 eWOM의 요인들을 제시할 수 있는 시사점을 가진다.

사용자 편의성과 효율성을 증진하기 위한 신뢰도 높은 이미지-텍스트 융합 CAPTCHA (Reliable Image-Text Fusion CAPTCHA to Improve User-Friendliness and Efficiency)

  • 문광호;김유성
    • 정보처리학회논문지C
    • /
    • 제17C권1호
    • /
    • pp.27-36
    • /
    • 2010
  • 웹 서비스 신청 단계에서 신청자가 실제 인간 사용자임을 확인하기 위해 사용되는 텍스트 기반 캡차(text-based CAPTCHA)의 변형된 문자를 광학문자인식 기술로 파악하는 것이 가능하기에 캡차의 신뢰성이 떨어지는 문제가 발생하고 있다. 이 문제를 해결하기 위해 제안되었던 기존의 이미지 기반 캡차(image-based CAPTCHA)에서도 여러 문제점이 존재한다. 인공지능 프로그램을 사용하여 시스템이 보유하고 있는 제한된 수의 이미지 내용을 파악함으로써 신뢰도가 떨어지는 문제가 발생할 수 있으며, 제공된 이미지에 대해 사용자가 다른 유사한 단어를 입력하는 경우에는 오답으로 판정되어 반복적으로 캡차를 시도해야 하는 불편함이 발생 할 수 있으며 또한, 사용자에게 캡차 문제를 제공하기 위해 여러 이미지 파일을 전송해야 하기에 전송 비용의 비효율성 문제가 존재한다. 이러한 기존 이미지 기반 캡차의 문제점들을 해결하기 위해 본 논문에서는 이미지와 관련 키워드 일부를 융합하여 제공하는 이미지-텍스트 융합 캡차를 제안하였다. 본 논문에서 제안한 이미지-텍스트 융합 캡차에서는 이미지와 관련된 단어의 일부분을 힌트로 활용하여 쉽게 정답을 입력할 수 있도록 사용자 편리성을 제공하며 이미지와 텍스트를 한 이미지 파일 내에 융합시켰기 때문에 전송 비용을 절약하여 효율성을 증진할 수 있다. 또한, 캡차 시스템의 신뢰성 증진을 위해 인터넷 검색으로 캡차용 이미지를 대량으로 수집하도록 하였으며 수집되는 캡차 이미지의 정확성을 유지하기 위해 필터링 과정을 거치도록 하였다. 또한, 본 논문에서는 실제 실험을 통해 제안된 이미지-텍스트 융합 캡차가 기존 이미지 기반 캡차보다 사용자에게 편리하고 신뢰성이 증진될 수 있음을 입증하였다.

실시간 범죄 모니터링을 위한 CCTV 협업 추적시스템 개발 연구 (Development of CCTV Cooperation Tracking System for Real-Time Crime Monitoring)

  • 최우철;나준엽
    • 한국산학기술학회논문지
    • /
    • 제20권12호
    • /
    • pp.546-554
    • /
    • 2019
  • 본 논문에서는 CCTV를 통해 실시간 범죄에 대응할 수 있도록 CCTV 카메라 간 협업이 가능한 기술과 이를 활용한 실시간 범죄대응 서비스에 대해 연구하였다. 본 연구에서 개발하고자 하는 CCTV 협업 기술은 한 곳의 CCTV에서 추출된 이동 객체(용의자)가 범위를 벗어나 다른 CCTV로 이동했을 때 객체의 유사도 정보를 관제자에게 전달하여 선택된 객체를 추적하는 프로그램 모델이다. 일련의 유사도 정보 획득 과정은 객체 감지(object detection), 사전 분류(pre-classification), 특징 추출(feature extraction), 분류(classification)의 4단계의 프로세스로 진행된다. 이는 주로 사후처리용으로 사용되던 CCTV 모니터링을 긴박한 실시간 범죄에 대응하도록 개선시켜 범죄발생 초기대응 체계를 강화 할 수 있다. 또한 관제요원의 모니터링에만 의존하는 CCTV 관제시스템을 부분 자동화하여 지자체 관제센터 운영효율성을 증대시킬 수 있다. 해당 기술 및 서비스는 안양시 테스트베드에 구축하여 시범운영할 예정으로, 서비스가 안정화가 되면 전국 지자체에 확산하여 상용화가 될 것으로 예상된다. 향후 CCTV 협업 뿐 아니라 실시간 개인 정밀위치결정, 스마트폰 연계 등 통합 방범서비스 연구가 진행되어 시민들이 보다 안전한 생활을 영위할 수 있기를 기대한다.

주식 투자자의 의사결정 지원을 위한 데이터마이닝 도구 (Data Mining Tool for Stock Investors' Decision Support)

  • 김성동
    • 한국콘텐츠학회논문지
    • /
    • 제12권2호
    • /
    • pp.472-482
    • /
    • 2012
  • 주식시장에는 많은 투자자들이 참여하고 있으며 점점 더 많은 사람이 주식투자에 관심을 가지고 있다. 주식시장에서 위험을 회피하고 수익을 얻기 위해서는 다양한 정보를 바탕으로 정확한 의사결정을 해야한다. 즉 수익을 얻을 수 있는 종목 선택, 적절한 매수-매도 가격의 결정, 그리고 적절한 보유기간 등을 결정해야 한다. 본 논문에서는 개인 주식 투자자의 의사결정 지원을 위한 데이터마이닝 도구를 제안한다. 즉, 개인 투자자가 직접 기계학습 방법을 적용하여 주가예측 모델을 생성할 수 있게 하고, 적절한 매수-매도 가격과 보유기간 등을 결정하는 것을 도와주는 도구를 제안한다. 제안하는 도구는 과거 데이터를 이용하여 투자자 자신의 성향에 맞는 투자에서의 의사결정을 할 수 있도록 지원하는 도구로서 주가데이터 관리, 기계학습 적용을 통한 주가예측 모델 생성, 투자 시뮬레이션 등의 기능을 제공한다. 사용자는 스스로 주가에 영향을 미칠 수 있다고 판단하는 기술적 지표를 선정하고 이를 이용하여 주가예측 모델을 만들고 테스트 할 수 있으며, 적절한 예측모델을 적용하여 시뮬레이션을 수행해 봄으로써 실제로 어느 정도 수익을 얻을 수 있는지 평가하고 적절한 매매 정책을 수립할 수 있다. 제안하는 도구를 이용하여 주식 투자자는 기존의 감정적 판단에 의한 투자가 아닌 객관적 데이터에 의해 검증을 거친 주가예측 모델과 매매정책에 따라 주식투자를 할 수 있어 이전 보다 나은 수익을 기대할 수 있다.

아파치 스파크 활용 극대화를 위한 성능 최적화 기법 (Performance Optimization Strategies for Fully Utilizing Apache Spark)

  • 명노영;유헌창;최수경
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권1호
    • /
    • pp.9-18
    • /
    • 2018
  • 분산 처리 플랫폼에서 다양한 빅 데이터 처리 어플리케이션들의 수행 성능 향상에 대한 관심이 높아지고 있다. 이에 따라 범용적인 분산 처리 플랫폼인 아파치 스파크에서 어플리케이션들의 처리 성능 최적화에 대한 연구들이 활발하게 진행되고 있다. 스파크에서 데이터 처리 어플리케이션들의 수행 성능을 향상시키기 위해서는 스파크의 분산처리모델인 Directed Acyclic Graph(DAG)에 알맞은 형태로 어플리케이션을 최적화시켜야 하고 어플리케이션의 처리 특징을 고려하여 스파크 시스템 파라미터들을 설정해야 하기 때문에 매우 어렵다. 기존 연구들은 각각의 어플리케이션의 처리 성능에 영향을 주는 하나의 요소에 대한 부분적인 연구를 수행했고, 최종적으로 어플리케이션의 성능개선을 이뤄냈지만 스파크의 전반적인 처리과정을 고려한 성능 최적화를 다루지 않았을 뿐만 아니라 처리성능과 상관관계를 갖는 다양한 요소들의 복합적인 상호작용을 고려하지 못했다. 본 연구에서는 스파크에서 일반적인 데이터 처리 어플리케이션의 수행 과정을 분석하고, 분석된 결과를 토대로 어플리케이션의 처리과정 중 스테이지 내부와 스테이지 사이에서 성능 향상을 위한 처리 전략을 제안한다. 또한 스파크의 시스템 설정 파라미터 중 분산 병렬처리와 밀접한 관계를 갖는 파티션 병렬화에 따른 어플리케이션의 수행성능을 분석하고 적합한 파티셔닝 최적화 기법을 제안한다. 3가지 성능 향상 전략의 실효성을 입증하기 위해 일반적인 데이터 처리 어플리케이션: WordCount, Pagerank, Kmeans에 각각의 방법을 사용했을 때의 성능 향상률을 제시한다. 또한 제안한 3가지 성능 최적화 기법들이 함께 적용될 때 복합적인 성능향상 시너지를 내는지를 확인하기 위해 모든 기법들이 적용됐을 때의 성능 향상률을 제시함으로써 본 연구에서 제시하는 전략들의 실효성을 입증한다.

k-NN 분류 모델의 학습 데이터 구성에 따른 PIC 보의 하중 충실도 향상에 관한 연구 (Load Fidelity Improvement of Piecewise Integrated Composite Beam by Construction Training Data of k-NN Classification Model)

  • 함석우;전성식
    • Composites Research
    • /
    • 제33권3호
    • /
    • pp.108-114
    • /
    • 2020
  • Piecewise Integrated Composite (PIC) 보는 하중 유형에 따라 구간을 나누어, 각 구간마다 하중 유형에 강한 복합재료의 적층 순서를 배열한 보이다. 본 연구는 PIC 보의 구간을 머신 러닝의 일종인 k-NN(k-Nearest Neighbor) 분류를 통해 나누어 기존에 제시되었던 PIC 보에 비해 우수한 굽힘 특성을 갖게 하는 것이 목적이다. 먼저, 알루미늄 보의 3점 굽힘 해석을 통하여 참조점에서의 3축 특성(Triaxiality) 값 데이터를 얻었고, 이를 통해 인장, 전단, 압축의 레이블을 가진 학습 데이터가 만들어진다. 학습 데이터를 통해 각 면마다 독립적인 k-NN 분류 모델을 구성하는 방법(Each plane)과 전체 면에 대한 k-NN 분류 모델을 구성하는 방법(one part)을 이용하여 k-NN 분류 모델을 생성하였고, 하이퍼파라미터의 튜닝을 통하여 다양한 하중 충실도를 도출하였다. 가장 높은 하중 충실도를 가진 k-NN 분류 모델을 기반으로 보를 매핑(mapping)하였고, PIC 보에 대하여 유한요소 해석을 진행한 결과, 기존에 제시되었던 PIC 보에 비해 최대하중과 흡수 에너지가 커지는 특성을 보였다. 하중 충실도를 수동으로 조절하여 100%로 만든 PIC 보와 비교하였을 때, 최대하중과 흡수에너지가 미소한 차이가 나타났으며 이는 타당한 하중 충실도로 보여진다.

K-means clustering analysis and differential protection policy according to 3D NAND flash memory error rate to improve SSD reliability

  • Son, Seung-Woo;Kim, Jae-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.1-9
    • /
    • 2021
  • 3D-NAND 플래시 메모리는 평면적 구조인 2D-NAND 셀을 적층하는 방식으로 단위 면적당 고용량을 제공한다. 하지만 적층 공정의 특성상 각 레이어별 또는 물리적인 셀 위치에 따라 오류 발생 빈도가 달라질 수 있는 문제가 있다. 이와 같은 현상은 플래시 메모리의 쓰기/지우기(P/E) 횟수가 증가할수록 두드러진다. SSD와 같은 대부분의 플래시 기반 저장장치는 오류 교정을 위하여 ECC를 사용한다. 이 방법은 모든 플래시 메모리 페이지에 대하여 고정된 데이터 보호 강도를 제공하므로 물리적 위치에 따라 오류 발생률이 각기 다르게 나타나는 3D NAND 플래시 메모리에서는 한계를 보인다. 따라서 본 논문에서는 오류 발생률 차이를 보이는 페이지와 레이어를 K-means 머신러닝 알고리즘을 통해 군집으로 분류하고, 각 군집마다 차별화된 데이터 보호강도를 적용한다. 본 논문에서는 페이지와 레이어별로 오류 발생률이 현저하게 달라지는 내구성 테스트가 끝난 시점에서 측정된 오류 발생 횟수를 바탕으로 페이지와 레이어를 분류하고 오류에 취약한 영역에 대해서는 스트라이프에 패리티 데이터를 추가하여 차별화된 데이터 보호 강도 제공을 예시로 보인다. 본 논문에서는 기존의 ECC 또는 RAID 방식의 데이터 보호 구조와 비교하여 제안하는 차별화된 데이터 보호정책이 3D NAND 플래시 메모리의 신뢰성과 수명향상에 기여할 수 있음을 보인다.

수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구 (Study on Anomaly Detection Method of Improper Foods using Import Food Big data)

  • 조상구;최경현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.19-33
    • /
    • 2018
  • FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.