• 제목/요약/키워드: Twitter Services

검색결과 180건 처리시간 0.025초

한국어 장소 리뷰를 이용한 공간 감성어 사전 구축 방법 (Method for Spatial Sentiment Lexicon Construction using Korean Place Reviews)

  • 이영민;권필;유기윤;김지영
    • 대한공간정보학회지
    • /
    • 제25권2호
    • /
    • pp.3-12
    • /
    • 2017
  • 위치 기반 서비스를 이용하여 자신이 방문한 장소에 대한 긍정 혹은 부정적 의견을 리뷰로 남기는 것이 일상화되고 있다. 실제 방문자가 작성한 장소 리뷰에 대한 감성분석 결과는 잠재적 소비자뿐 아니라 기업에게도 유용한 정보를 제공할 수 있다. 장소에 대한 감성분석을 실시하기 위해서는 감성분석의 기준이 되는 어휘에 대한 사전이 필요하다. 그러나 현재까지 장소를 표현하는 공간 감성어에 대한 사전이 구축된 바 없다. 이에 본 연구는 실제 방문자가 한국어로 작성한 장소 리뷰 데이터를 분석하여 공간 감성어 사전을 구축하는 방법을 제안하며, 여러 장소 카테고리 중 테마공원을 대상으로 공간 감성어 사전을 구축하였다. 이를 위해 자연어 처리 기법과 통계적 기법을 활용하였으며, 사전에 포함되는 공간 감성어는 감성의 극성에 대한 정보와 극성의 정도에 대한 확률점수를 포함하고 있다. 본 연구에서 구축한 공간 감성어 사전은 3개의 테이블(SSLex_SS, SSLex_single, SSLex_combi)로 구성되며, 총 219개의 어휘를 포함한다. 이를 바탕으로 트위터에서 테마공원에 대해 작성된 글을 대상으로 감성분석을 실시하였으며, 감성의 극성 분류에 대한 전체 정확도가 0.714로 산출됨에 따라 사전의 유효성을 확인할 수 있었다.

Python을 이용한 SNS 크롤링 시스템 구축 (Building an SNS Crawling System Using Python)

  • 이종화
    • 한국산업정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.61-76
    • /
    • 2018
  • 현대인이 살고 있는 네트워크 세상으로 모든 사물들이 들어오고 있다. 사물에 센서를 부착하는 사물인터넷의 영향으로 인해 네트워크로 실시간 데이터를 주고받는 것이 가능해졌다. 현대인들의 필수품인 모바일 디바이스는 일상생활의 모든 자취를 실시간으로 남기는 역할을 하고 있다. 바로 소셜 네트워크 서비스를 통하여 정보획득 활동과 커뮤니케이션 활동을 실시간으로 거대한 네트워크에 남기고 있는 것이다. 비즈니스 관점에서 고객의 니즈 분석은 바로 SNS 자료에서부터 시작된다는 등가가 성립된다. 본 연구는 웹 환경의 SNS 콘텐츠를 파이썬을 이용하여 실시간으로 자동 수집시스템을 구축하고자 한다. 세계적으로 많은 이용자수를 확보하고 있는 인스타그램, 트위터, 유튜브의 비정형적 데이터 수집 시스템을 통하여 고객의 니즈 분석에 도움이 되고자 한다. 파이썬의 웹드라이버 환경에서 가상 웹브라우저를 이용하여 마이닝 처리와 NLP 과정을 거쳐 DB에 저장된다. 본 연구의 결과 웹페이지를 통하여 서비스를 진행하고자하며 검색 기능만으로 원하는 데이터가 자동 수집되며 데이터의 시계열 분석을 통하여 네티즌의 이슈 반응을 실시간으로 확인할 수 있었다. 또한 검색부터 실행결과가 나오기까지 5초 이내 이루어지므로 제시된 알고리즘의 우수성을 확인하였다.

감성 분석을 위한 FinBERT 미세 조정: 데이터 세트와 하이퍼파라미터의 효과성 탐구 (FinBERT Fine-Tuning for Sentiment Analysis: Exploring the Effectiveness of Datasets and Hyperparameters)

  • 김재헌;정희도;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.127-135
    • /
    • 2023
  • 본 논문에서는 금융 뉴스 데이터로 추가적인 사전 학습이 진행된 BERT 기반 모델인 FinBERT 모델을 사용하여 금융 영역에서 감성 분석 시 학습시킬 데이터와 그에 맞는 하이퍼파라미터를 찾는 방법을 소개한다. 우리의 목표는 다양한 데이터 세트를 활용하고 하이퍼파라미터를 미세 조정하여 정확한 감성 분석을 위해 FinBERT 모델을 가장 잘 활용하는 방법에 대한 포괄적인 가이드를 제공하는 것이다. 이 연구에서는 제안된 FinBERT 모델 미세 조정 접근법의 아키텍처와 워크플로우를 개괄적으로 설명하고, 감성 분석 태스크를 위한 다양한 데이터 세트와 하이퍼파라미터의 성능을 강조한다. 또한, 감성 라벨링 작업에 GPT-3를 사용함으로써 GPT-3가 적절한 라벨러 역할을 하는지에 대한 신뢰성을 검증한다. 결과적으로 미세 조정된 FinBERT 모델이 다양한 데이터 세트에서 우수한 성능을 발휘 한다는 것을 보여주었고, 각 데이터 세트에 대해 전반적으로 우수한 성능을 보이는 학습률 5e-5와 배치 크기 64의 최적의 조합을 찾았다. 또 일반 도메인의 뉴스보다 일반 도메인의 트위터 데이터 세트에서 성능이 크게 향상됨을 기반으로 금융 뉴스 데이터만으로만 추가적으로 학습시키는 FinBERT 모델에 대한 의구심을 제시한다. 이를 통해 FinBERT 모델에 대한 최적의 접근 방식을 결정하는 복잡한 프로세스를 간소화하고 금융 분야 감성 분석 모델을 위한 추가적인 학습 데이터 세트와 미세 조정 시 하이퍼파라미터 선정에 대한 가이드라인을 제시한다.

소셜 데이터를 통한 중국의 여론 주도층에 관한 연구 (A Study on China's SNS Opinion Leader through Social Data)

  • 정선;이주엽
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제6권9호
    • /
    • pp.59-70
    • /
    • 2016
  • 중국판 트위터라고 할 수 있는 신랑웨이보의 급속한 발전에 따라서 웨이보는 중국 SNS 사용자들이 정보를 획득하고 공유하는데 있어 중요한 소통 수단이 되었다. 이로 인해 중국에서는 전통적 여론 주도층에서 SNS 여론 주도층으로의 권력 이동 현상이 나타나게 되었다. 중국 SNS 사용자들의 인구통계학적 변인과 관심 키워드에 대한 관계를 중심성 분석을 통해 사회 연결망 프로그램인 넷마이너를 사용하여 관계 네트워크를 분석을 하였다. 중국의 SNS 오피니언 리더들은 사회적인 이슈보다는 가족 혹은 지인과 함께하는 일상적인 활동에 전반적인 관심을 가지고 있는 것으로 파악되었으며 매개중심성이 높은 SNS 오피니언 리더들 경우 일반 사용자들이 인접 정보를 유기적으로 이끌어내는 중요한 매개자 역할을 하고 있다는 것으로 분석되었다. 이러한 특성은 전문성과 같은 인구통계학적 변인과 무관하지 않으며 따라서 SNS 오피니언 리더의 인구통계학적 특성은 매개 중심성 지수에 중요한 영향을 끼치는 것으로 나타났다. 본 연구는 중국의 사회현상을 정보의 관정으로 보고 중국 SNS 사용자 특히 오피니언 리더의 특성을 분석하였다. 이를 바탕으로 집단적 의사소통을 통한 중국의 사회적 특성에 대한 기초 자료 들을 제공 해 줄 것으로 기대한다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

소비자 감성 기반 뷰티 경험 패턴 맵 개발: 화장품을 중심으로 (Development of Beauty Experience Pattern Map Based on Consumer Emotions: Focusing on Cosmetics)

  • 서봉군;김건우;박도형
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.179-196
    • /
    • 2019
  • 최근의 '똑똑한 소비자(Smart Consumer)'라 불리는 소비자가 많아지고 있는데, 이들은 제조사나 광고를 통해 전달되는 정보에 의존하지 않고, 기존 사용자나 전문가들의 후기, 여러 과학 지식을 획득하여 제품에 대한 이해를 높이고, 본인 스스로가 직접 판단하여 구매하고 있다. 특히나 화장품 분야는 인체 유해성과 같은 부정적인 요소에 대한 민감도가 높고, 자신의 고유한 피부 특성과의 조화도 고려되어야 하기 때문에, 전문적인 지식과 타인의 경험, 본인의 과거 경험 등을 종합적으로 생각하여 구매 의사결정을 내려야 하고, 이에 대해서 적극적인 소비자가 많아지고 있다. 이러한 움직임은 '셀프 뷰티' 와 같은 '셀프' 문화의 열풍과 함께, 문화 현상인 '그루밍족'의 등장, 사회적 트렌드인 'K-뷰티' 와도 동행한다고 할 수 있다. 맞춤형 화장품에 대한 관심의 급부상도 이러한 현상 중 하나라 볼 수 있다. 소비자들의 맞춤형 화장품의 니즈를 충족시키기 위해, 화장품 제조사나 관련 기업들은 ICT기술과의 융합을 통하여 프리미엄 서비스를 중심으로 소비자의 니즈에 대응하고 있다. 그러나 기업 및 시장 현황이 맞춤형 화장품을 향해 진화하고 있지만, 소비자의 피부 상태, 추구하는 감성, 실제 제품이나 서비스까지 소비자 경험을 전체적으로 완전하게 다루는 지능형 데이터 플랫폼은 부재한다. 본 연구에서는 소비자 경험에 대한 지능형 데이터 플랫폼 구축을 위한 첫 단계로 소비자 언어 기반의 화장품 감성 분석을 수행하였다. 소비자들 개인의 선호나 취향이 분명한 앰플/세럼 카테고리를 중심으로 매출 순위 1위에서 99위까지의 99개 제품을 선정하여, 블로그와 트위터 등의 SNS 상에 언급되는 후기 내에 화장품 경험에 대한 소비자 감성을 수집하였다. 총 357개의 감성 형용사를 수집하였고, 고객 여정 워크샵을 통해 유사 감성을 합치고, 중복 감성을 통합하는 작업을 수행하였으며, 최종 76개 형용사를 구축했다. 구축한 형용사에 대한 SOM 분석을 통해 화장품에 대한 소비자 감성에 대한 클러스터링을 실시했다. 분석 결과, 총 8개의 클러스터를 도출했고, 클러스터 별 각 노드의 벡터 값을 기준으로 소비자 감성 Top 10을 도출했다. 소비자 감성을 기준으로 클러스터별 소비자 감성에 서로 다른 특징이 발견됐으며, 소비자에 따라 다른 소비자의 감성을 선호, 기존과는 다른 소비자 감성을 고려한 추천 및 분류 체계가 필요함을 확인했다. 연구 결과를 통해 감성 분석의 활용 도메인이 화장품만이 아닌 다양한 영역으로 확장될 수 있음 확인했으며, 감성 분석을 통한 소비자 인사이트를 도출할 수 있다는 점을 시사했다. 또한, 본 연구에서 활용한 디자인 씽킹(Design Thinking)의 방법론의 적용하여 화장품 특화된 감성 사전을 과학적인 프로세스로 구축했으며, 화장품에 대한 소비자의 인지 및 심리에 대한 이해를 도울 수 있을 것으로 기대한다.

오피니언 마이닝과 네트워크 분석을 활용한 상품 커뮤니티 분석: 영화 흥행성과 예측 사례 (Product Community Analysis Using Opinion Mining and Network Analysis: Movie Performance Prediction Case)

  • 진위;김정수;김종우
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.49-65
    • /
    • 2014
  • 구전(WOM: Word of Mouth)는 주변 사람들에게 상품에 대한 경험을 입에서 입으로 전달하는 현상을 말하며 소셜 미디어의 발전으로 온라인 구전(eWOM: Electronic Word of Mouth) 형태로 발전하였다. 구전 효과의 중요성으로 인해서 대부분의 기업들의 자사의 상품이나 서비스에 대한 온라인 구전에 촉각을 세우고 있으며, 특히 영화와 같은 경험재의 경우에는 그 영향력이 더욱 크다. 본 연구에서는 영화 커뮤니티에 대한 사회 네트워크 분석을 통해서 영화 흥행성과 지표인 매출에 미치는 영향요인을 규명하고자 한다. 영화 흥행성과 연구들에서 주요하게 다루어진 영화에 대한 구전의 크기(volume)와 방향성(valence)과 같은 구전 요인들을 추가하여, 구전 네트워크의 중심성 척도를 영향 요인에 고려하였다. 구전의 크기, 방향성, 그리고 3가지 중심성 척도(연결 중심성, 매개 중심성, 근접 중심성)의 최종 영화 매출에 영향 관계를 가설로 설정하였다. 제시한 연구 모형을 검증하기 위하여 대표적인 온라인 영화 커뮤니티 사이트인 IMDb(Internet Movie Database)에서 영화 구전 데이터를 수집하였고, Box-Office-Mojo사이트에서 영화 매출 데이터를 수집하였다. 2012년 9월부터 1년 동안, 주간 Top-10에 포함된 적이 있는 영화들을 대상으로 하였으며, 총 103개의 영화가 선정되어 이 영화들에 대한 메타 데이터와 커뮤니티 데이터가 수집되었다. 영화 커뮤니티 네트워크는 평가자들간의 댓글 관계를 기초로 구축하였다. 본 연구에서 사용한 3가지 중심성 척도는 사회 네트워크 분석 도구인 NodeXL을 사용하여 계산되었으며, 각 영화별 커뮤니티 참여자들의 중심성 척도의 평균값을 활용하였다. 가설 검증의 사전 분석을 위한 상관관계 분석에서는 3가지 중심성 척도간에 상관 관계가 높은 것으로 파악되어서, 각각에 대하여 별도로 회귀분석을 수행하였다. 분석 결과, 기존 연구와 일관성 있게 구전의 크기와 방향성은 영화 성과지표인 최종 매출에 긍정적인 영향을 미치는 것으로 파악되었다. 또한 구전 네트워크 내의 참여자 매개중심성 평균은 영화의 최종 매출에 영향을 미치는 것으로 파악되었다. 하지만 연결중심성과 근접중심성은 최종 매출에 영향을 주지 못하는 것으로 나타났다.

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

현장중심의 효율적 재난통신체계 수립 방안 연구 (Study on the establishment of an efficient disaster emergency communication system focused on the site)

  • Kim, Yongsoo;Kim, Dongyeon
    • 한국재난정보학회 논문집
    • /
    • 제10권4호
    • /
    • pp.518-527
    • /
    • 2014
  • 우리나라는 고속의 경제성장을 이룩해 오면서 경제적, 사회적으로 성장이란 관점에 초점을 맞추어 왔고 그 결과 세계 선진국 대열에 근접하였다. 그러나 지금 우리는 국가 전체적으로 재난과 안전이란 문제에 직면에 있다. 국가재난관리체계와 그에 대한 시스템, 국민의 안전의식은 여전히 후진국 수준에 머물러 있었음이 드러났고 이것은 최근 세월호 사건으로 극명하게 표출되면서 정부와 국민 모두에게 큰 자각심을 불러 일으켰다. 또한 이전과 달리 재난은 환경적, 사회적 등의 변화로 더욱 대형화, 복잡화, 다변화됨과 동시에 예측이 불가능한 형태로 바뀌어 가고 있다. 이와 같은 변화에서 재난현장을 중심으로 한 신속하고 효율적인 대응의 중요성이 그 어느 때보다 절실하게 요구되고 있다. 이러한 시대적 요구를 실현하기 위해서는 국가적 차원에서의 재난현장 중심의 일원화된 재난통신망 구축과 재난대응관리에 대한 법, 제도, 조직 개선 및 고도화된 재난대응표준절차 수립이 필요하다. 재난현장 중심의 효율성을 확보한 일원화된 재난통신망을 구축하기 위해서는 현장에 투입된 유관기관 담당자들 간의 원활한 통신확보, 다양한 현장 정보입수, 정보공유, 통신 불감지역 최소화, 정확한 현장 대응을 위한 신속한 의사결정, 통신두절 대비 백업망 구축 등이 필수적인 요소이다. 이를 위해 음성통신 외에 영상을 포함한 다양한 멀티미디어 통신과 위치정보 파악이 가능하고 우리나라가 약 70% 원천 기술을 보유한 PS-LTE 방식을 이용한 통신망 구축이 최적으로 판단된다. 또한 주파수 특성상 통신 불감지역이 최소인 700MHz 대역을 이용하고 예측할 수 없는 통신두절에 대비한 위성통신백업망과 재난현장의 많은 정보 입수를 위해 센서 네트워크 기술, 소셜미디어 활용 등을 통하여 신속하고 정확한 의사결정과 현장대응 및 일사분란한 지휘통신체계로 피해를 최소화 할 수 있다. 이와 동시에 재난대응 관리 측면에서는 첫째로 재난관리 표준운영절차를 선진화, 고도화하여 재난발생시 f즉각적인 행동절차에 돌입하게 하며 둘째로 개방형 플랫폼 형태의 재난통합대응체계를 구성하여 민관이 공동으로 재난대응에 참여할 수 있도록 한다. 셋째로 법, 제도, 업무분산에 의한 총괄조정기능을 강화하여 적극적인 재난안전관리를 도모한다. 넷째로 국무총리 산하에 별도의 재난대응 전담조직이 필요한데 해당업무의 특성이나 규모를 고려하여 소방이 적합한 조직으로 사료된다. 다섯째로 인명 구조를 위한 특수구조단체 설립이 필요하고 여기에는 현재 중앙 119구조대를 확대, 개편하는 것이 바람직하다. 마지막으로는 현재의 복잡한 긴급구조통신번호를 119로 통합하고 이에 대한 통합센터 신설과 전문인력 양성에도 많은 정부의 노력이 필요할 것으로 사료된다.

영화 추천 시스템의 초기 사용자 문제를 위한 장르 선호 기반의 클러스터링 기법 (Clustering Method based on Genre Interest for Cold-Start Problem in Movie Recommendation)

  • 유띳로따낙;누르지드;하인애;조근식
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.57-77
    • /
    • 2013
  • 소셜 미디어는 모바일 어플리케이션과 웹에서 가장 많이 사용되는 미디어 중 하나이다. Nielsen사의 보고서에 따르면 소셜 네트워크 서비스와 블로그가 온라인 사용자의 주 활동 공간으로 사용되고 있으며, 미국인 중에서 온라인 활동이 왕성한 5명의 사용자중 4명은 매일 소셜 네트워크 서비스와 블로그를 방문하고 온라인 활동 시간의 23%를 소비한다고 집계하고 있다. 미국의 인터넷 사용자들은 야후, 구글, AOL 미디어 네트워크, 트위터, 링크드인 등과 같은 소셜 네트워크 서비스중 페이스북에서 가장 많은 시간을 소비한다. 최근에는 대부분의 회사들이 자신의 특정 상품에 대하여 "페이스북 페이지(Facebook Page)"를 생성하고 상품에 대한 프로모션을 진행한다. 페이스북에서 제공되는 "좋아요" 옵션은 페이스북 페이지를 통해 자신이 관심을 가지는 상품(아이템)을 표시하고 그 상품을 지지할 수 있도록 한다. 많은 영화를 제작하는 영화 제작사들도 페이스북 페이지와 "좋아요" 옵션을 이용하여 영화 프로모션과 마케팅에 이용한다. 일반적으로 다수의 스트리밍 서비스 제공업들도 영화와 TV 프로그램을 즐기며 볼 수 있는 서비스를 사용자들에게 제공한다. 이 서비스는 일반 컴퓨터와 TV 등의 단말기에서인터넷을 통해 영화와 TV 프로그램을 즉각적으로 제공할 수 있다. 스트리밍 서비스의 선두 주자인 넷플릭스는 미국, 라틴 아메리카, 영국 그리고 북유럽 국가 등에 3천만 명 이상의 스트리밍 사용자가 가입되어 있다. 또한 넥플릭스는 다양한 장르로 구성된 수백만 개의 영화와 TV 프로그램을 보유하고 있다. 하지만 수많은 콘텐츠로 인해 사용자들은 자신이 선호하는 장르에 관련된 영화와 TV 프로그램을 찾기 위해 많은 시간을 소비해야 된다. 많은 연구자들이 이러한 사용자의 불편함을 줄이기 위해 아이템에 대한 사용자가 보지 않은 아이템에 대한 선호도를 예측하고 높은 예측값을 갖는 아이템을 사용자에게 제공하기 위한 추천 시스템을 적용하였다. 협업적 여과 방법은 추천 시스템을 구축하기 위해 가장 많이 사용되는 방법이다. 협업적 여과 시스템은 사용자들이 평가한 아이템을 기반으로 각 사용자 간의 유사도를 측정하고 목적 사용자와 유사한 성향을 가진 사용자 그룹을 결정한다. 군집된 그룹은 이웃 사용자 집단으로 불리며 이를 이용하여 특정 아이템에 대한 선호도를 예측하고, 예측 값이 높은 아이템을 목적 사용자에게 추천해 준다. 협업적 여과 방법이 적용되는 분야는 서적, 음악, 영화, 뉴스 및 비디오 등 다양하지만 논문에서는 영화에 초점을 맞춘다. 이 협업적 여과 방법이 추천 시스템 내에서 유용하게 활용되고 있지만 아직 "희박성 문제"와 "콜드 스타트 문제" 등 해결해야 할 과제가 남아있다. 희박성 문제는 아이템의 수가 증가할수록 아이템에 대한 사용자의 로그 밀도가 감소하는 것이다. 즉, 전체 아이템 수에 비해 사용자가 아이템에 대해 평가한 정보가 충분하지 않기 때문에 사용자의 성향을 파악하기 어렵고, 이로 인해 사용자가 아직 평가하지 않은 아이템에 대해서 선호도를 추측하기 어려운 것을 말한다. 이 희박성 문제가 포함된 경우 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자들에게 제공되는 아이템 추천의 질이 떨어지게 된다. 콜드 스타트 문제는 시스템 내에 새로 들어온 사용자 또는 아이템으로 지금까지 한 번도 평가를 하지 않은 경우에 발생한다. 즉, 사용자가 평가한 아이템에 대한 정보가 전혀 포함되어 있지 않거나 매우 적기 때문에 이러한 경우 또한 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자가 평가하지 않은 아이템에 대한 선호도 예측의 정확성이 감소되게 된다. 본 논문에서는 영화 추천 시스템에서 발생될 수 있는 초기 사용자 문제를 해결하기 위하여 사용자가 평가한 영화와 소셜 네트워크 서비스로부터 추출된 사용자 선호 장르를 활용하여 사용자 군집을 형성하고 이를 활용하는 방법을 제안한다. 소셜 네트워크 서비스로부터 사용자가 선호하는 영화 장르를 추출하기 위해 페이스북 페이지의 '좋아요' 옵션을 이용하며, 이 '좋아요' 정보를 분석하여 사용자의 영화 장르 관심사를 추출한다. 페이스북의 영화 페이지는 각 영화를 위한 페이스북 페이지로 구성되고 있으며, 사용자는 자신의 선호도에 따라서 "좋아요" 옵션을 선택할 수 있다. 사용자의 페이스북 정보는 페이스북 그래프 API를 활용하여 추출되고 이로부터 사용자 선호 영화를 알 수 있게 된다. 시스템에서 활용되는 영화 정보는 인터넷 영화 데이터베이스인 IMDb로부터 획득한다. IMDb는 수많은 영화와 TV 프로그램을 보유하고 있으며, 각 영화에 관련된 배우 정보, 장르 및 부가 정보들을 포함한다. 논문에서는 사용자가 "좋아요" 표시를 한 영화 페이지를 이용하여 IMDb로부터 영화 장르 정보를 가져온다. 그리고 추출된 영화 장르 선호도와 본 시스템에서 제안하는 영화 평가 항목을 이용하여 유사한 이웃 사용자 집단을 구성한 후, 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고, 높은 예측 값을 갖는 아이템을 사용자에게 추천한다. 본 논문에서 제안한 사용자의 선호 장르 기반의 사용자 군집 기법을 이용한 시스템을 평가하기 위해서 IMDb 데이터 집합을 이용하여 사용자 영화 평가 시스템을 구축하였고 참가자들의 영화 평가 정보를 획득하였다. 페이스북 영화 페이지 정보는 참가자들의 페이스북 계정과 페이스북 그래프 API를 통해 획득하였다. 사용자 영화 평가 시스템을 통해 획득된 사용자 데이터를 제안하는 방법에 적용하였고 추천 성능, 품질 및 초기 사용자 문제를 벤치마크 알고리즘과 비교하여 평가하였다. 실험 평가의 결과 제안하는 방법을 적용한 추천 시스템을 통해 추천의 품질을 10% 향상시킬 수 있었고, 초기 사용자 문제에 대해서 15% 완화시킬 수 있음을 볼 수 있었다.