• 제목/요약/키워드: social filtering

검색결과 156건 처리시간 0.027초

영화 추천 시스템의 초기 사용자 문제를 위한 장르 선호 기반의 클러스터링 기법 (Clustering Method based on Genre Interest for Cold-Start Problem in Movie Recommendation)

  • 유띳로따낙;누르지드;하인애;조근식
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.57-77
    • /
    • 2013
  • 소셜 미디어는 모바일 어플리케이션과 웹에서 가장 많이 사용되는 미디어 중 하나이다. Nielsen사의 보고서에 따르면 소셜 네트워크 서비스와 블로그가 온라인 사용자의 주 활동 공간으로 사용되고 있으며, 미국인 중에서 온라인 활동이 왕성한 5명의 사용자중 4명은 매일 소셜 네트워크 서비스와 블로그를 방문하고 온라인 활동 시간의 23%를 소비한다고 집계하고 있다. 미국의 인터넷 사용자들은 야후, 구글, AOL 미디어 네트워크, 트위터, 링크드인 등과 같은 소셜 네트워크 서비스중 페이스북에서 가장 많은 시간을 소비한다. 최근에는 대부분의 회사들이 자신의 특정 상품에 대하여 "페이스북 페이지(Facebook Page)"를 생성하고 상품에 대한 프로모션을 진행한다. 페이스북에서 제공되는 "좋아요" 옵션은 페이스북 페이지를 통해 자신이 관심을 가지는 상품(아이템)을 표시하고 그 상품을 지지할 수 있도록 한다. 많은 영화를 제작하는 영화 제작사들도 페이스북 페이지와 "좋아요" 옵션을 이용하여 영화 프로모션과 마케팅에 이용한다. 일반적으로 다수의 스트리밍 서비스 제공업들도 영화와 TV 프로그램을 즐기며 볼 수 있는 서비스를 사용자들에게 제공한다. 이 서비스는 일반 컴퓨터와 TV 등의 단말기에서인터넷을 통해 영화와 TV 프로그램을 즉각적으로 제공할 수 있다. 스트리밍 서비스의 선두 주자인 넷플릭스는 미국, 라틴 아메리카, 영국 그리고 북유럽 국가 등에 3천만 명 이상의 스트리밍 사용자가 가입되어 있다. 또한 넥플릭스는 다양한 장르로 구성된 수백만 개의 영화와 TV 프로그램을 보유하고 있다. 하지만 수많은 콘텐츠로 인해 사용자들은 자신이 선호하는 장르에 관련된 영화와 TV 프로그램을 찾기 위해 많은 시간을 소비해야 된다. 많은 연구자들이 이러한 사용자의 불편함을 줄이기 위해 아이템에 대한 사용자가 보지 않은 아이템에 대한 선호도를 예측하고 높은 예측값을 갖는 아이템을 사용자에게 제공하기 위한 추천 시스템을 적용하였다. 협업적 여과 방법은 추천 시스템을 구축하기 위해 가장 많이 사용되는 방법이다. 협업적 여과 시스템은 사용자들이 평가한 아이템을 기반으로 각 사용자 간의 유사도를 측정하고 목적 사용자와 유사한 성향을 가진 사용자 그룹을 결정한다. 군집된 그룹은 이웃 사용자 집단으로 불리며 이를 이용하여 특정 아이템에 대한 선호도를 예측하고, 예측 값이 높은 아이템을 목적 사용자에게 추천해 준다. 협업적 여과 방법이 적용되는 분야는 서적, 음악, 영화, 뉴스 및 비디오 등 다양하지만 논문에서는 영화에 초점을 맞춘다. 이 협업적 여과 방법이 추천 시스템 내에서 유용하게 활용되고 있지만 아직 "희박성 문제"와 "콜드 스타트 문제" 등 해결해야 할 과제가 남아있다. 희박성 문제는 아이템의 수가 증가할수록 아이템에 대한 사용자의 로그 밀도가 감소하는 것이다. 즉, 전체 아이템 수에 비해 사용자가 아이템에 대해 평가한 정보가 충분하지 않기 때문에 사용자의 성향을 파악하기 어렵고, 이로 인해 사용자가 아직 평가하지 않은 아이템에 대해서 선호도를 추측하기 어려운 것을 말한다. 이 희박성 문제가 포함된 경우 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자들에게 제공되는 아이템 추천의 질이 떨어지게 된다. 콜드 스타트 문제는 시스템 내에 새로 들어온 사용자 또는 아이템으로 지금까지 한 번도 평가를 하지 않은 경우에 발생한다. 즉, 사용자가 평가한 아이템에 대한 정보가 전혀 포함되어 있지 않거나 매우 적기 때문에 이러한 경우 또한 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자가 평가하지 않은 아이템에 대한 선호도 예측의 정확성이 감소되게 된다. 본 논문에서는 영화 추천 시스템에서 발생될 수 있는 초기 사용자 문제를 해결하기 위하여 사용자가 평가한 영화와 소셜 네트워크 서비스로부터 추출된 사용자 선호 장르를 활용하여 사용자 군집을 형성하고 이를 활용하는 방법을 제안한다. 소셜 네트워크 서비스로부터 사용자가 선호하는 영화 장르를 추출하기 위해 페이스북 페이지의 '좋아요' 옵션을 이용하며, 이 '좋아요' 정보를 분석하여 사용자의 영화 장르 관심사를 추출한다. 페이스북의 영화 페이지는 각 영화를 위한 페이스북 페이지로 구성되고 있으며, 사용자는 자신의 선호도에 따라서 "좋아요" 옵션을 선택할 수 있다. 사용자의 페이스북 정보는 페이스북 그래프 API를 활용하여 추출되고 이로부터 사용자 선호 영화를 알 수 있게 된다. 시스템에서 활용되는 영화 정보는 인터넷 영화 데이터베이스인 IMDb로부터 획득한다. IMDb는 수많은 영화와 TV 프로그램을 보유하고 있으며, 각 영화에 관련된 배우 정보, 장르 및 부가 정보들을 포함한다. 논문에서는 사용자가 "좋아요" 표시를 한 영화 페이지를 이용하여 IMDb로부터 영화 장르 정보를 가져온다. 그리고 추출된 영화 장르 선호도와 본 시스템에서 제안하는 영화 평가 항목을 이용하여 유사한 이웃 사용자 집단을 구성한 후, 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고, 높은 예측 값을 갖는 아이템을 사용자에게 추천한다. 본 논문에서 제안한 사용자의 선호 장르 기반의 사용자 군집 기법을 이용한 시스템을 평가하기 위해서 IMDb 데이터 집합을 이용하여 사용자 영화 평가 시스템을 구축하였고 참가자들의 영화 평가 정보를 획득하였다. 페이스북 영화 페이지 정보는 참가자들의 페이스북 계정과 페이스북 그래프 API를 통해 획득하였다. 사용자 영화 평가 시스템을 통해 획득된 사용자 데이터를 제안하는 방법에 적용하였고 추천 성능, 품질 및 초기 사용자 문제를 벤치마크 알고리즘과 비교하여 평가하였다. 실험 평가의 결과 제안하는 방법을 적용한 추천 시스템을 통해 추천의 품질을 10% 향상시킬 수 있었고, 초기 사용자 문제에 대해서 15% 완화시킬 수 있음을 볼 수 있었다.

협업적 추천 기반의 여행 계획 시스템 (Multi-day Trip Planning System with Collaborative Recommendation)

  • 프리스카;오경진;홍명덕;가명현;조근식
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.159-185
    • /
    • 2016
  • 여행을 계획하는 일은 매우 복잡하고 많은 시간을 필요로 한다. 여행 계획을 정할 때에는 보통 관심 지점(point of interests, POIs)을 선택하고 그에 따른 다양한 제약 조건들을 고려하여 일정을 계획 한다. 관심 지점을 선정할 때 친구들에게 의견을 묻거나 인터넷에서 직접 정보를 찾으며 여행사의 도움을 받기도 한다. 하지만 이러한 방법들은 다음과 같은 어려움이 있다. 친구들에게 의견을 묻는 경우에는 친구들이 방문해 보지 못한 장소에 대한 정보를 얻기 어렵고 인터넷에서 정보를 찾는 경우에는 오히려 너무 많은 여행 정보들 때문에 필요한 정보를 탐색하고 정리하는데 많은 시간이 필요하며 여행사의 도움을 받을 때에는 여행 일정이 여행을 제공해주는 업체들 쪽으로 편중될 우려가 있다. 이러한 문제를 해결하기 위해 본 논문에서는 여행 일정 계획 시스템인 CYTRIP을 제안한다. CYTRIP은 웹 기반의 추천 시스템으로써, 여행 정보를 공유할 수 있는 공간을 제공하고, 이를 통해 참여자들의 집단 지성에 따른 관심 지점을 추천 받는다. 그리고 PDDL3를 통해 추천된 지점들의 시간적, 공간적 제약조건 따라 여행 일정이 자동으로 생성되며 이렇게 생성된 일정은 지도 위에 표시되어 사용자에게 제공된다. 여행을 계획할 때에 정해진 기간 동안 모든 추천 관심지점을 방문할 수 없는 경우가 발생한다. 이러한 문제를 피하기 위해 정해진 시간에 방문 가능한 관심 지점들의 후보 집합을 선택하고 이 후보 집합들에 대한 여행 일정을 생성한다. 제안하는 시스템의 성능평가를 위해 사용자 평가를 실시하였다. 사용자 평가를 위해 한국관광공사에서 제공하는 데이터를 활용하였고 평가 결과 제안하는 시스템이 여러 참여자들의 집단 지성을 통해 여행 일정을 계획하는데 유용하다는 것을 알 수 있었다.

생태적 유역관리 도구로써 마을방죽의 수질정화 효율성 고찰 (A Study on Efficiency of Water Purification of Korean Village Bangjuk[dike] as a Means of Ecological Watershed Management)

  • 안병철
    • 한국전통조경학회지
    • /
    • 제30권2호
    • /
    • pp.90-100
    • /
    • 2012
  • 본 연구는 수생태계의 건전성 활용방안에 대한 연구를 마을방죽과 수체계의 원리에서 그 해답을 찾고자 하였으며, 연구대상지 10개의 마을방죽을 중심으로 분석하였다. 마을방죽의 수체계를 구성하는 우물, 공동샘, 마을수로 등 물 흐름을 이루고 있는 구성요소들의 구조와 특성에 대한 이해를 바탕으로 마을방죽의 사회적 생태적 역할 및 도시화로 인해 훼손되거나 소멸된 수생태계 건전성 확보와 생태적 유역관리를 위한 하나의 도구적 방안으로서의 결론은 다음과 같다. 1. 마을방죽은 마을에서 발생하는 배출수와 방죽보다 높은 수위의 농경지에서 흘러드는 농수로를 통해 물을 방죽에 모아서 농업용수로 재활용하고, 그 이상의 물은 논도랑을 통해 하천으로 흘려보내는 구조로서, 각 마을에서 발생하는 유출수를 효율적으로 관리하는 생태적 유역관리를 일상에서 실천하고 있었던 것이라고 볼 수 있다. 단순한 물 흐름의 일시적 저류시설이 아니라, 이를 다시 재사용하고 걸러서 하천으로 보내는 일종의 친환경수처리 시스템인 것이다. 2. 전통마을 5개소와 근대화 이후 농촌마을 5개소를 중심으로 사례대상지 10개의 마을방죽을 선정하여 마을의 수 체계와 방죽의 구조, 물 흐름을 분석하여 방죽의 유형을 분류하였다. 마을방죽의 유형은 소택습지형, 자연유하의 물흐름 구조인 수고답저형, 인위적 수리시설이 필요한 수저답고형 등 3가지 유형으로 분류되었다. 사례연구 대상지 중 전통마을 5개소는 모두 소택습지형으로 나타났으며, 근대화 이후 농촌마을 중 계지마을, 산제리마을, 마암마을, 양촌마을은 수고답저형으로, 상천리마을은 수저답고형으로 분류되었다. 3. 소택형 방죽과 수고답저형 방죽, 수저답고형 방죽으로 분류된 사례대상지의 수질분석을 통해 마을방죽의 수질정화 기능을 확인하였다. 마을하수도 유출수와 생활하수의 영향을 받는 원터마을과 계지마을에서는 암모니아성질소($NH_3-N$)와 총인(T-P)의 효율이 56~95%로 높은 것을 볼 수 있으며, 축사와 농경지의 영향이 강한 상천리와 산제리 마을에서는 부유물질(SS)이 70~85%, 총질소(T-N)와 총인(T-P)이 5.3~65%의 효율로 나타났다. 4. 오염원의 침전과 여과, 식물에 의한 탈질작용을 통해 마을에서 유출되는 생활하수, 마을하수도 배출수, 우수유출수 및 비점오염원들이 하천에 유입되기 전에 다시 한번 걸러주게 되는 수질정화 시스템을 마을방죽의 구조에서 확인할 수 있다. 이러한 구조를 통해 마을방죽은 생태적 유역관리를 위한 기초적 시설로서 활용되어져야 한다. 환경 필터층의 역할을 하는 마을방죽의 수처리 시스템은 단위유역, 집수유역 중심의 생태적 유역관리를 위한 친환경 시설로서 연구되어지고 활용되어야 한다.

국내 엔젤투자 연구의 특징과 향후 방향은 무엇인가? (What are the Characteristics and Future Directions of Domestic Angel Investment Research?)

  • 김민;최병철;이우진
    • 벤처창업연구
    • /
    • 제18권6호
    • /
    • pp.57-70
    • /
    • 2023
  • 본 연구는 1997년 이후부터 2022년까지 한국연구재단에 등재된 학술문헌을 '엔젤투자' 와 '엔젤투자자' 그리고 '엔젤투자유치' 의 키워드로 검색하여 조사된 문헌들을 연도, 연구주제, 연구방식, 연구대상, 연구방법의 분류를 통해 국내 엔젤투자에 대한 체계적 문헌고찰을 실시하였다. 본 연구를 통해 국내에서 엔젤투자를 주제로 한 연구현황을 분석하여 해외연구대비 상대적으로 부족한 분야의 주제를 제시하였다. 또한, 엔젤투자 연구의 체계적 확장을 위한 연구방향과 관련한 사회과학적 이론을 제시하였다. 그리고 마지막으로 엔젤투자 분야의 연구 활성화를 위해 어떤 부분들이 필요할지 시사점을 제시하였다. 본 연구로 수집된 문헌들을 분석한 결과 국내의 엔젤투자 관련 연구주제는 엔젤투자자의 특성, 벤처창업기업, 제도 및 정책, 엔젤투자의사, 엔젤투자 유형 등에 초점을 두고 있었으며, 향후 연구에서는 엔젤투자 성과분석, 엔젤투자의 사례연구, 그리고 국내 엔젤투자 규모의 성장과 활성화에 도움이 될 수 있도록 연구의 확장이 필요하다는 결론을 도출하였다. 또한, 벤처창업기업, 엔젤투자 유형, 엑설러레이터, 벤처캐피탈, 제도 및 정책 등 특정 변수에 초점을 둔 연구에서 벗어나 크라우드펀딩, 투자수익률 등 엔젤투자에 관련된 다양한 변수관계를 연구 할 필요가 있다. 특히, 앞으로 엔젤투자 성과를 예측하고 해석하는 데 중요한 역할을 하는 다양한 독립변수들과의 관계를 더 자세히 탐구하는 연구가 더욱 필요하다. 또한, 엔젤투자와 투자 의사결정에 영향을 미치는 다양한 변수들에 대한 이론적 구조를 분석하여 이러한 구조에 대한 질적 및 양적연구가 다방면으로 활성화 될 필요가 있다. 본 연구를 통해 향후 엔젤투자 분야에서 보다 다양한 연구가 진행되길 기대하며, 이러한 연구결과들은 국내 엔젤투자의 활성화에도 기여할 수 있을 것이다.

  • PDF

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.