• 제목/요약/키워드: Top-K mining

검색결과 94건 처리시간 0.023초

Movie Recommendation System Based on Users' Personal Information and Movies Rated Using the Method of k-Clique and Normalized Discounted Cumulative Gain

  • Vilakone, Phonexay;Xinchang, Khamphaphone;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.494-507
    • /
    • 2020
  • This study proposed the movie recommendation system based on the user's personal information and movies rated using the method of k-clique and normalized discounted cumulative gain. The main idea is to solve the problem of cold-start and to increase the accuracy in the recommendation system further instead of using the basic technique that is commonly based on the behavior information of the users or based on the best-selling product. The personal information of the users and their relationship in the social network will divide into the various community with the help of the k-clique method. Later, the ranking measure method that is widely used in the searching engine will be used to check the top ranking movie and then recommend it to the new users. We strongly believe that this idea will prove to be significant and meaningful in predicting demand for new users. Ultimately, the result of the experiment in this paper serves as a guarantee that the proposed method offers substantial finding in raw data sets by increasing accuracy to 87.28% compared to the three most successful methods used in this experiment, and that it can solve the problem of cold-start.

A Dependency Graph-Based Keyphrase Extraction Method Using Anti-patterns

  • Batsuren, Khuyagbaatar;Batbaatar, Erdenebileg;Munkhdalai, Tsendsuren;Li, Meijing;Namsrai, Oyun-Erdene;Ryu, Keun Ho
    • Journal of Information Processing Systems
    • /
    • 제14권5호
    • /
    • pp.1254-1271
    • /
    • 2018
  • Keyphrase extraction is one of fundamental natural language processing (NLP) tools to improve many text-mining applications such as document summarization and clustering. In this paper, we propose to use two novel techniques on the top of the state-of-the-art keyphrase extraction methods. First is the anti-patterns that aim to recognize non-keyphrase candidates. The state-of-the-art methods often used the rich feature set to identify keyphrases while those rich feature set cover only some of all keyphrases because keyphrases share very few similar patterns and stylistic features while non-keyphrase candidates often share many similar patterns and stylistic features. Second one is to use the dependency graph instead of the word co-occurrence graph that could not connect two words that are syntactically related and placed far from each other in a sentence while the dependency graph can do so. In experiments, we have compared the performances with different settings of the graphs (co-occurrence and dependency), and with the existing method results. Finally, we discovered that the combination method of dependency graph and anti-patterns outperform the state-of-the-art performances.

OTT(Over-the-Top) 서비스의 몰아보기 시청행위 영향 요인 탐색 (Examining Factors Affecting the Binge-Watching Behaviors of OTT Services)

  • 황경호;김경애
    • 한국융합학회논문지
    • /
    • 제11권3호
    • /
    • pp.181-186
    • /
    • 2020
  • 본 연구는 온라인동영상서비스 OTT(Over-the-Top) 이용자의 몰아보기(Binge-watching) 시청행위에 영향을 미치는 요인을 실증적으로 탐색하였다. 이를 위해 2018년 한국언론진흥재단 미디어연구센터의 'OTT 서비스 이용자 인식조사'에 참여한 OTT 이용 경험자 1,000명의 자료를 수집하여 분석하였다. 종속변수는 OTT 서비스 몰아보기로 설정하였으며, 독립변수는 성별, 연령, OTT 서비스 이용 빈도, OTT 콘텐츠 프로그램 추천 알고리즘 만족도, OTT에서 주로 이용하는 콘텐츠 유형을 포함하였다. OTT 몰아보기 시청행위의 예측 요인은 다층 퍼셉트론(MLP) 인공신경망 알고리즘을 이용하여 분석하였다. 연구결과, 연령, OTT 콘텐츠 프로그램 추천 알고리즘 만족도, OTT 서비스 이용 빈도, OTT에서 주로 이용하는 콘텐츠 유형 중 국내드라마, 국내영화, 해외드라마 등이 OTT 몰아보기 시청행위에 중요도가 높은 요인으로 밝혀졌다.

실시간 검색어 연관 분석을 통한 핵심 이슈 선정 (Selecting a key issue through association analysis of realtime search words)

  • 정민영
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.161-169
    • /
    • 2015
  • 포털 사이트의 실시간 검색어는 현재 관심이 급상승하고 있는 이슈를 보여주기 위해 주로 검색횟수가 많은 순서에 따라 몇 초 간격으로 제공되고 있다. 그렇지만 너무 짧은 시간 내에 순위가 바뀌는 실시간 검색어의 특성 때문에 하루의 핵심 이슈를 비켜가는 문제가 발생한다. 본 논문에서 이러한 문제를 보완하기 위해 검색어들 사이의 연관 분석을 통하여 검색어들이 관련된 핵심 이슈를 도출하는 방법을 제안하고자 한다. 이를 위해 먼저 실시간 검색어를 순위와 상대적 관심도를 기반으로 점수화하여 집단별 기술통계를 통해 최상위 10개의 검색어를 도출한다. 그 다음으로 지지도와 신뢰도를 기반으로 연관 규칙을 추출하고 이를 가시화하는 그래프 결과를 바탕으로 핵심 이슈를 선정한다. 실험 결과는 단일 최상위 실시간 검색어보다 연관분석을 통해 높은 점수로 선정된 핵심 이슈가 더 큰 의미를 갖는다는 것을 보여준다.

딜리셔스에서 유사태그 추출에 관한 연구 (Mining Semantically Similar Tags from Delicious)

  • 이관
    • 정보관리학회지
    • /
    • 제26권2호
    • /
    • pp.127-147
    • /
    • 2009
  • 자연언어에서 유사어의 처리는 사람과 컴퓨터간의 의사소통에 적지 않은 장애가 되어왔고, 이는 사용자의 임의적 단어사용에 기반을 두고 있는 웹 2.0 애플리케이션, 특히 소셜태깅 분야에 있어서 그 장애의 정도가 더 심각해질 수 있다. 본 연구는 한 대표적인 웹 2.0 애플리케이션에서 자동 유사어 추출에 관한 문제를 다루고 있다. 더 구체적으로, 가장 널리 사용되는 소셜북마킹 애플리케이션인 딜리셔스를 기반으로, 유사태그를 추출하는 방법(FolkSim)을 제시하고자 한다. 제시한 방법의 평가를 위하여, 문서유사도의 측정을 위해서 쓰여진 고전적 벡터모델에 의거한 유사태그를 추출하는 방법(CosSim)과 그 결과들을 서로 비교분석하여 보았다. 몇 가지 면에서 FolkSim가 더 나은 결과 산출해내는 증거들이 관찰되어졌다. 또한, FolkSim 방법에 의한 유사태그가 만들어지지 않는 경우에 대비하여, 그 대안 또한 제시하고 있다.

Z세대 패션에 대한 소셜미디어의 빅데이터 분석 (Social media big data analysis of Z-generation fashion)

  • 성광숙
    • 한국의상디자인학회지
    • /
    • 제22권3호
    • /
    • pp.49-61
    • /
    • 2020
  • This study analyzed the social media accounts and performed a Big Data analysis of Z-generation fashion using Textom Text Mining Techniques program and Ucinet Big Data analysis program. The research results are as follows: First, as a result of keyword analysis on 67.646 Z-generation fashion social media posts over the last 5 years, 220,211 keywords were extracted. Among them, 67 major keywords were selected based on the frequency of co-occurrence being greater than more than 250 times. As the top keywords appearing over 1000 times, were the most influential as the number of nodes connected to 'Z generation' (29595 times) are overwhelmingly, and was followed by 'millennials'(18536 times), 'fashion'(17836 times), and 'generation'(13055 times), 'brand'(8325 times) and 'trend'(7310 times) Second, as a result of the analysis of Network Degree Centrality between the key keywords for the Z-generation, the number of nodes connected to the "Z-generation" (29595 times) is overwhelmingly large. Next, many 'millennial'(18536 times), 'fashion'(17836 times), 'generation'(13055 times), 'brand'(8325 times), 'trend'(7310 times), etc. appear. These texts are considered to be important factors in exploring the reaction of social media to the Z-generation. Third, through the analysis of CONCOR, text with the structural equivalence between major keywords for Gen Z fashion was rearranged and clustered. In addition, four clusters were derived by grouping through network semantic network visualization. Group 1 is 54 texts, 'Diverse Characteristics of Z-Generation Fashion Consumers', Group 2 is 7 Texts, 'Z-Generation's teenagers Fashion Powers', Group 3 is 8 Texts, 'Z-Generation's Celebrity Fashions' Interest and Fashion', Group 4 named 'Gucci', the most popular luxury fashion of the Z-generation as one text.

시계열분석과 인공신경망을 이용한 실시간검색어 변화 예측 (Predicting changes of realtime search words using time series analysis and artificial neural networks)

  • 정민영
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.333-340
    • /
    • 2017
  • 실시간검색어는 지금 바로 이슈가 되는 검색어의 검색 증가율이 단기간에 급상승하는 것을 중심으로 하기 때문에 일정기간 지속적으로 관심도를 유지하고 있는 이슈를 나타내지 못하고 이들이 가까운 미래에 어떤 변화를 보이는지에 대한 것도 알 수 없는 한계를 가지고 있다. 본 논문에서는 이러한 한계를 극복할 수 있도록 일정기간 동안 상위 10위 안에 속한 적이 있는 실시간검색어에 대해 일자별, 시간별 지속성을 평가하여 꾸준히 관심을 받는 검색어를 추출한다. 그런 다음, 이들 중 상위에 속하는 검색어의 관심도가 어떻게 변화하는지를 알 수 있게 하는 시계열 분석과 신경망을 이용하는 방법을 제시하고 이를 통해 도출한 실제 예를 통해 가까운 미래의 변화량을 예측한 결과를 보인다. 일자별로는 시계열 분석을, 시간별로는 인공신경망의 학습을 통해 예측하는 것이 좋은 결과를 보인다는 것을 알 수 있다.

조선 산업에서 프로세스 마이닝을 이용한 블록 조립 프로세스의 계획 및 실적 비교 분석 (Comparison between Planned and Actual Data of Block Assembly Process using Process Mining in Shipyards)

  • 이동하;박재훈;배혜림
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.145-167
    • /
    • 2013
  • 본 논문에서는 조선 산업에서 블록 조립 작업에 대한 계획 프로세스와 실적 프로세스를 비교하는 방법을 제안한다. 제안한 방법은 계획과 실적 데이터 기반으로 프로세스 마이닝 기법을 이용하여 프로세스 모델을 도출하고 비교 분석을 수행하는데, 분석 절차는 1) 데이터 전처리, 2) 분석 수준의 정의, 3) 조립 블록 군집화, 4) 군집별 프로세스 모델 도출, 5) 계획과 실적 프로세스 모델 비교, 다섯 단계로 구성된다. 단계 5에서는 프로세스 모델, 작업, 프로세스 인스턴스, 모델 적합도와 같은 다양한 관점에서 계획과 실적의 프로세스를 비교할 것을 제안하고, 각 관점별 비교 인자들을 정의한다. 특히, 적합도 관점에서는 교차 적합도를 정의하여, 도출된 프로세스 모델에 대해 자신의 데이터에 대한 적합도뿐만 아니라, 상대 데이터(계획 모델의 경우 실적 데이터, 실적 모델의 경우 계획 데이터)에 대한 적합도를 계산하고 비교 분석할 것을 제안한다. 제안한 방법의 효용성은 세계 최고 수준의 국내 조선 업체의 블록 조립 계획 시스템과 블록 조립 모니터링 시스템의 실제 데이터를 이용하여 사례 연구를 통해 설명하고 검증하였다.

Optimization of Decision Tree for Classification Using a Particle Swarm

  • Cho, Yun-Ju;Lee, Hye-Seon;Jun, Chi-Hyuck
    • Industrial Engineering and Management Systems
    • /
    • 제10권4호
    • /
    • pp.272-278
    • /
    • 2011
  • Decision tree as a classification tool is being used successfully in many areas such as medical diagnosis, customer churn prediction, signal detection and so on. The main advantage of decision tree classifiers is their capability to break down a complex structure into a collection of simpler structures, thus providing a solution that is easy to interpret. Since decision tree is a top-down algorithm using a divide and conquer induction process, there is a risk of reaching a local optimal solution. This paper proposes a procedure of optimally determining thresholds of the chosen variables for a decision tree using an adaptive particle swarm optimization (APSO). The proposed algorithm consists of two phases. First, we construct a decision tree and choose the relevant variables. Second, we find the optimum thresholds simultaneously using an APSO for those selected variables. To validate the proposed algorithm, several artificial and real datasets are used. We compare our results with the original CART results and show that the proposed algorithm is promising for improving prediction accuracy.

북동태평양 대한민국 광구 KR5 지역 표층퇴적물의 물리적 특성 (Physical Properties of Surface Sediments from the KR(Korea Reserved) 5 Area, Northeastern Equatorial Pacific)

  • 이현복;지상범;형기성;박정기;김기현;오재경
    • Ocean and Polar Research
    • /
    • 제28권4호
    • /
    • pp.475-484
    • /
    • 2006
  • In order to reveal the vertical variation of physical properties in deep-sea sediments, deep-sea sediment cores were collected at 78 stations using a multiple corer in the KR5 area, one of the Korea contract areas for manganese nodule exploration, located in the northeast equatorial Pacific. Based on the color of sediments, sampled sediment cores were characterized into three lithologic units (unit 1,2, and 3). In all sediment cores, three units appear systematically; unit 1 lies at the top of cores and unit 2 and/or unit 3 appear to underlie unit 1 or alternate with unit 3. Unit 1 layer from the top of cores shows dark grayish brown to dark brown with mean thickness of 10.2cm. Unit 2 and 3 layers show very dark brown to black color and yellowish brown to brown color, respectively. According to the physical properties of the deep-sea sediment cores, sediment column can be divided into three sections. Section A $(0{\sim}15cm)$ in subbottom depth consists mostly of unit 1. Mean values of physical properties of section B $(15{\sim}30cm)$ in subbottom depth are similar to those of section C (>30 cm) in subbottom depth. However, the physical properties of section B were more variable than those of section C because of the high activity of bioturbation in section B. These results will provide valuable information for selecting suitable sites for mining manganese nodules in the Korea contract areas.