• 제목/요약/키워드: Data sparsity

검색결과 172건 처리시간 0.026초

인자점수와 자기조직화지도를 이용한 희소한 문서데이터의 군집화 (Sparse Document Data Clustering Using Factor Score and Self Organizing Maps)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-211
    • /
    • 2012
  • 통계학과 기계학습의 다양한 기법을 이용하여 문서집합을 군집화하기 위해서는 우선 군집화분석에 적합한 데이터구조로 대상 문서집합을 변환해야 한다. 문서군집화를 위한 대표적인 구조가 문서-단어행렬이다. 각 문서에서 발생한 특정단어의 빈도값을 갖는 문서-단어행렬은 상당부분의 빈도값이 0인 희소성문제를 갖는다. 이 문제는 문서군집화의 성능에 직접적인 영향을 주어 군집화결과의 성능감소를 초래한다. 본 논문에서는 문서-단어행렬의 희소성문제를 해결하기 위하여 인자분석을 통한 인자점수를 이용하였다. 즉, 문서-단어행렬을 문서-인자점수행렬로 바꾸어 문서군집화의 입력데이터로 사용하였다. 대표적인 문서군집화 알고리즘인 자기조직화지도에 적용하여 문서-단어행렬과 문서-인자점수행렬에 대한 문서군집화의 결과들을 비교하였다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

Adaptive lasso를 이용한 희박벡터자기회귀모형에서의 변수 선택 (Adaptive lasso in sparse vector autoregressive models)

  • 이슬기;백창룡
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.27-39
    • /
    • 2016
  • 본 논문은 다차원의 시계열 자료 분석에서 효율적인 희박벡터자기회귀모형에서의 모수 추정에 대해서 연구한다. 희박벡터자기회귀모형은 영에 가까운 계수를 정확이 영으로 둠으로써 희박성을 확보한다. 따라서 변수 선택과 모수 추정을 한꺼번에 할 수 있는 lasso를 이용한 방법론을 희박벡터자기회귀모형의 추정에 쓸 수 있다. 하지만 Davis 등(2015)에서는 모의실험을 통해 일반적인 lasso의 경우 영이아닌 계수를 참값보다 훨씬 더 많이 찾아 희박성에 약점이 있음을 보고하였다. 이에 따라 본 연구는 희박벡터자기회귀모형에 adaptive lasso를 이용하면 일반 lasso보다 희박성을 비롯한 전반적인 모수의 추정이 매우 유의하게 개선됨을 보인다. 또한 adaptive lasso에서 쓰이는 튜닝 모수들에 대한 선택도 아울러 논의한다.

압축센싱기법 기반 L1-SVD 도래각 추정 (Compressive Sensing-Based L1-SVD DOA Estimation)

  • 조윤성;백지웅;이준호;고요한;조성우
    • 한국전자파학회논문지
    • /
    • 제27권4호
    • /
    • pp.388-394
    • /
    • 2016
  • 안테나 배열을 통한 방향 탐지는 여러 분야에서 활발하게 이루어지고 있는 연구 분야이다. Beamforming, Capon's method, maximum likelihood(ML), MUSIC 등과 같은 방향 탐지 알고리즘이 대표적이다. 최근 방향 탐지 이론은 압축센싱기법을 이용하여 신호의 희소도를 이용한 방법의 연구가 수행되고 있다. 본 논문에서는 그 중 하나인 신호의 데이터 행렬을 fitting하는 L1-SVD 알고리즘의 성능을 알아보기 위해 MUSIC 알고리즘과 비교하여 장단점을 알아본다.

Using Genre Rating Information for Similarity Estimation in Collaborative Filtering

  • Lee, Soojung
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.93-100
    • /
    • 2019
  • 유사도 계산은 메모리 기반 협력필터링 시스템의 성능에 매우 중요하다. 이 시스템들은 사용자 평가치들을 이용하여 온라인 상업 사이트에서 고객들에게 상품을 추천한다. 더욱 적합한 추천을 위해 현 사용자와 가장 유사한 사용자들을 선정하여 참조한다. 기존 문헌에는 많은 유사도 척도들이 개발되었는데, 이들은 대개 데이터 희소성이나 완전 시작 문제를 내포하고 있다. 본 논문에서는 기존 척도들과는 달리 사용자 평가치들로부터 선호 정보를 최대한 추출함으로써 희소한 데이터 조건에서도 더욱 신뢰할 수 있는 유사도값을 산출하고자 한다. 사용자 평가치 뿐만 아니라 데이터셋이 제공하는 영화장르 정보를 이용하는 새로운 유사도 척도를 제시한다. 본 척도와 기존의 관련된 척도들의 성능 실험을 하였고, 그 결과, 제안 척도는 주요 성능 평가기준 상으로 더욱 우수하거나 유사한 성능 결과를 보임을 확인하였다.

신용카드 추천을 위한 다중 프로파일 기반 협업필터링 (Collaborative Filtering for Credit Card Recommendation based on Multiple User Profiles)

  • 이원철;윤협상;정석봉
    • 산업경영시스템학회지
    • /
    • 제40권4호
    • /
    • pp.154-163
    • /
    • 2017
  • Collaborative filtering, one of the most widely used techniques to build recommender systems, is based on the idea that users with similar preferences can help one another find useful items. Credit card user behavior analytics show that most customers hold three or less credit cards without duplicates. This behavior is one of the most influential factors to data sparsity. The 'cold-start' problem caused by data sparsity prevents recommender system from providing recommendation properly in the personalized credit card recommendation scenario. We propose a personalized credit card recommender system to address the cold-start problem, using multiple user profiles. The proposed system consists of a training process and an application process using five user profiles. In the training process, the five user profiles are transformed to five user networks based on the cosine similarity, and an integrated user network is derived by weighted sum of each user network. The application process selects k-nearest neighbors (users) from the integrated user network derived in the training process, and recommends three of the most frequently used credit card by the k-nearest neighbors. In order to demonstrate the performance of the proposed system, we conducted experiments with real credit card user data and calculated the F1 Values. The F1 value of the proposed system was compared with that of the existing recommendation techniques. The results show that the proposed system provides better recommendation than the existing techniques. This paper not only contributes to solving the cold start problem that may occur in the personalized credit card recommendation scenario, but also is expected for financial companies to improve customer satisfactions and increase corporate profits by providing recommendation properly.

빅데이터 기반 추천시스템을 위한 협업필터링의 최적화 규제 (Regularized Optimization of Collaborative Filtering for Recommander System based on Big Data)

  • 박인규;최규석
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.87-92
    • /
    • 2021
  • 빅데이터 기반의 추천시스템 모델링에서 바이어스, 분산, 오류 및 학습은 성능에 중요한 요소이다. 이러한 시스템에서는 추천 모델이 설명도를 유지하면서 복잡도를 줄여야 한다. 또한 데이터의 희소성과 시스템의 예측은 서로 반비례의 속성을 가지기 마련이다. 따라서 희소성의 데이터를 인수분해 방법을 활용하여 상품간의 유사성을 학습을 통한 상품추천모델이 제안되어 왔다. 본 논문에서는 이 모델의 손실함수에 대한 최적화 방안으로 max-norm 규제를 적용하여 모델의 일반화 능력을 향상시키고자 한다. 해결방안은 기울기를 투영하는 확률적 투영 기울기 강하법을 적용하는 것이다. 많은 실험을 통하여 데이터가 희박해질수록 기존의 방법에 비해 제안된 규제 방법이 상대적으로 효과가 있다는 것을 확인하였다.

단체법에서 여러가지 상하 분해요소 수정방법들의 비교 (A comparative study between various LU update methods in the simplex method)

  • 임성묵;김기태;박순달
    • 한국국방경영분석학회지
    • /
    • 제29권1호
    • /
    • pp.28-42
    • /
    • 2003
  • The simplex method requires basis update in each iteration, which is the most time consuming process. Several methods have been developed for the update of basis which is represented in LU factorized form, such as Bartels-Golub's method, Forrest-Tomlin's method, Reid's method, Saunders's method, etc. In this research, we compare between the updating methods in terms of sparsity, data structure and computing time issues. The analysis is mainly based on the computational experience.

웹 로그 데이터의 OLAP 연산을 위한 희박성 분석 (Web Log Data Sparsity Analysis for OLAP)

  • 김지현;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.58-60
    • /
    • 2001
  • 하루에도 수십 수백 메가 바이트까지 증가하는 웹 로그 데이터를 이용하여 실시간에 다차원분석을 가능하게 하기 위해서는 OLAP의 적용이 필요하다. 하지만 OLAP을 적용하는데 있어서 빠른 응답시간을 얻기 위해 사전처리(Precomputation)를 수행 할 시 심각한 데이터의 희박성으로 인해 데이터 폭발 현상이 발생된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 OLAP적용 시 희박성을 일으키는 원인들을 밝히고, 2, 3 차원에서의 희박성 형태를 분석함으로써 웹 로그 데이터의 희박성 처리 방식 및 성능평가에 기반이 되게 한다.

  • PDF

모바일 기기에서 개인화 추천을 위한 실시간 선호도 예측 방법에 대한 연구 (A Study on the Real-Time Preference Prediction for Personalized Recommendation on the Mobile Device)

  • 이학민;엄종석
    • 한국멀티미디어학회논문지
    • /
    • 제20권2호
    • /
    • pp.336-343
    • /
    • 2017
  • We propose a real time personalized recommendation algorithm on the mobile device. We use a unified collaborative filtering with reduced data. We use Fuzzy C-means clustering to obtain the reduced data and Konohen SOM is applied to get initial values of the cluster centers. The proposed algorithm overcomes data sparsity since it extends data to the similar users and similar items. Also, it enables real time service on the mobile device since it reduces computing time by data clustering. Applying the suggested algorithm to the MovieLens data, we show that the suggested algorithm has reasonable performance in comparison with collaborative filtering. We developed Android-based smart-phone application, which recommends restaurants with coupons and restaurant information.