• 제목/요약/키워드: 희박성

검색결과 241건 처리시간 0.023초

웹 로그 데이터의 OLAP 연산을 위한 희박성 분석 (Web Log Data Sparsity Analysis for OLAP)

  • 김지현;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.58-60
    • /
    • 2001
  • 하루에도 수십 수백 메가 바이트까지 증가하는 웹 로그 데이터를 이용하여 실시간에 다차원분석을 가능하게 하기 위해서는 OLAP의 적용이 필요하다. 하지만 OLAP을 적용하는데 있어서 빠른 응답시간을 얻기 위해 사전처리(Precomputation)를 수행 할 시 심각한 데이터의 희박성으로 인해 데이터 폭발 현상이 발생된다. 본 논문에서는 실제 웹 로그 데이터를 사용하여 OLAP적용 시 희박성을 일으키는 원인들을 밝히고, 2, 3 차원에서의 희박성 형태를 분석함으로써 웹 로그 데이터의 희박성 처리 방식 및 성능평가에 기반이 되게 한다.

  • PDF

웹 로그 분석을 위한 OLAP 시스템 및 성능 평가 (OLAP System and Performance Evaluation for Analyzing Web Log Data)

  • 김지현;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.909-920
    • /
    • 2003
  • CRM을 위해서는 다차원 분석이 가능한 OLAP (On-Line Analysis Processing)기술을 적 용한 방법 그리고 데이타 마이닝을 이용한 방법들이 각광 받고 있다. 고객 데이터 중에서 웹 로그 데이터를 실시간에 다차원 분석을 하기 위해서는 OLAP을 사용해야 한다. 그러나 OLAP을 적용하게 되면 웹 로그 데이터 자체가 가지고 있는 특성에 의해 희박성이 발생되고, 사전 집계 연산을 수행 할 시 데이터의 폭발(Explosion)현상이 일어난다. 이는 저장공간의 낭비 뿐 아니라 다차원 질의 시 성능 저하를 발생 시킨다. 본 논문에서는 웹 로그 데이터의 희박성에 대한 체계적인 접근을 위해 희박성을 발생시키는 원인과 2,3 차원의 희박성 형태들에 대해 밝혀보고, 이러한 분석을 기반으로 성능 평가를 위한 테스트 데이터 모델과 질의 모델을 설계하였다. 그리고 희박성 처리를 위해 청크 방식을 사용한 MOLAP시스템을 구현해 보고, 이 시스템과 MS SQL 2000 Analysis Services, Oracle Express의 성능을 평가 및 분석 해보았다. 이는 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있다.

  • PDF

Adaptive lasso를 이용한 희박벡터자기회귀모형에서의 변수 선택 (Adaptive lasso in sparse vector autoregressive models)

  • 이슬기;백창룡
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.27-39
    • /
    • 2016
  • 본 논문은 다차원의 시계열 자료 분석에서 효율적인 희박벡터자기회귀모형에서의 모수 추정에 대해서 연구한다. 희박벡터자기회귀모형은 영에 가까운 계수를 정확이 영으로 둠으로써 희박성을 확보한다. 따라서 변수 선택과 모수 추정을 한꺼번에 할 수 있는 lasso를 이용한 방법론을 희박벡터자기회귀모형의 추정에 쓸 수 있다. 하지만 Davis 등(2015)에서는 모의실험을 통해 일반적인 lasso의 경우 영이아닌 계수를 참값보다 훨씬 더 많이 찾아 희박성에 약점이 있음을 보고하였다. 이에 따라 본 연구는 희박벡터자기회귀모형에 adaptive lasso를 이용하면 일반 lasso보다 희박성을 비롯한 전반적인 모수의 추정이 매우 유의하게 개선됨을 보인다. 또한 adaptive lasso에서 쓰이는 튜닝 모수들에 대한 선택도 아울러 논의한다.

협업필터링의 신규고객추천 및 희박성 문제 해결을 위한 중심성분석의 활용 (Applying Centrality Analysis to Solve the Cold-Start and Sparsity Problems in Collaborative Filtering)

  • 조윤호;방정혜
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.99-114
    • /
    • 2011
  • 본 연구에서는 협업필터링의 두 가지 근본적인 문제인 신규고객 추천(cold-start recommendation)과 희박성(sparsity) 문제를 해결하고자 한다. 먼저, 사회 네트워크 분석에서 가장 많이 활용 되고 있는 세 가지 중심성 지표인 연결중심성(degree centrality), 근접중심성(closeness centrality), 매개중심성(betweenness centrality)을 결합한 다양한 중심성 지표들을 만든 후 이를 기반으로 신규고객의 잠재 이웃고객을 찾고 그 이웃고객들의 구매정보를 이용하여 신규고객에게 상품을 추천하는 새로운 방법을 제시한다. 다음으로 희박성 문제를 해결하기 위하여, 구매정보가 충분한 고객에게는 협업필터링을, 그렇지 않은 고객에게는 협업필터링 대신 제시한 신규고객 추천방법을 적용하는 하이브리드 추천 방법을 제안한다. 제시한 추천 방법의 효과성을 평가하기 위하여 국내 유명 백화점 중의 하나인 H백화점의 구매 트랜잭션 데이터를 사용하여 실험하였다. 실험결과로부터 근접중심성과 매개중심성을 결합한 지표를 신규고객 추천 시에 사용할 경우 추천 성능이 가장 우수한 것으로 판명되었으며, 제안한 하이브리드 추천 방법이 기존의 협업필터링의 성능을 상당히 개선함으로써 희박성 문제를 해결할 수 있는 새로운 대안임이 입증되었다.

OLAP시스템에서 희박 데이터의 패턴 분류 및 성능 평가 (Korea Electric Power Research Institute, Ewha Womans University)

  • 강주영;이봉재;송재주;신진호;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.178-180
    • /
    • 2004
  • OLAP(On-Line Analytical Processing)은 데이터 웨어하우스 내의 방대한 양의 데이터에 대해 사용자와의 상호 작용이 가능하도록 질의에 대하여 빠른 응답성능을 보장해야 한다. 이를 위해 OLAP 시스템은 데이터에 대한 다량의 다차원 집계 연산을 수행해야 하기 때문에, 일반적으로 사전 연산 결과를 저장하여 직접적인 집계 연산을 줄임으로써 응답 성능을 놓이는 방법을 사용하고 있다 OLAP 다차원 데이터의 희박성은 이러한 사전 연산 시 데이터 폭발 현상을 일으켜 도리어 성능을 저하시키는 요인으로 작용할 수 있다. 본 논문에서는 데이터의 희박성과 성능 문제에 대해 고찰하고 OLAP 응용에서 발생할 수 있는 다차원 데이터의 희박성 패턴에 대해 정의하였다. 또한 정의된 패턴에 따라 희박 데이터를 생성하는 데이터 생성기를 구현하고 이를 이용하여 생성된 데이터를 기반으로 MS SQL Server Analysis Services와 Pilot DSS의 두 OLAP 제품의 성능을 평가하고 결과를 비교하였다.

  • PDF

주색도 분석을 적용한 비음수 행렬 분해 기반의 광원 추정 (Illumination Estimation Based on Nonnegative Matrix Factorization with Dominant Chromaticity Analysis)

  • 이지헌;김대철;하영호
    • 전자공학회논문지
    • /
    • 제52권8호
    • /
    • pp.89-96
    • /
    • 2015
  • 인간의 시각은 색순응을 통해서 사물의 색을 광원의 색에 영향 없이 인지 할 수 있다. 반면에, 카메라는 입력 값을 그대로 기록하기 때문에, 광원에 따라 물체의 색이 다르게 나타난다. 최근에 희박성 제약조건의 비음수 행렬 분해(nonnegative matrix factorization with sparseness constraint; NMFsc)를 이용한 광원추정 방법이 제안되었다. 이 방법은 낮은 희박성 제약조건을 사용해서 광원을 추정하고, 높은 희박성 제약조건을 사용해서 반사율을 추정한다. 하지만, 희박성 제약조건의 비음수 행렬분해를 이용한 광원 추정 방법은, 영상의 전역적인 정보를 사용하므로, 영상에서 동일한 색이 넓은 영역에 존재하는 경우, 추정된 광원이 큰 오차를 가진다. 이러한 단점을 보완하기 위해, 영상에서 주색도 분석과 희박성 제약조건의 비음수 행렬 분해를 이용한 광원 추정 방법을 제안하였다. 먼저 주색도를 분석하기 위해 영상을 색도 좌표계로 옮기고 색도 히스토그램을 이용하여 유사한 색도를 가지는 영역들로 영상을 분할한다. 다음으로 영상의 주색도는 분할된 영상들 중 색도의 표준편차가 가장 적은 영상의 색도로 선택한다. 마지막으로 주색도 분석 결과와 희박성 제약조건의 비음수 행렬 분해를 이용해 입력 영상에서 주색도 성분을 제거하고 최종적인 광원을 추정한다. 실제 촬영 영상에 대한 평균 각오차를 사용하여 기존의 방법과의 성능을 비교하였고, 그 결과 제안하는 방법의 평균 각 오차는 5.5를 나타내어 영상의 주 색도를 포함하여 광원을 추정한 기존 방법의 평균 각 오차 5.7 보다 우수한 성능을 나타내었다.

국소선형 준가능도 추정량의 자료 희박성 문제 해결방안 (Sparse Design Problem in Local Linear Quasi-likelihood Estimator)

  • 박동련
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.133-145
    • /
    • 2007
  • 국소선형 추정량은 여러 면에서 바람직한 특성을 많이 갖고 있는 좋은 추정량이다. 그러나 자료가 희박한 부분에서는 매우 불안정한 추정값을 갖게 되는 문제가 있음이 밝혀졌으며, 이 문제를 해결하기 위한 여러 방안이 많이 연구되었다. 그러나 이항반응변수를 위한 국소선형 추정량의 변형이라고 할 수 있는 국소선형 준가능도 추정량에 대해서는 아직 자료의 희박성 문제가 다루어지지 않고 있었다. 이 논문에서는 국소선형 준가능도 추정량이 갖고 있는 자료의 희박성 문제를 인식하고, 몇 가지 해결방안을 제시하였으며, 모의 실험을 통하여 가장 효과적인 방안을 선택하였다.

항목 간 선호도 차이를 이용한 영화 추천 방법 (A Movie Recommendation Method Using Rating Difference Between Items)

  • 오세창;최민
    • 한국정보통신학회논문지
    • /
    • 제17권11호
    • /
    • pp.2602-2608
    • /
    • 2013
  • 영화 추천 문제에 대한 해법으로 사용자 기반 추천 방법과 항목 기반 추천 방법이 연구되어왔다. 그러나 이들은 각각 희박성의 문제와 사용자의 선호도를 반영하지 못한다는 문제를 안고 있다. 이러한 문제들을 해결하기 위해서 유사도의 개념을 이용해 두 가지 방법을 조합하는 연구가 있으나 계산해야 할 파라메타 수가 많아 현실적으로 희박성의 문제에서 자유롭지 못하다. 본 연구에서는 이러한 문제를 보완하기 위하여 항목 간 선호도 차이를 이용한 추천 방법을 제안한다. 이 방법은 계산해야 할 파라메타 수가 적어 희박성의 문제에서 비교적 자유롭다. 또한 파라메타 계산에 사용자들이 평가한 선호도를 반영함으로써 보다 정확한 결과를 얻을 수 있다. 실험 결과 제안된 방법은 초기에는 오류가 크지만 빠르게 성능이 안정화되는 것을 보여준다. 또한 유사도를 이용한 기존의 추천 방법과 비교하여 평균 오류를 0.0538 낮추는 결과를 보였다.

개인성향과 협업 필터링을 이용한 개선된 영화 추천 시스템 (Improved Movie Recommendation System based-on Personal Propensity and Collaborative Filtering)

  • 박두순
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권11호
    • /
    • pp.475-482
    • /
    • 2013
  • 추천 시스템들에 대한 여러 방법들이 연구되고 있다. 개인화와 추천 시스템 중에서 가장 성공적인 방법은 협업 필터링이다. 협업 필터링은 고객들의 프로파일 정보를 기반으로 추천을 하므로 데이터가 충분하지 않다면 항목을 추천하는데 있어서 희박성의 문제가 제기된다. 본 연구에서는 희박성의 문제를 해결하는 방법으로 가중치를 가진 개인 성향을 협업 필터링에 활용하는 방법을 제안한다. 본 연구에서 가중치를 가진 최적의 개인 성향을 찾기 위해 공개 데이터인 MovieLens Data를 이용하여 성능 평가하였다. 실험 결과 본 연구에서 제안한 가중치를 가진 개인 성향들로 구축된 시스템이 기존의 개인 성향들을 이용한 시스템보다 향상된 성능을 보였다.

시간스키마 기법 2단계 클러스터링 적용 추천시스템의 성능 향상 (Two-step Clustring Method Using Time Schema for Performance Improvement in Recommender System)

  • 김룡;부종수;홍종규;박원익;김영국
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.205-207
    • /
    • 2005
  • 기존의 추천 시스템들은 사용자 수가 증가함에 따라 추천시간이 증가하는 확장성(Scalability) 문제가 있으며, 새로운 고객의 경우 선호도 정보가 부족하여 추천 정확도가 저하되는 희박성(Saparsity) 문제가 있다. 본 논문에서는 고객의 기본 프로파일 정보 중 가장 변별력이 있는 성과 나이에 대한 그룹을 생성하고 클러스터링 함으로써 집단 내 선호 상품을 우선적으로 추천하는 1단계 클러스터링 방법을 사용하여 새로운 고객의 희박성 문제를 해결 했으며, 추천결과에 따른 피드백을 받아 시간 흐름에 따른 선호 경향을 클러스터링 하는 시간스키마 방법을 적용한 2단계 클러스터링 방법을 사용함으로써 확장성 문제를 해결함은 물론 예측 정확도를 높일 수 있는 방법을 제안한다.

  • PDF