• 제목/요약/키워드: 데이터 군집화

검색결과 560건 처리시간 0.028초

범주형 시계열 자료의 군집화: 프로야구 자료의 사례 연구 (Categorical time series clustering: Case study of Korean pro-baseball data)

  • 박노진
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.621-627
    • /
    • 2016
  • 범주형 시계열 자료의 군집화에 대하여 정리해 보았다. 시계열 자료의 군집화는 일반적인 군집화에 시간을 고려해야하는 측면이 있다. 한편, 범주형 시계열 자료의 군집화에 대한 연구가 진행되었으나 현재 정리 요약된 국내외 논문을 찾기 어렵다. 본 논문에서는 범주형 시계열을 군집화 하는 몇 가지 방법들을 제시하고 그 방법들을 비교하기 위해 프로야구 데이터를 이용하였다. 프로야구 팀들 간에 어떤 팀이 특정 팀에 유독 약한 경기력을 보이는 경우가 있다. 국내 최강이라는 S팀이 유독 H팀에게 그런 경우가 그렇다. 2015년 S팀의 상대전적의 군집화를 통해 S팀과 H팀의 관계가 유별난 지를 밝히려 한다. 통계적으로 말하자면, 승/패로 이루어진 시계열 자료의 군집화를 수행하려는 것이다. 분석결과 S팀과 H팀과의 관계가 다른 팀들과의 관계에 비해 눈에 띠는 차이가 있음을 알 수 있었다.

군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구 (A Study of Library Grouping using Cluster Analysis Methods)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제31권3호
    • /
    • pp.79-99
    • /
    • 2020
  • 이 연구의 목적은 공공도서관 그룹화를 위해 적합한 군집분석 모델을 파악하고 그 특징을 분석하는데 있다. 국가도서관통계시스템의 공공도서관 통계 데이터를 사용하였으며, 군집분석 기법의 3가지 모델을 적용하였다. 공공도서관 규모를 기준으로 군집분석을 실시한 결과 크게 2가지 군집으로 구분되었으며, 군집의 크기는 크게 한쪽으로 치우쳤다. 그룹화 모델로 도서관 규모를 기준으로 삼으면, 계층적 군집분석의 와드측정법과 k-평균군집분석 모델이 적합하였다. 공공도서관 그룹화 연구 결과에 대한 시사점은 다음과 같다. 첫째, 통계 데이터 외에 도서관 서비스 관련 다양한 데이터 수집이 진행되어야 한다. 둘째, 분석 대상이 되는 데이터 세트에 적합한 분석 모델이 적용되어야 한다. 셋째, 도서관 서비스 향상을 위해 군집분석 기법의 다양한 분야 적용 가능성에 대한 적극적인 연구가 필요가 있다.

가중치를 이용한 효과적인 항공 단문 군집 방법 (DOCST: Document frequency Oriented Clustering for Short Texts)

  • 김주영;이지민;안순홍;이훈석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.331-334
    • /
    • 2018
  • 비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면, 축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는, 데이터의 크기가 크지 않고, 축약어가 혼재되어 있으며, 문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와, 단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.

그리드 기반 표본의 무게중심을 이용한 케이-평균군집화 (K-means clustering using a center of gravity for grid-based sample)

  • 이선명;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.121-128
    • /
    • 2010
  • 케이-평균 군집분석은 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대푯값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다. 이러한 케이-평균 군집분석은 시장조사, 패턴분석 및 인식, 그리고 이미지 처리 분야 등에서 폭넓게 응용되고 있다. 그러나 대용량의 데이터베이스를 분석대상으로 하므로 그 만큼 데이터 처리 시간이 많이 소요되는 것이 문제 중의 하나이다. 특히 웹이 보편화된 현재 사용자들의 다양한 패턴을 분석하기 위한 데이터 마이닝 방법이 사용되어지고 있는데 처리 속도 문제는 더욱 중요하게 생각하고 있다. 이러한 속도 문제를 해결하기 위해 본 논문에서는 분할 군집법에서 가장 일반적으로 사용되고 있는 케이-평균 알고리즘에 대해 그리드를 기반으로 한 무게중심 알고리즘을 제안하고자 한다.

데이타 축소와 군집화를 사용하는 시공간 데이타의 이산화 기법 (Discretizing Spatio-Temporal Data using Data Reduction and Clustering)

  • 강주영;용환승
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.57-61
    • /
    • 2009
  • 항목 기반의 순차 패턴 마이닝 기법들을 시공간 데이타에 적용하기 위해서는 시공간 속성 값에 대한 적절한 이산화가 필수적이다. 본 논문에서는 입력 데이타의 시공간적 상판 정보를 유지함과 동시에 데이타 수를 축소시킴으로써 마이닝 프로세스의 효율성을 높이는 이산화 기법을 제안한다. 제안된 기법은 선 단순화를 사용하여 궤적에 대한 근사치를 구함으로써 마이넘 단계에서 처리할 데이터 크기를 축소시킨다. 또한 단순화 된 궤적을 유사한 시공간적 특성을 가지는 논리적 그룹으로 군집화하여 데이터의 분포를 고려한 이산화를 수행한다. 실험을 통해 제안된 기법이 마이넝 프로세스의 효율성을 높일 뿐 아니라 보다 직관적이고 해석이 용이한 패턴을 도출하는 것을 보였다.

K평균 군집화를 이용한 벡터데이터 압축 기법 연구 (A Study on Vector Data Compression using K-means Clustering)

  • 이동헌;전우제;박수홍
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2004년도 국내 LBS 기술개발 및 표준화 동향세미나
    • /
    • pp.132-138
    • /
    • 2004
  • 최근 이동전화, PDA, 텔레매틱스 단말기 등과 같은 모바일 기기에서 공간데이터에 대한 사용이 증가하고 있다. 하지만 모바일 기기의 저장 공간이 늘어났음에도 불구하고 여전히 공간데이터에 대한 요구를 수용하기에는 한계가 있다. 따라서 본 연구에서는 모바일 환경에서 사용 가능한 공간데이터에 대한 손실 압축 기법을 제시하고, 실험을 통한 압축률, 데이터 손실률을 분석하여 연구의 타당성과 적용 가능성을 제시하고자 한다. 세부적으로 압축률과 데이터 손실에 따르는 위치 정확도 관계에서 위치정확도를 높일 수 있는 방향을 모색하여 보았다. 그리고 다양한 군집화 기법 중 연구에 적용 가능한 기법을 선정 이용하였다. 또한 저장 공간뿐만 아닌 연산 성능 측면에서도 열악한 모바일 환경에서 만족할 만한 복원 성능을 보여야 한다. 따라서 압축된 데이터를 복원하는데 소요되는 비용을 최소화할 수 있는 방향이 연구되었다.

  • PDF

커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석 (Clustering Analysis of Effective Health Spending Cost based on Kernel Filtering Techniques)

  • 정용규;최영진;차병헌
    • 서비스연구
    • /
    • 제5권2호
    • /
    • pp.25-33
    • /
    • 2015
  • 데이터마이닝은 방대한 데이터를 기반으로 정보를 추출하는 방법으로 많은 분야에 적용하고 있으며 특히 보건의료 데이터를 다루는 기법으로 많이 활용 되고 있다. 하지만 데이터가 다양하고 방대해짐에 따라 데이터들을 완벽하게 다룰 수 있는 알고리즘이 개발되지 못한 현황이다. 따라서 본 논문에서는 군집화 알고리즘 중의 하나인 DBSCAN 알고리즘과 EM 알고리즘의 성능을 동일한 데이터에 대하여 분석을 시도하였다. 이를 위하여 DBSACN과 EM 알고리즘에 따른 변화를 Health expenditure 실험데이터의 결과를 기반으로 분석 하였고 더욱 정확한 실험과 더욱 정확한 결과를 알아내기 위하여 Kernel Filtering을 통하여 정확한 데이터분석을 시도하였다. 본 연구에서는 알고리즘의 기술적 성능을 비교한 것을 물론이고 성능을 높이기 위한 시도를 하였다. 이를 통하여 확장한 알고리즘에 따른 성능의 변화와 실험데이터의 적용결과를 기반으로 비교하고 이를 분석하게 되었다. 특히 의료기관을 이용하는 다양한 군집으로부터 데이터 레코드를 수집하여 의료 서비스에 대한 효과적인 비용 지출을 권장할 수 있도록 실험하였다.

합형식의 군집 유효화 지수의 분석과 새로운 지수 개발 (Analysis and New Indices of Cluster Validity Indices in Summation Type)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.598-600
    • /
    • 2005
  • 군집 유효화 평가란 기본적으로 클래스 (Class)에 대한 정보가 주어지지 않은 상태에서 다양한 입력 변수에 의해 발생되는 군집화의 결과들을 평가하여 그들 중에서 주어진 데이터 집합의 자연적인 분할 상태에 가장 적합한 결과를 찾는 기법을 말한다. 군집 유효화 평가에서 그 척도로 사용되는 것이 군집 유효화 지수이다. 본 논문에서는 우선 현존하는 다양한 군집 유효화 지수들 중에서 합 형식을 가지는 지수들을 다룬다. 구체적으로 이 지수들의 설계 원리와 각 지수들의 부합성 (Compliance) 분석한다. 다음으로 분석을 통해 밝혀진 그들의 단점을 보완할 수 있는 새로운 군집 유효화 지수들을 제안한다. 마지막으로 기존의 군집 유효화 지수들을 포함한 새로이 제안한 지수들의 성능을 실험 학습을 통해 평가한다.

  • PDF

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화 (Creation and clustering of proximity data for text data analysis)

  • 정민지;신상민;최용석
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.451-462
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.