• 제목/요약/키워드: K-means 군집화

검색결과 274건 처리시간 0.022초

신문기사로부터 추출한 최근동향에 대한 트위터 감성분석 (Twitter Sentiment Analysis for the Recent Trend Extracted from the Newspaper Article)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.731-738
    • /
    • 2013
  • 본 논문은 사회의 최근 동향에 대한 여론의 반응을 관찰하기 위한 방법을 나타낸다. 최근 동향을 나타내는 키워드를 신문기사로부터 추출하고, 추출된 키워드를 이용하여 수집된 트윗의 감성 분석을 통해 최근 동향에 대한 여론을 분석한다. 수집된 신문기사를 k-means알고리즘을 이용하여 군집화하고, 군집내의 단어의 출현 빈도를 이용하여 토픽 키워드를 선정하였다. 각 토픽에 대하여 수집된 트윗은 그 토픽 대한 트윗이라는 가정하에 기계학습 방법을 이용하여 긍/부정을 판별하여 감성을 판단하게 하였다. 그리고 이와 같은 가정에 대한 타당성을 검증해 보았다.

범주형 속성 기반 군집화를 위한 새로운 유사 측도 (A New Similarity Measure for Categorical Attribute-Based Clustering)

  • 김민;전주혁;우경구;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.71-81
    • /
    • 2010
  • 데이터의 군집을 찾아내는 문제는 패턴 인식, 이미지 처리, 시장 조사 등 많은 응용 분야에서 널리 사용되고 있다. 군집의 질을 결정하는 핵심 요소로는 유사 측도, 차원의 개수 등이 있다. 유사 측도는 데이터의 특성을 반영하여 다르게 정의되어야 하는데, 대부분 기존의 연구들은 데이터를 특징 지어주는 속성이 수치형으로 주어진 경우에 국한되어 있었다. 속성이 범주형으로 주어진 경우도 실생활에 많이 존재하지만, 범주형 변수에 대한 속성값의 유사성은 값의 순서가 고유하게 정해지지 않아서 정의하기 어렵다. 이에 더하여, 고차원 데이터에 대해서는 데이터 점들이 희박하게 위치하여 가까운 점과 먼 점간의 차이가 거의 없고, 군집화 결과가 좋지 않을 수 있다. 이 문제를 해결하기 위해 부분 차원 군집화 방법이 제안되어 왔다. 부분 차원 군집화 방법은 각 군집을 발견하기에 적합한 부분 차원을 선택하면서 군집화를 수행하는 방법이다. 본 논문에서는 범주형 속성으로 특징지어진 고차원 데이터를 부분 차원 군집화하기 위한 새로운 유사 측도를 제안한다. 유사 측도는 각 군집은 다른 군집과 구별되는 특정 정보를 잘 표현할 수 있어야 한다는 기본적인 가정 하에 속성들 사이의 상관성을 반영하여 정의되었다. 이들 모두를 반영한 유사측도는 기존에 존재하지 않았다는 점에서 본 연구는 의미가 있다. 실제 데이터 집합을 군집화하는 실험을 통해 제안하는 방법이 다른 군집화 방법보다 저차원 데이터와 고차원 데이터 모두에 대해 좀 더 정확한 군집 결과를 얻을 수 있음을 보였다.

커널 밀도 추정을 이용한 Fuzzy C-means의 초기 원형 설정 (Initial Prototype Selection in Fuzzy C-Means Using Kernel Density Estimation)

  • 조현학;허경용;김광백
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.85-88
    • /
    • 2011
  • Fuzzy C-Means (FCM) 알고리듬은 가장 널리 사용되는 군집화 알고리듬 중 하나로 다양한 응용 분야에서 사용되고 있다. 하지만 FCM은 여러 가지 문제점을 가지고 있으며 초기 원형 설정이 그 중 하나이다. FCM은 국부 최적해에 수렴하므로 초기 원형 설정에 따라 클러스터링 결과가 달라진다. 이 논문에서는 이러한 FCM의 초기 원형 설정 문제를 개선하기 위하여 커널밀도 추정 (kernel density estimation) 기법을 활용하는 방법을 제안한다. 제안한 방법에서는 먼저 커널 밀도 추정을 수행한 후 밀도가 높은 지역에 클러스터의 초기 원형을 설정하고 원형이 설정된 영역의 밀도를 감소시키는 과정을 반복함으로써 효율적으로 초기 원형을 설정할 수 있다. 제안된 방법이 일반적으로 사용되는 무작위 초기화 방법에 비해 효율적이라는 사실은 실험결과를 통해 확인할 수 있다.

  • PDF

불균일한 클러터 환경 안에서 Nonhomogeneity Detector의 다양한 정규화 방법에 따른 성능 평가 (Performance Evaluation of Nonhomogeneity Detector According to Various Normalization Methods in Nonhomogeneous Clutter Environment)

  • 류장희;정지채
    • 융합신호처리학회논문지
    • /
    • 제10권1호
    • /
    • pp.72-79
    • /
    • 2009
  • 본 논문에서는 불균일한 클러터 환경에서 다양한 정규화 방법을 사용한 NHD(nonhomogeneity detector) 기술을 통해 비행체 레이더를 위한 STAP(space-time adaptive processing)의 성능 평가를 수행하였다. 실제로 클러터는 시스템 환경에 따라 임펄스 신호와 같은 신호의 크기가 매우 큰 간섭 신호를 종종 포함하고 있기 때문에 수신된 간섭 신호는 균일한 신호와 불균일한 신호로 구성된다. 이 환경에서 STAP의 성능을 유지하기 위해서는 NHD 기술이 필수적이고, 그 NHD 결과를 이용한 정규화는 불균일한 신호를 제거하는데 효과적인 방법이다. 최적의 정규화는 주어진 데이터의 특성을 잘 고려한 대푯값을 통해서 가능하고, 이에 우리는 K 평균 군집화 알고리즘을 제안한다. 이 알고리즘에서는 군집화에 필요한 묶음의 수를 결정할 때 불규칙한 데이터의 특성을 고려할 수 있게 되고 군집화 된 결과를 이용해 균일한 데이터만을 선택하기 위한 대푯값을 결정할 수 있게 된다. 또한 여기서 우리는 시시각각 변화하는 불규칙적인 데이터의 특성을 잘 반영하기 위해, 적절한 묶음의 수를 결정하기 위한 방법을 연구한다. 시뮬레이션 결과를 통해 K 평균 군집화 알고리즘이 기존의 정규화 방법들에 비하여 매우 우수한 정규화와 목표물 검출 성능을 갖는 것을 확인할 수 있었다.

  • PDF

K-means 군집화 기법을 이용한 개폐장치의 부분방전 패턴 해석 (Analysis of Partial Discharge Pattern of Closed Switchgear using K-means Clustering)

  • 변두균;김원종;이강원;홍진웅
    • 한국전기전자재료학회논문지
    • /
    • 제20권10호
    • /
    • pp.901-906
    • /
    • 2007
  • In this study, we measured the partial discharge phenomenon of inside the closed switchgear, using ultra wide band antenna. The characteristics of $\Phi-q-n$ in the normal state are stable, and confirmed at less than 0.01, but in proceeding states, about 2 times larger. And in the abnormal state, it grew hundreds of times larger compared with normal state. According to K-means analysis, if slant of discharge characteristics is a straight line close to "0" and standard deviation is small, it is in a normal state. However if we can find a peak from K-means clusters and standard deviation to be large, it is in an abnormal state.

클러스터 내부 빈발 지지도를 이용한 개선된 사용 프로파일 평가 (Evaluation Of Improved Usage Profiles Using Frequency Support Threshold In Clusters)

  • 안계순;이필규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.277-279
    • /
    • 2002
  • 웹 로그 기반의 웹 사용 마이닝은 명시적 평가 의존, 확장성 결여, 그리고 다차원 및 희박한 데이터에 성능이 떨어지는 협력적 여과의 문제를 다소 해결할 수 있다. 그러나 k-Means 군집화 방법으로 생성된 군집속 유사 사용자 이동 패턴으로는 클러스터속 사용자 전체의 선호도를 표현할 수 없으므로 사용자 이동 패턴인 트랜잭션들로부터 사용 프로파일을 유도해야 한다. 본 논문에서는 유사 군집 사용자들의 관심과 기호를 표현할 수 있도록 클러스터 내부 데이타로부터 평균 가중치 및 빈발 지지도 임계값을 사용하여 개선된 사용 프로파일을 생성하고 실험 데이터를 통한 예측력과 추천에 대한 성능을 평가한다.

  • PDF

움직이는 데이터 그림 (Moving Data Pictures)

  • 허명회
    • 응용통계연구
    • /
    • 제26권6호
    • /
    • pp.999-1007
    • /
    • 2013
  • 이 연구는 다음 몇 가지 경우에 적용 가능한 '움직이는 데이터 그림(moving data pictures)'을 제안 한다: 1) 한국어 텍스트의 단어 구름(word cloud), 2) n ${\times}$ p 행렬의 시각화(matrix visualization), 3) p ${\times}$ p 산점도 행렬의 동영상 버전, 4) k개 개체 군집의 동적 시각화 등. 이들 기법은 데이터에 내재된 숨은 정보와 시각적 아름다움을 드러내고 정보 소비자들의 흥미를 점화할 수 있다.

카드소팅을 활용한 디지털 신기술 과정 핵심역량 군집화에 관한 연구 (A Study on Clustering of Core Competencies to Deploy in and Develop Courseworks for New Digital Technology)

  • 이지운;이호;권정흠
    • 실천공학교육논문지
    • /
    • 제14권3호
    • /
    • pp.565-572
    • /
    • 2022
  • 카드소팅(Card sorting)은 항목 간의 관계에 대한 사용자의 인식을 이해하는 데 유용한 데이터 수집 방법으로서, 일반적으로 카드소팅은 사용자 조사 및 평가에 매우 유용한 직관적이고 비용 효율적인 기술이다. 본 연구에서는 각 분야 직업별 핵심역량들은 코스 개발을 위하여 다음 단계인 카드소팅 단계에서 활용되는 역량카드로 사용하고, 결과를 군집화 하기 위해 K-평균 알고리즘을 적용하여 군집화 결과를 도출하였다. 카드소팅 결과 각 분야 직업별 핵심역량들에 대한 역량 군집화는 Participant-Centric Analysis (PCA)를 바탕으로 검증하였고, 이를 바탕으로 역량에 따른 직업별 코스 및 역량 분류 결과와 클러스터링에 의한 카드 유사성 정도는 각 직업별 핵심 역량 카드수에 대해 소팅 참여자 수 대비 군집화에 적합하게 동의한 참여자의 수와 카드 유사성 정도를 도출하였다.

그래프 컷을 이용한 학습된 자기 조직화 맵의 자동 군집화 (Automatic Clustering on Trained Self-organizing Feature Maps via Graph Cuts)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.572-587
    • /
    • 2008
  • SOFM(Self-organizing Feature Map)은 고차원의 데이타를 군집화(clustering)하거나 시각화(visualization)하기 위해 많이 사용되고 있는 비교사 학습 신경망(unsupervised neural network)의 한 종류이며, 컴퓨터비전이나 패턴인식 분야에서 다양하게 활용되고 있다. 최근 SOFM이 실제 응용분야에 다양하게 활용되고 좋은 결과를 보이고 있지만, 학습된 SOFM의 뉴론(neuron)을 다시 군집화해야 하는 후처리가 필요하며, 대부분의 경우 수동으로 이루어지고 있다. 후처리를 자동으로 하기 위해 k-means와 같은 기존의 군집화 알고리즘을 많이 이용하지만, 이 방법은 특히 다양한 모양의 클래스를 가진 고차원의 데이타에서 만족스럽지 못한 결과를 보인다. 다양한 모양의 클래스에서 좋은 성능을 보이기 위해, 본 논문에서는 그래프 컷(graph cut)을 이용하여 학습된 SOFM을 자동으로 군집화하는 방법을 제안한다. 그래프 컷을 이용할 때 터미널(terminal)이라는 두 개의 추가적인 정점(vertex)이 필요하며, 터미널과 각 정점 사이의 가중치는 대부분 사용자에 의해 입력받은 사전정보를 기반으로 설정된다. 제안된 방법은 SOFM의 거리 매트릭스(distance matrix)를 기반으로 한 모드 탐색(mode-seeking)과 모드의 군집화를 통하여 자동으로 사전정보를 설정하며, 학습된 SOFM의 군집화를 자동으로 수행한다. 실험에서 효율성을 검증하기 위해 제안된 방법을 텍스처 분할(texture segmentation)에 적용하였다. 실험 결과에서 제안된 방법은 기존의 군집화 알고리즘을 이용한 방법보다 높은 정확도를 보였으며, 이는 그래프기반의 군집화를 통해 다양한 모양의 클러스터를 처리할 수 있기 때문이다.

군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구 (A Study of Library Grouping using Cluster Analysis Methods)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제31권3호
    • /
    • pp.79-99
    • /
    • 2020
  • 이 연구의 목적은 공공도서관 그룹화를 위해 적합한 군집분석 모델을 파악하고 그 특징을 분석하는데 있다. 국가도서관통계시스템의 공공도서관 통계 데이터를 사용하였으며, 군집분석 기법의 3가지 모델을 적용하였다. 공공도서관 규모를 기준으로 군집분석을 실시한 결과 크게 2가지 군집으로 구분되었으며, 군집의 크기는 크게 한쪽으로 치우쳤다. 그룹화 모델로 도서관 규모를 기준으로 삼으면, 계층적 군집분석의 와드측정법과 k-평균군집분석 모델이 적합하였다. 공공도서관 그룹화 연구 결과에 대한 시사점은 다음과 같다. 첫째, 통계 데이터 외에 도서관 서비스 관련 다양한 데이터 수집이 진행되어야 한다. 둘째, 분석 대상이 되는 데이터 세트에 적합한 분석 모델이 적용되어야 한다. 셋째, 도서관 서비스 향상을 위해 군집분석 기법의 다양한 분야 적용 가능성에 대한 적극적인 연구가 필요가 있다.