• 제목/요약/키워드: 데이터 군집화

검색결과 563건 처리시간 0.027초

다계층 밀도기반 군집화 기법 (Multi-hierarchical Density-based Clustering Method)

  • 신동문;정석호;이경민;이동규;손교용;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.797-798
    • /
    • 2009
  • 군집화는 대용량의 데이터로부터 유용한 정보를 추출하는 데에 적합한 데이터마이닝 기법들 중 하나이다. 군집화 기법은 주어진 데이터그룹 내에서 사전정보 없이 의미있는 지식을 발견할 수 있으므로 큰 어려움이 없이 실제 응용분야에 적용할 수 있다. 또한, 대용량 데이터를 다룰 때에 개별적인 데이터에 대한 접근 횟수를 줄이고, 알고리즘이 다루어야 할 데이터 구조의 크기를 줄일 수 있다. 본 논문에서는 밀도-기반 군집화 기법을 기반으로 하는 새로운 군집화 기법을 제안한다. 우리가 제안하는 군집화 기법은 반복적인 군집화 과정을 통하여 군집 내 주변 잡음을 제거하고 더 세밀하게 집단을 세분화하는 것이 가능하다. 또한, 군집을 표현하는 데에 계층구조로 나타내어 각 군집의 상관관계를 파악하는 데에 유리하다. 본 논문에서 제안하는 군집화 기법을 통하여 다양한 밀도를 가진 군집들을 효과적으로 분류할 수 있을 거라고 기대된다.

단세포 RNA 시퀀싱 데이터를 위한 가중변수 스펙트럼 군집화 기법 (One-step spectral clustering of weighted variables on single-cell RNA-sequencing data)

  • 박민영;박세영
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.511-526
    • /
    • 2020
  • 단세포 RNA 시퀀싱 데이터(single-cell RNA-sequencing data, 이하 단세포 RNA 데이터)는 세포 조직으로부터 추출한 각 단세포 별 유전자의 신호를 기록한 데이터로, 세포 간의 이질성을 파악하는 것을 주요 목적으로 한다. 그러나 단세포 RNA 데이터는 샘플링 및 기술적인 한계로 인해 결측비율이 높고, 노이즈가 크다. 이러한 이유 때문에 기존의 군집화 방법을 적용하는 데에 한계가 존재한다. 본 논문에서는 단세포 RNA 데이터 분석에서 모티브를 얻어 스펙트럼 군집화(spectral clustering) 기반의 방법을 제안한다. 특히 유사도 행렬(similarity matrix) 계산에서 유전자 별로 가중치를 부여하여 기존의 단세포 데이터 분석 방법과 차별화하였다. 제안하는 군집화 방법은 유전자별 가중치를 부여함과 동시에 세포를 군집화한다. 군집화는 반복 알고리즘을 통해 제안하는 비볼록식(non-convex optimization)을 풀어 진행한다. 또한 실데이터 적용과 시뮬레이션을 통해 제안하는 군집화 방법이 기존의 방법보다 군집을 잘 구분하는 것을 보인다.

데이터 마이닝의 능률적인 군집화를 위한 유전자 알고리즘 적용에 관한 연구 (A Study on Gene Algorithm Application for Efficient Clustring of Data Mining)

  • 최호진;홍성표
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.41-44
    • /
    • 2009
  • 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고, 군집들간의 유사성을 최소화 시키도록 데이터의 집합을 분할하는 것이다. 대용량의 데이터베이스에서 최적의 효율화를 내기 위해서는 원시데이터에 대한 접근 횟수를 줄이고, 이것을 알고리즘 적용 대상이 데이터 구조의 크기를 줄이는 군집화 기법에 많은 관심이 보이고 있다. 본 논문에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하는 적합도 함수는 보다 양질의 군집을 찾아내는 것으로 평가 되었다. 또한 유전자 알고리즘 중 8가지를 세부 분석하여 평가하였다.

  • PDF

고차원 범주형 데이터를 위한 투영 군집화 기법의 핵심 요소 개발 (Development of Core Components of Projected Clustering for High-Dimensional Categorical Data)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.181-183
    • /
    • 2006
  • 본 논문은 고차원의 범주형 데이터에 대한 군집화에 대해서 다룬다. 기존의 범주형 데이터 객체를 위한 유사성(상이성) 계측들의 기저에 깔려 있는 한계점은 수치형 데이터에서와 같은 순서화 (ordering)의 부재와 데이터의 고차원성과 희소성에 기인하는데, 이를 효과적으로 극복할 수 있는 기법이 투영 군집화이다. 본 논문에서는 고차원의 범주형 데이터를 효과적으로 처리할 수 있는 투영 군집화를 다루며 핵심 요소인 군집 차원의 정의와 군집 응집도를 제안한다.

  • PDF

자기 조직화 지도와 계층적 군집화를 이용한 유전자 발현 데이터 군집화 기법 (Clustering of Gene Expression Data by using SOM and Hierarchical Clustering)

  • 박창범;이동환;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.784-786
    • /
    • 2003
  • 본 논문에서는 유전자 발현 데이터를 분석하는데 있어서 자기 조직화 지도와 계층적 군집화 기법을 상호 보완적으로 사용하여 사용자가 보다 직관적으로 군집화 결과를 해석할 수 있는 방법을 제안한다. 제안된 방법을 사용하면 빠른 처리 속도로 대용량 데이터 처리에 적합한 자기 조직화 지도의 장점을 살릴 수 있으며 계층적 군집화의 장점인 가시화 기능을 이용하여 자기 조직화 지도의 단점인 군집 경계에 대한 불명확성을 해소하여 군집화 결과를 사용자가 쉽게 이해하고 직관적으로 해석할 수 있도록 도와준다. 본 논문에서 제안된 방법의 효용성을 검증하기 위해 세 종류의 데이터를 사용하여 실험을 수행한 결과 제안된 방법이 기존 방법에 비해 더 나은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

단어 의미 모호성 해소를 위한 군집화된 의미 어휘의 품질 향상 (Improving Clustered Sense Labels for Word Sense Disambiguation)

  • 박정연;신형진;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.268-271
    • /
    • 2022
  • 단어 의미 모호성 해소는 동형이의어의 의미를 문맥에 맞게 결정하는 일이다. 최근 연구에서는 희소 데이터 처리를 위해 시소러스를 사용해 의미 어휘를 압축하고 사용하는 방법이 좋은 성능을 보였다[1]. 본 연구에서는 시소러스 없이 군집화 알고리즘으로 의미 어휘를 압축하는 방법의 성능 향상을 위해 두 가지 방법을 제안한다. 첫째, 의미적으로 유사한 의미 어휘 집합인 범주(category) 정보를 군집화를 위한 초기 군집 생성에 사용한다. 둘째, 다양하고 많은 문맥 정보를 학습해 만들어진 품질 좋은 벡터를 군집화에 사용한다. 영어데이터인 SemCor 데이터를 학습하고 Senseval, Semeval 5개 데이터로 평가한 결과, 제안한 방법의 평균 성능이 기존 연구보다 1.5%p 높은 F1 70.6%를 달성했다.

  • PDF

유전자 알고리즘을 이용한 군집화 기법의 적합도 함수에 관한 연구 (A Study on Fitness Function of Clustering Algorithm based on Genetic Algorithm)

  • 이수정;권혜련;김은주;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.310-312
    • /
    • 2001
  • 최근 관심의 대상이 되고 있는 CRM, eCRM에는 데이터 마이닝 기법이 핵심 기술로 이용되고 있다. 이러한 데이터 마이닝 기법가운데 가장 널리 사용되고 있는 군집화는, 데이터 집합을 유사한 데이터의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 것이다. 그런데 기존의 군집화 알고리즘은 사전에 군집의 개수를 미리 결정해줘야 하고 잡음에 민감하여 지역적 최적해(local minima)에 수렴할 수 있다는 문제점을 가지고 있다. 이러한 문제점의 개선을 위해, 본 논문에서는 유사도 개념을 적합도 함수로 사용하는 유전자 알고리즘을 적용한 군집화 기법을 제안하다. 특히 적합도 하수에 사용된 군집의 대표값 개념은 요약 정보만을 이용하여 계산속도가 향상되기 때문에 대용량 데이터를 다루는 마이닝에 적합할 것을 기대된다.

  • PDF

AMI로부터 측정된 전력사용데이터에 대한 군집 분석 (Clustering load patterns recorded from advanced metering infrastructure)

  • 안효정;임예지
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.969-977
    • /
    • 2021
  • 본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.

범주형 속성 기반 군집화를 위한 새로운 유사 측도 (A New Similarity Measure for Categorical Attribute-Based Clustering)

  • 김민;전주혁;우경구;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.71-81
    • /
    • 2010
  • 데이터의 군집을 찾아내는 문제는 패턴 인식, 이미지 처리, 시장 조사 등 많은 응용 분야에서 널리 사용되고 있다. 군집의 질을 결정하는 핵심 요소로는 유사 측도, 차원의 개수 등이 있다. 유사 측도는 데이터의 특성을 반영하여 다르게 정의되어야 하는데, 대부분 기존의 연구들은 데이터를 특징 지어주는 속성이 수치형으로 주어진 경우에 국한되어 있었다. 속성이 범주형으로 주어진 경우도 실생활에 많이 존재하지만, 범주형 변수에 대한 속성값의 유사성은 값의 순서가 고유하게 정해지지 않아서 정의하기 어렵다. 이에 더하여, 고차원 데이터에 대해서는 데이터 점들이 희박하게 위치하여 가까운 점과 먼 점간의 차이가 거의 없고, 군집화 결과가 좋지 않을 수 있다. 이 문제를 해결하기 위해 부분 차원 군집화 방법이 제안되어 왔다. 부분 차원 군집화 방법은 각 군집을 발견하기에 적합한 부분 차원을 선택하면서 군집화를 수행하는 방법이다. 본 논문에서는 범주형 속성으로 특징지어진 고차원 데이터를 부분 차원 군집화하기 위한 새로운 유사 측도를 제안한다. 유사 측도는 각 군집은 다른 군집과 구별되는 특정 정보를 잘 표현할 수 있어야 한다는 기본적인 가정 하에 속성들 사이의 상관성을 반영하여 정의되었다. 이들 모두를 반영한 유사측도는 기존에 존재하지 않았다는 점에서 본 연구는 의미가 있다. 실제 데이터 집합을 군집화하는 실험을 통해 제안하는 방법이 다른 군집화 방법보다 저차원 데이터와 고차원 데이터 모두에 대해 좀 더 정확한 군집 결과를 얻을 수 있음을 보였다.

PCA와 SOM을 이용한 자동 군집화 에이전트 (Automatic Clustering Agent using PCA and SOM)

  • 박정은;김병진;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.67-70
    • /
    • 2003
  • 인터넷의 정보 홍수 속에서 원하는 정보를 정확하게 제시간에 얻기란 쉬운 일이 아니며, 따라서 이러한 작업을 대신해주는 에이전트의 역할이 점점 커지고 있다. 대부분의 이벤트들이 실시간에 발생되고 처리되어야 하는 인터넷 환경에서는 분석가가 군집화의 방법과 결과 해석에 지속적으로 관여하기 어렵기 때문에 이러한 분석가의 업무를 대신하는 지능화된 에이전트가 필요하게 된다. 본 논문에서는 특히 자율학습 군집화에 대한 자동화된 시스템으로서 자동 군집화 에이전트를 제안하며 이 시스템은 군집화 수행 에이전트와 군집화 성능 평가 에이전트로 이루어져 있다. 두 개의 에이전트가 서로 정보를 교환하면서 자동적으로 최적의 군집화를 수행한다. 군집화 과정에서는 데이터를 분석하는 분석가가 군집화의 방법과 결과 해석에 실시간으로 관여하기 어렵기 때문에 이러한 작업을 담당하는 지능화된 에이전트가 자동화된 군집화를 담당하면 효과적인 군집화 전략이 될 수 있다. 또한 UCI Machine Repository의 IRIS 데이터와 Microsoft Web Log Data를 이용한 실험을 통해 제안 시스템의 성능 평가를 수행하였다.

  • PDF