• 제목/요약/키워드: 군집분

검색결과 224건 처리시간 0.025초

k-Modes 분할 알고리즘에 의한 군집의 상관정보 기반 빅데이터 분석 (A Big Data Analysis by Between-Cluster Information using k-Modes Clustering Algorithm)

  • 박인규
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.157-164
    • /
    • 2015
  • 본 논문은 융복합을 위한 범주형 데이터의 부공간에 의한 군집화에 대해서 다룬다. 범주형 데이터는 수치형 데이터에만 국한되지 않기 때문에 기존의 범주형 데이터들의 평가척도들은 순서화(ordering)의 부재와 데이터의 고차원성과 희소성으로 인하여 한계를 가지기 마련이다. 따라서 각각의 군집에 존재하는 범주형 속성들의 상호 유사도을 보다 근접하게 측정할 수 있는 조건부 엔트로피 척도를 제안한다. 또한 군집의 최적화를 위하여 군집내의 발산을 최소화하고, 군집간의 독립성을 향상시킬 수 있는 새로운 목적함수를 제안한다. 제안된 알고리즘의 성능을 4개의 알고리즘과 비교검증하기 위하여 5가지의 데이터에 대하여 실험을 수행하였다. 비교검증을 위한 평가척도는 정확도, f-척도와 적응된 Rand 색인이다. 실험을 통하여 제안된 방법이 평가척도에 의한 결과에서 기존의 방법들보다 좋은 성능을 보였다.

군집과 위키피디아를 이용한 문서군집 (Document Clustering using Clustering and Wikipedi)

  • 박선;이성호;박희만;김원주;김동진;산드라 아벨;이성로
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.392-393
    • /
    • 2012
  • 본 논문은 군집과 위키피디아(Wikipedia)를 이용하여 문서를 군집하는 새로운 방법을 제안한다. 제안된 방법은 비음수행렬분해를 이용하여 군집을 대표할 수 있는 군집 주제(topic)의 개념을 잘 표현할 수 있으며, 위키피디아의 동음이의어를 사용함으로써 문서와 군집 간의 의미관계를 고려하지 않는 용어집합(bag-of-words) 문제를 해결할 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

  • PDF

선군집분할방법에 의한 특징 추출 (Feature Extraction by Line-clustering Segmentation Method)

  • 황재호
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.401-408
    • /
    • 2006
  • 영상신호의 수직축 및 수평축 화소 성분 분석을 통해서, 영상 내부에 존재하는 각 영역의 군집적 특성을 통계 및 영역적으로 처리 분류함으로써 필요한 특징을 추출할 수 있는 새로운 형태의 영역분할처리 알고리즘을 제시한다. 종래의 점처리나 면처리 방식에 비해 이 방식은 수평축과 수직축 상에서의 연속적인 선처리 방식이라고 할 수 있다. 영상을 구성하는 영역간 경계가 암시적으로 구분되어 있으나, 명시적으로는 불투명하고, 영상 특성의 분기점 또한 불명확하고 중복되어 있음으로 인하여 문턱치처리나 분기점처리로 그 영역간 특정을 분할, 추출하기가 곤란한 경우에 이 방식은 우수한 효과가 있다. 수평축 및 수직축 선처리를 통해 각 영역들의 특성들을 군집으로 처리한 다음 처리한 축과 수직 방향으로 축차적 적응진행처리한다. 그 결과 영상 내 각 영역은 화소값의 중복에도 불구하고 하나의 군집으로 자리매김하면서 군집 고유의 화소 값을 갖는다. 그리고 처리후 영상은 각 군집에 부여한 새로운 화소값으로 변환함으로 필요한 특정이 추출된다. 이 방식은 특히 영역 분할을 통해 시각적 효과를 극대화시킬 필요가 있는 경동맥 초음파 의료영상에서 우수한 결과를 보였다.

주축의 연속적 분할을 통한 고속 벡터 양자화 코드북 설계 (Fast VQ Codebook Design by Sucessively Bisectioning of Principle Axis)

  • 강대성;서석배;김대진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.422-431
    • /
    • 2000
  • 본 논문에서는 주성분 해석 기법에 기반한 새로운 벡터 양자화 코드북 설계 방법을 제안한다. 주성분 해석 알고리즘은 입력 영상벡터를 더 작은 차원의 특징 벡터로 변환시키는데 사용되며, 변환된 영역에서 특징 벡터의 군집을 최적으로 결정된 분할 초평면을 이용하여 두 군집으로 분할하는 과정을 반복 함으로써 코드북을 생성한다. 본 논문에서는 연산 시간이 오래 걸리는 최적 분할 초평면 탐색을 (1) 분할 초평면은 특징 벡터의 주축에 수직이며, (2) 좌우측 부군집의 오차의 균형점과 일치하며, (3) 좌우측 부군집의 오차를 점진적으로 조정함으로서 연산 수행 시간을 크게 단축시켰다. 제안한 주축 연속 분할은 분할전후의 오차의 감축이 가장 큰 군집에 대해, 전체 군집의 오차가 설정한 수준보다 작을 때까지 연속적으로 수행된다. 실험 결과 제안한 주성분 해석 기반 벡터 양자화 방법은 SOFM을 이용한 방법보다 수행시간이 빠르며 K-mean 알고리즘을 이용한 방법보다 복원 성능이 뛰어남을 볼 수 있다.

  • PDF

군집의 중요 용어와 위키피디아를 이용한 문서군집 향상 (Enhancing Document Clustering using Important Term of Cluster and Wikipedia)

  • 박선;이연우;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.45-52
    • /
    • 2012
  • 본 논문은 군집 중요 용어들과 위키피디아(Wikipedia)의 동음이의어를 이용하여 문서군집의 성능을 향상시키는 새로운 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 중요 용어들을 선택함으로서 군집을 대표할 수 있는 군집 주제(topic)의 개념을 잘 표현할 수 있으며, 군집의 중요 용어에 위키피디아의 동음이의어를 사용하여 확장함으로써 문서와 군집 간의 의미관계를 고려하지 않는 용어집합(bag-of-words) 문제를 해결할 수 있다. 또한 확장된 군집의 중요 용어를 이용하여 문서집합을 재 군집하여 초기 군집을 정제함으로써 군집방법의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

전기 사용량 시계열 함수 데이터에 대한 비모수적 군집화 (Nonparametric clustering of functional time series electricity consumption data)

  • 김재희
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.149-160
    • /
    • 2019
  • 본 연구는 2016년 7월부터 2017년 6월까지 인천 소재 A 대학교의 15분 단위의 일일 전기 사용량 시계열 데이터에 대해 functional data analysis 기법을 적용하여 군집화하고 각 군집의 특성을 파악하고 예측에 활용하고자 한다. 하루동안의 A 대학교의 전기 사용량은 패턴은 주중과 주말 에 큰 차이를 보이며 스플라인 기저함수로 FPCA 구한 후 이들에 대한 가우시안 분포의 혼합모형 기반 군집분석으로 3개의 군집화가 적절해 보인다. 각 군집에 대해 평균 함수, 확률밀도함수, 일들의 분포 등을 정리해 각 군집에 대한 정보와 특징을 보여준다.

신규 유기농경지 토양의 유기물 공급이 토양 미생물군집에 미치는 영향 (Effects of Organic Matter Application on Soil Microbial Community in a Newly Reclaimed Soil)

  • 안난희;옥정훈;조정래;신재훈;남홍식;김석철
    • 한국유기농업학회지
    • /
    • 제23권4호
    • /
    • pp.767-779
    • /
    • 2015
  • 본 연구에서는 신규 개간지 유기농경지에서 가축분퇴비와 녹비작물을 2년간 연용하였을 때 유기물에 의한 밭 토양미생물 군집에 미치는 영향을 평가하고자 수행하였다. 가축분 퇴비와 녹비를 연용한 처리구는 화학비료와 무비 처리구에 비해 유기물 함량이 증가하였다. 세균과 사상균 개체수는 유기물을 연용 할수록 유기물 처리구와 화학비료 그리고 무비 처리구간의 유의적인 차이를 나타내었다. 또한 가축분 퇴비와 녹비 연용으로 토양 미생물체량은 모든 처리구가 증가하였으며 NPK와 무비구에 비해 퇴비, 녹비 처리구에서 높게 나타났다. 유기물 연용에 의한 토양미생물 군집의 기능적 다양성 분석에서 가축분 퇴비, 녹비 처리구가 화학비료나 무비구에 비해 기질 이용도가 유의적으로 증가하였으며 유기물 처리구가 화학비료나 무비구에 비해 높은 종 다양성을 나타냈다. 그리고 주성분 분석에서 제2주성분에 의해 유기물 처리구와 그렇지 않은 화학비료, 무비구로 분리되었다.

문맥 독립 화자인식을 위한 공간 분할 벡터 양자기 설계 (A Classified Space VQ Design for Text-Independent Speaker Recognition)

  • 임동철;이행세
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.673-680
    • /
    • 2003
  • 이 논문은 문맥 독립 화자인식에 사용될 벡터 양자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 특징 벡터 공간을 분할하여, 양자기 설계 시 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 제안된 공간 분할 벡터 양자기 설계법은 저자가 제안한 문맥 종속 화자인식을 위한 준비반복 벡터 양자기 설계법의 벡터 공간에 대한 일반화이다. 공간 분할 벡터 양자기 설계법은 종래의 설계법이 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 또한 공간 분할 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 특징 벡터 공간을 분할한 공간 분할 군집을 이용함으로써 반복 학습을 하지 않는다. 둘째, 설계된 각 양자 영역은 공간 분할 군집의 양자 영역을 원용하며, 양자점은 각각의 통계 분포에 대해 최적점으로 설정된다. 셋째, 공간 분할 군집은 특징 벡터 집합에 대해 표본 벡터 생성법(CSVQ1, 2), 특징 벡터 공간에 대해 균일 초격자 구조 생성법(CSYQ3)으로 형성하였다. 수치 실험은 화자 10명이 발성한 50개의 문장에 대해 문맥 독립 화자인식 실험으로 수행되었다. 특징계수는 12차 멜켑스트럼 벡터를 사용하였고 각각의 공간 분할 코드북 생성법에 대해 코드북 크기를 32부터 128까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 표본 벡터 생성법을 사용한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 공간 분할 벡터 양자기 설계법은 설계에 필요한 계산량이 획기적으로 줄면서 인식률은 보존되어 문맥 독립 화자 인식에 새로운 대안이 되며 또한 특징 벡터 공간을 설정할 수 있는 다양한 응용에 적용이 가능할 것으로 사료된다.