• 제목/요약/키워드: K-means 클러스터링 알고리즘

검색결과 216건 처리시간 0.031초

퍼지 클러스터링 기반 퍼지뉴럴네트워크 설계 및 적용 (Design of Fuzzy Neural Networks Based on Fuzzy Clustering and Its Application)

  • 박건준;이동윤
    • 한국산학기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.378-384
    • /
    • 2013
  • 본 논문에서는 FCM 클러스터링 알고리즘을 기반으로 하는 퍼지뉴럴네트워크를 제안한다. 일반적으로, 퍼지규칙을 생성할 때 차원이 증가하면 퍼지 규칙의 수가 기하급수적으로 증가하는 문제를 가지고 있다. 이를 해결하기 위해, 제안된 네트워크의 퍼지 규칙은 FCM 클러스터링 알고리즘을 이용하여 입력 공간을 분산 형태로 분할함으로써 생성한다. 퍼지 규칙의 전반부 파라미터는 FCM 클러스터링 알고리즘에 의한 소속행렬로 결정된다. 퍼지 규칙의 후반부는 다항식 함수의 형태로 표현되며, 퍼지뉴럴네트워크의 학습은 뉴런의 연결을 조절함으로써 실현되고, 오류 역전파 알고리즘에 의해 행해진다. 마지막으로, 제안된 네트워크는 비선형 공정으로의 적용을 통해 성능을 평가한다.

분류체계 자동 생성 지원을 위한 용어 벡터 생성 방법 탐색 (How to Generate Term Vectors to Support the Automatic Generation of Taxonomy)

  • 성수진;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.600-603
    • /
    • 2022
  • 분류체계를 결정하는 일은 매우 중요하지만 어려운 일이다. 우리는 수집된 용어 목록에 클러스터링을 적용하여 상위 범주의 범위를 자동으로 설정하고자 하였다. 용어 클러스터링은 용어를 나타내는 벡터에 큰 의존성을 갖는다. 이에 클러스터링의 성능 향상을 위해 다양한 용어 임베딩 방법을 비교하였으며 용어에 대한 정의문의 벡터를 용어 벡터로 사용하여 가장 우수한 클러스터링 결과를 얻었다. 또한 실험을 통해 클러스터링 알고리즘 중 k-means clustering이 고차원의 벡터에 대해 좋은 성능의 군집을 생성함을 확인하였다.

  • PDF

진화알고리즘을 이용한 클러스터링 알고리즘 (A Clustering Algorithm using the Genetic Algorithm)

  • 류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.313-315
    • /
    • 2000
  • 클러스터링에 있어서 K-means와 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최소 해에 수렴될 문제와 사전에 클러스터 개수를 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적 해를 찾는 진화 알고리즘을 사용하여 지역적 최소 해에 수렴되는 문제점을 개선하였으며, 클러스터의 특성을 표준편차 벡터를 계산하여 중심으로부터 포함된 데이터가 얼마나 분포되어 있는지 알 수 있는 분산도와 임의의 데이터와 모든 중심들간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터간의 간격을 알 수 있는 분리도를 정의함으로써 자동으로 클러스터 개수를 결정할 수 있게 하였다. 실험데이터와 가우시안 분포에 의해 생성된 다차원 실험데이터를 사용하여 제안한 알고리즘이 이러한 문제점들을 해결하고 있음을 보인다.

  • PDF

데이터 마이닝의 전처리를 위한 K-means 알고리즘을 이용한 빈발패턴 생성 (Creation of Frequent Patterns using K-means Algorithm for Data Mining Preprocess)

  • 유희종;박지연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.336-339
    • /
    • 2008
  • 우리가 사용하는 데이터베이스 내에는 많은 양의 데이터 들이 들어 있으며, 계속적으로 그 양은 늘어나고 있다. 이러한 데이터들로부터 질의를 통해 얻을 수 있는 기본적이고 단순한 정보들과 달리 고급 정보를 얻게 해주는 방법이 데이터 마이닝이다. 데이터 마이닝의 기법 중에서 본 논문에서는 k-means 알고리즘을 사용하여 트랜잭션을 클러스터링 함으로써 데이터베이스의 트랜잭션 수를 줄여 연관규칙의 대표적인 알고리즘인 Apriori 알고리즘의 단점인 트랜잭션 스캔으로 인한 성능 저하를 개선하고자 한다.

DNA chip 통합분석 프로그램을 이용한 효모의 세포주기 유전자 발현 통합 데이터의 분석 (Analysis of Combined Yeast Cell Cycle Data by Using the Integrated Analysis Program for DNA chip)

  • 양영렬;허철구
    • KSBB Journal
    • /
    • 제16권6호
    • /
    • pp.538-546
    • /
    • 2001
  • 효모의 세포주기 관련 유전자 발현 통합 데이터를 사용하여 본 연구실에서 개발한 유전자 발현 통합 분석프로그램을 사용하여, 클러스터링 알고리즘의 성능을 비교하고 데이터내에 존재하는 클러스터 개수를 추정하기 위해 FOM 분석을 적용하였으며, 이 분석방법을 통하여 K-means, SOM, Fuzzy c-means 클러스터링 방법의 성능을 서로 비교하였다. 클러스터 개수를 추정한 다음 3가지 클러스터링 방법에 대한 클러스터링 결과 비교, 클러스터의 기능할당 및 모티프 분석을 시도하였다. 본 논문에서 제시하는 분석 방법은 DNA chip 발현 데이터의 일반적인 분석방법을 유전자 발현 패턴의 유사성을 토대로 한 클러스터링 방법에 근간을 두고 있다. 본 논문에서는 클러스터링한 후 각 클러스터의 기능할당 및 모티프 분석에 대한 일반적인 분석방법을 제시하였으며, 본 연구실에서 개발한 유전자 발현분석 통합 프로그램이 효율적으로 사용될 수 있음을 보여주고 있다.

  • PDF

K-means 클러스터링을 이용한 불변 방향 검출 (Detection of an Invariant Direction using K-means Clustering)

  • 김달현;이우람;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 춘계학술논문집 1부
    • /
    • pp.389-392
    • /
    • 2011
  • 본 논문에서는 영상의 색 항등성을 달성하기 위해 본질 영상의 핵심인 불변 방향을 K-means 클러스터링을 이용해 검출하는 개선된 알고리즘을 제안한다. 우선, RGB 영상을 K-means 클러스터링 기법에 의해 다수의 클러스터로 분할한다. 이 때, 클러스터 간의 거리 측정은 유클리드 거리이다. 그리고 분할된 클러스터 중 가장 많은 색을 가진 클러스터만을 x-색도 공간으로 도시하여 해당되는 후보 불변 방향을 계산한다. 검출된 후보 불변 방향은 방향별로 프로젝션된 히스토그램에서 3개 이상의 프로젝션된 데이터를 가진 bin들의 개수가 가장 적은 방향이다. 그 후, 분할된 다른 여러 클러스터에 해당되는 후 보 불변 방향을 계산하여 가장 많은 빈도로 나타나는 방향을 영상의 최종 불변 방향으로 결정한다. 실험에서 Ebner에 의해 제안된 데이터집합을 실험 영상으로 사용하였고, 색항등성 측도를 평가 척도로 사용하였다. 실험 결과, 제안한 기법은 형광성 표면을 가진 형광 데이터집합에 보다 적합하였으며, 엔트로피 기법보다 색항등성이 1.5배 이상 높았다.

  • PDF

인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석 (Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence)

  • 이서경;김동수;김경동;김영도;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

새로운 고속 EM 알고리즘 (A New Fast EM Algorithm)

  • 김성수;강지혜
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권10호
    • /
    • pp.575-587
    • /
    • 2004
  • 본 논문은 여러 분야에서 활용될 수 있는 향상된 고속 Expectation-Maximization(FEM) 알고리즘을 제안한다. 첫째, EM의 초기값 설정의 방법으로 많이 사용되고 있는 클러스터링 기법인 K-means의 문제점을 해결하여 개선된 EM의 초기값 선정에 적용하였다. 이것은 기존 K-means 알고리즘에서 임의로 지정하던 랜덤한 초기값 선정을, 데이타 분포 특성을 이용한 균등 분할법을 사용하여 EM의 초기값 문제를 해결하였다. 둘째, EM 과정의 핵심을 이루는 후행 확률(Posterior)의 의미를 부각하여 최대 가능성 후행 확률(Maximum Likelihood Posterior: MLP)과정을 적용하였다. 최종적으로, 본 논문에서 제안한 고속 EM알고리즘(FEM)은 근본적으로 해결하기 못했던 기존의 EM 초기치 선정과 수렴에 대한 문제점을 개선함으로써, EM 알고리즘의 특성을 극대화하는 방향으로 상대적으로 마른 수렴과 향상된 결과를 가져온다. 제안된 알고리즘의 객관적 타당성을 위해 기존의 방법과 제안된 방법에 의한 시뮬레이션의 결과를 여러 데이타들을 가지고 비교 분석하여 제안한 알고리즘의 우수성을 입증하였다.

퍼지 c-Means 클러스터링 알고리즘을 이용한 자궁 세포진 핵 인식에 관한 연구 (A Study on Nucleus Recognition of Uterine Cervical Pap-Smears using Fuzzy c-Means Clustering Algorithm)

  • 허정민;김정민;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.403-407
    • /
    • 2005
  • 자궁 경부 세포진 영상의 핵 영역 분할은 자궁 경부암 자동화 검색 시스템의 가장 어렵고도 중요한 분야로 알려져 있다. 본 논문에서는 자궁 경부 세포진 영상에서 HSI 모델을 이용하여 세포진 핵 영역을 추출한다. 추출된 세포진 핵 영역은 형태학적 정보(morphometric feature)와 명암 정보(densitometric feature), 색상 정보(colorimetric feature), 질감 정보(textural features)를 분석하여 핵의 특징을 추출한다. 또한 Bethesda System에서의 분류 기준에 따라 핵의 분류 기준을 정하고 추출된 핵의 특징들을 퍼지 c-Means 클러스터링 알고리즘에 적용하여 실험한 결과, 제안된 방법이 자궁 세포진 핵 추출과 인식에 있어서 효율적임을 확인하였다.

  • PDF

Competitive Unit을 사용한 Helmholtz Machine에 의한 문서 클러스터링 (Topical Clustering of Documents using Helmholtz Machines with Competitive Units)

  • 장정호;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.292-294
    • /
    • 2001
  • 문서 클러스터링은 정보검색 시스템에서 검색과정의 효율성을 향상시키기 위해서 많이 사용된다. 기존의 K-means 클러스터링과 같은 거리-기반 접근 방법은 거리에 대한 척도를 정해야 하는 문제가 있고, 또한 전체 자질 공간에서 지역적 특성에 민감하기 때문에 문서 내에 노이즈가 존재할 경우 만족스러운 결과를 내지 못할 수 있다. 그리고 기본적으로 문서 데이터는 희소성(sparseness)을 가기 때문에 정규 분포를 가정한 mixture 모델을 적용하기도 어려움이 있다. 본 논문에서는 Helmoholtz machine에 의한 문서 클러스터링 방법을 제안한다. 제안되는 방법에서는 하나의 문서를 어떤 내재적인 요인(factor)들의 다양한 결합에 의한 결과로 가정하는데, 이 때의 요인은 주제어 집합 또는 적어도 의미적으로 유사한 단어들의 집합이다. 그리고 기본적으로 Helmholtz machine은 이진 데이터를 다루는데, 텍스트 문서에 나타나는 단어들의 빈도를 고려하기 위해 수정된 Helmholtz machine을 제시한다. TREC-8 adhoe 데이터와 20 Newsgroup 문서 집합에 대한 클러스터링 실험 결과, 제안된 방법이 K-means 알고리즘에 비해 우수한 성능을 보였으며 주제어 추출을 통해 문서 집합의 전체 내용 파악을 용이하게 하는 특성이 있었다.

  • PDF