• 제목/요약/키워드: K-means 군집분석

검색결과 314건 처리시간 0.037초

R기반 데이터마이닝 분석을 통한 상수관망 자료 활용가능성 제시 (Presenting the possibility of using water pipe network data through R-based data mining analysis)

  • 홍성진;이찬욱;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2020
  • 데이터마이닝은 빅데이터를 활용하는데 주로 활용되는 기술이다. 빅데이터 활용의 중요성이 증대됨에 따라 빅데이터를 기반으로 데이터마이닝을 활용한 생산, 금융, 통신 등의 성공적인 활용사례가 있지만 상수도 시설물에 적용한 사례는 드물다. 본 연구에서는 R프로그램을 기반으로 확보하기 어려운 데이터를 얻고자 관련 기사를 수집하고 데이터마이닝의 주요 기능인 분류, 군집(K-means)분석을 수행하였다. 예를들어, 상수관로의 정밀한 누수 분석을 위해서는 관경, 매설년도 등의 세분화된 자료가 필요하나 이러한 자료들은 쉽게 확보할 수 없다는 한계를 갖고 있다. 이러한 관점에서 상수관망 단수, 누수 등의 키워드를 통해 얻을 수 있는 기사를 기반으로 주요 키워드에 대한 군집분석을 수행하여 세분화된 상수관망 자료를 획득 및 분석하였다. 단수, 누수 키워드 기사에 의해 관경정보 등 파손된 관로의 정보를 확보할 수 있는 것으로 나타났으며 향후 확보하기 어려운 데이터를 보완할 수 있는 방법 중 하나로 활용될 수 있을것으로 기대된다. 그러나, 데이터의 양과 보다 정교한 군집분석을 위한 키워드설정 등의 추가연구가 필요할 것으로 판단된다.

  • PDF

공간 밀도분석을 이용한 재정비 대상지 탐색에 관한 연구 (A Study on Exploring Urban Renewal Areas Using Spatial Density Analysis)

  • 김기중;고승욱;성진욱
    • 토지주택연구
    • /
    • 제14권2호
    • /
    • pp.35-50
    • /
    • 2023
  • 정비사업에 있어 공공의 역할이 강조되고 있는 상황에서 객관적으로 정비사업이 필요한 지역을 선제적으로 살펴보는 것은 매우 중요하다. 이 연구의 목적은 공간데이터를 활용하여 재정비가 필요한 지역을 탐색하고, 재정비 대상지 유형화 및 특성을 분석하는 것이다. 이를 달성하기 위해 공간데이터를 사용하여 커널밀도함수와 K-means 군집분석을 수행하였고, 재정비 대상지역 발굴 방법을 모색하였다. 주요연구결과 및 시사점을 요약하면 다음과 같다. 첫째, 개발 용적비와 노후도 지표를 기준으로 서울시 전역에 걸쳐 587개 재정비 대상지를 구획하였으며, 선도사업·신속통합기획 후보지 비교결과 절반 정도 일치성을 확인하였다. 둘째, 재정비 대상지는 공공에서 지정한 선도사업 후보지에 비하여 상대적으로 주거환경이 열악하였다. 셋째, 재정비 대상지는 통계적으로 뚜렷하게 유형화되지 않았으며, 사업요건별 유형화의 타당성을 확인하였다.

군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구 (A Study of Library Grouping using Cluster Analysis Methods)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제31권3호
    • /
    • pp.79-99
    • /
    • 2020
  • 이 연구의 목적은 공공도서관 그룹화를 위해 적합한 군집분석 모델을 파악하고 그 특징을 분석하는데 있다. 국가도서관통계시스템의 공공도서관 통계 데이터를 사용하였으며, 군집분석 기법의 3가지 모델을 적용하였다. 공공도서관 규모를 기준으로 군집분석을 실시한 결과 크게 2가지 군집으로 구분되었으며, 군집의 크기는 크게 한쪽으로 치우쳤다. 그룹화 모델로 도서관 규모를 기준으로 삼으면, 계층적 군집분석의 와드측정법과 k-평균군집분석 모델이 적합하였다. 공공도서관 그룹화 연구 결과에 대한 시사점은 다음과 같다. 첫째, 통계 데이터 외에 도서관 서비스 관련 다양한 데이터 수집이 진행되어야 한다. 둘째, 분석 대상이 되는 데이터 세트에 적합한 분석 모델이 적용되어야 한다. 셋째, 도서관 서비스 향상을 위해 군집분석 기법의 다양한 분야 적용 가능성에 대한 적극적인 연구가 필요가 있다.

k-means 군집화 기법을 이용한 베트남 스마트워터그리드 계측 데이터 기반 도시 물 사용 패턴 추정 (Estimation of urban drinking water consumption patterns based on smart water grid monitoring data by k-means clustering in Vietnam)

  • 구강민;한국헌;이규민;전경수;염경택
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.419-419
    • /
    • 2021
  • 수자원 관리 패러다임은 공급 위주에서 수요관리로 전환되고 있다. 가용한 수자원은 한정적이나 급속한 인구증가와 도시화로 인한 물 수요의 증가로 수요관리의 효율성이 중시되고 있기 때문이다. 기존 상수도시스템은 노후화로 가동효율이 점차 낮아지고 있으며, 인력으로 월 또는 격월로 소비자의 물 사용량을 검침해 실시간 관리가 불가능하여 수요와 공급의 불균형을 초래한다. 이러한 문제를 해결할 대안으로 IT 기술과 전통적인 물관리 기술을 접목한 Smart Water Grid는 양방향 통신장치를 이용해 실시간으로 소비자의 물 사용량을 모니터링한다. 물 사용 특성을 잘 파악하면 보다 정확한 물 수요 예측이 가능하다. 특히 소비자들의 시간별, 평일, 주말, 그리고 주별 물 사용 특성을 파악하면 미래 물 수요 예측에 도움이 된다. 예측된 물 수요량에 따라 물 공급 배분 계획을 수립하여 운영 효율성을 높일 수 있다. 물 수요예측 방법 중 k-mean 군집분석은 시간별 물 사용량을 이용해 서로 유사한 여러 개의 부분집합으로 할당하여 분류하는 Machine learing 방법으로 물 사용의 유사성을 파악할 수 있다. SWG 연구단은 2019년 Vietnam Hai Duong province에 SWG Pilot plant를 구축하고 27개의 Smart water meter를 설치하여 운영하고 있다. 이에 본 연구에서는 소비자의 물 사용 특성을 분석하기 위해 27개 SWM로부터 수신된 2019년 11월 14일부터 2020년 12월 3일까지 1시간 단위의 물 사용량 데이터를 수집하였다. 그리고 k-mean 군집 방법을 이용해 시간별, 평일, 주말, 그리고 주별 물 사용 특성을 분석하였다. 이 때 최적의 군집 개수 결정을 위해 Elbow 방법을 적용하였다. 분석 결과 각 소비자의 물 사용량 특성에 따라 평균 물 수요패턴 추정이 가능하며, 향후 물 수요 예측에 도움이 될 것으로 사료된다.

  • PDF

Cluster analysis of city-level carbon mitigation in South Korea

  • Zhuo Li
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권7호
    • /
    • pp.189-198
    • /
    • 2023
  • 최근 지구온난화로 인한 폭염, 태풍, 폭설 등 기후변화를 급증하고 있다. 미국 뉴욕에서 개최된 제 25차 '기후변화 당사국총회(COP25)'에 따른 세계 각국은 '탄소중립' 달성하기 위한 협상을 진행했다. 도시는 경제발전뿐만 아니라 탄소중립 과정에서도 중요한 역할을 수행한다. 본 연구는 이산화탄소와 관계되는 경제요인 및 환경요인을 고려하여 엘보우 규칙 (Elbow method) 과 K-means 군집 알고리즘을 활용하여 한국 63개 도시의 탄소배출 현황을 분석하였다. 연구결과에 따른 한국 도시는 기술집약 도시, 경공업 도시, 미래 혁신도시, 중공업 도시, 서비스 집약도시 및 농촌, 가정생산집약도시로 구분될 수 있고 향후 시도별 탄소중립 목표를 실천하기 위해 구체적인 제안을 제시하였다.

인자 점수를 이용한 이상치 데이터의 군집화 (Outlier Data Clustering using Factor Score)

  • 전성해;임민택;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

온톨로지와 군집분석을 이용한 지하공간 정보모델 개발 (Development of Subsurface Spatial Information Model with Cluster Analysis and Ontology Model)

  • 이상훈
    • 한국지리정보학회지
    • /
    • 제13권4호
    • /
    • pp.170-180
    • /
    • 2010
  • 지하공간 개발의 증가에 따라 지층단면도 등 다양한 형태로 제공되는 지하공간 정보모델의 신뢰성이 요구되고 있다. 그러나 지반은 근본적으로 불확실하며, 이를 표현하는 정보모델도 자료부족, 해석표준 부재 등의 비통계적 요인과 외부환경 변수라는 통계적 요인으로 불확실성을 가진다. 따라서, 현재의 모델 생성은 고도로 훈련된 전문가에 의해 이뤄지고 있다. 본 연구는 지반공학 전문가의 경험과 지식에서 시맨틱을 추출하고, 이를 온톨로지 모델과 정보량으로 정량화하였다. 정량화한 온톨로지 모델은 군집분석의 클러스터간 거리계산에 적용하여 시맨틱을 고려한 군집분석 방법론을 제안하였다. 본 제안 방법을 실험지역에 적용한 결과 기존 K-Means 방법에 비해 전문가의 해석과 유사한 결과를 도출하였으며, 수작업으로는 어려운 대용량 데이터를 손쉽게 처리하고 3차원 GIS로 가시화가 가능하였다. 본 연구를 통해 지반공학 전문가의 도움 없이도, 그 경험을 고려하면서 대량의 지반정보 데이터를 효과적으로 처리하여 신뢰성 있는 지하공간 정보모델을 생성할 수 있을 것이다.

군집분석을 통한 자연휴양림 이용객의 시장세분화 (Market Segmentation on Recreational Forest Visitors by Cluster Analysis)

  • 신현규;신홍철
    • 한국콘텐츠학회논문지
    • /
    • 제10권3호
    • /
    • pp.364-372
    • /
    • 2010
  • 본 연구의 목적은 자연휴양림의 방문한 이용객들의 방문동기를 통한 군집분석을 통하여 이용객을 분류하고 그에 따른 행동의도간의 차이를 검증하여 그에 따른 세분화된 이용객들의 차별화된 마케팅 및 경영전략을 수립하는데 그 목적이 있다고 할 수 있다. 이의 측정을 위하여 1년 이내에 자연휴양림을 이용한 적이 있는 방문객들을 대상으로 자연휴양림 방문동기에 대한 요인 분석을 실시한 후 군집분석을 실시하여 군집을 분류하였으며, 분류된 군집을 인구통계학적 특성과의 교차분석을 실시하여 군집의 유형화를 실시하였다. 유형화된 군집을 통하여 만족도, 재방문 및 추천의도에 대한 차이검정을 실시하였다. 분석결과 방문동기에 대한 요인분석 결과 3개의 요인으로 분류되었으며, 이를 통해 계층적 군집분석과 K-means군집분석을 통하여 2개의 군집을 도출하였으며, 2개의 군집을 다시 교차분석을 통하여 군집의 유형화를 실시하여 미혼의 100만원 미만의 군집과 기혼의 200~300만원의 군집 집단으로 유형화를 실시하였다. 이 군집을 자연휴양림 방문 후 행동의도간의 차이분석을 실시하였으며, 그 결과 전반적으로 만족, 즐거운 시간을 보냄, 방문은 현명한 선택, 재방문의도, 추천의도 모두 유의한 차이가 있는 것으로 나타났다. 군집 2인 기혼의 200~300만원의 집단에 더 높은 행동의도를 보이고 있는 것으로 나타나 차별화된 마케팅 전략이 필요시 되며, 또한 자연휴양림 공익적 성격을 고려하여 각 집단에 대하여 모두 소구할 수 있는 서설 및 서비스의 개발이 요구 된다.

군집분석을 이용한 우리나라 가뭄특성의 공간적 분석 (Spatial Analysis of Drought Characteristics in Korea Using Cluster Analysis)

  • 유지영;최민하;김태웅
    • 한국수자원학회논문집
    • /
    • 제43권1호
    • /
    • pp.15-24
    • /
    • 2010
  • 최근에는 확률강우량을 산정할 경우 지점빈도해석의 단점을 보완한 지역빈도해석법이 자주 실무에 적용되고 있으나, 가뭄에 관련한 연구에서는 대부분 아직까지 지점자료를 이용한 가뭄분석을 실시하고 있다. 본 연구에서는 가뭄의 지역적 특성 분석을 실시하기 위하여 필요한 동질한 가뭄특성을 지닌 지역을 구분하는 연구를 수행하였다. 본 연구에서는 기상청 강우관측 지점자료 중 30년 이상의 강우자료를 보유한 58개의 관측지점을 대상으로 표준강수지수(SPI)를 산정하여 가뭄의 심도, 지속기간, 강도, 발생빈도 등과 같은 가뭄특성인자를 생성하였다. 가뭄특성인자는 수문학적으로 동질한 특성을 지닌 지역을 구분하는데 중요한 정보를 제공한다. 본 연구에서는 다양한 가뭄특성인자를 효율적으로 활용하여 K-means 기법을 적용한 군집분석을 실시하여 동질한 가뭄특성을 지닌 지역을 6개 지역으로 구분하였다. 이러한 지역구분은 가뭄 특성의 공간적 해석을 가능하게 할 수 있고, 지점빈도 해석의 단점을 보완하는 지역빈도 해석도 가능하게 할 수 있다.

붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정 (Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm)

  • 박민재;전성해;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.