• 제목/요약/키워드: k-means 군집 알고리즘

검색결과 191건 처리시간 0.026초

키워드 추출과 군집화 기반의 논문 분류 시스템의 설계 및 구현 (Design and Implementation of Paper Classification Systems based on Keyword Extraction and Clustering)

  • 이윤수;테이퍼악떠라;이종혁;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.48-51
    • /
    • 2018
  • 컴퓨터 및 기술의 발전으로 힘입어 수많은 논문이 오프라인뿐 아니라 온라인으로 발행되고 있고, 새로운 분야들도 계속 생기면서 사용자들은 방대한 논문들 중 자신이 필요로 하는 논문을 검색하거나 분류하기에 많은 어려움을 겪고 있다. 이러한 한계를 극복하기 위해 본 논문에서는 유사 내용의 논문을 분류하고 이를 군집화하는 방법을 제안한다. 제안하는 방법은 TF-IDF를 이용하여 각 논문의 초록으로 부터 대표 주제어를 추출하고, K-means 클러스터링 알고리즘을 이용하여 추출한 TF-IDF 값을 근거로 논문들을 유사 내용의 논문으로 군집화한다.

개인화 추천 시스템에서 속성 정보를 이용한 연관 사용자 군집 방법 (Associative User Group Method using Attribute Information in Personalized Recommendation System)

  • 한경수;조동주;정경용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.169-173
    • /
    • 2006
  • 유비쿼터스 상거래에서 사용자가 정보를 효율적으로 이용할 수 있도록 제어하고 필터링하는 일을 도와주는 개인화된 추천 시스템이 등장하였다. 더 나아가서는 사용자가 원하는 아이템을 예측하고 추천해주며, 이를 위해 협력적 필터링 기술을 적용하고 있다. 이는 사용자의 성향에 맞는 아이템을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 사용자들 간의 유사도 가중치를 계산한다. 본 논문에서는 속성정보에 대한 사용자의 선호도를 고려하지 않은 문제점을 개선하기 위해서 속성정보를 이용한 연관 사용자의 선호도를 협력적 필터링 기술에 반영함으로써 추천의 정확도를 높이고자 한다. 그리고 협력적 필터링의 {연관 사용자-아이템} 행렬에서 사용자들 간의 연관 관계를 유지하면서 차원 수를 감소시키기 위해 ARHP 알고리즘을 이용하여 연관 사용자 군집을 한다. 제안된 방법의 성능 평가를 하기 위해 사용자가 아이템에 대해서 평가한 MovieLens 데이터 집합을 대상으로 평가되었으며, 기존의 Nearest Neighbor Model과 K-Means 군집보다 그 성능이 우수함을 보인다.

  • PDF

시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교 (Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder)

  • 황우성;임효상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

텍스트 분석을 이용한 코로나19 관련 국내 논문의 주제 및 감성에 관한 융합 연구 (A Convergence Study on the Topic and Sentiment of COVID19 Research in Korea Using Text Analysis)

  • 허성민;양지연
    • 한국융합학회논문지
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2021
  • 본 연구에서는 코로나19 관련 연구논문의 연구주제를 탐색하고 동향을 검토하고 있다. 또한 감성분석을 통해 부정적인 어조가 강한 경고가 되는 주제들을 알아본다. 잠재 디리슐레 할당(LDA)를 이용하여 총 8개의 토픽을 발견하였고, 이를 구조적 토픽 모델링(STM)과 비교하여 비교적 안정적인 결과임을 확인하였다. 또한 k-means 군집 알고리즘을 통해 각 토픽별로 세부 연구주제를 발견하였고 주성분 분석을 이용하여 이를 시각적으로 표현하였다. 감성분석을 통해 각 토픽별 긍정적, 부정적인 단어들을 살펴보고 감성점수를 계산하여 연구논문의 주된 어조를 파악하였는데, 특히 생물 의학 관련, 국제적 역학관계, 심리적 영향과 관련된 연구에서 부정적인 어조가 강한 것으로 나타나 해당 부문에 대해서 주의와 관심이 요구된다. 향후 연구자들이 연구의 방향성을 탐색하고 정책결정자들이 연구지원 사업을 결정하는데 기초자료로 활용될 수 있을 것이다.

극치강수량의 시공간적 특성을 이용한 지역빈도분석 (Regionalization of Extreme Rainfall with Spatio-Temporal Pattern)

  • 이정주;권현한;김병식;윤석영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1429-1433
    • /
    • 2010
  • 수공구조물의 설계, 수자원 관리계획의 수립, 재해영향 검토 등을 수행할 때, 재현기간에 따른 확률개념의 강우량, 홍수량, 저수량 등을 산정하여 사용하게 되며, 보통 대상지역의 장기 수문관측 자료를 이용하여 수문사상의 확률분포를 산정한 후 재현기간을 연장하여 원하는 설계빈도에 해당하는 양을 추정하게 된다. 미계측지역 또는 관측자료의 보유기간이 짧은 지역의 경우는 지역빈도 분석 결과를 이용하게 된다. 지역빈도해석을 위해서는 강우자료들의 동질성을 파악하는 것이 가장 기본적인 과정이 되며 이를 위해 통계학적인 범주화분석이 선행되어야 한다. 지점 빈도분석의 수문학적 동질성 판별을 위해 L-moment 방법, K-means 방법에 의한 군집분석 등이 주로 사용되며 관측소 위치좌표를 이용한 공간보간법을 적용하여 시각화하고 있다. 강수량은 시공간적으로 변하는 수문변량으로서 강수량의 시간적인 특성 또한 강수량의 특성을 정의하는데 매우 중요한 요소이다. 이러한 점에서 본 연구를 통해 강수지점의 공간적인 좌표 및 강수량의 양적인 범주화에 초점을 맞춘 기존 지역빈도분석의 범주화 과정에 덧붙여 시간적인 영향을 고려할 수 있는 요소들을 결정하고 이를 활용할 수 있는 범주화 과정을 제시하고자 한다. 즉, 극치강수량의 발생 시기에 대한 정량적인 분석이 가능한 순환통계기법을 이용하여 관측 지점별 시간 통계량을 산정하고, 이를 극치강수량과 결합하여 시 공간적인 특성자료를 생성한 후 이를 이용한 군집화 해석 모형을 개발하는데 연구의 목적이 있다. 분석 과정에 있어서 시간속성의 정량화 및 일반화는 순환통계기법을 사용하였으며, 극치강수량과 발생시점의 속성자료는 각각의 평균과 표준편차를 이용하였다. K-means 알고리즘을 이용해 결합자료를 군집화 하고, L-moment 방법으로 지역화 결과에 대한 검증을 수행하였다. 속성 결합 자료의 군집화 효과는 모의데이터 실험을 통해 확인하였으며, 우리 나라의 58개 기상관측소 자료를 이용하여 분석을 수행하였다. 예비해석 단계에서 100회의 군집분석을 통해 평균적인 centroid를 산정하고, 해당 값을 본 해석의 초기 centroid로 지정하여, 변동적인 클러스터링 경향을 안정화시켜 해석이 반복됨에 따라 군집화 결과가 달라지는 오류를 방지하였다. 또한 K-means 방법으로 계산된 군집별 공간거리 합의 크기에 따라 군집번호를 부여함으로써 군집의 번호순서대로 물리적인 연관성이 인접하도록 설정하였으며, 군집간의 경계선을 추출할 때 발생할 수 있는 오류를 방지하였다. 지역빈도분석 결과는 3차원 Spline 기법으로 도시하였다.

  • PDF

신문기사로부터 추출한 최근동향에 대한 트위터 감성분석 (Twitter Sentiment Analysis for the Recent Trend Extracted from the Newspaper Article)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.731-738
    • /
    • 2013
  • 본 논문은 사회의 최근 동향에 대한 여론의 반응을 관찰하기 위한 방법을 나타낸다. 최근 동향을 나타내는 키워드를 신문기사로부터 추출하고, 추출된 키워드를 이용하여 수집된 트윗의 감성 분석을 통해 최근 동향에 대한 여론을 분석한다. 수집된 신문기사를 k-means알고리즘을 이용하여 군집화하고, 군집내의 단어의 출현 빈도를 이용하여 토픽 키워드를 선정하였다. 각 토픽에 대하여 수집된 트윗은 그 토픽 대한 트윗이라는 가정하에 기계학습 방법을 이용하여 긍/부정을 판별하여 감성을 판단하게 하였다. 그리고 이와 같은 가정에 대한 타당성을 검증해 보았다.

자기공명 심장 영상의 좌심실 경계추출에서의 k 평균 군집화와 병합 알고리즘의 사용으로 인한 전처리 효과 (Preprocessing Effect by Using k-means Clustering and Merging .Algorithms in MR Cardiac Left Ventricle Segmentation)

  • Ik-Hwan Cho;Jung-Su Oh;Kyong-Sik Om;In-Chan Song;Kee-Hyun Chang;Dong-Seok Jeong
    • 대한의용생체공학회:의공학회지
    • /
    • 제24권2호
    • /
    • pp.55-60
    • /
    • 2003
  • 심장 질환의 정량적 분석을 위해서 자기공명 심장 영상에서 좌심실의 경계를 추출하는 것이 중요하다. Snake 또는 active contour 모델은 좌심실 경계 추출을 위해서 사용되어 왔다. 그러나 이 모델을 사용하는데 있어서 좌심실의 경계선이 좌심실 내부에 생긴 결절 때문에 경계선이 지역최소값으로 빠져서 원하는 경계선에 수렴하지 못 할 수도 있다. 그러므로 본 논문에서는 active contour 모델의 성능을 향상시킬 수 있는 k 평균 군집화와 병합 알고리즘을 이용한 전처리 방법을 제안하였다. 제안된 방법으로 지역 최소값 수렴 문제를 해결함을 확인하였다.

온라인 문서 군집화에서 군집 수 결정 방법 (Determining the number of Clusters in On-Line Document Clustering Algorithm)

  • 지태창;이현진;이일병
    • 정보처리학회논문지B
    • /
    • 제14B권7호
    • /
    • pp.513-522
    • /
    • 2007
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법으로, 사람이 일일이 살펴보기 어려운 데이터를 분석해서 비슷한 성향을 가진 데이터들끼리 모은 여러 개의 군집들을 만들어 낸다. 온라인 문서 군집화는 검색 엔진을 통해 검색된 문서들을 대상으로 군집화를 실행하여 유사한 특성의 문서들을 묶어서 보여줌으로써 사용자의 검색 환경의 편의성을 증진시키는 것이 목적이다. 문서군집화는 사람의 개입이 없이 자동으로 이루어져야 하고, 군집화 결과에 영향을 미치는 군집의 개수 선정도 자동으로 이루어져야 한다. 또한, 온라인 시스템에서는 빠른 응답 시간을 보장하는 것이 중요하다. 본 논문에서는 기하학적인 정보를 이용하여 군집의 수를 결정하는 방법을 제안한다. 제안하는 방법은 군집의 중심을 저차원 평면에 사상하는 것과 사상된 군집 중심의 거리 정보를 이용하여 군집들을 병합하는 두 단계로 이루어져 있다. 제안하는 방법을 실데이터에 적용하여 실험한 결과 군집화 성능이 향상되고, 처리 시간도 온라인 환경에 적합한 것을 확인 할 수 있었다.

기계학습 알고리즘을 사용한 스포츠 경기장 방문객 마케팅 적용 방안 (A Study on Application of Machine Learning Algorithms to Visitor Marketing in Sports Stadium)

  • 박소현;임선영;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.27-33
    • /
    • 2018
  • 본 연구에서는 마케팅 분야 중 스포츠 경기장을 찾는 관람객의 빅 데이터를 분석하여 소비자에게 맞춤형 마케팅 서비스를 제공하는 연구를 진행한다. 이를 위해 본 연구에서는 K-평균 군집화 방법을 사용하여 유사 관람객 그룹을 도출하고자 하며, K-근접 이웃 방법을 사용하여 새로운 방문객의 관심 매장을 예측하고자 한다. 실험 결과를 통해 상기 두 가지 알고리즘을 사용하는 것은 유사 관람객 그룹을 도출하며 신규 관람객 입장 시 신규 관람객의 특성에 맞는 적합한 마케팅 서비스를 제공 할 수 있게 하였다.

히스토그램 군집화를 이용한 영상 대비 향상 (A Image Contrast Enhancement Using Clustering of Image Histogram)

  • 홍석근;박준우;강병조;최유나;조석제
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.379-380
    • /
    • 2009
  • 히스토그램 스트레칭이나 히스토그램 균등화 등 기존 대비 향상 기법들과 히스토그램 균등화 기반의 수많은 방법들은 저대비에 소수의 화소들이 넓게 퍼져 있는 영상에 대해서 만족할만한 결과를 내지 못한다. 따라서 본 논문은 군집화 방법을 이용한 새로운 영상 대비 향상 기법을 제안한다. 히스토그램의 군집수는 원영상의 히스토그램을 분석하여 얻을 수 있다. 히스토그램 성분들을 K-means 알고리즘을 이용하여 군집화한다. 그리고 히스토그램 군집 범위와 군집의 화소수 비율을 비교하여 히스토그램 스트레칭과 히스토그램 균등화를 선택적으로 적용한다. 실험 결과로부터 제안한 방법이 기존의 대비 향상 기법들보다 더 효과적임을 확인할 수 있었다.