• 제목/요약/키워드: 데이터 군집화 알고리즘

검색결과 206건 처리시간 0.029초

온라인 문서 군집화에서 군집 수 결정 방법 (Determining the number of Clusters in On-Line Document Clustering Algorithm)

  • 지태창;이현진;이일병
    • 정보처리학회논문지B
    • /
    • 제14B권7호
    • /
    • pp.513-522
    • /
    • 2007
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법으로, 사람이 일일이 살펴보기 어려운 데이터를 분석해서 비슷한 성향을 가진 데이터들끼리 모은 여러 개의 군집들을 만들어 낸다. 온라인 문서 군집화는 검색 엔진을 통해 검색된 문서들을 대상으로 군집화를 실행하여 유사한 특성의 문서들을 묶어서 보여줌으로써 사용자의 검색 환경의 편의성을 증진시키는 것이 목적이다. 문서군집화는 사람의 개입이 없이 자동으로 이루어져야 하고, 군집화 결과에 영향을 미치는 군집의 개수 선정도 자동으로 이루어져야 한다. 또한, 온라인 시스템에서는 빠른 응답 시간을 보장하는 것이 중요하다. 본 논문에서는 기하학적인 정보를 이용하여 군집의 수를 결정하는 방법을 제안한다. 제안하는 방법은 군집의 중심을 저차원 평면에 사상하는 것과 사상된 군집 중심의 거리 정보를 이용하여 군집들을 병합하는 두 단계로 이루어져 있다. 제안하는 방법을 실데이터에 적용하여 실험한 결과 군집화 성능이 향상되고, 처리 시간도 온라인 환경에 적합한 것을 확인 할 수 있었다.

KCI 등재 학술지의 분류를 위한 네트워크 군집화 방법의 비교 (A classification of the journals in KCI using network clustering methods)

  • 김진광;김소형;오창혁
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.947-957
    • /
    • 2016
  • KCI는 국내 학술지 및 게재 논문과 인용에 대한 데이터베이스이며, 이를 이용하여 국내 학술지 간의 인용 관계를 파악할 수 있다. 현재 사용 중인 KCI의 학술지 분류는 각 학술지의 등재 신청 시 학술지 발간 주체가 선정한 분류로 인용 관계에 의한 분류가 아니다. 이로 인해 같은 분류에 속하는 학술지 사이의 인용관계가 없거나 낮은 현상이 발생하기도 하여 인용관계가 많은 학술지끼리 같이 묶여야 한다는 기준에 부합하지 않는 문제점이 발생하고 있다. 따라서 학술지 분류가 학술지 간의 인용정도를 잘 대표하지 못하는 것으로 알려져 있다. 본 연구에서는 KCI에 등재된 학술지 분류와 KCI 인용망에 네트워크 군집화 알고리즘을 적용한 군집 결과를 토대로 어떠한 차이가 있는지 살펴보았다. 이를 위해 최근 논문에서 대표적으로 다뤄지는 네트워크 알고리즘을 제시하고, 인용관계에 따른 각 알고리즘의 군집 결과 차이를 비교하였다. 그 결과 '인포맵' 알고리즘이 기존 KCI 분류망과 모듈화 구조 측면에서 유사성이 가장 높은 것으로 나타났다.

인자점수와 자기조직화지도를 이용한 희소한 문서데이터의 군집화 (Sparse Document Data Clustering Using Factor Score and Self Organizing Maps)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.205-211
    • /
    • 2012
  • 통계학과 기계학습의 다양한 기법을 이용하여 문서집합을 군집화하기 위해서는 우선 군집화분석에 적합한 데이터구조로 대상 문서집합을 변환해야 한다. 문서군집화를 위한 대표적인 구조가 문서-단어행렬이다. 각 문서에서 발생한 특정단어의 빈도값을 갖는 문서-단어행렬은 상당부분의 빈도값이 0인 희소성문제를 갖는다. 이 문제는 문서군집화의 성능에 직접적인 영향을 주어 군집화결과의 성능감소를 초래한다. 본 논문에서는 문서-단어행렬의 희소성문제를 해결하기 위하여 인자분석을 통한 인자점수를 이용하였다. 즉, 문서-단어행렬을 문서-인자점수행렬로 바꾸어 문서군집화의 입력데이터로 사용하였다. 대표적인 문서군집화 알고리즘인 자기조직화지도에 적용하여 문서-단어행렬과 문서-인자점수행렬에 대한 문서군집화의 결과들을 비교하였다.

분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현 (Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function)

  • 구해모;남창민;이우현;이용재;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.105-112
    • /
    • 2018
  • 데이터의 양이 증가하면서 단일 노드 데이터베이스로는 저장과 처리를 동시에 수행하기에는 부족하다. 따라서, 데이터를 분산시켜 복수 노드로 구성된 분산 데이터베이스에 저장되고 있으며 분석 역시 효율성을 위해 병렬 기능을 제공해야한다. 전통적인 분석 방식은 데이터베이스에서 분석 노드로 데이터를 이동시킨 후 분석을 수행하기 때문에 네트워크의 비용이 발생하며 사용자가 분석을 위해 분석 프레임 워크도 다를 수 있어야한다. 본 연구는 군집화 분석 기법인 K-Means 군집화 알고리즘을 관계형 데이터 베이스와 칼럼 기반 데이터베이스를 이용한 분산 데이터베이스 환경에서 SQL로 구현하는 In-database 분석 함수로의 설계와 구현 그리고 관계형 데이터베이스에서의 성능 최적화 방법을 제안한다.

과학기술정보 서비스 플랫폼에서의 빅데이터 분석을 통한 개인화 추천서비스 설계 (Personal Recommendation Service Design Through Big Data Analysis on Science Technology Information Service Platform)

  • 김도균
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.501-518
    • /
    • 2017
  • 연구자들에게 지식을 습득하여 연구 활동에 도입하는데 걸리는 소요시간을 단축하는 것은 연구생산성 향상에 필수적인 요소라고 할 수 있다. 본 연구의 목적은 한민족과학기술자네트워크(KOSEN) 사용자들의 정보 이용 패턴을 군집화하고 그룹화 된 사용자들에게 맞는 개인화 추천서비스 알고리즘의 최적화 방안을 제안하는 것이다. 사용자들의 연구활동과 이용정보에 기반하여 적합한 서비스와 콘텐츠를 식별한 후 Spark 기반의 빅데이터 분석 기술을 적용하여 개인화 추천 알고리즘을 도출하였다. 개인화 추천 알고리즘은 사용자의 정보검색에 소요되는 시간을 절약하고 적합한 정보를 찾아내는데 도움을 줄 수 있다.

유비쿼터스 환경에서 사용자 위치 기반의 개인화된 서비스 추천 알고리즘 (A Recommendation Algorithm for the Personalized Service Based on User Location in Ubiquitous Environments)

  • 최정환;장현수;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.436-439
    • /
    • 2007
  • 추천 서비스는 사용자에게 적합한 서비스를 선응적으로 제공하는 기술로써, 전자상거래 환경을 중심으로 널리 이용되고 있다. 그러나, 유비쿼터스 환경에서도 가장 활발한 기술 접목이 이루어지는 홈 네트워크 환경 내에 추천 서비스가 적용된 사례는 많지 않다. 본 논문에서는 홈 네트워크 환경에서 누적된 사용자와 기기 간 상호작용 정보들을 바탕으로 사용자 위치 기반의 개인화된 서비스를 추천하는 알고리즘을 제안한다. 본 알고리즘에서는 밀도기반 초기값 선정 기법을 적용한 군집화를 통해 필요한 데이터만을 추출함으로써 서비스 추천의 효율성 및 정확성을 높인다. 또한, 사용자 기반의 협업 필터링을 이용하여 데이터가 충분히 많지 않은 상황에서도 정확한 서비스 추천을 수행한다.

클러스터링을 고려한 다차원척도법의 개선: 군집 지향 척도법 (Improved Multidimensional Scaling Techniques Considering Cluster Analysis: Cluster-oriented Scaling)

  • 이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.45-70
    • /
    • 2012
  • 개체들 사이의 관계를 저차원 공간에 매핑하는 다차원척도법을 수행하기 위한 다양한 방법과 알고리즘이 개발되어왔다. 그러나 PROXSCAL이나 ALSCAL과 같은 기존의 기법들은 50개 이상의 개체를 포함하는 데이터 집합을 대상으로 개체 간의 관계와 군집 구조를 시각화하는데 있어서 효과적이지 못한 것으로 나타났다. 이 연구에서 제안하는 군집 지향 척도법 CLUSCAL(CLUster-oriented SCALing)은 기존 방법과 달리 입력되는 데이터의 군집 구조를 고려하도록 고안되었다. 50명의 저자동시인용 데이터와 85개 단어의 동시출현 데이터에 대해서 적용해본 결과 제안한 CLUSCAL 기법은 군집 구조를 잘 식별할 수 있는 MDS 지도를 생성하는 유용한 기법임이 확인되었다.

온톨로지 기반 점진적 클러스터링 기법에 관한 연구 (A Study of Incremental Clustering Technique based on Ontology)

  • 김제민;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.643-645
    • /
    • 2005
  • 클러스터링은 무질서한 데이터들의 상호 연관 관계를 정의하고, 이를 통하여 보다 체계적으로 데이터를 군집화하는 것이다. 클러스터링을 적용한 웹 서비스 시스템은 비슷한 내용을 묶어 제공하기 때문에 사용자는 보다 효율적으로 정보를 제공받을 수 있다. 시멘틱 웹의 기반이 되는 온톨로지는 클러스터링을 위한 완벽한 입력 데이터를 제공한다. 본 논문은 온톨로지를 기반의 메타 데이터를 클러스터링 하기 위한 기법을 제안한다. 본 논문의 목적은 온톨로지 기반의 메타 데이터들의 유사성을 측정하기 위한 평가함수를 정의하고, 이러한 평가함수를 적용한 계층적 클러스터링 알고리즘을 연구하는 것이다.

  • PDF

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화 (Creation and clustering of proximity data for text data analysis)

  • 정민지;신상민;최용석
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.451-462
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.

PPI 네트워크를 이용한 SNP 군집화 및 질병 연관성 분석 (SNP Grouping Method Based on PPI Network Information)

  • 이규범;이선원;강재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.923-925
    • /
    • 2012
  • 대용량 고차원의 생물학 데이터가 매우 빠른 속도로 생산되는 현재, 단순히 고전적인 알고리즘들로는 풀 수 없는 문제들을 맞이하게 되었다. 이러한 문제들의 경우 시스템 생물학의 관점으로 다양한 생물 데이터의 융합을 통하여 접근할 경우 효율적으로 Computational Infeasibility(계산 불가능)를 해결함은 물론 그 해석 및 새로운 정보 획득에 매우 유리하다. 인간 DNA의 고차원 SNP 정보들의 군집화 및 질병 발현 패턴 분석은 그 조합의 수가 입력 데이터의 차원수에 따라 지수적(Exponentially)으로 증가하지만 PPI(단백질 상호작용) 네트워크 정보에 결합하여 필요한 중요부위를 선택적으로 이용할 경우 효율적으로 필요 SNP들의 선택 및 이로 인한 공간 축소가 가능하다.