• 제목/요약/키워드: 응집 계층 군집화

검색결과 6건 처리시간 0.05초

정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구 (Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval)

  • ;강대현;박한샘;권경락;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

계층 발생 프레임워크를 이용한 군집 계층 시각화 (Visualizing Cluster Hierarchy Using Hierarchy Generation Framework)

  • 신동화;이세희;서진욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.436-441
    • /
    • 2015
  • 군집화 알고리즘은 그 종류에 따라 만들어낼 수 있는 군집의 종류와 보여줄 수 있는 정보의 수준이 차이가 난다. 밀도기반 군집화 알고리즘은 데이터 분포 상의 임의의 모양을 가진 군집을 잘 잡아내지만 보여줄 수 있는 계층정보가 매우 적거나 없는 수준이고, 반면 계층적 군집화 알고리즘은 자세한 계층 정보를 보여주지만 구 모양의 군집 외에는 잘 잡아내지 못한다. 이 논문에서는 이러한 두 군집화 방식의 대표적 알고리즘인 OPTICS와 응집 계층 군집화 알고리즘의 장점만을 취하는 계층 발생 프레임워크를 제시하고 이와 더불어 효과적 데이터 분석을 위한 여러 시각화, 상호작용 기법을 지원하는 시각적 분석 애플리케이션을 제공한다.

응집 계층 군집화 기법을 이용한 이종 공간정보의 M:N 대응 클래스 군집 쌍 탐색 (Detection of M:N corresponding class group pairs between two spatial datasets with agglomerative hierarchical clustering)

  • 허용;김정옥;유기윤
    • 한국측량학회지
    • /
    • 제30권2호
    • /
    • pp.125-134
    • /
    • 2012
  • 본 연구는 두 공간정보의 대응 클래스 군집 쌍 탐색을 중심으로 의미론적 정합과정에서 발생하는 M:N 대응관계를 분석하는 방법을 제안한다. 객체의 공유 관계를 이용하여 클래스의 유사도를 측정하고 높은 유사도를 가지는 클래스들을 군집화함으로써 M:N 대응관계를 탐색하고자 한다. 클래스 사이의 유사도를 그래프 모형으로 표현하고 그래프 임베딩 기법을 적용하여 투영공간에서 클래스 사이의 거리가 클래스 중첩분석에 의한 국지적 유사도에 반비례하도록 개별 클래스들의 투영좌표를 계산하고 군집화를 수행함으로써 계층적 대응 군집 쌍을 탐색할 수 있다. 제안된 방법을 평가하기 위하여 경기도 수원시의 수치지형도와 연속지적도에 적용하여 수치지형도의 면 객체 레이어와 연속지적도의 필지 지목의 대응 군집 쌍을 탐색하였다. 탐색된 대응 클래스 쌍의 F-measure를 측정한 결과 약 0.80에서 0.35 사이의 다양한 값을 얻을 수 있었으며, 클래스 명칭과는 상이한 다양한 대응관계를 얻을 수 있었다.

사전 뜻풀이를 이용한 용언 의미 군집화 (Semantic Clustering of Predicates using Word Definition in Dictionary)

  • 배영준;최호섭;송유화;옥철영
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.271-298
    • /
    • 2011
  • 한국어의 어휘 의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 용언의 하위범주화 논항(주어 및 목적어)과 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태그가 부착된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화를 시도하였고, 표제어와 뜻풀이 용언 사이 관계의 종개념과 유개념 관계를 이용하여 계층적 의미 군집화를 시도하였다. 그리고 특정 범주의 일반 샘플을 이용했던 특정 용언의 부류가 아닌, 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다. 본 논문에서 다의어 수준에서 구분된 총 106,501개의 용언(85,754개의 동사와 20,747개의 형용사)을 대상으로 한국어 용언 의미계층 군집 2,748개를 생성하였다. 이 중 순환정의 군집은 130개가 나타났으며, 중간 계층의 서브군집으로 261개가 나타났다. 군집 내 계층의 최대 깊이는 16단계였다. 그리고 용언 의미 군집 평가를 위해 세종사태의미부류와 비교해 보았다. 그 결과 70.14%의 응집도를 보였다.

  • PDF

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법 (A Hybrid Clustering Technique for Processing Large Data)

  • 김만선;이상용
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.33-40
    • /
    • 2003
  • 데이터 마이닝은 지식발견 과정에서 중요한 역할을 수행하며, 여러 데이터 마이닝의 알고리즘들은 특정의 목적을 위하여 선택될 수 있다. 대부분의 전통적인 계층적 클러스터링 방법은 적은 양의 데이터 집합을 처리하는데 적합하여 제한된 리소스와 부족한 효율성으로 인하여 대용량의 데이터 집합을 다루기가 곤란하다. 본 연구에서는 대용량의 데이터에 적용되어 알려지지 않은 패턴을 발견할 수 있는 하이브리드형 신경망 클러스터링 기법의 PPC(Pre-Post Clustrering) 기법을 제안한다. PPC 기법은 인공지능적 방법인 자기조직화지도(SOM)와 통계적 방법인 계층적 클러스터링을 결합하여 두 과정에서는 군집의 내부적 특징을 나타내는 응집거리와 군집간의 외부적 거리를 나타내는 인접거리에 따라 유사도를 측정한다. 최종적으로 PPC 기법은 측정된 유사도를 이용하여 대용량 데이터 집합을 군집화한다. PPC 기법은 UCI Repository 데이터를 이용하여 실험해 본 결과, 다른 클러스터링 기법들 보다 우수한 응집도를 보였다.

사용자 질의어 특징을 반영한 하이라이트 기반 노래 가사 검색 (Highlight based Lyrics Search Considering the Characteristics of Query)

  • 김권양
    • 한국지능시스템학회논문지
    • /
    • 제26권4호
    • /
    • pp.301-307
    • /
    • 2016
  • 본 논문에서는 사용자들이 노래 가사를 입력으로 음악을 검색할 때 사용자의 질의어 특징을 반영한 검색 방법을 제안한다. 일반적으로 노래 가사 검색에서 사용자들이 작성하는 질의어들은 음악 하이라이트 부분에 해당된다는 점을 고려하여 본 논문에서는 노래 가사를 색인할 때, 하이라이트 부분이 더 중요하도록 만든다. 이를 위해 본 논문에서는 응집 계층 군집화를 사용하여 자동으로 음악 하이라이트 부분을 찾고, 하이라이트 부분과 그 주변 부분을 중요하게 고려할 수 있는 가우시안 중요도를 제안한다. 이 가우시안 함수는 평균을 하이라이트 부분으로 설정함으로써 하이라이트에서 가장 높은 값을 가지며, 주변부는 하이라이트보다 낮은 중요도를 가진다. 이렇게 얻어진 중요도와 함께 노래 가사를 색인함으로써 사용자들이 작성한 질의어에 대해 더 부합하는 검색 결과를 제공해준다. 실험에서 실사용자 5명에 대해 다양한 질의 타입들과 함께 평가하였으며, 가중치를 고려하지 않는 비교 모델보다 제안한 방법이 효과적임을 보인다.