• 제목/요약/키워드: 클러스터 간 유사도

검색결과 106건 처리시간 0.035초

중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가 (A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering)

  • 전준우;송광호;김유성
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가 (A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering)

  • 전준우;송광호;김유성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교 실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

사전정보 활용을 위한 관련 규칙 기반의 Ensemble 클러스터링 (Association-rule based ensemble clustering for adopting a prior knowledge)

  • 고송;김대원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.67-70
    • /
    • 2007
  • 본 논문은 클러스터링 문제에서 사전 정보에 대한 활용의 효율을 개선시킬 수 있는 방법을 제안한다. 클러스터링에서 사전 정보의 존재 시 이의 활용은 성능을 개선시킬 수 있는 계기가 될 수 있으므로 그의 활용 폭을 늘리기 위한 방법으로 다양한 사용 방법의 적용인 semi-supervised 클러스터링 앙상블을 제안한다. 사전 정보의 활용 방법의 방안으로써 association-rule의 개념을 접목하였다. 클러스터 수를 다르게 적용하더라도 패턴간의 유사도가 높으면 같은 그룹에 속할 확률은 높아진다. 다양한 초기화에 따른 클러스터의 동작은 사전 정보의 활용을 다양화 시키게 되며, 사전 정보에 충족하는 각각의 클러스터 결과를 제시한다. 결과를 총 취합하여 association-matrix를 형성하면 패턴간의 유사도를 얻을 수 있으며 결국 association-matrix를 통해 클러스터링 할 수 있는 방법을 제시한다.

  • PDF

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

영역 기반 이미지 검색을 위한 영역 매칭 방법에 관한 연구 (A Study on Region matching method for Region-based Image Retrieval)

  • 추연웅;최기호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.155-158
    • /
    • 2002
  • 본 논문은 영역기반의 영상 검색을 위해 향상된 영역 매칭 알고리즘을 구현하고자 한다. 최근의 Mpeg-7표준은 객체 기반의 영상처리를 특징으로 하고 있으며, 객체 기반의 영상 처리방법들에서 가장 대표적인 방법인 영역기반 검색 방법은 영역 분할과 특징 추출, 그리고 영역매칭을 통한 유사도 측정에 따른 검색으로 나뉘어 진다. 본 논문에서는 영상을 분할한 후 분할된 영역들에 대한 특징을 추출 하고, 추출된 특징들을 다차원 특징 공간에서의 클러스터로 구성한다. 그리고 구성된 클러스터들을 인접한 중심을 가진 특징 그룹화 하여 특징 그룹 중심간의 거리차를 이용하여 질의 이미지와 검색 이미지의 유사도를 측정하는 영역 매칭 방법을 제안한다.

  • PDF

문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템 (An Efficient Parallel Information Retrieval System using Document Clustering)

  • 강유경;류광렬;정상화
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권2호
    • /
    • pp.157-167
    • /
    • 2001
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으면서 가격대 성능비가 우수한 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 문서 라이브러리를 여러 개의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당함으로써 작업 단위를 적절한 규모로 하였을 뿐만 아니라, 문서의 점수 계산 시 프로세서 간 통신이 전혀 필요치 않게 하였다. 검색은 1차로 클러스터 레벨에서 관련 클러스터들을 찾는 것으로 시작하여 2차로 관련 클러스터 내에서 실제 문서를 찾는 방식으로 이루어진다. 이러한 계층적인 검색 구조로 인하여 1차 검색 후 여과가 가능하므로 전체적인 검색의 부하를 줄일 수 있다. 또한 문서의 클러스터가 가능한 한 유사한 문서군이 되도록 함으로써 불필요한 클러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 다중 트랜스퓨터 시스템에서 구현되었으며, 실험 결과 무작위적으로 클러스터링한 경우에 비해 유사 문서군으로 클러스터링한 접근 방법이 우수함을 확인하였다.

  • PDF

퍼지값을 갖는 데이터에 대한 퍼지 클러스터링 (Fuzzy Clustering for Fuzzy Data1)

  • 이건명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.27-29
    • /
    • 1998
  • 클러스터링은 데이터의 특성 추출, 데이터의 압축 등을 목적으로 동일 클러스터에 속하는 데이터간에는 유사성이 크도록 하면서 다른 클러스터에 속하는 데이터간에는 유사성이 작도록 데이터를 군집화하는 것이다. 일상에서 발생하는 많은 데이터에는 관측 오류, 불확실성, 주관적인 판정 등으로 인해서 데이터의 속성값이 정확한 값으로 주어지지 않은 경우가 있다. 본 논문에서는 분명한 값뿐만 아니라 퍼지값도 포함한 데이터들에 대해서 퍼지 클러스터링하는 방법을 제안한다.

  • PDF

MANET에서 상황인식 매트릭스를 이용한 효율적인 우회경로설정에 관한 연구 (A Study of Efficient Set Detour Routing using Context-Aware Matrix)

  • 오동근;오영준;이강환
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.517-518
    • /
    • 2013
  • 모바일 에드 혹 네트워크(Mobile Ad hoc Network)는 이동성을 가진 노드로 구성된 네트워크로서, 통신기반 시설의 지원이 없어도 스스로 통신망을 구축하여 통신한다. 하지만 노드의 이동성으로 인한 토폴로지의 변화가 빈번하여, 라우팅 경로 재설정으로 인한 오버헤드가 생성된다. 오버헤드 생성을 줄이기 위하여 클러스터링을 이용한 연구가 진행되어 왔다. 클러스터가 형성된 MANET에서 클러스터 헤드 노드가 이동함에 따라 클러스터 영역을 벗어나게 되었을 경우, 클러스터 그룹에 속하는 멤버 노드들은 패킷을 보내지 못하며, 클러스터 헤드노드를 선출하지 못하여 사용할 수 없는 노드가 된다. 본 논문에서는 클러스터 헤드 노드가 클러스터 영역을 벗어날 경우, 클러스터 멤버노드의 상황인자 속성 벡터 정보가 유사한 클러스터 헤드노드를 이웃한 주변 클러스터 헤드로부터 검색 및 선택하여, 우회경로를 제공하는 알고리즘을 제안한다. 제안된 알고리즘에서 각 노드는 상황정보 매트릭스를 가지고 있어, 전송 커버리지 영역이 2홉 이내 반경에 있는 노드의 벡터 정보를 저장하게 된다. 클러스터 헤드 노드와의 연결이 끊어 졌을 경우, 클러스터 멤버 노드는 상황정보 매트릭스를 이용하여, 벡터정보가 유사한 클러스터 헤드 노드를 선택하여, 노드 간의 연결성 및 패킷의 전달성이 향상 된다.

  • PDF

FCM을 이용한 고장전류의 판별에 관한 연구 (Faults Current Discrimination Using FCM)

  • 정종원;지석준;이준탁;김광백
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2007년도 하계학술대회 논문집
    • /
    • pp.458-460
    • /
    • 2007
  • RBF 네트워크의 중간층은 클러스터링 하는 층으로 주어진 자료 집합을 유사한 클러스터들로 분류하는 것이다. 여기서 유사하다는 것은 입력 데이터들에 대한 특징 벡터 공간사이에서 한 클러스터내의 벡터들 간에 거리를 측정하여 정해진 반경 내에 존재하면 같은 클러스터로 분류하고 정해진 반경 내에 존재하지 않으면 다른 클러스터로 분류한다. 그러나 정해진 반경 내에서 클러스터링 하는 것은 잘못된 클러스터를 선택하는 단점을 가지게 된다. 그러므로 중간층을 결정하는 것은 RBF 네트워크의 전반적인 효율성에 큰 영향을 준다. 따라서 본 논문에서는 효율적으로 중간층을 결정하기 위한 방법으로 퍼지 C-Means 클러스터링 알고리즘을 이용하고자 하였다. 그리하여 본 논문에서는 고장 전류의 특성을 해석하여 그 원인을 판단, 분류하기 위하여 전력계통의 고장 기록 장치로부터 얻어지는 선로의 전류 데이터를 FCM을 이용 분류하여 다양한 고장 모드를 판별할 수 있었다.

  • PDF

FCM을 이용한 퍼지 RBF 네트워크 (Fuzzy RBF Network using FCM)

  • 김재용;이상수;이준행;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.158-161
    • /
    • 2004
  • RBF 네트워크의 중간층은 클러스터링하는 층이다. 즉, 이 충의 목적은 주어진 자료 집합을 유사한 클러스터들(homogenous cluster)로 분류하는 것이다. 여기서 유사하다는 것은 입력 데이터들에 대한 특징 벡터 공간사이에서 한 클러스터내의 벡터들 간에 거리를 측정하여 정해진 반경 내에 존재하면 같은 클러스터로 분류하고 정해진 반경 내에 존재하지 않으면 다른 클러스터로 분류한다. 그러나 정해진 반경 내에서 클러스터링하는 것은 잘못된 클러스터를 선택하는 단점을 가지게 된다. 그러므로 중간층을 결정하는 .것은 RBF 네트워크의 전반적인 효율성에 큰 영향을 준다. 따라서 본 논문에서는 효율적으로 중간층을 결정하기 위한 방법으로 퍼지 C-Means 클러스터링 알고리즘을 적용한 퍼지 RBF 네트워크를 제안한다. 제안된 퍼지 RBF 네트워크의 학습은 크게 두 단계로 구분된다. 첫 번째 단계는 입력층과 중간층 사이에 퍼지 C-Means 알고리즘이 수행되고, 두 번째 단계는 중간층과 출력층 사이에 지도학습이 수행된다. 제안된 방법의 학습 성능을 평가하기 위하여 실제 주민등록증에서 추출한 숫자패턴에 적용한 결과, 기존의 RBF네트워크 보다 학습 성능이 개선된 것을 확인하였다.

  • PDF