• 제목/요약/키워드: 클러스터 간 유사도

검색결과 106건 처리시간 0.033초

기계가독사전을 이용한 한국어 시소러스 구축 (Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary)

  • 이주호;은광희;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF

XML 문서의 공통 구조를 이용한 클러스터링 기법 (A Clustering Technique using Common Structures of XML Documents)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.650-661
    • /
    • 2005
  • 인터넷의 성장으로 인해 반구조적인 문서의 표준인 XML 문서의 사용이 증가하고 있고 이에 따라 XML 문서의 통합과 검색을 위한 연구가 많이 진행되고 있다. 효율적인 문서의 통합과 검색을 위한 기초 작업은 유사 구조의 XML 문서를 클러스터링 하는 것이다. 기존 연구의 XML 문서 클러스터링에서는 문서간의 구조적 유사도를 이용하여 클러스터를 생성한다. 그러나 이러한 방법은 문서간의 구조적 유사성외 정확한 측정 기준을 만들기 어렵고, 반복적인 유사도의 비교로 인해 처리 속도가 느리다는 단점이 있다. 이러한 문제점을 개선하기 위하여 이 논문에서는 많은 데이타에도 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 적용하는 새로운 클러스터링 방법을 제안한다. 이 논문에서 제안하는 클러스터링 방법은 하나의 DTD나 XML 스키마를 공유하는 문서 집합이 아닌 스키마가 없는 다양한 구조의 XML 문서들을 대상으로 공통 구조를 이용한다. 공통 구조를 이용하기 위하여 XML 문서의 트리 모델에서 구조를 분리하여 빈발 구조를 추출하고 이를 기반으로 클러스터링을 수행한다. 아울러, 기존 연구와의 비교 및 실험을 통해 제안 기법의 효율성을 보인다.

휴리스틱 진화에 기반한 효율적 클러스터링 알고리즘 (An Efficient Clustering Algorithm based on Heuristic Evolution)

  • 류정우;강명구;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.80-90
    • /
    • 2002
  • 클러스터링이란 한 군집에 포함된 데이터들 간의 유사한 성질을 갖도록 데이터들을 묶는 것으로 패턴인식, 영상처리 등의 공학 분야에 널리 적용되고 있을 뿐만 아니라, 최근 많은 관심의 대상이 되고 있는 데이터 마이닝의 주요 기술로서 활발히 응용되고 있다. 클러스터링에 있어서 K-means나 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최적해에 수렴하는 것과 사전에 클러스터 개수를 미리 결정해야 하는 문제점을 개선하였으며, 클러스터링의 특성을 분산도와 분리도로 정의하였다. 분산도는 임의의 클러스터의 중심으로부터 포함된 데이터들이 어느 정도 흩어져 있는지를 나타내는 척도인 반면, 분리도는 임의의 데이터와 모든 클러스터 중심간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터 중심간의 거리를 나타내는 척도이다. 이 두 척도를 이용하여 자동으로 적절한 클러스터 개수를 결정하게 하였다. 또한 진화알고리즘의 문제점인 탐색공간의 확대에 따른 수행시간의 증가는 휴리스틱 연산을 적용함으로써 크게 개선하였다. 제안한 알고리즘의 성능 및 타당성을 보이기 위해 이차원과 다차원 실험데이타를 사용하여 실험한 결과 제안한 알고리즘의 성능이 우수함을 나타내었다.

대구.경북 모바일 클러스터 육성전략: 지역혁신 거버넌스의 대안 모색 (Promotion Strategies for Daegu-Kyungbuk Mobile Cluster: Searching for Alternative Regional Innovation Governance)

  • 이정협;김형주
    • 한국경제지리학회지
    • /
    • 제12권4호
    • /
    • pp.477-493
    • /
    • 2009
  • 본 연구는 우리나라의 지역혁신 거버넌스를 진단하고 구조적 문제점을 규명하여 이를 극복하기 위한 대안적인 지역혁신 거버넌스 전략을 탐색하는 것을 목적으로 한다. 특히 삼성전자이라는 대기업 주도로 형성된 대구·경북 모바일 클러스터에 대한 사례연구를 통하여 우리나라 지역혁신의 거버넌스가 구체적으로 어떤 문제를 가지고 있는지 파악하고 개선방안을 도출하고자 하였다. 본 연구에서는 지역혁신의 거버넌스 개념을 지식생산 및 지식활용 시스템을 연계하는 정책시스템, 그리고 이를 작동시키는 제도적 조건으로 정의하였다. 클러스터의 거버넌스 측정은 세계은행의 "Social Capital Assessment Tool (SOCAT)"을 활용하였다. 분석결과 대구경북 모바일 클러스터는 삼성과 하드웨어 및 소프트웨어 개발업체들 간의 일대일 관계가 지배적인 생산네트워크, 분산된 연구개발 네트워크 그리고 다중 허브의 정책 네트워크의 특징을 보였다. 대부분의 정책기관들은 지역기업들과의 네트워크가 활성화되어 있지 못하며, 정책기관들 간의 상호작용도 활발하지 못한 것으로 나타났다. 지역기업들 특히 소프트웨어 개발업체들은 지역의 문제해결을 위해 협력하고 공동체의 목표를 공유한 경험이 있는 것으로 조사되었지만 주요 지역의 프로젝트 리더들에 대한 신뢰의 수준은 높지 않았다. 대구경북 모바일 클러스터의 경우 요소기술을 갖고 유사한 기술이나 제품의 개발로 결합될 수 있는 여러 개발업체간의 연대와 제휴가 이루어질 필요가 있다. 이를 위해 대구시와 경상북도 등 지방행정주체들이 모바일상용화센터 등 다양한 혁신기관들과 협력하여 다양한 기술 및 제품개발 협력체가 프로젝트 단위로 지속적으로 형성되고 해체되고 재형성될 수 있는 환경과 협력의 틀을 마련하는 것이 바람직하다고 판단된다.

  • PDF

수도권 산업단지(클러스터)의 광역권 내부 및 외부 연계구조 분석 (An Analysis on the Linkage Structure of Industrial Complexes(Clusters) in the Internal and External Capital Region)

  • 구양미;남기범;박삼옥
    • 한국경제지리학회지
    • /
    • 제13권2호
    • /
    • pp.181-195
    • /
    • 2010
  • 광역경제권 정책에 따라 산업단지 정책도 광역권 단위에서 연계구조를 구축하려는 방향으로 논의가 진행되고 있다. 본 분석의 목적은 수도권 산업단지들을 대상으로 산업단지간 연계구조를 도출하는 것이다. 먼저 수도권 산업단지 입주업체 설문조사를 실시하여 광역권 내의 지역간 연계 현황을 파악하였다. 산업단지의 업종별 종사자수 자료를 이용하여 산업단지간 구조유사척도를 계산하고, 수도권 내부와 외부 산업단지의 유사성을 살펴보았다. 또한 산업단지간 거리, 업종별 비율, 입지계수 등의 지표를 종합적으로 판단하여 산업단지 허브-스포크 연계구조(안)를 도출하였다.

  • PDF

하이퍼링크를 이용한 그래프 기반의 웹 문서 클러스터링 (Web Document Clustering based on Graph using Hyperlinks)

  • 이준;강진범;최중민
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.590-595
    • /
    • 2009
  • 인터넷 상의 웹 문서의 수가 기하급수적으로 늘어남에 따라서, 정보검색에서의 웹 문서 클러스터링은 성능과 속도가 매우 중요하게 되었다. 웹 문서 클러스터링은 의미적으로 관계가 있는 웹 문서들을 같은 클러스터로 군집함으로써 정보 검색을 보다 빠르고, 정보를 정확하게 제공할 수 있다. 그물망 그래프 형태의 클러스터링은 모든 문서간의 유사도를 측정함으로써 재현율을 높일 수 있지만, 높은 계산 비용을 갖는다. 본 논문에서는 그물망 형태의 클러스터링의 재현율과 정확율을 유지하며 계산 비용을 줄이기 위하여, 웹 문서의 구조적 특징인 하이퍼링크(Hyperlinks)를 이용한 클러스터링 방법을 제안한다.

  • PDF

밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병 (Cluster Merging Using Density based Fuzzy C-Means algorithm)

  • 한진우;전성해;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.235-238
    • /
    • 2003
  • Fuzzy C-Means(FCM) 알고리즘은 초기 군집 중심의 개수와 위치에 따라 군집 결과의 성능차이가 많이 나타난다. 하지만 일반적인 경우에 군집 중심의 개수는 분석가의 주관에 의해 결정되고, 임의적으로 결정되기 때문에 원래 데이터의 구조와는 무관하게 수행되어 최적화된 군집화 수행을 실행하지 못하는 경우가 발생하게 된다. 따라서 본 논문에서는 원래의 데이터의 구조에 좀더 근접한 퍼지 군집화를 수행하기 위하여 격자를 바탕으로 한 데이터의 밀도를 이용한 FCM을 제안하고, 이러한 밀도 기반 FCM에 의해 결정된 군집의 합병 기법을 제안하였다. N-차원의 데이터 공간을 N-차원의 격자로 나누고, 초기 군집 중심의 개수와 위치는 각 격자의 밀도를 바탕으로 결정된다. 초기화 이후에 각 격자 내부에서 FCM을 이용하여 군집화를 수행하고, 계속해서 이웃 격자의 군집결과에 대하여 군집간의 유사도 측도를 이용하여 군집 합병을 수행함으로써 데이터의 자연적인 구조에 근접한 군집화를 수행하였다. 제안된 군집화 합병 기법의 향상된 성능은 UCI Machine Learning Repository 데이터를 이용하여 확인하였다.

  • PDF

요약 문서 기반 문서 클러스터링 (Document clustering based on summarized document using K-means algorithm)

  • 오형진;고지현;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.589-592
    • /
    • 2002
  • 정보검색 시스템에서 문서 클러스터링 기법은 사용자 질의에 대하여 검색된 문서를 문서간의 관련도에 따라 클러스터로 구성하고 사용자에게 검색 결과로 보여주는 것이다. 본 논문에서는 사용자의 질의에 대하여 검색된 문서를 자동 문서 요약기를 통해 얻은 요약 문서와 문서 전문을 문서들간의 유사도를 기반으로 동적으로 클러스터링 한다. 구현한 시스템의 클러스터링 효과를 검증한 결과 검색된 문서 전문을 클러스터링 한 방식에 비해 요약 문서를 클러스터링 한 방식이 정확률 측면에서 더 나은 성능을 보였다.

  • PDF

GORank: Gene Ontology를 이용한 유전자 산물의 의미적 유사성 검색 (GORank: Semantic Similarity Search for Gene Products using Gene Ontology)

  • 김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.682-692
    • /
    • 2006
  • 유사한 생물학적 특성을 가진 유전자 산물을 검색하는 것은 생물정보학 연구에 필수적인 기술이다. 현재 대부분의 생물학 데이타베이스에서 Gene Ontology의 용어를 사용하여 유전자 산물의 생물학적 특성을 기술하고 있다. 본 논문에서는 이런 유전자 산물의 주석 정보를 사용해 의미적으로 유사한 유전자 산물을 검색하는 방법을 제안한다. 이를 위해 우선 정보 이론에 기반한 유전자 산물간의 의미적 유사도를 정의하였다. 그리고 이 유사도를 이용한 의미적 유사성 검색 알고리즘을 제안하였다. 의미적 유사성 검색을 처리하기 위해 Fagin의 문턱값 알고리즘(threshold algorithm)을 다음과 같이 변형한 기법을 사용하였다. 우선 사용하는 유사도 함수가 단조 증가 성질을 갖지 않기 때문에 유사도 함수에 맞는 문턱값을 재정의 하였다. 또 역색인 리스트의 구조를 사용하여 중간 검색을 생략할 수 있는 클러스터 스키핑 기법과 역색인 리스트 액세스 순서를 제안하였다. 실제 GO와 주석 정보를 이용하여 성능 평가를 했으며 제안한 알고리즘은 효율적인 알고리즘임을 보였다.

에드 혹 네트워크에서 노드의 동적 속성 기반 클러스터링 알고리즘 연구 (A clustering algorithm based on dynamic properties in Mobile Ad-hoc network)

  • 오영준;우병훈;이강환
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.715-723
    • /
    • 2015
  • 본 논문에서는 이동 에드혹 네트워크(Mobile Ad hoc Network: MANET)에서의 상황인식 기반의 스케쥴링 기법인 DDV(Dynamic Direction Vector)-hop알고리즘을 제안한다. 기존 MANET에서는 노드의 이동성으로 인한 동적 네트워크 토폴리지, 네트워크 확장성 결여의 대한 취약성을 지니고 있다. 본 논문에서는 계층적 클러스터 단위의 동적인 토폴로지에서 노드가 이동하는 방향성 및 속도에 대한 노드의 이동 속성 정보를 고려하여 클러스터를 생성 및 유지하는 DDV-hop 알고리즘을 제안한다. 제안된 알고리즘은 클러스터 헤드노드를 기준으로 클러스터 멤버노드의 방향성 및 속도의 속성 정보를 비교하여 유사한 노드간 클러스터링을 구성하고, 이로부터 헤드노드를 선택하는 방법이다. 실험결과, 제안하는 알고리즘이 네트워크의 부하를 감소시키고 네트워크 토폴로지를 안정적으로 유지할 수 있음을 확인하였다.