• 제목/요약/키워드: Gap clustering

검색결과 48건 처리시간 0.022초

Improvement of Self Organizing Maps using Gap Statistic and Probability Distribution

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권2호
    • /
    • pp.116-120
    • /
    • 2008
  • Clustering is a method for unsupervised learning. General clustering tools have been depended on statistical methods and machine learning algorithms. One of the popular clustering algorithms based on machine learning is the self organizing map(SOM). SOM is a neural networks model for clustering. SOM and extended SOM have been used in diverse classification and clustering fields such as data mining. But, SOM has had a problem determining optimal number of clusters. In this paper, we propose an improvement of SOM using gap statistic and probability distribution. The gap statistic was introduced to estimate the number of clusters in a dataset. We use gap statistic for settling the problem of SOM. Also, in our research, weights of feature nodes are updated by probability distribution. After complete updating according to prior and posterior distributions, the weights of SOM have probability distributions for optima clustering. To verify improved performance of our work, we make experiments compared with other learning algorithms using simulation data sets.

GAP 군집화에 기반한 필기 한글 단어 분리 (Word Segmentation in Handwritten Korean Text Lines based on GAP Clustering)

  • 정선화;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.660-667
    • /
    • 2000
  • 본 논문에서는 필기 한글 문자열 영상에 대한 단어 분리 방법을 제안한다. 제안된 방법은 gap 의 크기 정보를 사용하여 단어를 분리하는데, 이때 gap은 문자열 영상을 수직방향으로 투영한 후 흰-런 (white-run)을 찾음으로써 구할 수 있다. 문자열 영상으로부터 얻어지는 gap들의 크기를 측정한 후, 각각의 gap을 단어와 단어사이에 존재하는 gap과 문자와 문자사이에 존재하는 gap 중 하나로 분류한다. 본 논문에서는 필기 영문 문자열의 단어 분리를 위해 제안된 기존의 세 가지 거리 척도를 채택하고 군집화에 기반한 세 가지 분류방법을 적용하여 한글 문자열의 단어 분리를 위한 최적의 조합을 선정하였다. 우편봉투 상에 작성된 주소열로부터 수작업으로 추출한 305 개의 문자열 영상을 사용하여 실험한 결과 BB(bounding box) 거리를 사용하여 순차적 군집 방법을 적용하는 경우 3 순위까지의 누적 단어 분리 성공률이 88.52% 로서 가장 우수한 성능을 보여 주었다. 또한 하나의 문자열 영상에 대한 단어 분리 속도는 약 0.05초이다.

  • PDF

마모도 평준화를 위한 File Clustering 알고리즘 (A File Clustering Algorithm for Wear-leveling)

  • 이태화;차재혁
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권1호
    • /
    • pp.51-57
    • /
    • 2013
  • 플래시 메모리 기반의 저장 장치는 고성능, 저전력, 내구성과 경량 등의 특징을 가지고 있어 기존에 사용되고 있던 저장장치를 빠르게 대체하고 있다. 플래시 메모리 기반의 저장 장치는 기존 저장장치인 블록 저장 장치로 가상화하기 위한 계층인 FTL (Flash Translation Layer) 을 가지고 있다. 가비지 컬렉션(Garbage Collection)은 FTL의 주요한 기능으로서 플래시 메모리의 수명과 성능에 큰 영향을 끼친다. 플래시 메모리의 수명은 가비지 컬렉션에 의해 발생되는 지우기의 횟수와 마모도의 영향을 받는다. 본 논문에서는 마모도 평준화 개선을 위해 File 정보를 알 수 있는 환경에서 File Clustering 알고리즘을 제시한다. File Clustering은 같은 File에서의 요청이 또다시 같이 호출 될 것을 기대하여 같은 File로부터 온 요청을 같은 블록에 할당하는 알고리즘이다. 이를 위해 FTL의 기능 중 페이지 할당 정책을 제안하였고, 최소한의 마모도 평준화를 보장하기 위해 MIN-MAX GAP을 사용하였다. 본 논문에서 제안하는 알고리즘을 검증하기 위해 TPC 벤치마크를 이용하였고 이를 통해 마모도 평준화 하지 않은 분산보다 690%이상 값이 개선되었고, 기존에 연구되던 Hot/Cold보다도 좋은 분산을 갖는 것을 보였다.

클러스터링에 기초한 자기부상시스템의 퍼지제어기 모델링 (Fuzzy Controller Modeling for Electromagnetic Levitation Systems based on Clustering Algorithm)

  • 김민수;변윤섭;이관섭
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2006년도 추계학술대회 특별세미나 특별세션
    • /
    • pp.145-159
    • /
    • 2006
  • This paper describes the development of a clustering based fuzzy controller of an electromagnetic suspension vehicle using gain scheduling method and Kalman filter for a simplified single magnet system. Electromagnetic suspension vehicle systems are highly nonlinear and essentially unstable systems For achieving the levitation control of the DC electromagnetic suspension system, we considered a fuzzy system modeling method based on clustering algorithm which a set of input/output data is collected from the well defined Linear Quadratic Gaussian(LQG) controller. Simulation results show that the proposed clustering based fuzzy controller methodology robustly yields uniform performance with adequate gap response over the mass variation range.

  • PDF

실수최적화 진화 알고리즘을 위한 새로운 세대차 모델 (New Generation Gap Models for Evolutionary Algorithm in Real Parameter Optimization)

  • 최준석;서기성
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.62-68
    • /
    • 2009
  • 수정된 PCX(parent-centric recombination) 연산자와 결합한 두 가지 새로운 세대차 모델이 제안된다. 첫째, 자가적응 세대차 모델(SGG, self-adaptation generation gap)은 자손에 의한 부모의 대치 확률을 일정한 수준으로 유지하는 제어 방식이다. 둘째, 가상 클러스터 세대차(VCGG, virtual cluster generation gap)는 클러스터링을 통해 부모간의 거리를 조정해 주며, 이로 인해 개체들이 다양화 될 수 있다. 이 모델에서 부모간의 거리는 클러스터의 크기로 조절된다. 제안된 두 가지 접근법의 효용성을 입증하기 위해서 3 가지 표준적인 문제에 대한 실험이 수행되었다. 가장 최근의 경쟁력 있는 접근법인 CMA-ES와 G3-PCX와 비교한 결과, 제안된 두 기법 모두 기존의 접근법들 보다 우수함을 보여준다.

유사한 인기도 추세를 갖는 웹 객체들의 클러스터링 (Clustering of Web Objects with Similar Popularity Trends)

  • 노웅기
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.485-494
    • /
    • 2008
  • 인터넷이 광범위하게 활용됨에 따라 검색 키워드, 멀티미디어 객체, 웹 페이지, 블로그 등의 다양한 웹 객체들이 크게 증가하고 있다. 이러한 웹 객체들의 인기도는 시간에 따라 변화하며, 그러한 웹 객체 인기도의 시간적 패턴에 대한 마이닝이 여러 가지 웹 응용에 필요한 중요한 연구 과제가 되고 있다. 예를 들어, 검색 키워드에 대한 인기도 패턴의 분석은 앞으로 인기가 높아질 키워드를 미리 예측할 수 있게 하여 광고주들에게 키워드를 판매하기 위한 가격을 결정하는 데에 중요한 자료가 될 수 있다. 하지만, 웹 객체 인기도가 시간에 따라 변화하고 웹 객체의 개수가 매우 방대하다는 특성으로 인하여 웹 객체 인기도에 대한 분석은 매우 어려운 문제이다. 본 논문에서는 웹 객체 인기도의 시간적 패턴을 마이닝하기 위한 효율적인 알고리즘을 제안한다. 본 논문은 웹 객체 인기도를 시계열로 표현하고, 두 웹 객체 인기도 간의 유사성을 측정하기 위하여 gap 척도를 제안한다. gap 척도의 효율적인 계산을 위하여 FFT를 활용한 알고리즘을 제안하고, 밀도기반 클러스터링 알고리즘을 이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성한다. 본 논문에서는 웹 객체 인기도가 특정 분포를 따르거나 주기적이라고 가정하지 않는다. Google Trends 웹 사이트로부터 구한 검색 키워드 인기도를 이용한 실험을 통하여, 제안된 알고리즘이 실세계 응용에서 유용함을 보인다.

NMF 기반의 용어 가중치 재산정을 이용한 문서군집 (Document Clustering using Term reweighting based on NMF)

  • 이주홍;박선
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.11-18
    • /
    • 2008
  • 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해(NMF, non-negative matrix factorization)를 기반한 용어 가중치 재산정 방법을 이용하여서 사용자의 요구에 적합한 군집결과를 얻도록 하는 새로운 군집모델을 제안한다. 제안된 모델은 군집형태에 대한 사용자 요구와 기계에 의한 군집 형태의 차이를 최소화하기 위하여 사용자 피드백에 의한 가중치가 재계산된 용어를 이용한다. 또한 제안방법은 용어의 가중치 재계산과 문서군집에 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 적용하지 않은 문서군 방법에 비하여 좋은 성능을 보인다.

  • PDF

투영 프로파일, GaP 및 특수 기호를 이용한 텍스트 영역의 어절 단위 분할 (Decomposition of a Text Block into Words Using Projection Profiles, Gaps and Special Symbols)

  • 정창부;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권9호
    • /
    • pp.1121-1130
    • /
    • 2004
  • 본 논문에서는 인쇄체 텍스트 영상에 대한 문자열 분리 방법과 어절 분리 방법을 제안한다. 문자열 분리 방법은 수평 투영 프로파일을 분석하고, 오분리된 문자열에 대하여 재귀적 투영 프로파일 (Recursive Projection Profile) 분석을 수행한다. 어절 단위 분리는 문자열에 대한 연결요소 분석을 통하여 gap을 검출한 후, 계층적 군집화 기법에 의해 어절과 어절 사이에 존재하는 gap을 판별하여 어절 분리점을 결정한다. 또한 어절과 어절 사이에 존재하는 특수기호를 검출하여 어절 분리점을 추가하기 위해서, 연결요소의 종횡비와 골격선(skeleton)의 형태적 특징을 고려한다. 제안 방법의 성능 평가를 위하여 총 84 개의 텍스트 영상에 대하여 실험하였고, 국내 상용 OCR 소프트웨어인 아르미와 성능 비교하였다. 최종 어절 분리에 대하여 제안 방법과 아르미가 각각 99.92%와 97.58%의 성능으로 측정됨으로써 제안 방법이 아르미에 비해 우수함을 보였다.

Neural-based Blind Modeling of Mini-mill ASC Crown

  • Lee, Gang-Hwa;Lee, Dong-Il;Lee, Seung-Joon;Lee, Suk-Gyu;Kim, Shin-Il;Park, Hae-Doo;Park, Seung-Gap
    • 한국지능시스템학회논문지
    • /
    • 제12권6호
    • /
    • pp.577-582
    • /
    • 2002
  • Neural network can be trained to approximate an arbitrary nonlinear function of multivariate data like the mini-mill crown values in Automatic Shape Control. The trained weights of neural network can evaluate or generalize the process data outside the training vectors. Sometimes, the blind modeling of the process data is necessary to compare with the scattered analytical model of mini-mill process in isolated electro-mechanical forms. To come up with a viable model, we propose the blind neural-based range-division domain-clustering piecewise-linear modeling scheme. The basic ideas are: 1) dividing the range of target data, 2) clustering the corresponding input space vectors, 3)training the neural network with clustered prototypes to smooth out the convergence and 4) solving the resulting matrix equations with a pseudo-inverse to alleviate the ill-conditioning problem. The simulation results support the effectiveness of the proposed scheme and it opens a new way to the data analysis technique. By the comparison with the statistical regression, it is evident that the proposed scheme obtains better modeling error uniformity and reduces the magnitudes of errors considerably. Approximatly 10-fold better performance results.

클러스터링을 이용한 시소러스 브라우저의 설계에 대한 이론적 연구 (A Theoretical Study of Designing Thesaurus Browser by Clustering Algorithm)

  • Seo, Hwi
    • 한국도서관정보학회지
    • /
    • 제30권3호
    • /
    • pp.427-456
    • /
    • 1999
  • This paper deals with the problems of information retrieval through full-test database which arise from both the deficiency of searching strategies or methods by information searcher and the difficulties of query representation, generation, extension, etc. In oder to solve these problems, we should use automatic retrieval instead of manual retrieval in the past. One of the ways to make the gap narrow between the terms by the writers and query by the searchers is that the query should be searched with the terms which the writers use. Thus, the preconditions which should be taken one accorded way to solve the problems are that all areas of information retrieval such as should taken one accorded way to solve the problems are that all areas of information retrieval such as contents analysis, information structure, query formation, query evaluation, etc. should be solved as a coherence way. We need to deal all the ares of automatic information retrieval for the efficiency of retrieval thought this paper is trying to solve the design of thesaurus browser. Thus, this paper shows the theoretical analyses about the form of information retrieval, automatic indexing, clustering technique, establishing and expressing thesaurus, and information retrieval technique. As the result of analyzing them, this paper shows us theoretical model, that is to say, the thesaurus browser by clustering algorithm. The result in the paper will be a theoretical basis on new retrieval algorithm.

  • PDF