• Title/Summary/Keyword: k-means 군집 알고리즘

Search Result 191, Processing Time 0.033 seconds

Korean Named Entity Recognition and Classification using Word Embedding Features (Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류)

  • Choi, Yunsu;Cha, Jeongwon
    • Journal of KIISE
    • /
    • v.43 no.6
    • /
    • pp.678-685
    • /
    • 2016
  • Named Entity Recognition and Classification (NERC) is a task for recognition and classification of named entities such as a person's name, location, and organization. There have been various studies carried out on Korean NERC, but they have some problems, for example lacking some features as compared with English NERC. In this paper, we propose a method that uses word embedding as features for Korean NERC. We generate a word vector using a Continuous-Bag-of-Word (CBOW) model from POS-tagged corpus, and a word cluster symbol using a K-means algorithm from a word vector. We use the word vector and word cluster symbol as word embedding features in Conditional Random Fields (CRFs). From the result of the experiment, performance improved 1.17%, 0.61% and 1.19% respectively for TV domain, Sports domain and IT domain over the baseline system. Showing better performance than other NERC systems, we demonstrate the effectiveness and efficiency of the proposed method.

MRI Data Segmentation Using Fuzzy C-Mean Algorithm with Intuition (직관적 퍼지 C-평균 모델을 이용한 자기 공명 영상 분할)

  • Kim, Tae-Hyun;Park, Dong-Chul;Jeong, Tai-Kyeong;Lee, Yun-Sik;Min, Soo-Young
    • Journal of IKEEE
    • /
    • v.15 no.3
    • /
    • pp.191-197
    • /
    • 2011
  • An image segmentation model using fuzzy c-means with intuition (FCM-I) model is proposed for the segmentation of magnetic resonance image in this paper. In FCM-I, a measurement called intuition level is adopted so that the intuition level helps to alleviate the effect of noises. A practical magnetic resonance image data set is used for image segmentation experiment and the performance is compared with those of some conventional algorithms. Results show that the segmentation method based on FCM-I compares favorably to several conventional clustering algorithms. Since FCM-I produces cluster prototypes less sensitive to noises and to the selection of involved parameters than the other algorithms, FCM-I is a good candidate for image segmentation problems.

Object Image Classification Using Hierarchical Neural Network (계층적 신경망을 이용한 객체 영상 분류)

  • Kim Jong-Ho;Kim Sang-Kyoon;Shin Bum-Joo
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.11 no.1
    • /
    • pp.77-85
    • /
    • 2006
  • In this paper, we propose a hierarchical classifier of object images using neural networks for content-based image classification. The images for classification are object images that can be divided into foreground and background. In the preprocessing step, we extract the object region and shape-based texture features extracted from wavelet transformed images. We group the image classes into clusters which have similar texture features using Principal Component Analysis(PCA) and K-means. The hierarchical classifier has five layes which combine the clusters. The hierarchical classifier consists of 59 neural network classifiers learned with the back propagation algorithm. Among the various texture features, the diagonal moment was the most effective. A test with 1000 training data and 1000 test data composed of 10 images from each of 100 classes shows classification rates of 81.5% and 75.1% correct, respectively.

  • PDF

A study on the ordering of PIM family similarity measures without marginal probability (주변 확률을 고려하지 않는 확률적 흥미도 측도 계열 유사성 측도의 서열화)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.2
    • /
    • pp.367-376
    • /
    • 2015
  • Today, big data has become a hot keyword in that big data may be defined as collection of data sets so huge and complex that it becomes difficult to process by traditional methods. Clustering method is to identify the information in a big database by assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. The similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we computed upper and lower limits for probability interestingness measure based similarity measures without marginal probability such as Yule I and II, Michael, Digby, Baulieu, and Dispersion measure. And we compared these measures by real data and simulated experiment. By Warrens (2008), Coefficients with the same quantities in the numerator and denominator, that are bounded, and are close to each other in the ordering, are likely to be more similar. Thus, results on bounds provide means of classifying various measures. Also, knowing which coefficients are similar provides insight into the stability of a given algorithm.

Efficient Method for Image Representation Using Topic Modeling (토픽 모델링을 이용한 이미지의 효율적인 표현방법)

  • Lee, Ba-Do;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.319-322
    • /
    • 2011
  • 시각 피처를 사용한 이미지 표현은 이미지 검색 분야에서 이미 광범위하게 사용되고 있다. 특히 이미지 자체에 태깅이 되어있지 않거나 다른 추가 정보가 없는 경우에는 이미지 콘텐츠자체의 정보만으로 검색하기 위해서는 이러한 전처리가 필수적이다. 이미지로 부터 얻어진 시각적 피처들이 시각 단어로 사용되기 위해서는 k-means 와 같은 군집 알고리즘을 통한 시각적 피처의 양자화를 위한 전처리가 필요한데, 시각 단어의 개수 k를 정하는데 모호함이 있다. 본 논문에서는 임의의 k를 사용하더라도, 대표적 토픽 모델링 기법인 LDA (Latent Dirichlet Allocation)를 사용하여 데이터의 차원을 줄이게 되면 여러개의 시각적 단어들의 조합을 각각의 토픽이 나타낼 수 있게 됨을 이미지 검색 성능으로써 확인해 보고, 이러한 방법을 사용하면 표현형의 사이즈를 줄일 수 있고, 검색에 있어서도 이미지의 유사성을 더욱 효과적으로 표현할 수 있음을 확인해 본다.

Applying Collaborative Filtering for Analysis of User's behavior (사용자의 행동 분석을 위한 과거 기록의 협력 필터링 적용)

  • Kim, Yong-Jun;Park, Jung-Eun;Oh, Kyung-Hwan
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1289-1297
    • /
    • 2006
  • 모든 곳에 존재하는 네트워크 환경을 의미하는 '유비쿼터스' 시대와 최신 기술로 구현되어 인간을 도와주는 '지능형 로봇'의 시대가 도래하고 있다. 기술의 흐름은, 이제 우리에게 공장과 공원 등의 공공 장소뿐 만이 아니라, 생활의 기본이 되는 가정 안에서의 로봇을 받아들일 준비를 요구하고 있다. 로봇과 사용자는 실제 생활 속에서 많은 상호 작용을 하게 되며, 필연적으로 여러 가지의 불확실성을 내포하게 되는데, 각각의 요청들과 상황들은, 미리 정해진 규칙에 의거해 처리하기에는 너무 다양하다. 그 어려움을 극복하는 방법으로, 어떤 상황에 적응하는 방법으로 기억을 사용 하는 인간과 마찬가지로, 로봇은 새로운 요청을 처리하기 위해 과거의 기록을 사용할 수 있다. 여러 가지 과거의 기록들을 잘 정리해서 분류하여 저장해둔 후, 현재의 요청에 대한 답으로, 가장 가능성 있는 과거의 기록을 찾아내는 것이다. 본 논문에서는 사용자와 로봇 사이에서 상호 작용에서 발생할 수 있는 불확실성을 과거기록의 탐색을 통해 해결하고자 하였다. 과거 기록은 시간, 장소, 대상 물건, 행동 유형으로 구분되어 저장하였으며, 각각의 유사 가능성(Possibility)들의 합을 기준으로, 전체 기록을 K-Means 알고리즘을 통하여 군집화하고 협력 필터링을 기반으로 현재의 요청이 담고 있는 불확실성에 대한 가능성 있는 값을 추천해 주었다. 제한된 공간과 제한된 자료의 수에 의한 실험 결과로서의 한계를 가지고 있지만, 실제 가정용 로봇에서의 적용 가능성을 보여주었다.

  • PDF

A Study for Resource Allocation Method with Workload Consideration in Container based VDI (컨테이너 기반 VDI 시스템에서 워크로드 패턴 기반 자원 할당 방법 연구)

  • Baek, Hyeon-Ji;Kim, Yong-Hyun;Huh, Eui-Nam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.24-26
    • /
    • 2017
  • 클라우드 컴퓨팅 시장과 클라우드 기반 가상화 기술이 꾸준한 성장과 함께 지속적으로 인기를 얻으며 다양한 분야에서 사용되고 있다. 본 논문에서는 가상화 기술 중 하나인 데스크톱 가상화의 실행 속도 개선을 위해 컨테이너 기반 VDI 시스템을 제시하였고 사용자 워크로드 기반 자원 할당된 컨테이너를 제공하기 위해 사용자 워크로드 패턴에 따른 Preset 자원 결정 과정을 제시한다. 또한, Preset 자원이 할당 된 컨테이너를 생성과 사용자 워크로드 맞춤형 컨테이너를 제공하기 위한 기반으로 VDI 컨테이너의 자원 사용량 데이터를 K-means 알고리즘을 사용하여 군집 분석을 수행하였다.

Analysis of the Inner Degradation Pattern by Clustering Algorism at Distribution Line (군집화 알고리즘을 이용한 배전선로 내부 열화 패턴 분석)

  • Choi, Woon-Shik;Kim, Jin-Sa
    • Journal of the Korean Institute of Electrical and Electronic Material Engineers
    • /
    • v.29 no.1
    • /
    • pp.58-61
    • /
    • 2016
  • Degradation in power cables used in distribution lines to the material of the wire, manufacturing method, but also the line of the environment, generates a variety of degradation depending upon the type of load. The local wire deterioration weighted wire breakage accident can occur frequently, causing significant proprietary damage can lead to accidents and precious. In this study, the signal detected by the eddy current aim to develop algorithms capable of determining the signals for the top part and at least part of the signal by using a signal processing technique called K-means algorithm.

A Recommender Agent using Association Item Trees (연관 아이템 트리를 이용한 추천 에이전트)

  • Ko, Su-Jeong
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.4
    • /
    • pp.298-305
    • /
    • 2009
  • In contrast to content_based filtering systems, collaborative filtering systems not only don't contain information of items, they can not recommend items when users don't provide the information of their interests. In this paper, we propose the recommender agent using association item tree to solve the shortcomings of collaborative filtering systems. Firstly, the proposed method clusters users into groups using vector space model and K-means algorithm and selects group typical rating values. Secondly, the degree of associations between items is extracted from computing mutual information between items and an associative item tree is generated by group. Finally, the method recommends items to an active user by using a group typical rating value and an association item tree. The recommender agent recommends items by combining user information with item information. In addition, it can accurately recommend items to an active user, whose information is insufficient at first rate, by using an association item tree based on mutual information for the similarity between items. The proposed method is compared with previous methods on the data set of MovieLens recommender system.

A study on the practical use of smart meter end-user demand data (스마트미터 데이터 활용 방법에 대한 연구)

  • Park, Geunyeong;Jung, Donghwi;Jun, Sanghoon
    • Journal of Korea Water Resources Association
    • /
    • v.54 no.10
    • /
    • pp.759-768
    • /
    • 2021
  • This work introduces a new approach that classifies individual household water usage by examining the characteristics of smart meter end-user demand data. Here, one of the most well-known unsupervised machine learning, K-means algorithm, is applied to classify water consumptions by each household. The intensity and duration of end-user demands are used as main features to determine the households with similar water consumption pattern. The results showed that 21 households are classified into 13 clusters with each cluster having one, two, three, or five houses. The reasoning why multiple households are classified into the same cluster is described in this paper with respect to the collected data and end-user water consumption behavior.