• 제목/요약/키워드: supervised clustering

검색결과 112건 처리시간 0.023초

위키피디아를 이용한 반자동 학습 기반의 cQA 서비스 주제 분류 시스템 (A Topic Classification System in cQA Services Based on Semi-Automatic Learning Using Wikipedia)

  • 김태현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-141
    • /
    • 2015
  • 본 논문은 커뮤니티 기반의 질의-응답 서비스에서 사용자 질의의 주제를 분류하는 시스템을 소개한다. 커뮤니티 기반의 질의-응답 서비스는 분야에 따라 다양한 주제를 가질 수 있으며 오늘 날 사용자 질의의 주제 분류에는 통계 기반의 분류 방법이 많이 이용되고 있다. 통계 기반의 분류 방법으로 사용자 질의를 분류하기 위해서는 주제에 적합한 대량의 학습 말뭉치가 필요하다. 주제에 적합한 대량의 학습 말뭉치를 사람이 직접 구축하는 것은 많은 시간과 비용이 든다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 위키피디아 문서를 Supervised K-means Clustering 기법으로 주제별로 분류함으로써 학습 말뭉치를 반자동으로 구축하는 방법을 제안한다. 그 다음, 생성된 학습 말뭉치로 지지 벡터 기계를 학습하여 사용자 질의의 주제를 분류하게 된다. 위키피디아 문서와 사용자 질의는 다른 도메인의 문서임에도 불구하고 본 논문의 시스템으로 사용자 질의의 주제를 분류한 결과 77.33%의 정확도를 보였다.

  • PDF

ISODATA와 퍼지 C-Means를 이용한 감독 분류의 성능 향상에 관한 연구 (A Study on Improving Performance of Supervised Classifier using ISODATA and Fuzzy C-Means Clustering Method)

  • 전영준;김진일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.79-81
    • /
    • 2003
  • 본 논문에서는 위성영상의 강독 분류에 대한 성능 개선을 위하여 ISODATA와 퍼지 C-Means 클러스터링 기법을 이용한 베이시안 최대우도 분류방법을 제안하였다. 본 연구에서는 ISODATA 클러스터링 기법을 이용하여 각각의 분류항목별로 분광특징에 따라 분석가가 선정한 훈련 데이터를 분할하여 새로운 훈련 데이터를 선정함으로써 분류항목별 훈련데이터의 분광적인 특징에 관계없이 분류를 수행할 수 있도록 하였다. 그리고 새롭게 선정된 훈련 데이터를 이용하여 퍼지 C-Means 클러스터링을 수행하고 그 결과를 베이시안 최대우도 분류기법의 사전확률로 이용함으로써 위성영상의 감독 분류에 대한 성능을 개선할 수 있는 방법을 제안한다. 제안된 기법은 Landset TM 위성영상을 이용하여 그 적용성을 시험하였다.

  • PDF

The cluster-indexing collaborative filtering recommendation

  • Park, Tae-Hyup;Ingoo Han
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.400-409
    • /
    • 2003
  • Collaborative filtering (CF) recommendation is a knowledge sharing technology for distribution of opinions and facilitating contacts in network society between people with similar interests. The main concerns of the CF algorithm are about prediction accuracy, speed of response time, problem of data sparsity, and scalability. In general, the efforts of improving prediction algorithms and lessening response time are decoupled. We propose a three-step CF recommendation model which is composed of profiling, inferring, and predicting steps while considering prediction accuracy and computing speed simultaneously. This model combines a CF algorithm with two machine learning processes, SOM (Self-Organizing Map) and CBR (Case Based Reasoning) by changing an unsupervised clustering problem into a supervised user preference reasoning problem, which is a novel approach for the CF recommendation field. This paper demonstrates the utility of the CF recommendation based on SOM cluster-indexing CBR with validation against control algorithms through an open dataset of user preference.

  • PDF

ART2 신경회로망을 이용한 밀링공정의 공구마모 진단 (Tool Wear Monitoring in Milling Operation Using ART2 Neural Network)

  • 윤선일;고태조;김희술
    • 한국정밀공학회지
    • /
    • 제12권12호
    • /
    • pp.120-129
    • /
    • 1995
  • This study introduces a tool wear monitoring technology in face milling operation comprised of an unsupervised neural network. The monitoring system employs two types of sensor signal such as cutting force and acceleration in sensory detection state. The RMS value and band frequency energy of the sensor signals are calculated for te input patterns of neural network. ART2 neural network, which is capable of self organizing without supervised learning, is used for clustering of tool wear states. The experimental results show that tool wear can be effectively detected under various cutting conditions without prior knowledge of cutting processes.

  • PDF

FCM 클러스터링 기반 지도 학습 알고리즘을 이용한 당뇨병 예측 분석 (Diabetes Predictive Analytics using FCM Clustering based Supervised Learning Algorithm)

  • 박태언;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.580-582
    • /
    • 2022
  • 본 논문에서는 데이터를 정량화하여 특징을 분류하기 위한 방법으로 퍼지 클러스터링 기반 지도 학습 방법을 제안한다. 제안된 방법은 FCM 클러스터링을 기법을 적용하여 군집화를 수행한다. 그리고 군집화 된 데이터들 중에서는 정확히 분류되지 않은 데이터가 존재하므로 분류되지 않은 데이터에 대해 지도 학습 방법을 적용한다. 본 논문에서는 당뇨병의 유무를 타겟 데이터로 설정하고 나머지 8개의 속성의 데이터를 FCM 기반 지도 학습 방법을 적용하여 당뇨병의 유무를 예측한다. 당뇨병 예측에 대한 성능을 30회의 K-겹 교차검증 (K-Fold Corss Validation)을 이용하여 평가하였으며, 다층 퍼셉트론의 경우에는 훈련 데이터가 77.88%, 테스트 데이터가 62.78%로 나타났고 제안된 방법의 경우에는 훈련 데이터가 79.96%, 테스트 데이터 74.16%로 나타났다.

  • PDF

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

인용분석에서의 모호한 저자명 식별을 위한 방법들에 관한 고찰 (Review of Author Name Disambiguation Techniques for Citation Analysis)

  • 김현정
    • 한국비블리아학회지
    • /
    • 제23권3호
    • /
    • pp.5-17
    • /
    • 2012
  • 서지 데이터베이스를 이용한 인용분석연구를 진행하기 이전에 이루어져야 할 과정 중 하나가 모호한 저자명의 식별이라고 할 수 있다. 대부분 서지 데이터베이스에는 저자의 성(姓)과 이름의 이니셜만을 표기하는 경우가 많은데, 중국이나 한국 등 아시아 국가 출신의 연구자들은 같은 성을 가진 사람이 매우 많고, 이름의 이니셜까지 같은 경우도 상당히 많아서 이름검색만으로 찾고자 하는 저자를 식별해내기가 쉽지 않기 때문이다. 아시아 국가 출신의 학자들이 유난히 많은 연구분야들에서는 이러한 문제들이 더더욱 큰 문제가 되며, 인용분석 뿐만 아니라 일반적인 정보검색에서도 매우 중요한 요인이 될 수 있다. 모호한 저자명을 식별해내는 방법에는 자동화된 알고리듬을 이용하여 각각의 저자를 식별해내는 방법과 저자 클러스터링을 얻어내기 위해 일일이 수작업으로 데이터셋을 구축하는 방법, 그리고 두 가지 방법을 혼용한 반자동화된 방법 등이 있다. 본 연구는 "모호한 저자명 식별"을 위해 개발된 여러 가지 방법들을 고찰해보기로 한다.

교사 자료의 분광 특징 분리에 의한 감독 분류 성능 향상 (Enhancing Classification Performance by Separating Spectral Signature of Training Data Set)

  • 김광은
    • 대한원격탐사학회지
    • /
    • 제18권6호
    • /
    • pp.369-376
    • /
    • 2002
  • 본 연구에서는 공간 영상 자료의 감독 분류에 있어, 분석자에 의하여 선정된 분류 항목별 교사 자료를 분광 특징별로 다수의 군집으로 분리하고, 각각의 군집을 새로운 분류 항목의 교사 자료로서 설정함으로써 분류 성능을 향상시킬 수 있는 기법을 제안하고자 한다 특징 분리를 통하여 생성된 교사 자료는 비교적 작은 값의 밴드별 분산값을 가질 뿐 아니라 정규분포 형태의 자료 분포를 보이게 되어 통계적 감독 분류 기법의 적용에 적합한 교사 자료로서의 성격을 가지게 된다. 제안된 기법은 부산 지역에 대한 Landsat TM 영상 자료를 이용하여 그 적용성이 시험되었으며, 기존의 통계적 분류 기법들에 의한 결과와 그 성능이 정성적으로 비교되었다. 시험 적용 결과, 본 기법은 분석자가 선정한 교사 자료의 분광적인 분포 형태에 관계없이 우수한 분류 성능을 나타내는 것으로 판단되며, 따라서 분류 항목의 설정 및 항목별 교사 자료의 선정에 있어 교사 자료의 분광적 특징에 대한 동일성을 유지하기 위한 노력을 줄여줄 것으로 기대된다.

제초로봇 개발을 위한 2차원 콩 작물 위치 자동검출 (Estimation of two-dimensional position of soybean crop for developing weeding robot)

  • 조수현;이충열;정희종;강승우;이대현
    • 드라이브 ㆍ 컨트롤
    • /
    • 제20권2호
    • /
    • pp.15-23
    • /
    • 2023
  • In this study, two-dimensional location of crops for auto weeding was detected using deep learning. To construct a dataset for soybean detection, an image-capturing system was developed using a mono camera and single-board computer and the system was mounted on a weeding robot to collect soybean images. A dataset was constructed by extracting RoI (region of interest) from the raw image and each sample was labeled with soybean and the background for classification learning. The deep learning model consisted of four convolutional layers and was trained with a weakly supervised learning method that can provide object localization only using image-level labeling. Localization of the soybean area can be visualized via CAM and the two-dimensional position of the soybean was estimated by clustering the pixels associated with the soybean area and transforming the pixel coordinates to world coordinates. The actual position, which is determined manually as pixel coordinates in the image was evaluated and performances were 6.6(X-axis), 5.1(Y-axis) and 1.2(X-axis), 2.2(Y-axis) for MSE and RMSE about world coordinates, respectively. From the results, we confirmed that the center position of the soybean area derived through deep learning was sufficient for use in automatic weeding systems.

데이터 분할 평가 진화알고리즘을 이용한 효율적인 퍼지 분류규칙의 생성 (Generation of Efficient Fuzzy Classification Rules Using Evolutionary Algorithm with Data Partition Evaluation)

  • 류정우;김성은;김명원
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.32-40
    • /
    • 2008
  • 데이터 속성 값이 연속적이고 애매할 때 퍼지 규칙으로 분류규칙을 표현하는 것은 매우 유용하면서도 효과적이다. 그러나 효과적인 퍼지 분류규칙을 생성하기 위한 소속함수를 결정하기는 어렵다. 본 논문에서는 진화알고리즘을 이용하여 효과적인 퍼지 분류규칙을 자동으로 생성하는 방법을 제안한다. 제안한 방법은 지도 군집화로 클래스 분포에 따라 초기 소속함수를 생성하고, 정확하고 간결한 규칙을 생성할 수 있도록 초기 소속함수를 진화시키는 방법이다. 또한 진화알고리즘의 시간에 대한 효율성을 높이기 위한 방법으로 데이터 분할 평가 진화 방법을 제안한다. 데이터 분할 평가 진화 방법은 전체 학습 데이터를 여러 개의 부분 학습 데이터들로 나누고 개체는 전체 학습 데이터 대신 부분 학습 데이터를 임의로 선택하여 평가하는 방법이다. UCI 벤치마크 데이터로 기존 방법과 비교 실험을 통해 평균적으로 제안한 방법이 효과적임을 보였다. 또한 KDD'99 Cup의 침입탐지 데이터에서 KDD'99 Cup 우승자에 비해 1.54% 향상된 인식률과 20.8% 절감된 탐지비용을 보였고 데이터 분할 평가 진화 방법으로 개체평가 시간을 약 70% 감소시켰다.