• Title/Summary/Keyword: 분류 문제

Search Result 3,575, Processing Time 0.03 seconds

Implementation of a Web Document Clustering System Using Word2Vec (Word2Vec을 이용한 웹 문서 클러스터링 시스템 구현)

  • Yi, Hyun Seok;Ahn, Sung Hun;Lee, Yong Hwan;Cheon, Myung Jae;Park, Hyeok Ju;Park, Mee Hwa;Lee, Yong Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.26-29
    • /
    • 2016
  • 웹 문서 추천 시스템에서는 유사한 내용의 문서임에도 불구하고 URL이 달라서 다른 문서로 인식하여 사용자에게 추천하는 데이터 희소성 문제가 있다. 여기서 기존 연구들은 이 문제에 대한 해결 방법으로 TF-IDF를 이용하였으나 비용 및 시간의 한계가 있으며 유의어 분류 문제가 있다. 본 논문에서는 Word2Vec을 이용한 웹문서 학습 시스템을 통해 문제를 해결한다. 제안 시스템은 언론사의 뉴스를 수집하고 이를 정형화된 형식으로 분석하여 가공하는 전처리 과정을 거친 후 Word2Vec 학습을 통해 문서 벡터를 생성하고 이를 K-Means 클러스터링으로 유사 문서군으로 분류한다. 이 시스템을 이용하면 데이터 희소성 문제를 해결할 뿐만 아니라 연산량이 TF-IDF에 비해 줄어들고 유의어 분류 시 유사도가 높아지는 강점이 있다.

Network Classification of P2P Traffic with Various Classification Methods (다양한 분류기법을 이용한 네트워크상의 P2P 데이터 분류실험)

  • Han, Seokwan;Hwang, Jinsoo
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.1
    • /
    • pp.1-8
    • /
    • 2015
  • Security has become an issue due to the rapid increases in internet traffic data network. Especially P2P traffic data poses a great challenge to network systems administrators. Preemptive measures are necessary for network quality of service(QoS) and efficient resource management like blocking suspicious traffic data. Deep packet inspection(DPI) is the most exact way to detect an intrusion but it may pose a private security problem that requires time. We used several machine learning methods to compare the performance in classifying network traffic data accurately over time. The Random Forest method shows an excellent performance in both accuracy and time.

A Study of Short-Term Load Forecasting System Using Data Mining (데이터 마이닝을 이용한 단기 부하 예측 시스템 연구)

  • Joo, Young-Hoon;Jung, Keun-Ho;Kim, Do-Wan;Park, Jin-Bae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.2
    • /
    • pp.130-135
    • /
    • 2004
  • This paper presents a new design methods of the short-term load forecasting system (STLFS) using the data mining. The structure of the proposed STLFS is divided into two parts: the Takagi-Sugeno (T-S) fuzzy model-based classifier and predictor The proposed classifier is composed of the Gaussian fuzzy sets in the premise part and the linearized Bayesian classifier in the consequent part. The related parameters of the classifier are easily obtained from the statistic information of the training set. The proposed predictor takes form of the convex combination of the linear time series predictors for each inputs. The problem of estimating the consequent parameters is formulated by the convex optimization problem, which is to minimize the norm distance between the real load and the output of the linear time series estimator. The problem of estimating the premise parameters is to find the parameter value minimizing the error between the real load and the overall output. Finally, to show the feasibility of the proposed method, this paper provides the short-term load forecasting example.

A Study on the PBL-based AI Education for Computational Thinking (컴퓨팅 사고력 향상을 위한 문제 중심학습 기반 인공지능 교육 방안)

  • Choi, Min-Seong;Choi, Bong-Jun
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.22 no.3
    • /
    • pp.110-115
    • /
    • 2021
  • With the era of the 4th Industrial Revolution, education on artificial intelligence is one of the important topics. However, since existing education is aimed at knowledge, it is not suitable for developing the active problem-solving ability and AI utilization ability required by artificial intelligence education. To solve this problem, we proposes PBL-based education method in which learners learn in the process of solving the presented problem. The problem presented to the learner is a completed project. This project consists of three types: a classification model, the training data of the classification model, and the block code to be executed according to the classified result. The project works, but each component is designed to perform a low level of operation. In order to solve this problem, the learners can expect to improve their computational thinking skills by finding problems in the project through testing, finding solutions through discussion, and improving to a higher level of operation.

A Study on the Characteristics of Adult Suicide and Suicidal Type (성인 자살의 특성과 자살유형에 관한 연구)

  • Hyo-Chang Kim
    • Korean Journal of Culture and Social Issue
    • /
    • v.12 no.1
    • /
    • pp.15-33
    • /
    • 2006
  • There are less studies on the adult suicide even though it's steep increase and negative effect on person itself, family and society. The purpose of the present study was to investigate factors that influence on the adult suicide and to categorize it. Using a case-study approach, a total of 61 cases were analyzed. Specifically, on the basis of the stress-vulnerability model, I scrutinized vulnerability factors(classified personal, family-environment, and social-environment factors) and precipitating events(classified personal, interpersonal events) influencing on the adult suicide. As the results of this study, adult suicide classified into 3 types, that is, 'risk type suicide', 'event-response type suicide', 'complex type'. And then I discussed the characteristics of the suicidal types and the method for reduction of adult suicide.

Structure-Adaptive Self-Organizing Neural Network : Application to Hangul Character Recognition (구조적응 자기조직화 신경망 : 한글 문자인식에의 적용)

  • Lee, Kyoung-Mi;Cho, Sung-Bae;Lee, Yill-Byung
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.137-142
    • /
    • 1995
  • 코호넨의 SOFM(Self-Organizing Feature Map)온 빠른 검증 학습이 가능하여 다층 퍼셉트론의 단점을 보완할 수 있는 패턴분류기로 부각되고 있다. 그러나 기본적으로 고정된 크기와 구조의 네트워크를 사용하기 때문에 실재 문제에 적용하기가 쉽지 않다는 문제가 있다. 본 논문에서는 패턴에 대한 사전 정보없이 복잡한 패턴공간을 적응적으로 분할하기 위해 구조적응되는 자기조직화 신경망을 소개하고 이를 인쇄체 한글 문자의 인식에 적용한 결과를 보여준다. 여기에서 제안하는 신경망은 SOFM의 각 셀이 좀더 자세한 SOFM으로 확장될 수 있도록하며, 확률분포가 0인 셀을 제거함으로써 패턴 공간에 보다 근사한 분류를 가능하게 한다. 실제로 이러한 방식이 한글과 같은 복잡한 분류 문제에서 어떻게 작동하는지 설명하고, 한글 완성형 2350자에 대해 실험한 결과를 보여준다.

  • PDF

Pattern Selection for Classification Using the Bias and Variance of Ensemble Network (신경망 앙상블의 편기와 분산을 이용한 분류 패턴 선택)

  • 신현정;조성준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.307-309
    • /
    • 2001
  • 분류문제에서 유용한 학습패턴은 클래스들간의 분류경계에 근접한 정상패턴들을 말한다. 본 연구에서는 다양한 구조와 학습 파라미터를 가진 신경망 앙상블을 구성하고 그 출력값의 편기와 분산에 기초한 패턴절수를 정의한다. 전체 학습패턴 중 일정한 임계값 이상의 패턴점수를 가진 패턴들만이 학습패턴으로 선정된다. 제안한 방법은 두 개의 인공문제와 두 개의 실제문제 (UCI Repository)에 적응, 검증되었다. 그 결과 선택된 패턴만으로 학습한 경우, 메모리 공간 절약 및 계산시간 단축의 효과뿐만 아니라 복잡도가 큰 모델이라도 과적합을 하지 않았고 실험적으로 안정된 결과를 산출했으며, 적은 수의 학습패턴만으로도 일반화 성능을 향상시키거나 적어도 저하시키지 않았다는 것을 보였다.

  • PDF

k-최근접 이웃 정보를 활용한 베이지안 추론 분류

  • No, Yeong-Gyun;Kim, Gi-Eung;Lee, Tae-Hun;Yun, Seong-Ro;Lee, Daniel D.
    • Information and Communications Magazine
    • /
    • v.31 no.11
    • /
    • pp.27-34
    • /
    • 2014
  • 본 리뷰 논문에서는 많은 데이터 환경에서 얻어진 k-최근접 이웃들(k-nearest neighbors)의 이론적 성질로부터 어떻게 분류를 위한 알고리즘을 만들어낼 것인가에 대한 여러 가지 방법들을 설명한다. 많은 데이터 환경에서의 최근접 이웃 데이터의 정보는 다양한 기계학습 문제를 푸는데 아주 좋은 이론적인 성질을 가지고 있다. 하지만, 이런 이론적인 특성들이 데이터가 많지 않은 환경에서는 전혀 나타나지 않을 뿐 아니라 오히려 다른 다양한 알고리즘들에 비해 성능이 많이 뒤쳐지는 결과를 보여주고 있다. 본 리뷰 논문에서는 많은 데이터 환경 하에서 k-최근접 이웃들의 정보가 어떤 이론적인 특성을 가지는지 설명하고, 특별히 이런 특성들을 가지고 k-최근접 이웃을 이용한 분류 문제를 어떻게 베이지안 추론(Baysian inference) 문제로 수식화 할 수 있는지 보인다. 마지막으로 현재의 빅데이터 환경에서 실용적으로 사용할 수 있는 알고리즘들을 소개한다.

Data Mining Using Reversible Jump MCMC and Bayesian Network Learning (Reversible Jump MCMC와 베이지안망 학습에 의한 데이터마이닝)

  • 하선영;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.90-92
    • /
    • 2000
  • 데이터마이닝 문제는 데이터를 그 속성들에 따라 분류하여 예측하는 것뿐만 아니라 분류된 속성들간의 연관성에 대해 잘 설명할 수 있어야 한다. 일반적으로 변수들간의 연관성을 잘 설명할 수 있으면서도 높은 예측력을 가지는 방법으로는 베이지안 네트웍 분류자(Bayesian network classifier)가 있다. 그러나 이것은 데이터 마이닝과 같은 대용량 데이터에서는 성능이 떨어지는 단점이 있다. 이에 이 논문에서는 최근 RBF 신경망이 입력변수 선정문제에 성공적으로 적용된 Reversible Jump Markov Chain Monte Carlo 방법을 이용하여 최적의 입력변수들만을 선택하여 베이지안 네트웍을 학습하는 Selective BN Augmented Naive-Bayes Classifier를 새로운 방안으로 제안하고 이를 실제 데이터마이닝 문제에 적용한 결과를 제시한다.

  • PDF

A Model of Faults Classification in Component based Robots (컴포넌트 기반 로봇의 결점분류 모델)

  • Kim, Jaeyoung;Kim, Jongyoung;Yoon, Heebyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1582-1585
    • /
    • 2010
  • 로봇은 인간의 생명과 밀접하게 관련되어 있기 때문에 높은 안전성과 신뢰성이 요구된다. 특히 최근에는 지능형 서비스 로봇의 등장과 더불어 증가되는 로봇 개발환경의 복잡성 문제와 로봇의 신속한 개발 및 유지보수 문제를 해결하기 위해 컴포넌트 기반의 로봇 플랫폼에 대한 연구가 증가하고 있으며, 특히 로봇 플랫폼을 구성하는 컴포넌트의 장애문제 해결이 중요한 이슈로 대두되고 있다. 따라서 본 논문에서는 컴포넌트 기반 로봇의 결점분류 절차를 제시하고 로봇의 결점타입과 로봇 플랫폼과의 상관관계를 분석하고 로봇 플랫폼에 결점타입을 매핑하여 최종적으로 컴포넌트 기반 로봇의 결점분류 모델을 제안한다.