• Title/Summary/Keyword: 유사성 학습

Search Result 661, Processing Time 0.027 seconds

Ensemble Composition Methods for Binary Classification of Imbalanced Data (불균형 데이터의 이진 분류를 위한 앙상블 구성 방법)

  • Yeong-Hun Kim;Ju-Hing Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.689-691
    • /
    • 2023
  • 불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.

A Fuzzy Neural Network Model Solving the Underutilization Problem (Underutilization 문제를 해결한 퍼지 신경회로망 모델)

  • 김용수;함창현;백용선
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.4
    • /
    • pp.354-358
    • /
    • 2001
  • This paper presents a fuzzy neural network model which solves the underutilization problem. This fuzzy neural network has both stability and flexibility because it uses the control structure similar to AHT(Adaptive Resonance Theory)-l neural network. And this fuzzy nenral network does not need to initialize weights and is less sensitive to noise than ART-l neural network is. The learning rule of this fuzzy neural network is the modified and fuzzified version of Kohonen learning rule and is based on the fuzzification of leaky competitive leaming and the fuzzification of conditional probability. The similarity measure of vigilance test, which is performed after selecting a winner among output neurons, is the relative distance. This relative distance considers Euclidean distance and the relative location between a datum and the prototypes of clusters. To compare the performance of the proposed fuzzy neural network with that of Kohonen Self-Organizing Feature Map the IRIS data and Gaussian-distributed data are used.

  • PDF

SymCSN : a Neuro-Symbolic Model for Flexible Knowledge Representation and Inference (SymCSN : 유연한 지식 표현 및 추론을 위한 기호-연결주의 모델)

  • 노희섭;안홍섭;김명원
    • Korean Journal of Cognitive Science
    • /
    • v.10 no.4
    • /
    • pp.71-83
    • /
    • 1999
  • Conventional symbolic inference systems lack flexibility because they do not well reflect flexible semantic structure of knowledge and use symbolic logic for their basic inference mechanism. For solving this problem. we have recently proposed the 'Connectionist Semantic Network(CSN)' as a model for flexible knowledge representation and inference based on neural networks. The CSN is capable of carrying out both approximate reasoning and commonsense reasoning based on similarity and association. However. we have difficulties in representing general and structured high-level knowledge and variable binding using the connectionist framework of the CSN. In this paper. we propose a hybrid system called SymCSN(Symbolic CSN) that combines a symbolic module for representing general and structured high-level knowledge and a connectionist module for representing and learning low-level semantic structure Simulation results show that the SymCSN is a plausible model for human-like flexible knowledge representation and inference.

  • PDF

Unsupervised Noun Sense Disambiguation using Local Context and Co-occurrence (국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소)

  • Lee, Seung-Woo;Lee, Geun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.7
    • /
    • pp.769-783
    • /
    • 2000
  • In this paper, in order to disambiguate Korean noun word sense, we define a local context and explain how to extract it from a raw corpus. Following the intuition that two different nouns are likely to have similar meanings if they occur in the same local context, we use, as a clue, the word that occurs in the same local context where the target noun occurs. This method increases the usability of extracted knowledge and makes it possible to disambiguate the sense of infrequent words. And we can overcome the data sparseness problem by extending the verbs in a local context. The sense of a target noun is decided by the maximum similarity to the clues learned previously. The similarity between two words is computed by their concept distance in the sense hierarchy borrowed from WordNet. By reducing the multiplicity of clues gradually in the process of computing maximum similarity, we can speed up for next time calculation. When a target noun has more than two local contexts, we assign a weight according to the type of each local context to implement the differences according to the strength of semantic restriction of local contexts. As another knowledge source, we get a co-occurrence information from dictionary definitions and example sentences about the target noun. This is used to support local contexts and helps to select the most appropriate sense of the target noun. Through experiments using the proposed method, we discovered that the applicability of local contexts is very high and the co-occurrence information can supplement the local context for the precision. In spite of the high multiplicity of the target nouns used in our experiments, we can achieve higher performance (89.8%) than the supervised methods which use a sense-tagged corpus.

  • PDF

Selecting Examples to Be Labeled for Semi-Supervised Clustering Using Cluster-Based Sampling (군집화 기법을 이용한 준감독 군집화의 훈련예제 선정)

  • 김종성;강재호;류광렬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.646-648
    • /
    • 2004
  • 기계학습의 군집화(clustering) 기법은 예제들 간의 유사성에 근거하여 주어진 예제들을 무리 짓는 방법이다. 준감독(semi-supervised) 군집화는 카테고리가 부여된(labeled) 소수의 예제들을 적극적으로 활용하여 군집형태가 보다 자연스럽게 형성되도록 유도하는 군집화 방법이다. 준감독 군집화 문제에서 예제에 카테고리를 부여하는 작업은 현실적으로 극히 제한적이거나 카테고리를 부여하는데 소요되는 비용이 상당하므로, 제한된 자원 내에서 군집화에 효용성이 높을 예제들을 선정하여 카테고리를 부여하는 것이 필요하다. 본 논문에서는 기존 연구에서 능동적 학습의 초기 훈련예제 선정을 위해 제안된 군집기반 훈련예제 선정 방법을 준감독 군집화에 적용하여 군집 결과의 질을 향상시키고자 한다. 군집화를 이용한 예제 선정 방법은 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 가정하에 전체 예제를 활용하여 선정하고자 하는 예제 수만큼 군집을 생성 한 후. 각 군집의 중심점에 가장 가까운 예제들을 대표 예제로 선정하여 훈련 집합을 구성하는 방법이다 본 논문에서는 문서를 대상으로 하는 준감독 군집화 실험을 통해, 카테고리를 부여할 예제를 임의로 선정한 경우에 비해 군집화를 이용한 훈련 예제들로 준감독 군집화를 수행한 경우가 보다 좋은 군집을 형성함을 확인하였다.

  • PDF

Design and Implementation of a Web-based Teaching-and-Evaluation System (WEB기반 학습 지도.평가 시스템의 설계 및 구현)

  • 하일규;서영수;김병욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.694-696
    • /
    • 2001
  • 인터넷의 이용이 생활화되면서 학생들의 인터넷 이용능력은 점차 향상되어가고 있으며 그 이용시간도 증가하는 추세다. 인터넷은 접근하기가 편리하고 시간적, 공간적 제약을 극복할 수 있고, 경제적 이점도 가져다주므로 인터넷의 교육적 활용에 대한 연구가 필요하다. 본 논문은 인터넷에 기반한 교육적 활용의 한 모델로서 WEB기반 학습지도.평가 시스템의 설계 및 구현에 관한 것이다. 즉 가상의 공간에서 교사와 학생이 상호 작용하면서 교수 학습할 수 있는 방법에 주목하여 교사는 WEB상에서 문제를 출제하고 학생 역시 WEB을 통해 손쉽게 문제를 풀고 결과를 확인할 수 있게 하는 것이다. 제안한 시스템의 설계를 위해 기존의 유사시스템을 비교.분석하여 필수 구성요소를 모두 포함하면서 미래의 학습평가방식에 적합한 효율적이고 유연성있는 모델을 만들었다. 설문조사를 통한 평가에서는 시스템의 학습효과성과 발전가능성이 높은 것으로 나타났다. 향후 평가를 통해 나타난 문제점을 보완하고 새로운 기능에 대한 연구가 따른다면 교사와 학생 모두에게 새로운 학습도구로서 흥미를 불러일으킬 수 있고, 학습 도구에 관한 새로운 인식전환의 기회가 될 것으로 생각된다.

  • PDF

The Impacts of Examples On the Learning Process of Programming Languages (예제가 프로그래밍 언어의 학습과정에 미치는 영향)

  • 김진수;김진우
    • Korean Journal of Cognitive Science
    • /
    • v.11 no.2
    • /
    • pp.19-35
    • /
    • 2000
  • Learning by examples has proven to be an efficient method in mastering various subjects including programming languages. This study hypothesizes that the number of examples and the type of examples are two significant dimensions that influence the performance of learning programming languages by examples. A set of experiments was conducted to investigate the impacts of the two dimensions in the domain of JAVA programming. The results showed that providing two examples is more effective than providing only one example even though significantly more explanations are attached to the single example. Among the 'two-example' groups, the group that was given functionally similar examples performed better than those with functionally dissimilar examples. Explanations for these results are provided in this paper based on the behavioral patterns of individual subjects in terms of time and frequency. This paper concludes with the implications of the study results for the development of effective tutoring systems for programming languages.

  • PDF

Java source code Similarity Measurement System (자바소스코드 유사도 측정 시스템)

  • Kim, Eun-Hye;Lee, Song-A;Heo, Jun;Han, Kyung-Sook;Oh, Yong-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.536-539
    • /
    • 2007
  • JSMS(Java source code Similarity Measurement System)는 자바 소스 코드의 유사도를 측정하고 이와 관련한 소스코드의 정보를 시각적으로 표시하는 시스템이다. 기존의 표절 검사 시스템은 소스코드의 구조적 특징을 반영하지 못해 유사도 결과의 신뢰성이 낮고 대부분 편리성과 가독성이 좋지 않아 사용하기 불편하였다. 본 논문에서 제안하는 JSMS는 이러한 단점을 보완하기 위해 함수 선형화를 사용하여 소스코드의 구조적 특징을 반영하였다. 또한 쉽고 간단한 조작으로 편리성을 제공하며, 관련 정보와 유사 구간을 시각적으로 표시하여 가독성을 높였다. 향후 다양한 언어 지원과 폭넓은 시각적 정보 제공을 보완하여 사용자의 학습 자료로 사용할 수 있으며, 소스코드 표절의 객관적 기준이 되는 도구로 활용 가능하다.

  • PDF

An Efficient Conceptual Clustering Scheme (효율적인 개념 클러스터링 기법)

  • Yang, Gi-Chul
    • Journal of Korea Entertainment Industry Association
    • /
    • v.14 no.4
    • /
    • pp.349-354
    • /
    • 2020
  • This paper, firstly, propose a new Clustering scheme Based on Conceptual graphs (CBC) that can describe objects freely and can perform clustering efficiently. The conceptual clustering is one of machine learning technique. The similarity among the objects in conceptual clustering are decided on the bases of concept membership, unlike the general clustering scheme which decide the similarity without considering the context or environment of the objects. A new conceptual clustering scheme, CBC, which can perform efficient conceptual clustering by describing various objects freely with conceptual graphs is introduced in this paper.

Learning Distribution Graphs Using a Neuro-Fuzzy Network for Naive Bayesian Classifier (퍼지신경망을 사용한 네이브 베이지안 분류기의 분산 그래프 학습)

  • Tian, Xue-Wei;Lim, Joon S.
    • Journal of Digital Convergence
    • /
    • v.11 no.11
    • /
    • pp.409-414
    • /
    • 2013
  • Naive Bayesian classifiers are a powerful and well-known type of classifiers that can be easily induced from a dataset of sample cases. However, the strong conditional independence assumptions can sometimes lead to weak classification performance. Normally, naive Bayesian classifiers use Gaussian distributions to handle continuous attributes and to represent the likelihood of the features conditioned on the classes. The probability density of attributes, however, is not always well fitted by a Gaussian distribution. Another eminent type of classifier is the neuro-fuzzy classifier, which can learn fuzzy rules and fuzzy sets using supervised learning. Since there are specific structural similarities between a neuro-fuzzy classifier and a naive Bayesian classifier, the purpose of this study is to apply learning distribution graphs constructed by a neuro-fuzzy network to naive Bayesian classifiers. We compare the Gaussian distribution graphs with the fuzzy distribution graphs for the naive Bayesian classifier. We applied these two types of distribution graphs to classify leukemia and colon DNA microarray data sets. The results demonstrate that a naive Bayesian classifier with fuzzy distribution graphs is more reliable than that with Gaussian distribution graphs.