• Title/Summary/Keyword: 학습 집합 구축

Search Result 80, Processing Time 0.031 seconds

A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts (블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구)

  • Han, Bum-Jun;Kim, Min-Jeong;Lee, Hyoung-Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.385-388
    • /
    • 2010
  • 블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.

Fine Grained Classification of Named Entities Using Machine Learning and Dictionary (기계학습과 사전을 이용한 개체명 세분화)

  • 이기중;이도길;임해창;임수종
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.519-521
    • /
    • 2003
  • 개체명 인식은 효과적인 정보추출 시스템을 구축하기 위해 반드시 선행되어야 하는 작업이다. 지금까지의 개체명 인식에 관한 연구는 인명이나 조직, 장소와 같은 일반적인 개체명 인식 작업이 대부분이었다. 그러나, 효과적인 정보추출을 위해서는 이런 일반적인 개체명들을 더욱 세분화할 필요가 있다. 본 논문에서는 SVM기반 기계학습법과 기구축된 사전과의 편집거리 비교법을 이용하여 개체명을 세분화하는 방법을 제시한다. 실험은 개체명과 세분화된 범주가 부착된 공연 관련 문서 100개 중 80개는 학습집합, 20개는 실험집합으로 사용하였고 성능 평가 척도는 정확도(accuracy)를 이용해 개별적으로 평가하였다. 실험 결과 기계학습법과 사전을 이용한 방법을 결합한 모델이 가장 좋은 성능(정확도 72.91%)을 보였다.

  • PDF

Building an Ensemble Machine by Constructive Selective Learning Neural Networks (건설적 선택학습 신경망을 이용한 앙상블 머신의 구축)

  • Kim, Seok-Jun;Jang, Byeong-Tak
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.12
    • /
    • pp.1202-1210
    • /
    • 2000
  • 본 논문에서는 효과적인 앙상블 머신의 구축을 위한 새로운 방안을 제시한다. 효과적인 앙상블의 구축을 위해서는 앙상블 멤버들간의 상관관계가 아주 낮아야 하며 또한 각 앙상블 멤버들은 전체 문제를 어느 정도는 정확하게 학습하면서도 서로들간의 불일치 하는 부분이 존재해야 한다는 것이 여러 논문들에 발표되었다. 본 논문에서는 주어진 문제의 다양한 면을 학습한 다수의 앙상블 후보 네트웍을 생성하기 위하여 건설적 학습 알고리즘과 능동 학습 알고리즘을 결합한 형태의 신경망 학습 알고리즘을 이용한다. 이 신경망의 학습은 최소 은닉 노드에서 최대 은닉노드까지 점진적으로 은닉노드를 늘려나감과 동시에 후보 데이타 집합에서 학습에 사용할 훈련 데이타를 점진적으로 선택해 나가면서 이루어진다. 은닉 노드의 증가시점에서 앙상블의 후부 네트웍이 생성된다. 이러한 한 차례의 학습 진행을 한 chain이라 정의한다. 다수의 chain을 통하여 다양한 형태의 네트웍 크기와 다양한 형태의 데이타 분포를 학습한 후보 내트웍들이 생성된다. 이렇게 생성된 후보 네트웍들은 확률적 비례 선택법에 의해 선택된 후 generalized ensemble method (GEM)에 의해 결합되어 최종적인 앙상블 성능을 보여준다. 제안된 알고리즘은 한개의 인공 데이타와 한 개의 실세계 데이타에 적용되었다. 실험을 통하여 제안된 알고리즘에 의해 구성된 앙상블의 최대 일반화 성능은 다른 알고리즘에 의한 그것보다 우수함을 알 수 있다.

  • PDF

Integrating Multiple Classifiers in a GA-based Inductive Learning Environment (유전 알고리즘 기반 귀납적 학습 환경에서 분류기의 통합)

  • Kim, Yeong-Joon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.3
    • /
    • pp.614-621
    • /
    • 2006
  • We have implemented a multiclassifier learning approach in a GA-based inductive learning environment that learns classification rules that are similar to rules used in PROSPECTOR. In the multiclassifier learning approach, a classification system is constructed with several classifiers that are obtained by running a GA-based learning system several times to improve the overall performance of a classification system. To implement the multiclassifier learning approach, we need a decision-making scheme that can draw a decision using multiple classifiers. In this paper, we introduce two decision-making schemes: one is based on combining posterior odds given by classifiers to each class and the other one is a voting scheme based on ranking assigned to each class by classifiers. We also present empirical results that evaluate the effect of the multiclassifier learning approach on the GA-based inductive teaming environment.

Designand Implementation of Web-Based Blood-Cell Analysis System for Pathology Diagnosis (병리진단을 위한 웹기반 혈액영상 분석시스템의 설계 및 구현)

  • 김경수;이영신;김용국;이윤배;김판구
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.333-337
    • /
    • 1998
  • 의학분야에서 컴퓨터 활용은 단순히 처리할 데이터의 자동화뿐만 아니라 각종 의학영상들을 자동으로 처리함으로서 의사의 진단을 도와주는 형태로 발전되어 가고 있다. 본 논문에서는 병원의 임상병리과에서 번번히 수행하는 혈액검사를 자동화하기 위한 것으로 혈액을 자동 분석하는 웹 기반 분석시스템을 구축하였다. 이를 위해 본 논문에서는 혈액 영상으로부터 특징을 추출하기 위한 단계를 서술하고 세포분류를 위한 다층 신경망을 이용해 구현한 내용을 보인다. 또한 본 연구의 결과로 신경망의 학습 효율을 높이기 위한 전처리로서 학습 데이터에 대해 러프 집합 이론을 적용하여 학습 데이터의 차원을 효과적으로 줄일 수 있었다.

  • PDF

Regeneration of a defective Railroad Surface for defect detection with Deep Convolution Neural Networks (Deep Convolution Neural Networks 이용하여 결함 검출을 위한 결함이 있는 철도선로표면 디지털영상 재 생성)

  • Kim, Hyeonho;Han, Seokmin
    • Journal of Internet Computing and Services
    • /
    • v.21 no.6
    • /
    • pp.23-31
    • /
    • 2020
  • This study was carried out to generate various images of railroad surfaces with random defects as training data to be better at the detection of defects. Defects on the surface of railroads are caused by various factors such as friction between track binding devices and adjacent tracks and can cause accidents such as broken rails, so railroad maintenance for defects is necessary. Therefore, various researches on defect detection and inspection using image processing or machine learning on railway surface images have been conducted to automate railroad inspection and to reduce railroad maintenance costs. In general, the performance of the image processing analysis method and machine learning technology is affected by the quantity and quality of data. For this reason, some researches require specific devices or vehicles to acquire images of the track surface at regular intervals to obtain a database of various railway surface images. On the contrary, in this study, in order to reduce and improve the operating cost of image acquisition, we constructed the 'Defective Railroad Surface Regeneration Model' by applying the methods presented in the related studies of the Generative Adversarial Network (GAN). Thus, we aimed to detect defects on railroad surface even without a dedicated database. This constructed model is designed to learn to generate the railroad surface combining the different railroad surface textures and the original surface, considering the ground truth of the railroad defects. The generated images of the railroad surface were used as training data in defect detection network, which is based on Fully Convolutional Network (FCN). To validate its performance, we clustered and divided the railroad data into three subsets, one subset as original railroad texture images and the remaining two subsets as another railroad surface texture images. In the first experiment, we used only original texture images for training sets in the defect detection model. And in the second experiment, we trained the generated images that were generated by combining the original images with a few railroad textures of the other images. Each defect detection model was evaluated in terms of 'intersection of union(IoU)' and F1-score measures with ground truths. As a result, the scores increased by about 10~15% when the generated images were used, compared to the case that only the original images were used. This proves that it is possible to detect defects by using the existing data and a few different texture images, even for the railroad surface images in which dedicated training database is not constructed.

A Study on Recognition of Citation Metadata using Bidirectional GRU-CRF Model based on Pre-trained Language Model (사전학습 된 언어 모델 기반의 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 이용한 참고문헌 메타데이터 인식 연구)

  • Ji, Seon-yeong;Choi, Sung-pil
    • Journal of the Korean Society for information Management
    • /
    • v.38 no.1
    • /
    • pp.221-242
    • /
    • 2021
  • This study applied reference metadata recognition using bidirectional GRU-CRF model based on pre-trained language model. The experimental group consists of 161,315 references extracted by 53,562 academic documents in PDF format collected from 40 journals published in 2018 based on rules. In order to construct an experiment set. This study was conducted to automatically extract the references from academic literature in PDF format. Through this study, the language model with the highest performance was identified, and additional experiments were conducted on the model to compare the recognition performance according to the size of the training set. Finally, the performance of each metadata was confirmed.

The Effect of Blended Learning on Learning Achievement of Computer Education in High School (블렌디드 학습이 고등학교 전산교육의 학업성취도에 미치는 효과)

  • Seo, In-Soon;Seo, Jeong-Man;Kim, Sung-Wan
    • Journal of the Korea Society of Computer and Information
    • /
    • v.12 no.3
    • /
    • pp.115-122
    • /
    • 2007
  • The aim of this study is to identify the effect that the blended learning has on the learning achievement of computer education in high school. To get the goal, 136 students were allocated into the experiment group(68 students) with the blended class and the control group(68 students) with the traditional face-to-face class. After identifying the homogeneity of two groups in learning achievement by analyzing the pre-test, the experiment was performed. The result of this research is as follows. Significant difference was found in the learning achievement of post-test between the experiment group and the control group (t=-3.16, p=.0019). This result underlies the potential of blended learning in computer education. It will be important for designing the class for computer education in high school.

  • PDF

Optimization of Fuzzy Set-based Fuzzy Inference Systems (퍼지 집합 기반 퍼지 추론 시스템의 최적화)

  • 박건준;이동윤;오성권
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.463-466
    • /
    • 2004
  • 본 논문에서는 각 입력 변수에 대하여 퍼지 공간을 분할한 퍼지 집합 기반 퍼지 추론 시스템을 제안한다. 퍼지 모델은 주로 경험적 방법에 의해 추출되기 때문에 보다 구체적이고 체계적인 방법에 의한 동정 및 최적화 쥘 필요성이 요구된다. 정보 granules는 근접성, 유사성 또는 기능성 등의 기준에 의해 서로 결합된 물체(특히, 데이터 점)의 연결된 모임으로 간주된다. 정보 데이터의 특성을 살리기 위해 HCM 클러스터링 방법에 의한 중심71을 이용하여 각 입력 변수에 대한 퍼지 집합 기반 전반부/후반부 구조 및 파라미터를 동정한다. 퍼지 추론 방법은 간략 및 선형 퍼지 추론을 수행하며 삼각형 멤버쉽 함수를 사용한다. 구축된 퍼지 모델은 유전자 알고리즘을 이용하여 전반부 파라미터를 최적으로 동정하며, 학습 및 테스트 데이터의 성능 결과의 상호균형을 얻기 위한 하중값을 가진 성능지수를 사용하여 근사화와 예측성능의 향상을 꾀한다. 또한, 제안된 퍼지 모델은 수치적인 예를 통하여 성능을 평가한다.

  • PDF

Comparative Study on Type-2 and Type-1 TSK FLS. (Type-2와 Type-1 TSK FLS의 비교 연구)

  • Ji, Gwang-Hui;O, Seong-Gwon
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.321-324
    • /
    • 2008
  • Type-2 퍼지 집합은 Type-1 퍼지 집합에서는 다루기 어려운 언어적인 불확실성을 더욱 효과적으로 다룰 수 있다. TSK 퍼지 로직 시스템(TSK Fuzzy Logic Systems; TSK FLS)은 Mamdani 모델과 함께 가장 널리 사용되는 FLS이다. 본 연구의 Interval Type-2 TSK FLS 모델은 전반부에서 Type-2 퍼지 집합을 이용하고 후반부는 계수가 상수인 1차식을 사용한다. 전반부의 파라미터는 오류역전파 방법(Back-propagation)을 통한 학습으로 결정되고, 후반부 파라미터(계수)들은 Least squre method(LSM)를 사용하여 결정된 값을 사용하여 모델을 구축한다. 본 논문에서는 Type-1 TSK FLS과 Type-2 TSK FLS의 성능을 가스로 공정 데이터를 적용하여 비교 분석한다. 또한 랜덤 화이트 가우시안 노이즈를 추가한 테스트 데이터를 사용하여 노이즈에 대한 성능을 분석한다.

  • PDF