• Title/Summary/Keyword: 데이터 분류

Search Result 5,607, Processing Time 0.072 seconds

A Review of the Methodology for Sophisticated Data Classification (정교한 데이터 분류를 위한 방법론의 고찰)

  • Kim, Seung Jae;Kim, Sung Hwan
    • Journal of Integrative Natural Science
    • /
    • v.14 no.1
    • /
    • pp.27-34
    • /
    • 2021
  • 전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF)기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

Automatic Text Classification by Learning from Unlabeled Data (레이블이 없는 데이터로부터의 학습에 의한 자동 문서 분류)

  • 박성배;김유환;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.265-267
    • /
    • 2001
  • 본 논문에서는 레이블이 없는 데이터를 이용하는 새로운 자동 문서 분류 방법을 제시한다. 제시된 방법은 적은 수의 레이블이 있는 데이터로부터 학습된 후 많은 수의 레이블이 없는 데이터로 보강되는 일련의 분류기(classifier)에 기반한다. 레이블이 없는 데이터를 활용하기 때문에, 필요한 레이블이 있는 데이터의 수가 줄어들고, 분류 정확도가 향상된다. 두 개의 표준 데이터 집합에 대한 실험 결과, 레이블이 없는 데이터를 사용함으로써 분류 정확도가 증가함을 보였다. 분류 정확도는 전체 데이터의 2/3만 사용하고도 NIPS 2000 워크숍 데이터 집합에 대해서는 약 7.9% 정도, WebKB 데이터 집합에 대해서는 9.2% 증가하였다.

  • PDF

A Data Taxonomy Methodology based on Their Origin (데이터 본질 기반의 데이터 분류 방법론)

  • Choi, Mi-Young;Moon, Chang-Joo;Baik, Doo-Kwon;Kwon, Ju-Hum;Lee, Young-Moo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.2
    • /
    • pp.163-176
    • /
    • 2010
  • The representative method to efficiently manage the organization's data is to avoid data duplication through the promotion of sharing and reusing existing data. The systematic structuring of existing data and efficient searching should be supported in order to promote the sharing and reusing of data. Without regard for these points, the data for the system development would be duplicated, which would deteriorate the quality of the data. Data taxonomy provides some methods that can enable the needed data elements to be searched quickly with a systematic order of managing data. This paper proposes that the Origin data taxonomy method can best maximize data sharing, reusing, and consolidation, and it can be used for Meta Data Registry (MDR) and Semantic Web efficiently. The Origin data taxonomy method constructs the data taxonomy structure built upon the intrinsic nature of data, so it can classify the data with independence from business classification. Also, it shows a deployment method for data elements used in various areas according to the Origin data taxonomy structure with a data taxonomic procedure that supports the proposed taxonomy. Based on this case study, the proposed data taxonomy and taxonomic procedure can be applied to real world data efficiently.

Empowering Emotion Classification Performance Through Reasoning Dataset From Large-scale Language Model (초거대 언어 모델로부터의 추론 데이터셋을 활용한 감정 분류 성능 향상)

  • NunSol Park;MinHo Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.59-61
    • /
    • 2023
  • 본 논문에서는 감정 분류 성능 향상을 위한 초거대 언어모델로부터의 추론 데이터셋 활용 방안을 제안한다. 이 방안은 Google Research의 'Chain of Thought'에서 영감을 받아 이를 적용하였으며, 추론 데이터는 ChatGPT와 같은 초거대 언어 모델로 생성하였다. 본 논문의 목표는 머신러닝 모델이 추론 데이터를 이해하고 적용하는 능력을 활용하여, 감정 분류 작업의 성능을 향상시키는 것이다. 초거대 언어 모델(ChatGPT)로부터 추출한 추론 데이터셋을 활용하여 감정 분류 모델을 훈련하였으며, 이 모델은 감정 분류 작업에서 향상된 성능을 보였다. 이를 통해 추론 데이터셋이 감정 분류에 있어서 큰 가치를 가질 수 있음을 증명하였다. 또한, 이 연구는 기존에 감정 분류 작업에 사용되던 데이터셋만을 활용한 모델과 비교하였을 때, 추론 데이터를 활용한 모델이 더 높은 성능을 보였음을 증명한다. 이 연구를 통해, 적은 비용으로 초거대 언어모델로부터 생성된 추론 데이터셋의 활용 가능성을 보여주고, 감정 분류 작업 성능을 향상시키는 새로운 방법을 제시한다. 제시한 방안은 감정 분류뿐만 아니라 다른 자연어처리 분야에서도 활용될 수 있으며, 더욱 정교한 자연어 이해와 처리가 가능함을 시사한다.

  • PDF

Design of Web-based Phylogentic Tree Inference System Using DataBase (데이터 베이스를 이용한 웹 기반 계통수 추론 시스템 설계)

  • Kim, Shin-Suck;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.121-124
    • /
    • 2001
  • 계통수는 특정 객체의 분류 즉 특정 객체로부터 추출한 염기서열을 이용하여 그 객체의 소속 분류 집단을 결정하기 위해서 사용될 수 있다. 만약 특정지역에서 획득한 토끼의 종을 구분하기 위해서 이미 분류된 토끼의 염기서열들을 가지고 염기서열들과의 관계를 표현하는 계통수를 제작함으로써, 객체를 분류 할 수 있다. 계통수 제작은 기존의 계통수 제작 도구들(MEGA등)이 사용되지만, 이러한 계통수 제작 도구는 객체의 어떤 특성에 의해서 종이 나뉘어지는 가는 예측 할 수 없다. 계통수 제작에 이용되는 염기서열 데이터는 기존의 염기서열 데이터 베이스들(EMBL, GenBank, DDBJ)에서 인터넷을 이용하여 찾을 수 있지만, 계통생물학을 위해 누적된 데이터가 아니므로, 계통수 제작을 위해서는 사용이 제한적이다. 또 계통수 제작 도구을 사용하기 위해서는 자신이 관련 염기서열 데이터를 수집하여야 한다. 본 논문은 웹기반 계통수 추론 시스템을 제시한다. 본 시스템은 염기서열 데이터를 검색하여, 계통 분류 즉 계통수 제작을 위한 데이터로 저장하고, 이를 이용하여 계통수를 그릴 수 있다. 또한 이렇게 저장된 데이터는 데이터 마이닝 분류 기법을 사용하여, 각 객체 분류 집단을 모델링하며, 분류 속성을 예측할 수 있다.

  • PDF

Integrating Classification Method using PCM Algorithm and Bayesian Method (PCM 알고리즘과 베이시안 분류의 통합기법)

  • 전영준;김진일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.790-792
    • /
    • 2004
  • 본 논문은 PCM(Possibilistic C-Means) 알고리즘과 베이시안 분류 알고리즘을 통합한 고해상도 위성영상의 효과적인 분류방법을 제안하였다. 제안된 알고리즘은 학습데이터를 참고로 하여 PCM 알고리즘을 반복적인 과정 없이 수행한다. 각 분류항목별로 분류된 데이터에서 평균내부거리 내부에 해당되는 데이터들을 선정하여 각 항목별 비율을 구한 후 베이시안 분류기법의 사전확률로 적용하여 분류를 수행한다 PCM 알고리즘은 각 데이터와 특정 클러스터와의 거리에 소속도를 부여하는 퍼지 C-Means 알고리즘과 달리 소속도를 각 데이터와 클러스터 중심간의 절대거리에 의존하는 방법으로 퍼지 C-Means 알고리즘이 가지는 상대성 문제를 해결하였다. 제안된 분류 기법을 고해상도 다중분광 데이터인 IKONOS 위성영상에 적용하여 분류를 수행한 후 최대우도 분류기법과 비교한다.

  • PDF

Incremental Superised Learning based on SVM with Unlabeled Documents (레이블이 없는 문서를 이용한 SVM 기반의 점증적 지도학습)

  • 김수영;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.301-303
    • /
    • 2002
  • 컴퓨터가 널리 보급되고 인터넷이 발전함에 따라 수없이 많은 정보가 디지털 형태로 생산되고 있다. 이러한 정보를 사람이 일일이 가공하고 분류하기에는 한계가 있으므로 자동으로 문서를 분류하고자 하는 연구가 대두되었다. 문서를 자동으로 분류하기 위해 기계학습 방법이 많이 이용되고 있다. 기계학습방법을 이용한 문서분류가 좋은 성능을 내기 위해서는 충분한 양의 학습데이터가 필요하다. 학습데이터를 만들기 위해서는 사람이 일일이 분류해야 하므로, 비용이 많이 든다. 본 논문에서는 적은양의 labeled 데이터로부터 시작하여, 점증적으로 unlabeled 데이터를 학습에 참여시킴으로써, 문서분류의 성능을 높이고자 한다. 실험을 통해 Unlabeled 문서데이터를 사용한 것이 좋은 성능을 보였음을 알 수 있다.

  • PDF

A Text Classification System based on a Supervised Learning Algorithm (교사학습 알고리즘을 이용한 텍스트 분류 시스템)

  • 김진상;성정호;김성주
    • Proceedings of the Korea Database Society Conference
    • /
    • 1998.09a
    • /
    • pp.421-430
    • /
    • 1998
  • 지식경영을 위한 다양한 대상 업무중에서 텍스트 데이터의 마이닝은 특히 중요하다. 그 이유는 텍스트 데이터가 양적인 면에서 가장 풍부하고, 또 발견할 수 있는 지식을 가장 많이 포함하고 있기 때문이다. 본 논문에서는 텍스트 데이터베이스에서 지식발견을 위한 한 과정으로 텍스트 데이터베이스 내의 텍스트들을 분류하는 기법을 기술한다. 특히 문서 분류 방법은 데이터베이스의 일부 데이터를 훈련, 예제로 간주하여 교사 학습 알고리즘을 통해 학습한 후 나머지 데이터를 이용해 분류 정확성을 검증 및 향상시킨다. 시험 데이터로는 인터넷의 뉴스그룹의 기사를 이용하였고, 시험 결과 분류의 정확성은 한글 및 영문 모두 최소 70% 이상으로 나타났다.

  • PDF

Principal Component Transformation of the Satellite Image Data and Principal-Components-Based Image Classification (위성 영상데이터의 주성분변환 및 주성분 기반 영상분류)

  • Seo, Yong-Su
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.7 no.4
    • /
    • pp.24-33
    • /
    • 2004
  • Advances in remote sensing technologies are resulting in the rapid increase of the number of spectral channels, and thus, growing data volumes. This creates a need for developing faster techniques for processing such data. One application in which such fast processing is needed is the dimension reduction of the multispectral data. Principal component transformation is perhaps the mostpopular dimension reduction technique for multispectral data. In this paper, we discussed the processing procedures of principal component transformation. And we presented and discussed the results of the principal component transformation of the multispectral data. Moreover principal components image data are classified by the Maximum Likelihood method and Multilayer Perceptron method. In addition, the performances of two classification methods and data reduction effects are evaluated and analyzed based on the experimental results.

  • PDF

Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality (방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축)

  • Cheon, Hee-Seon;Kim, Hyun-Ho;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF