• Title/Summary/Keyword: 다중분류

Search Result 1,128, Processing Time 0.034 seconds

Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers (기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별)

  • Min Jeong Ban;Sangwook Shin;Dong Hoon Lee;Jeong-Gyu Kim;Hosik Lee;Young Kim;Jeong-Hun Park;ShunHwa Lee;Seon-Young Kim;Joo-Hyon Kang
    • Journal of Wetlands Research
    • /
    • v.25 no.4
    • /
    • pp.306-314
    • /
    • 2023
  • Stream sediments are an important component of water quality management because they are receptors of various pollutants such as heavy metals and organic matters emitted from upland sources and can be secondary pollution sources, adversely affecting water environment. To effectively manage the stream sediments, identification of primary sources of sediment contamination and source-associated control strategies will be required. We evaluated the performance of machine learning models in identifying primary sources of sediment contamination based on the physico-chemical properties of stream sediments. A total of 356 stream sediment data sets of 18 quality parameters including 10 heavy metal species(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, and Al), 3 soil parameters(clay, silt, and sand fractions), and 5 water quality parameters(water content, loss on ignition, total organic carbon, total nitrogen, and total phosphorous) were collected near abandoned metal mines and industrial complexes across the four major river basins in Korea. Two machine learning algorithms, linear discriminant analysis (LDA) and support vector machine (SVM) classifiers were used to classify the sediments into four cases of different combinations of the sampling period and locations (i.e., mine in dry season, mine in wet season, industrial complex in dry season, and industrial complex in wet season). Both models showed good performance in the classification, with SVM outperformed LDA; the accuracy values of LDA and SVM were 79.5% and 88.1%, respectively. An SVM ensemble model was used for multi-label classification of the multiple contamination sources inlcuding landuses in the upland areas within 1 km radius from the sampling sites. The results showed that the multi-label classifier was comparable performance with sinlgle-label SVM in classifying mines and industrial complexes, but was less accurate in classifying dominant land uses (50~60%). The poor performance of the multi-label SVM is likely due to the overfitting caused by small data sets compared to the complexity of the model. A larger data set might increase the performance of the machine learning models in identifying contamination sources.

Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality (방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축)

  • Cheon, Hee-Seon;Kim, Hyun-Ho;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF

Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences (기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구)

  • Kim, Seon-Wu;Ko, Gun-Woo;Choi, Won-Jun;Jeong, Hee-Seok;Yoon, Hwa-Mook;Choi, Sung-Pil
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.4
    • /
    • pp.141-164
    • /
    • 2018
  • Recently, as the amount of academic literature has increased rapidly and complex researches have been actively conducted, researchers have difficulty in analyzing trends in previous research. In order to solve this problem, it is necessary to classify information in units of academic papers. However, in Korea, there is no academic database in which such information is provided. In this paper, we propose an automatic classification system that can classify domestic academic literature into multiple classes. To this end, first, academic documents in the technical science field described in Korean were collected and mapped according to class 600 of the DDC by using K-Means clustering technique to construct a learning set capable of multiple classification. As a result of the construction of the training set, 63,915 documents in the Korean technical science field were established except for the values in which metadata does not exist. Using this training set, we implemented and learned the automatic classification engine of academic documents based on deep learning. Experimental results obtained by hand-built experimental set-up showed 78.32% accuracy and 72.45% F1 performance for multiple classification.

A Study on the Principal Component Transformation of the Multispectral Image Data (다중분광 영상데이터의 주성분변환에 관한 연구)

  • 서용수
    • Proceedings of the IEEK Conference
    • /
    • 2003.11a
    • /
    • pp.389-392
    • /
    • 2003
  • 원격감지(remote sensing) 기술의 비약적인 발전과 함께 다중분광 영상데이터의 분광대역수가 급속히 증가하고 있다. 대역수의 증가로 영상데이터의 양이 급격히 증가하게 되고, 이에 따라 이들 데이터를 처리하기 위해서는 처리속도가 빠른 영상 처리 기술이 필요하게 되었다. 분광 대역수를 줄여 빠르게 처리하는 한가지 방법으로 널리 사용되고 있는 것이 주성분변환이다. 본 논문에서는 주성분변환에 대한 처리방법에 대해 논한 후, 다중분광 영상데이터를 주성분 변환한 주성분 영상데이터를 분석하였다. 또한 주성분 영상데이터를 최대유사법으로 분류하고 그 결과를 분석하였다.

  • PDF

A Multi-Resolution Distance Measure Using Grey Block Distance Algorithms for Principal Component Analysis (주성분분석에서의 제안된 GBD 알고리즘을 이용한 다중해상도 거리 측정)

  • Hong, Jun-Sik
    • Proceedings of the KIEE Conference
    • /
    • 2002.07d
    • /
    • pp.2671-2673
    • /
    • 2002
  • 본 논문에서는 주성분분석(principal component analysis; 이하 PCA)기법을 이용, 이차원 영상을 분류하여 다중해상도에서 기존의 그레이 블록 거리(grey block distance; GBD, 이하 GBD)알고리즘과 비교하여 이차원 영상간의 상대적 식별을 더 용이하게 하기 위한 새로운 GBD 알고리즘 방법을 제안한다. 이 제시된 방법은 다중해상도에서 기존의 GBD 알고리즘과 비교해서 영상이 급격히 변화하는 부분의 정보를 잃지 않게 개선할 수 있었다. 모의 실험 결과로부터 기존의 GBD 알고리즘에 비하여 상대적 식별이 더 용이함을 확인하였다.

  • PDF

Integrating Classification Method using PCM Algorithm and Bayesian Method (PCM 알고리즘과 베이시안 분류의 통합기법)

  • 전영준;김진일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.790-792
    • /
    • 2004
  • 본 논문은 PCM(Possibilistic C-Means) 알고리즘과 베이시안 분류 알고리즘을 통합한 고해상도 위성영상의 효과적인 분류방법을 제안하였다. 제안된 알고리즘은 학습데이터를 참고로 하여 PCM 알고리즘을 반복적인 과정 없이 수행한다. 각 분류항목별로 분류된 데이터에서 평균내부거리 내부에 해당되는 데이터들을 선정하여 각 항목별 비율을 구한 후 베이시안 분류기법의 사전확률로 적용하여 분류를 수행한다 PCM 알고리즘은 각 데이터와 특정 클러스터와의 거리에 소속도를 부여하는 퍼지 C-Means 알고리즘과 달리 소속도를 각 데이터와 클러스터 중심간의 절대거리에 의존하는 방법으로 퍼지 C-Means 알고리즘이 가지는 상대성 문제를 해결하였다. 제안된 분류 기법을 고해상도 다중분광 데이터인 IKONOS 위성영상에 적용하여 분류를 수행한 후 최대우도 분류기법과 비교한다.

  • PDF

Multiple Optimal Classifiers based on Speciated Evolution for Classifying DNA Microarray Data (DNA 마이크로어레이 데이터의 분류를 위한 종분화 진화 기반의 최적 다중 분류기)

  • 박찬호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.724-726
    • /
    • 2004
  • DNA 마이크로어레이 기술의 발전은 암의 조기 발견 및 예후 예측을 가능하게 해주었으며, 이와 관련된 많은 연구가 진행 중이다. 마이크로어레이 데이터의 분류에서 관련 유전자들의 선택은 필수적이며, 유전자 선택방법은 분류기와 짝을 이루어 특징-분류기를 형성한다. 이제까지 여러 가지 특징-분류기를 사용하여 마이크로어레이 데이터를 분류해 왔지만, 알고리즘의 한계와 데이터의 결함 등으로 인하여 최적의 특징-분류기를 찾기 어려웠다. 따라서 앙상블 분류기를 이용하여 높은 분류성능을 얻는 방법이 시도되어왔으며. 최적의 것을 찾기 위하여 유전자 알고리즘이 사용되기도 했다. 본 논문에서는 이를 발전시켜 다양한 최적의 앙상블을 생성하기 위해 종분화 방법을 사용한다. 림프종 암 데이터에 대하여 leave-one-out cross-validation을 적용한 결과, 제안한 방법으로 다양한 최적해를 탐색하는 것을 확인할 수 있었다.

  • PDF

소프트웨어 개요

  • Cheon, Yu-Sik
    • ETRI Journal
    • /
    • v.8 no.2
    • /
    • pp.75-82
    • /
    • 1986
  • 소프트웨어의 개발환경에 관련하여 개발과정, work methods, 업무구조를 논하였다. TDX-1 소프트웨어를 성격에 따른 분류와 기능에 따른 분류로 대별하여 설명한 후 중점적으로 교환기(Exchange) 소프트웨어에 대하여 그 특성과 구조를 논하였다. 특성에서는 계층분산 구조, 분산다중처리 등 4개의 특성을 논하였으며 구조에서는 프로세서의 구성, 각 프로세서의 기능, 논리적 구조로 나누어 설명하였다.

  • PDF

Feature Extraction and Classification of Multi-temporal SAR Data Using 3D Wavelet Transform (3차원 웨이블렛 변환을 이용한 다중시기 SAR 영상의 특징 추출 및 분류)

  • Yoo, Hee Young;Park, No-Wook;Hong, Sukyoung;Lee, Kyungdo;Kim, Yihyun
    • Korean Journal of Remote Sensing
    • /
    • v.29 no.5
    • /
    • pp.569-579
    • /
    • 2013
  • In this study, land-cover classification was implemented using features extracted from multi-temporal SAR data through 3D wavelet transform and the applicability of the 3D wavelet transform as a feature extraction approach was evaluated. The feature extraction stage based on 3D wavelet transform was first carried out before the classification and the extracted features were used as input for land-cover classification. For a comparison purpose, original image data without the feature extraction stage and Principal Component Analysis (PCA) based features were also classified. Multi-temporal Radarsat-1 data acquired at Dangjin, Korea was used for this experiment and five land-cover classes including paddy fields, dry fields, forest, water, and built up areas were considered for classification. According to the discrimination capability analysis, the characteristics of dry field and forest were similar, so it was very difficult to distinguish these two classes. When using wavelet-based features, classification accuracy was generally improved except built-up class. Especially the improvement of accuracy for dry field and forest classes was achieved. This improvement may be attributed to the wavelet transform procedure decomposing multi-temporal data not only temporally but also spatially. This experiment result shows that 3D wavelet transform would be an effective tool for feature extraction from multi-temporal data although this procedure should be tested to other sensors or other areas through extensive experiments.

Multiple Classifier Fusion Method based on k-Nearest Templates (k-최근접 템플릿기반 다중 분류기 결합방법)

  • Min, Jun-Ki;Cho, Sung-Bae
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.4
    • /
    • pp.451-455
    • /
    • 2008
  • In this paper, the k-nearest templates method is proposed to combine multiple classifiers effectively. First, the method decomposes training samples of each class into several subclasses based on the outputs of classifiers to represent a class as multiple models, and estimates a localized template by averaging the outputs for each subclass. The distances between a test sample and templates are then calculated. Lastly, the test sample is assigned to the class that is most frequently represented among the k most similar templates. In this paper, C-means clustering algorithm is used as the decomposition method, and k is automatically chosen according to the intra-class compactness and inter-class separation of a given data set. Since the proposed method uses multiple models per class and refers to k models rather than matches with the most similar one, it could obtain stable and high accuracy. In this paper, experiments on UCI and ELENA database showed that the proposed method performed better than conventional fusion methods.