• 제목/요약/키워드: Domain classification

검색결과 542건 처리시간 0.029초

머신러닝을 이용한 빅데이터 도메인 자동 판별에 관한 연구 (A Study of Big Data Domain Automatic Classification Using Machine Learning)

  • 공성원;황덕열
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.11-18
    • /
    • 2018
  • 본 연구는 빅데이터 품질 진단의 핵심 요소인 도메인 기반 품질 진단을 위한 도메인 자동 판별에 관한 연구다. 빅데이터의 가치와 활용도의 증가와 4차 산업혁명의 대두로, 법률, 의료, 금융 등 IT와 융합된 다양한 분야에서 빅데이터를 활용하여 새로운 가치를 창출하려는 노력을 진행중이다. 하지만, 신뢰도가 낮은 데이터에 기반한 분석은 과정과 결과 모두에서 치명적인 문제를 발생하며, 분석 결과에 따른 판단 또한 신뢰하기 어려워 진다. 이처럼 신뢰도가 높은 데이터의 필요성 또한 증가하였지만, 데이터의 품질 확보에 대한 연구와 그에 대한 결과는 미비하다. 본 연구는 데이터 품질 향상을 위한 진단 평가의 핵심적 요소인 도메인 기반 품질 진단에서, 수작업으로 진행되었던 도메인 판별 작업을 머신러닝을 이용하여 자동화 함으로써, 작업시간을 단축하는 것을 목표로 한다. 데이터 베이스에 저장된, 도메인이 판별되어 있는 데이터의 특성에 관한 정보들을 추출하여 변수화하고, 이를 머신러닝을 이용하여 도메인 판별을 자동화 한다. 이를 빅데이터 품질 진단에 활용하고, 품질 향상에 기여하도록 한다.

DNS 트래픽 기반의 사이버 위협 도메인 탐지 (Detecting Cyber Threats Domains Based on DNS Traffic)

  • 임선희;김종현;이병길
    • 한국통신학회논문지
    • /
    • 제37B권11호
    • /
    • pp.1082-1089
    • /
    • 2012
  • 최근 사이버 공간에서는 대규모 사이버 공격들을 위해 봇넷(Botnet)을 형성하여 자산 손실과 같은 경제적 위협뿐만 아니라 Stuxnet과 같은 국가적으로 위협이 되고 있다. 진화된 봇넷은 DNS(Domain Name System)를 악용하여 C&C 서버와 좀비간의 통신 수단으로 사용하고 있다. DNS는 인터넷에서의 주요 인프라이고, 무선 인터넷의 대중화로 지속적으로 DNS 트래픽이 증가되고 있다. 반면에, 도메인 주소를 이용한 공격들도 증가되고 있는 현실이다. 본 논문에서는 지도 학습 기반의 데이터 분류 기술을 이용한 DNS 트래픽 기반의 사이버 위협 도메인 탐지 기술에 대해 연구한다. 더불어, 개발된 DNS 트래픽을 이용한 사이버위협 도메인 탐지 시스템은 대용량의 DNS데이터를 수집, 분석, 정상/비정상 도메인 분류 기능을 제공한다.

기계학습을 이용한 한국어 대화시스템 도메인 분류 (Machine Learning Based Domain Classification for Korean Dialog System)

  • 정영섭
    • 융합정보논문지
    • /
    • 제9권8호
    • /
    • pp.1-8
    • /
    • 2019
  • 대화시스템은 인간과 컴퓨터의 상호작용에 새로운 패러다임이 되고 있다. 자연어로써 상호작용함으로써 인간은 보다 자연스럽고 편리하게 각종 서비스를 누릴 수 있게 되었다. 대화시스템의 구조는 일반적으로 음성 인식, 자연어 이해, 문맥 파악 등의 여러 모듈의 파이프라인으로 이뤄지는데, 본 연구에서는 자연어 이해 모듈의 도메인 분류 문제를 풀기 위해 convolutional neural network, random forest 등의 기계학습 모델을 비교하였다. 사람이 직접 태깅한 총 7개 서비스 도메인 데이터에 대하여 각 문장의 도메인을 분류하는 실험을 수행하였고 random forest 모델이 F1 score 0.97 이상으로 가장 높은 성능을 달성한 것을 보였다. 향후 다른 기계학습 모델들을 추가 실험함으로써 도메인 분류 성능 개선을 지속할 계획이다.

블록 분류를 이용한 명함 영상에서의 블러링 판단 (Decision on Blurring for Business Card Images Using Block Classification)

  • 김종흔;장익훈;김남철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1707-1710
    • /
    • 2003
  • In this paper, we propose a method of decision on blurring for business card images using block classification. In the proposed method, an input image is partitioned into 8${\times}$8 blocks and each block is classified into character block or background block using a block energy calculated in DCT domain. Whether the input image is blurring or non-blurring is determined using a ratio of low frequency energy and high frequency energy in DCT domain. Experimental results show that the proposed block classification classifies block well and the proposed decision on blurring decides well for various business card images.

  • PDF

웨이블릿에 기반한 시그널 형태를 지닌 대형 자료의 feature 추출 방법 (A Wavelet based Feature Selection Method to Improve Classification of Large Signal-type Data)

  • 장우성;장우진
    • 대한산업공학회지
    • /
    • 제32권2호
    • /
    • pp.133-140
    • /
    • 2006
  • Large signal type data sets are difficult to classify, especially if the data sets are non-stationary. In this paper, large signal type and non-stationary data sets are wavelet transformed so that distinct features of the data are extracted in wavelet domain rather than time domain. For the classification of the data, a few wavelet coefficients representing class properties are employed for statistical classification methods : Linear Discriminant Analysis, Quadratic Discriminant Analysis, Neural Network etc. The application of our wavelet-based feature selection method to a mass spectrometry data set for ovarian cancer diagnosis resulted in 100% classification accuracy.

계층구조적 분류모델을 이용한 심전도에서의 비정상 비트 검출 (Detection of Abnormal Heartbeat using Hierarchical Qassification in ECG)

  • 이도훈;조백환;박관수;송수화;이종실;지영준;김인영;김선일
    • 대한의용생체공학회:의공학회지
    • /
    • 제29권6호
    • /
    • pp.466-476
    • /
    • 2008
  • The more people use ambulatory electrocardiogram(ECG) for arrhythmia detection, the more researchers report the automatic classification algorithms. Most of the previous studies don't consider the un-balanced data distribution. Even in patients, there are much more normal beats than abnormal beats among the data from 24 hours. To solve this problem, the hierarchical classification using 21 features was adopted for arrhythmia abnormal beat detection. The features include R-R intervals and data to describe the morphology of the wave. To validate the algorithm, 44 non-pacemaker recordings from physionet were used. The hierarchical classification model with 2 stages on domain knowledge was constructed. Using our suggested method, we could improve the performance in abnormal beat classification from the conventional multi-class classification method. In conclusion, the domain knowledge based hierarchical classification is useful to the ECG beat classification with unbalanced data distribution.

A Prior Model of Structural SVMs for Domain Adaptation

  • Lee, Chang-Ki;Jang, Myung-Gil
    • ETRI Journal
    • /
    • 제33권5호
    • /
    • pp.712-719
    • /
    • 2011
  • In this paper, we study the problem of domain adaptation for structural support vector machines (SVMs). We consider a number of domain adaptation approaches for structural SVMs and evaluate them on named entity recognition, part-of-speech tagging, and sentiment classification problems. Finally, we show that a prior model for structural SVMs outperforms other domain adaptation approaches in most cases. Moreover, the training time for this prior model is reduced compared to other domain adaptation methods with improvements in performance.

Grouping the Range Blocks Depending on the Variance Coherence

  • Lee, Yun-Jung;Kim, Young-Bong
    • 한국멀티미디어학회논문지
    • /
    • 제7권12호
    • /
    • pp.1665-1670
    • /
    • 2004
  • The general fractal image compression provides a high compression rate, but it requires a large encoding time. In order to overcome this disadvantage, many researchers have introduced various methods that reduce the total number of domain blocks considering their block similarities or control the number of searching domain block depending on its distribution. In this paper, we propose a method that can reduce the number of searching domain blocks employing the variance coherence of intensity values and also the number of range blocks requiring the domain block search through the classification of range blocks. This proposed method effectively reduces the encoding time and also a negligible drop of the quality as compared with the previous methods requiring the search of all range blocks.

  • PDF

문화예술교육 패싯 분류체계 설계에 대한 연구 (A Study of Facet Classification System Development for Arts and Cultural Education)

  • 박옥남;오삼균;김세영
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.197-219
    • /
    • 2009
  • 본 연구에서는 문화예술교육 분야 분류체계의 필요성을 인식하고 패싯 기반의 분류 시스템을 설계하게 되었다. 본 연구는 체계적인 방법론을 적용하여 분류시스템을 구축하였고, 국내외 도메인 전문가와 분류전문가가 협력을 통해 분류시스템을 향상시켜 그 결과 13개의 메인 패싯과 다양한 하위 용어를 추출하였다. 본 연구에서 설계된 분류시스템의 목적은 문화예술교육의 다양한 자원을 보다 체계적이고 효율적으로 관리 이용할 수 있는 기반을 마련하는데 있으며 이는 나아가 문화예술교육 분야의 개념에 대한 문화적 격차를 해소시키는데 사용되기를 바란다.

Classification of Emotional States of Interest and Neutral Using Features from Pulse Wave Signal

  • Phongsuphap, Sukanya;Sopharak, Akara
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.682-685
    • /
    • 2004
  • This paper investigated a method for classifying emotional states by using pulse wave signal. It focused on finding effective features for emotional state classification. The emptional states considered here consisted of interest and neutral. Classification experiments utilized 65 and 60 samples of interest and neutral states respectively. We have investigated 19 features derived from pulse wave signals by using both time domain and frequency domain analysis methods with 2 classifiers of minimum distance (normalized Euclidean distanece) and ${\kappa}$-Nearest Neighbour. The Leave-one-out cross validation was used as an evaluation mehtod. Based on experimental results, the most efficient features were a combination of 4 features consisting of (i) the mean of the first differences of the smoothed pulse rate time series signal, (ii) the mean of absolute values of the second differences of thel normalized interbeat intervals, (iii) the root mean square successive difference, and (iv) the power in high frequency range in normalized unit, which provided 80.8% average accuracy with ${\kappa}$-Nearest Neighbour classifier.

  • PDF