• Title/Summary/Keyword: Classification and regression tree

Search Result 211, Processing Time 0.021 seconds

Correlation analysis of solar radiation and meteorological parameters on high ozone concentration (태양복사 및 기상요소의 고농도 오존형성에 대한 상관성 분석)

  • An, Jae Ho
    • KIEAE Journal
    • /
    • v.12 no.6
    • /
    • pp.93-98
    • /
    • 2012
  • The concerns on high ozone concentration phenomenon is significantly growing in Seoul metropolitan area including the industry complex area, like Shiwha Banwol area. The aims of this research is the analysis of relationship between high concentrations of $O_3$ and solar radiation parameters in atmosphere. The understanding of the effects of solar radiation intensity, humidity, high air temperature on ozone concentration in a day is very useful to provide a direction for reducing of the high ozone concentration to a local government or a metropolitan government. The correlation analysis between maximum ozone concentration and various meteorological parameters in 2009 - 2011 carried out using IBM's SPSS program. The results showed that the mean correlations coefficient (R) between daily Ozone maximum and solar radiation resulted R = 0.64 during 2011. May - September in 10 air pollution stations. In case of correlations between daily ozone maximum and relative humidity showed negative correlation R = -0.61. The correlation analysis with mean air temperature during 1-3 PM resulted R = 0.29. This low correlation coefficient could be corrected by using of categorized data of ozone concentration. The daily maximum ozone concentration is more dependent on peak solar radiation and high air temperature during 1-3 PM than its simple daily maximum values. The results of this research would be used to develop the high ozone alert system around Seoul metropolitan area. This correlation analysis could be partially integrated to prediction of ozone peak concentration in connection with other methods like classification and regression tree(CART).

Text-independent Speaker Identification by Bagging VQ Classifier

  • Kyung, Youn-Jeong;Park, Bong-Dae;Lee, Hwang-Soo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.2E
    • /
    • pp.17-24
    • /
    • 2001
  • In this paper, we propose the bootstrap and aggregating (bagging) vector quantization (VQ) classifier to improve the performance of the text-independent speaker recognition system. This method generates multiple training data sets by resampling the original training data set, constructs the corresponding VQ classifiers, and then integrates the multiple VQ classifiers into a single classifier by voting. The bagging method has been proven to greatly improve the performance of unstable classifiers. Through two different experiments, this paper shows that the VQ classifier is unstable. In one of these experiments, the bias and variance of a VQ classifier are computed with a waveform database. The variance of the VQ classifier is compared with that of the classification and regression tree (CART) classifier[1]. The variance of the VQ classifier is shown to be as large as that of the CART classifier. The other experiment involves speaker recognition. The speaker recognition rates vary significantly by the minor changes in the training data set. The speaker recognition experiments involving a closed set, text-independent and speaker identification are performed with the TIMIT database to compare the performance of the bagging VQ classifier with that of the conventional VQ classifier. The bagging VQ classifier yields improved performance over the conventional VQ classifier. It also outperforms the conventional VQ classifier in small training data set problems.

  • PDF

Cloud Computing Adoption Decision-Making Modeling Using CART (CART 방법론을 사용한 클라우드 컴퓨팅 도입 의사 결정 모델링)

  • Baek, Seung Hyun;Chang, Byeong-Yun
    • Journal of the Korea Society for Simulation
    • /
    • v.23 no.4
    • /
    • pp.189-195
    • /
    • 2014
  • In this paper, we conducted a study on place-free and time-free cloud computing (CC) adoption decision-making model. Panel survey data which is collected from 65 people and CART (classification and regression tree) which is one of data mining approaches are used to construct decision-making model. In this modeling, there are 2 steps: In the first step, significant questions (variables) are selected. After that, the CART decision-making model is constructed using the selected variables. In the variable selection stage, the 25 questions are reduced to 5 ones. The benefits of question reduction are quick response from respondent and reducing model-construction time.

A Study on Generation Method of Intonation using Peak Parameter and Pitch Lookup-Table (Peak 파라미터와 피치 검색테이블을 이용한 억양 생성방식 연구)

  • Jang, Seok-Bok;Kim, Hyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.184-190
    • /
    • 1999
  • 본 논문에서는 Text-to-Speech 시스템에서 사용할 억양 모델을 위해 음성 DB에서 모델 파라미터와 피치 검색테이블(lookup-table)을 추출하여 미리 구성하고, 합성시에는 이를 추정하여 최종 F0 값을 생성하는 자료기반 접근방식(data-driven approach)을 사용한다. 어절 경계강도(break-index)는 경계강도의 특성에 따라 고정적 경계강도와 가변적 경계강도로 세분화하여 사용하였고, 예측된 경계강도를 기준으로 억양구(Intonation Phrase)와 액센트구(Accentual Phrase)를 설정하였다. 특히, 액센트구 모델은 인지적, 음향적으로 중요한 정점(peak)을 정확하게 모델링하는 것에 주안점을 두어 정점(peak)의 시간축, 주파수축 값과 이를 기준으로 한 앞뒤 기울기를 추정하여 4개의 파라미터로 설정하였고, 이 파라미터들은 CART(Classification and Regression Tree)를 이용하여 예측규칙을 만들었다. 경계음조가 나타나는 조사, 어미는 정규화된(normalized) 피치값과 key-index로 구성되는 검색테이블을 만들어 보다 정교하게 피치값을 예측하였다. 본 논문에서 제안한 억양 모델을 본 연구실에서 제작한 음성합성기를 통해 합성하여 청취실험을 거친 결과, 기존의 상용 Text-to-Speech 시스템에 비해 자연스러운 합성음을 얻을 수 있었다.

  • PDF

Ensemble Machine Learning Model Based YouTube Spam Comment Detection (앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지)

  • Jeong, Min Chul;Lee, Jihyeon;Oh, Hayoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.5
    • /
    • pp.576-583
    • /
    • 2020
  • This paper proposes a technique to determine the spam comments on YouTube, which have recently seen tremendous growth. On YouTube, the spammers appeared to promote their channels or videos in popular videos or leave comments unrelated to the video, as it is possible to monetize through advertising. YouTube is running and operating its own spam blocking system, but still has failed to block them properly and efficiently. Therefore, we examined related studies on YouTube spam comment screening and conducted classification experiments with six different machine learning techniques (Decision tree, Logistic regression, Bernoulli Naive Bayes, Random Forest, Support vector machine with linear kernel, Support vector machine with Gaussian kernel) and ensemble model combining these techniques in the comment data from popular music videos - Psy, Katy Perry, LMFAO, Eminem and Shakira.

Protecting Accounting Information Systems using Machine Learning Based Intrusion Detection

  • Biswajit Panja
    • International Journal of Computer Science & Network Security
    • /
    • v.24 no.5
    • /
    • pp.111-118
    • /
    • 2024
  • In general network-based intrusion detection system is designed to detect malicious behavior directed at a network or its resources. The key goal of this paper is to look at network data and identify whether it is normal traffic data or anomaly traffic data specifically for accounting information systems. In today's world, there are a variety of principles for detecting various forms of network-based intrusion. In this paper, we are using supervised machine learning techniques. Classification models are used to train and validate data. Using these algorithms we are training the system using a training dataset then we use this trained system to detect intrusion from the testing dataset. In our proposed method, we will detect whether the network data is normal or an anomaly. Using this method we can avoid unauthorized activity on the network and systems under that network. The Decision Tree and K-Nearest Neighbor are applied to the proposed model to classify abnormal to normal behaviors of network traffic data. In addition to that, Logistic Regression Classifier and Support Vector Classification algorithms are used in our model to support proposed concepts. Furthermore, a feature selection method is used to collect valuable information from the dataset to enhance the efficiency of the proposed approach. Random Forest machine learning algorithm is used, which assists the system to identify crucial aspects and focus on them rather than all the features them. The experimental findings revealed that the suggested method for network intrusion detection has a neglected false alarm rate, with the accuracy of the result expected to be between 95% and 100%. As a result of the high precision rate, this concept can be used to detect network data intrusion and prevent vulnerabilities on the network.

Generation of Korean Intonation using Vector Quantization (벡터 양자화를 이용한 한국어 억양 곡선 생성)

  • An, Hye-Sun;Kim, Hyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.209-212
    • /
    • 2001
  • 본 논문에서는 text-to-speech 시스템에서 사용할 억양 모델을 위해 벡터 양자화(vector quantization) 방식을 이용한다. 어절 경계강도(break index)는 세단계로 분류하였고, CART(Classification And Regression Tree)를 사용하여 어절 경계강도의 예측 규칙을 생성하였다. 예측된 어절 경계강도를 바탕으로 운율구를 예측하였으며 운율구는 다섯 개의 억양 패턴으로 분류하였다. 하나의 운율구는 정점(peak)의 시간축, 주파수축 값과 이를 기준으로 한 앞, 뒤 기울기를 추출하여 네 개의 파라미터로 단순화하였다. 운율구에 대해서 먼저 운율구가 문장의 끝일 경우와 아닐 경우로 분류하고, 억양 패턴 다섯 개로 분류하여. 모두 10개의 운율구 set으로 나누었다. 그리고 네 개의 파라미터를 가지고 있는 운율구의 억양 패턴을 벡터 양자화 방식을 이용하여 분류(clusteing)하였다 운율의 변화가 두드러지는 조사와 어미는 12 point의 기본주파수 값을 추출하고 벡터 양자화하였다. 운율구와 조사 어미의 codebook index는 문장에 대한 특징 변수 값을 추출하고 CART를 사용하여 예측하였다. 합성할 때에는 입력 tort에 대해서 운율구의 억양 파라미터를 추정한 다음, 조사와 어미의 12 point 기본주파수 값을 추정하여 전체 억양 곡선을 생성하였고 본 연구실에서 제작한 음성합성기를 통해 합성하였다.

  • PDF

지능형 IoT서비스를 위한 기계학습 기반 동작 인식 기술

  • Choe, Dae-Ung;Jo, Hyeon-Jung
    • The Proceeding of the Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.27 no.4
    • /
    • pp.19-28
    • /
    • 2016
  • 최근 RFID와 같은 무선 센싱 네트워크 기술과 객체 추적을 위한 센싱 디바이스 및 다양한 컴퓨팅 자원들이 빠르게 발전함에 따라, 기존 웹의 형태는 소셜 웹에서 유비쿼터스 컴퓨팅 웹으로 자연스럽게 진화되고 있다. 유비쿼터스 컴퓨팅 웹에서 사물인터넷(IoT)은 기존의 컴퓨터를 대체할 수 있는데, 이것은 곧 한 사람과 주변 사물들 간에 연결되는 네트워크가 확장되는 것과 동시에 네트워크 안에서 생성되는 데이터의 수가 기하급수적으로 증가되는 것을 의미한다. 따라서 보다 지능적인 IoT 서비스를 위해서는, 수많은 미가공 데이터들 사이에서 사람의 의도와 상황을 실시간으로 정확히 파악할 수 있어야 한다. 이때 사물과의 상호작용을 위한 동작 인식 기술(Gesture recognition)은 집적적인 접촉을 필요로 하지 않기 때문에, 미래의 사람-사물 간 상호작용에 응용될 수 있는 잠재력을 갖고 있다. 한편, 기계학습 분야의 최신 알고리즘들은 다양한 문제에서 사람의 인지능력을 종종 뛰어넘는 성능을 보이고 있는데, 그 중에서도 의사결정나무(Decision Tree)를 기반으로 한 Decision Forest는 분류(Classification)와 회귀(Regression)를 포함한 전 영역에 걸쳐 우월한 성능을 보이고 있다. 따라서 본 논문에서는 지능형 IoT 서비스를 위한 다양한 동작 인식 기술들을 알아보고, 동작 인식을 위한 Decision Forest의 기본 개념과 구현을 위한 학습, 테스팅에 대해 구체적으로 소개한다. 특히 대표적으로 사용되는 3가지 학습방법인 배깅(Bagging), 부스팅(Boosting) 그리고 Random Forest에 대해 소개하고, 이것들이 동작 인식을 위해 어떠한 특징을 갖는지 기존의 연구결과를 토대로 알아보았다.

Estimate Soil Moisutre Using Satelite Image and Data Mining (위성영상과 데이터 마이닝 기법을 이용한 토양수분 산정)

  • Kim, Gwang-Seob;Park, Han-Gyun;Cho, So-Hyun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2010.05a
    • /
    • pp.1615-1619
    • /
    • 2010
  • 토양수분은 토양입자에 포함되어 있는 물을 의미하는 것으로 지표면과 대기간의 에너지 균형과 물 순환을 조절하는데 중요한 요소이다. 본 연구에서는 토양수분 산정을 위하여 2003년 1월부터 2008년 12월까지의 MODIS(Moderate Resolution Imaging Spectroradiometer) 위성관측 자료로부터 획득한 정규식생지수(NDVI: Normalized Difference Vegetation Index)자료와 지표면 온도자료, 우리나라 76개소 기상관측소 중에 자료의 보유기간이 30년 이하인 관측소와 섬 지역들을 제외한 57개 지점의 강수량, 토양온도 자료 및 우리나라 전역에 대한 토지피복, 유효토심자료를 이용하여 데이터 마이닝(Data Mining) 기법의 하나인 CART(Classification And Regression Tree) 기법을 이용하여 토양수분을 산정하였다. 먼저 신뢰성 높은 토양수분 관측 자료를 가진 용담댐 유역의 6개 지점에 대하여 토양수분을 산정하여 적용 가능성을 분석하였다. 3개 지점의 토양수분 관측치는 토양수분 산정 모형 수립에 사용하였으며 검증에 사용된 1개 지점의 토양수분의 관측치와 추정치 간의 상관계수를 확인한 결과 전체적인 토양수분의 거동을 잘 나타내고 있어 토양수분 추정 모형의 적용가능성을 확인하였다. 이를 이용하여 용담댐 유역의 토양수분 분포와 우리나라 전역에 대한 토양수분 분포도를 추정하였다. 신뢰할 수 있는 지상관측 토양수분 관측치가 다양한 지상조건에 대하여 존재하지 않는 한계가 있음에도 불구하고 제시된 토양수분산정 방법은 제한된 가용자료를 사용한 우리나라 전역의 토양수분 산정에 있어 합리적인 접근법이라 판단된다.

  • PDF

A Study on Propriety of Pilot Aptitude Test Using Phased Analysis of Pilot Training (비행교육과정 단계별 분석을 통한 조종적성검사 항목 타당성 연구)

  • Kim, HeeYoung;Kim, SuHwan;Moon, HoSeok
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.26 no.3
    • /
    • pp.218-225
    • /
    • 2016
  • It is important to select the personnel with ideal pilot aptitude considering dramatically advancing aircraft performance and complexity of military operations as a consequence to the highly developed science and technology. The opportunity cost lost from dropouts and human error being the first cause of aviation accidents are the realistic reasons for the significance of personnel selection based on their aptitude. This study analyses the ROKAF pilot aptitude test that was improved in 2004, using various classification models. This study discusses the significance of the selected variables along with the direction of ROKAF pilot aptitude test for its development in the future. The accuracy of the classification models was improved by taking into account differing personnel characteristics of individuals on the test.