• 제목/요약/키워드: One-Hot Encoding

검색결과 21건 처리시간 0.028초

Catboost 알고리즘을 통한 교통흐름 예측에 관한 연구 (A Study on the traffic flow prediction through Catboost algorithm)

  • 전민종;최혜진;박지웅;최하영;이동희;이욱
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.58-64
    • /
    • 2021
  • 자동차 등록대수와 비례하여 증가하는 교통 혼잡은 도시의 사회경제 발전의 저해 요소로 작용하고 있다. 본 논문은 VDS(Vehicle Detection System)을 통한 데이터를 입력 변수로 사용한다. 본 연구의 목적은 교통 흐름을 단순히 2단계(원할, 정체)가 아닌 5단계(원할, 다소 지체, 지체, 다소 정체, 정체)로 더 정교하게 예측하고, 이 예측에서 가장 정확도가 높은 모델인 Catboost 모델과 다른 모델들을 비교하는 것이다. 이를 위해 본 논문에서는 머신러닝 알고리즘인 Catboost 모델을 통해 5가지 단계를 예측하고 정확도를 다른 머신러닝 알고리즘들과 비교, 분석한다. 또한, 하이퍼 파라미터(Hyper Parameter) 튜닝 및 원-핫 인코딩(One-Hot Encoding) 전처리를 거치지 않은 Catboost 모델과 랜덤 선택(RandomizedSearchcv)을 통해 튜닝 및 데이터 전처리를 거친 모델을 비교, 분석한다. 분석 결과 하이퍼 파라미터 튜닝을 하지 않은 초기 Catboost 모델이 정확도 93%를 보이며 가장 높은 정확도를 기록하였다. 따라서 본 연구는 두가지 의의를 가진다. 첫번째로, 초기 세팅된 파라미터들이 적용된 Catboost 모델이 다수의 범주형 변수를 포함하는 교통 흐름 예측에서 다른 머신러닝, 딥러닝 모델들보다 성능이 높다는 결론을 도출했다는 점에서 의의가 있다. 두번째로, 기존 2단계로 예측하던 교통 흐름을 5단계로 예측함으로써 더욱 정교한 교통 흐름 예측 모델을 제안한다는 점에서 의의를 가진다.

Ensemble of Degraded Artificial Intelligence Modules Against Adversarial Attacks on Neural Networks

  • Sutanto, Richard Evan;Lee, Sukho
    • Journal of information and communication convergence engineering
    • /
    • 제16권3호
    • /
    • pp.148-152
    • /
    • 2018
  • Adversarial attacks on artificial intelligence (AI) systems use adversarial examples to achieve the attack objective. Adversarial examples consist of slightly changed test data, causing AI systems to make false decisions on these examples. When used as a tool for attacking AI systems, this can lead to disastrous results. In this paper, we propose an ensemble of degraded convolutional neural network (CNN) modules, which is more robust to adversarial attacks than conventional CNNs. Each module is trained on degraded images. During testing, images are degraded using various degradation methods, and a final decision is made utilizing a one-hot encoding vector that is obtained by summing up all the output vectors of the modules. Experimental results show that the proposed ensemble network is more resilient to adversarial attacks than conventional networks, while the accuracies for normal images are similar.

항공사 기단의 상태변화 시각화에 관한 연구 (A Study on the Visualization of an Airline's Fleet State Variation)

  • 이용화;이주환;이금진
    • 한국항공운항학회지
    • /
    • 제29권2호
    • /
    • pp.84-93
    • /
    • 2021
  • Airline schedule is the most basic data for flight operations and has significant importance to an airline's management. It is crucial to know the airline's current schedule status in order to effectively manage the company and to be prepared for abnormal situations. In this study, machine learning techniques were applied to actual schedule data to examine the possibility of whether the airline's fleet state could be artificially learned without prior information. Given that the schedule is in categorical form, One Hot Encoding was applied and t-SNE was used to reduce the dimension of the data and visualize them to gain insights into the airline's overall fleet status. Interesting results were discovered from the experiments where the initial findings are expected to contribute to the fields of airline schedule health monitoring, anomaly detection, and disruption management.

Isolation and Characterization of Pathogen-Inducible Putative Zinc Finger DNA Binding Protein from Hot Pepper Capsicum annuum L.

  • Oh, Sang-Keun;Park, Jeong-Mee;Jung, Young-Hee;Lee, Sanghyeob;Kim, Soo-Yong;Eunsook Chung;Yi, So-Young;Kim, Young-Cheol;Seung, Eun-Soo
    • 한국식물병리학회:학술대회논문집
    • /
    • 한국식물병리학회 2003년도 정기총회 및 추계학술발표회
    • /
    • pp.79.2-80
    • /
    • 2003
  • To better understand plant defense responses against pathogen attack, we identified the transcription factor-encoding genes in the hot pepper Capsicum annuum that show altered expression patterns during the hypersensitive response raised by challenge with bacterial pathogens. One of these genes, Ca1244, was characterized further. This gene encodes a plant-specific Type IIIA - zinc finger protein that contains two Cys$_2$His$_2$zinc fingers. Ca1244 expression is rapidly and specifically induced when pepper plants are challenged with bacterial pathogens to which they are resistant. In contrast, challenge with a pathogen to which the plants are susceptible only generates weak Ca1244 expression. Ca1244 expression is also strongly induced in pepper leaves by the exogenous application of ethephon, an ethylene releasing compound. Whereas, salicylic acid and methyl jasmonate had moderate effects. Pepper protoplasts expressing a Ca1244-smGFP fusion protein showed Ca1244 localizes in the nucleus. Transgenic tobacco plants overexpressing Ca1244 driven by the CaMV 355 promoter show increased resistance to challenge with a tobacco-specific bacterial pathogen. These plants also showed constitutive upregulation of the expression of multiple defense-related genes. These observations provide the first evidence that an Type IIIA - zinc finger protein, Ca1244, plays a crucial role in the activation of the pathogen defense response in plants.

  • PDF

Correcting Misclassified Image Features with Convolutional Coding

  • 문예지;김나영;이지은;강제원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.11-14
    • /
    • 2018
  • The aim of this study is to rectify the misclassified image features and enhance the performance of image classification tasks by incorporating a channel- coding technique, widely used in telecommunication. Specifically, the proposed algorithm employs the error - correcting mechanism of convolutional coding combined with the convolutional neural networks (CNNs) that are the state - of- the- arts image classifier s. We develop an encoder and a decoder to employ the error - correcting capability of the convolutional coding. In the encoder, the label values of the image data are converted to convolutional codes that are used as target outputs of the CNN, and the network is trained to minimize the Euclidean distance between the target output codes and the actual output codes. In order to correct misclassified features, the outputs of the network are decoded through the trellis structure with Viterbi algorithm before determining the final prediction. This paper demonstrates that the proposed architecture advances the performance of the neural networks compared to the traditional one- hot encoding method.

  • PDF

효과적인 딥러닝 기반 비프로파일링 부채널 분석 모델 설계방안 (Design of an Effective Deep Learning-Based Non-Profiling Side-Channel Analysis Model)

  • 한재승;심보연;임한섭;김주환;한동국
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1291-1300
    • /
    • 2020
  • 최근 딥러닝 기반 비프로파일링 부채널 분석이 제안됐다. 딥러닝 기반 비프로파일링 분석은 신경망 모델을 모든 추측키에 대해 학습시킨 뒤, 학습된 정도의 차이를 통해 올바른 비밀키를 찾아내는 기법이다. 이때, 신경망 학습모델 설계에 따라 비프로파일링 분석성능이 크게 달라지기 때문에 올바른 모델 설계의 기준이 필요하다. 본 논문은 학습모델 설계에 사용 가능한 2가지 loss 함수와 8가지 label 기법을 설명하고, 비프로파일링 분석과 소비전력모델 관점에서 각 label 기법의 분석성능을 예측했다. 해밍웨이트 소비전력모델을 가정했을 때의 비프로파일링 분석 특징을 고려해서 One-hot 인코딩을 적용하지 않은 HW(Hamming Weight) label과 CO(Correlation Optimization) loss를 적용한 학습모델이 가장 좋은 분석성능을 가질 것으로 예측했다. 그리고 AES-128 1라운드 Subbytes 연산 부분 데이터 집합 3가지에 대해 실제 분석을 수행했다. 제시한 각 label 기법과 loss 함수를 적용한 총 16가지 MLP(Multi-Layer Perceptron)기반 학습모델로 두 데이터 집합을 비프로파일링 분석하여 예측에 대해 검증했다.

머신러닝 기법을 활용한 수입 수산물 통관검사결과 분류 모델 (A Classification Model for Customs Clearance Inspection Results of Imported Aquatic Products Using Machine Learning Techniques)

  • 엄지성;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.157-165
    • /
    • 2023
  • 수산물은 많은 국가의 주요한 단백질 공급원이며 소비가 증가하고 있다. 우리나라도 수산물 소비는 증가하는 반면 자급률은 낮아지고 있으며, 수산물의 수입량이 증가함에 따라 안전관리의 중요성이 높아지고 있다. 국내로 수입되는 수산물은 110여 개 국가로부터 수백 종에 이르며, 수입 수산물의 안전관리를 검사관의 경험에만 의존하는 것은 한계가 있다. 데이터를 기반으로 수입 수산물 통관검사 결과를 예측할 수 있는 모델을 개발하여 수입신고서가 제출되었을 때 수산물의 부적합 가능성을 판단하는 머신러닝 분류 모델을 생성한다. 수입수산물 통관검사 결과 부적합율은 1% 미만으로 매우 낮은 불균형 데이터이므로 이러한 특성을 보완할 수 있는 샘플링 방법을 비교 연구하였고, 분류결과를 해석할 수 있는 전처리 방법을 적용하였다. 여러 가지 머신러닝 기반의 분류모델 중에서 랜덤포레스트와 XGBoost가 좋은 성능을 보였다. 통관검사 결과 적합과 부적합을 모두 잘 예측하는 모델은 ADASYN과 원-핫 인코딩을 적용한 랜덤포레스트 기본 모델이며 정확도 99.88%, 정밀도 99.87%, 재현율 99.89%, AUC 99.88%이다. XGBoost는 오버샘플링과 인코딩 종류에 상관없이 모든 지표가 90%를 넘겨 가장 안정적인 모델이다.

불완전한 데이터를 위한 딥러닝 모델 (Deep Learning Model for Incomplete Data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.1-6
    • /
    • 2019
  • 제안 모델은 소실 데이터를 포함하는 불완전한 데이터에서 정보의 손실을 최소화할 수 있도록 개발되었다. 이를 위한 과정은 우선 데이터 확장기법을 이용하여 손실 정보를 보상하도록 학습 데이터를 변환한다. 이 변환 과정에서 데이터의 속성값은 원-핫 인코딩으로 이진 또는 확률값으로 채워진다. 다음 이 변환 데이터는 딥러닝 모델에 입력되는데, 이때 각 속성의 카디너리티에 따라 엔트리 수가 일정하지 않게 된다. 그리고 각 속성의 엔트리 값들을 각각의 입력 노드에 할당하고 학습을 진행한다. 이점이 기존 학습 모델과의 차이점으로, 임의의 속성값이 입력층에서 여러 개의 노드로 분산되는 특이한 구조를 가진다. 제안 모델의 학습 성능을 평가하기 위해, 소실 데이터를 대상으로 다양한 실험을 수행하여 성능 면에서 우수함을 보인다. 제안 모델은 유비쿼터스 환경에서 손실을 최소화하기 위한 알고리즘으로 유용하게 사용될 것으로 본다.

토양에 살포된 축산 분뇨로부터 암모니아 방출량 예측을 위한 인공신경망의 초매개변수 최적화와 데이터 증식 (Hyperparameter Optimization and Data Augmentation of Artificial Neural Networks for Prediction of Ammonia Emission Amount from Field-applied Manure)

  • 정평곤;임영일
    • Korean Chemical Engineering Research
    • /
    • 제61권1호
    • /
    • pp.123-141
    • /
    • 2023
  • 인공신경망을 이용한 모델 개발에서 데이터의 품질은 모델 성능에 큰 영향을 주고, 양질의 충분한 데이터가 인공신경망 훈련을 위해 필요하다. 하지만, 공학 분야에서는 적은 양의 데이터로 모델을 개발해야 하는 경우가 자주 발생한다. 본 논문은 토양에 살포된 축산 분뇨로부터 암모니아 방출량에 대한 적은 수의 데이터(83 개)를 사용하여 인공신경망 모델의 예측 성능을 향상할 수 있는 방안을 제시하였다. Michaelis-Menten 식으로 표현되는 암모니아 방출량 문제는 11개 입력변수에 대하여 2개 출력변수로 구성되었다. 출력변수는 최대 질소 발생량(Nmax, kg/ha)과 Nmax의 절반에 도달하는 시간(Km, h) 이다. 범주형 입력변수에 대해 다차원 등간격 기법인 one-hot encoding 을 이용하여 데이터 전처리를 수행하였고, 훈련데이터 66개에 대하여 generative adversarial network (GAN)을 이용하여 13개 데이터를 추가로 보강하였다. 또한, 인공신경망의 초매개변수인 은닉층 수, 각 은닉층 내 뉴런 수, 활성화 함수의 최적 조합을 찾기 위하여 Gaussian process (GP)를 사용하였다. 기존의 인공신경망 구조(Lim et al., 2007) 는 17개 평가데이터에 대하여 mean absolute error (MAE)는 Km에서 0.0668, Nmax에서 0.1860이었다. 본 연구에서 제시된 인공신경망 모델은 Km에서 0.0414, Nmax에서 0.0818로 MAE 가 기존 모델 대비 각각 38%, 56% 감소하였다. 본 연구에서 제시된 방법은 적은 양의 데이터를 갖는 문제에서 인공신경망 성능을 향상하기 위하여 활용할 수 있을 것이다.

딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조 개발 (Development of deep learning structure for complex microbial incubator applying deep learning prediction result information)

  • 김홍직;이원복;이승호
    • 전기전자학회논문지
    • /
    • 제27권1호
    • /
    • pp.116-121
    • /
    • 2023
  • 본 논문에서는 딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조를 개발한다. 제안하는 복합 미생물 배양기는 수집한 복합 미생물 데이터에 대해 복합 미생물 데이터 전처리, 복합 미생물 데이터 구조 변환, 딥러닝 네트워크 설계, 설계한 딥러닝 네트워크 학습, 시제품에 적용되는 GUI 개발 등으로 구성된다. 복합 미생물 데이터 전처리에서는 미생물 배양에 필요한 당밀, 영양제, 식물엑기스, 소금 등의 양에 대해 원-핫 인코딩을 실시하며, 배양된 결과로 측정된 pH 농도와 미생물의 셀 수에 대해 최대-최소 정규화 방법을 사용하여 데이터를 전처리한다. 복합 미생물 데이터 구조 변환에서는 전처리된 데이터를 물 온도와 미생물의 셀 수를 연결하여 그래프 구조로 변환 후, 인접 행렬과 속성 정보로 나타내어 딥러닝 네트워크의 입력 데이터로 사용한다. 딥러닝 네트워크 설계에서는 그래프 구조에 특화된 그래프 합성곱 네트워크를 설계하여 복합 미생물 데이터를 학습시킨다. 설계한 딥러닝 네트워크는 Cosine 손실함수를 사용하여 학습 시에 발생하는 오차를 최소화하는 방향으로 학습을 진행한다. 시제품에 적용되는 GUI 개발은 사용자가 선택하는 물 온도에 따라 목표하는 pH 농도(3.8 이하) 복합 미생물의 셀 수(108 이상)를 배양시키기 적합한 순으로 나타낸다. 제안된 미생물 배양기의 성능을 평가하기 위하여 공인시험기관에서 실험한 결과는, pH 농도의 경우 평균 3.7로, 복합 미생물의 셀 수는 1.7 × 108으로 측정되었다. 따라서, 본 논문에서 제안한 딥러닝 예측 결과 정보를 적용하는 복합 미생물 배양기를 위한 딥러닝 구조의 효용성이 입증되었다.