• 제목/요약/키워드: One-hot Encoding

검색결과 21건 처리시간 0.018초

Performance Comparison According to Image Generation Method in NIDS (Network Intrusion Detection System) using CNN

  • Sang Hyun, Kim
    • International journal of advanced smart convergence
    • /
    • 제12권2호
    • /
    • pp.67-75
    • /
    • 2023
  • Recently, many studies have been conducted on ways to utilize AI technology in NIDS (Network Intrusion Detection System). In particular, CNN-based NIDS generally shows excellent performance. CNN is basically a method of using correlation between pixels existing in an image. Therefore, the method of generating an image is very important in CNN. In this paper, the performance comparison of CNN-based NIDS according to the image generation method was performed. The image generation methods used in the experiment are a direct conversion method and a one-hot encoding based method. As a result of the experiment, the performance of NIDS was different depending on the image generation method. In particular, it was confirmed that the method combining the direct conversion method and the one-hot encoding based method proposed in this paper showed the best performance.

음표 임베딩과 마디 임베딩을 이용한 곡의 생성 및 정량적 평가 방법 (Creating Songs Using Note Embedding and Bar Embedding and Quantitatively Evaluating Methods)

  • 이영배;정성훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.483-490
    • /
    • 2021
  • 인공신경망을 이용해서 기존 곡을 학습시키고 새로운 곡을 생성하기 위해서는 전처리 과정으로 곡을 신경망이 인식할 수 있는 숫자로 변환해야 하며, 지금까지는 원-핫 인코딩이 사용되어 왔다. 본 논문에서는 음표 임베딩과 마디 임베딩을 제안하고 기존의 원-핫 인코딩과 성능을 비교하였다. 성능비교는 어떤 방식이 작곡가가 작곡한 곡과 유사한 곡을 생성하는지를 정량적 평가에 근거해서 수행하였으며, 평가방법으로는 자연어 처리 분야에서 사용되는 정량적 평가 방법들을 이용하였다. 평가결과 마디 임베딩으로 생성한 곡이 가장 좋았으며 그 다음으로 음표 임베딩이 좋았다. 이는 본 논문에서 제안한 음표 임베딩과 마디 임베딩이 원-핫 인코딩보다 작곡가가 작곡한 곡과 유사한 곡을 생성한 것으로서 의의가 있다.

원-핫 인코딩을 이용한 딥러닝 단기 전력수요 예측모델 (Deep Learning Based Short-Term Electric Load Forecasting Models using One-Hot Encoding)

  • 김광호;장병훈;최황규
    • 전기전자학회논문지
    • /
    • 제23권3호
    • /
    • pp.852-857
    • /
    • 2019
  • 분산자원 집합 거래시장에 참여를 원하는 소비자나 사업자를 위한 가상발전소의 전력거래 플랫폼에서 사업참여자의 수요 자원을 관리하고, 이에 적절한 전략을 제공하기 위해 익일 개별 참여자의 수요와 전체 계통의 전력수요를 예측하는 것이 대단히 중요하다. 이러한 전력거래 플랫폼에서 활용하는 것을 목표로 본 논문은 우선 익일의 24시간 전력계통 전력수요예측 모델을 개발하였다. 본 논문에서는 전력수요예측 데이터의 시계열 특성을 고려하여 딥러닝 기법 중 LSTM 알고리즘을 사용하였고, 전력수요량 등의 입출력 값에 원-핫 인코딩 기법을 적용하는 새로운 시도를 하였다. 성능평가에서 일반 DNN과 본 논문에서 구현된 LSTM 예측모델은 각각 평균 제곱근 오차 4.50, 1.89를 나타내어 LSTM 모델이 예측정확도가 높게 나타났다.

오토인코더 기반 수치형 학습데이터의 자동 증강 기법 (Automatic Augmentation Technique of an Autoencoder-based Numerical Training Data)

  • 정주은;김한준;전종훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.75-86
    • /
    • 2022
  • 본 연구는 딥러닝 기반 변분 오토인코더(Variational Autoencoder)를 활용하여 수치형 학습데이터 내 클래스 불균형 문제를 해결하고, 학습데이터를 증강하여 학습모델의 성능을 향상시키고자 한다. 우리는 주어진 테이블 데이터에 대하여 인위적으로 레코드 개수를 늘리기 위해 'D-VAE'을 제안한다. 제안 기법은 최적의 데이터 증강을 지원하기 위해 우선 이산화와 특징선택을 수반한 전처리 과정을 수행한다. 이산화 과정에서 k-means 클러스터링을 적용하여 그룹화한 후, 주어진 데이터가 원-핫 인코딩(one-hot encoding) 기법으로 원-핫 벡터(one-hot vector)로 변환한다. 이후, 특징 선택 기법 중 RFECV 기법을 활용하여 예측에 도움이 되는 변수를 가려내고, 이에 대해서만 변분 오토인코더를 활용하여 새로운 학습데이터를 생성한다. 제안 기법의 성능을 검증하기 위해 4가지 유형의 실험 데이터를 활용하여 데이터 증강 비율별로 그 유효성을 입증한다.

EEG Report의 의무기록 유형 분류를 위한 딥러닝 기반 모델 (Deep Learning-Based Model for Classification of Medical Record Types in EEG Report)

  • 오경수;강민;강석환;이영호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권5호
    • /
    • pp.203-210
    • /
    • 2022
  • 보건의료 데이터를 사용하는 연구 및 기업이 늘어나며 세계적으로 보건의료 데이터 활성화를 위한 노력을 진행 중이다. 하지만 기관에 따라 사용하는 시스템과 서식이 다르다. 이에 본 연구는 EEG Report의 의무기록 유형을 분류하는 기저 모델 구축을 통해 향후 다기관의 텍스트 데이터를 유형에 따라 분류하는 기저 모델을 구축하였다. EEG Report 분류를 위해 4가지의 딥러닝 기반 알고리즘에 대해 비교하였다. 실험 결과 One-Hot Encoding으로 벡터화하여 학습한 ANN 모델이 71%의 정확도로 가장 높은 성능을 보였다.

Could Decimal-binary Vector be a Representative of DNA Sequence for Classification?

  • Sanjaya, Prima;Kang, Dae-Ki
    • International journal of advanced smart convergence
    • /
    • 제5권3호
    • /
    • pp.8-15
    • /
    • 2016
  • In recent years, one of deep learning models called Deep Belief Network (DBN) which formed by stacking restricted Boltzman machine in a greedy fashion has beed widely used for classification and recognition. With an ability to extracting features of high-level abstraction and deal with higher dimensional data structure, this model has ouperformed outstanding result on image and speech recognition. In this research, we assess the applicability of deep learning in dna classification level. Since the training phase of DBN is costly expensive, specially if deals with DNA sequence with thousand of variables, we introduce a new encoding method, using decimal-binary vector to represent the sequence as input to the model, thereafter compare with one-hot-vector encoding in two datasets. We evaluated our proposed model with different contrastive algorithms which achieved significant improvement for the training speed with comparable classification result. This result has shown a potential of using decimal-binary vector on DBN for DNA sequence to solve other sequence problem in bioinformatics.

딥러닝을 이용한 소외계층 아동의 스포츠 재활치료를 통한 정신 건강에 대한 변화 (Variation for Mental Health of Children of Marginalized Classes through Exercise Therapy using Deep Learning)

  • 김명미
    • 한국전자통신학회논문지
    • /
    • 제15권4호
    • /
    • pp.725-732
    • /
    • 2020
  • 본 논문은 소외계층 아동의 운동학습프로그램에서 체력 활동 중 나를 잘 따른다(0-9), 마음의 결정을 내리는데 많은 시간이 걸린다(0-9), 맥빠진(0-9) 등을 변수로 사용하여 '성별', '체육교실', 나이의 '상중하'를 분류하고 스포츠 재활치료를 통한 자아 탄력(ego-resiliency)과 자아 통제(self-control)의 변화를 관찰하여 정신 건강 변화를 알아본다. 이를 위해 취득한 데이터를 병합하고 Label encoder와 One-hot encoding을 사용하여 숫자의 크고 작음의 특성을 제거한 후 MLP, SVM, Dicesion tree, RNN, LSTM의 각각의 알고리즘을 적용하여 성능을 평가하기 위해 Train, Test 데이터를 75%, 25% 스플릿 한 뒤 Train 데이터로 알고리즘을 학습하고 Test 데이터로 알고리즘의 정확성을 측정한다. 측정 결과 성별에서는 LSTM, 체육 교실은 MLP와 LSTM, 나이는 SVM이 가장 우수한 결과를 보임을 확인하였다.

단어-역문서 빈도 벡터화를 통한 한국 걸그룹의 음반 메타 정보 군집화 (Clustering Meta Information of K-Pop Girl Groups Using Term Frequency-inverse Document Frequency Vectorization)

  • 현준서;조재혁
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.12-23
    • /
    • 2023
  • 2020 년대 K-Pop 시장은 보이그룹보다 걸그룹이, 3 세대보다 4 세대가 전반에서 주목받았다. 해당 논문은 걸그룹의 세대가 바뀌기 시작했는지 알아보고자 가사 군집화에 대한 방법과 결과를 제시한다. 2013 년부터 2022 년까지 발표된 47 개 그룹의 1469 곡에 대한 메타정보를 수집하여 가사 정보와 가사 외 메타정보로 분류하여 각각 수치화했다. 가사 정보는 선행연구를 기반으로 단어역문서 빈도 벡터화를 적용한 뒤 상위 벡터 값만 선정하는 전처리를 하였다. 가사 외 메타정보는 가사 정보만 사용했을 때의 편향성을 줄이고 더 좋은 군집화 결과를 보여주기 위해 One-Hot Encoding 으로 전처리하여 적용했다. 전처리된 데이터에 대한 군집화 성능은 Spherical K-Means 의 Silhouette Coefficient, Calinski-Harabasz Score 가 Hierarchical Clustering 에 비해 각각 129%, 45% 더 높았다. 본 연구는 한국 대중가요 발전사와 걸그룹 가사 분석 및 군집화 연구에 기여할 수 있을 것으로 기대된다.

  • PDF

Identification of a host range determinant from Ralstonia solancearum race 3

  • Yeonhwa Jeong;Lee, Seungdon;Ingyu Hwang
    • 한국식물병리학회:학술대회논문집
    • /
    • 한국식물병리학회 2003년도 정기총회 및 추계학술발표회
    • /
    • pp.71.2-71
    • /
    • 2003
  • Ralstonia solancearum infects many solanaceous plants, however race 3 infects only potato and tomato weakly. To identify genes responsible for race specificity of R. solanacearum, we mobilized genomic library of LSD2029 (race 3) into LSD341 (race 1) and inoculated 1,000 transconjugants into hot pepper. One transconjugant that did not induce wilt symptom in hot pepper was isolated. We found that a cosmid clone, pRSl, conferred avirulence to LSD341. By deletion and mutational analyses of pRSl, we found the 0.9-kb PstI/Hindlll fragment carries avirulence functions. We sequenced the fragment and identified one possible open reading frame, a rsal gene, possibly encoding 110 amino acids. The rsal was preceded with a plant-inducible promoter (PIP) box, indicating that the gene might be regulated by HrpB. Interestingly, the promoter region of the rsal homolog in the strain GM11000 (race 1) did not have the PIP box. Rsal did not show any significant homologies with proteins in the database, indicating th e protein is different from the previously reported avirulence proteins. When we mutated the rsal gene by marker-exchange in LSD2029, the mutant was less virulent in potato.

  • PDF

Feature Selection with Ensemble Learning for Prostate Cancer Prediction from Gene Expression

  • Abass, Yusuf Aleshinloye;Adeshina, Steve A.
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12spc호
    • /
    • pp.526-538
    • /
    • 2021
  • Machine and deep learning-based models are emerging techniques that are being used to address prediction problems in biomedical data analysis. DNA sequence prediction is a critical problem that has attracted a great deal of attention in the biomedical domain. Machine and deep learning-based models have been shown to provide more accurate results when compared to conventional regression-based models. The prediction of the gene sequence that leads to cancerous diseases, such as prostate cancer, is crucial. Identifying the most important features in a gene sequence is a challenging task. Extracting the components of the gene sequence that can provide an insight into the types of mutation in the gene is of great importance as it will lead to effective drug design and the promotion of the new concept of personalised medicine. In this work, we extracted the exons in the prostate gene sequences that were used in the experiment. We built a Deep Neural Network (DNN) and Bi-directional Long-Short Term Memory (Bi-LSTM) model using a k-mer encoding for the DNA sequence and one-hot encoding for the class label. The models were evaluated using different classification metrics. Our experimental results show that DNN model prediction offers a training accuracy of 99 percent and validation accuracy of 96 percent. The bi-LSTM model also has a training accuracy of 95 percent and validation accuracy of 91 percent.