• 제목/요약/키워드: Label Encoding

검색결과 11건 처리시간 0.023초

삭제된 노드의 재사용을 이용한 Fast XML 인코딩 기법 (Fast XML Encoding Scheme Using Reuse of Deleted Nodes)

  • 고혜경
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.835-843
    • /
    • 2023
  • XML 데이터의 구조를 고려할 때 경로 및 트리 패턴 매칭 알고리즘은 XML 질의 처리에 중요한 역할을 하고 있다. 노드 간의 결정 또는 관계를 용이하게 하기 위해 XML 트리의 노드는 일반적으로 두 노드 간의 조상-후손 관계를 신속하게 설정할 수 있는 방식으로 레이블링된다. 그러나 이러한 기법은 순서에 따른 업데이트로 삽입이 발생할 경우 기존 노드에 레이블을 다시 지정하거나 특정 값을 다시 계산해야 하는 단점이 발생한다. 따라서 현재 레이블링 기법들에서는 레이블을 업데이트 하는 비용이 매우 높다. 본 논문에서는 재레이블링 또는 재계산 없이 순서에 민감한 XML 문서의 업데이트를 지원하는 Fast XML 인코딩 기법이라는 새로운 레이블링을 제안한다. 또한 XML 트리의 동일한 위치에서 삭제된 레이블을 재사용하여 레이블의 길이를 제어한다. 제안한 재사용 알고리즘은 삭제된 모든 레이블을 동일한 위치에 삽입할 때 레이블의 길이를 줄일 수 있다. 실험 결과에서 제안된 기법은 순서에 민감한 질의 및 업데이트를 효율적으로 처리할 수 있다.

딥러닝을 이용한 소외계층 아동의 스포츠 재활치료를 통한 정신 건강에 대한 변화 (Variation for Mental Health of Children of Marginalized Classes through Exercise Therapy using Deep Learning)

  • 김명미
    • 한국전자통신학회논문지
    • /
    • 제15권4호
    • /
    • pp.725-732
    • /
    • 2020
  • 본 논문은 소외계층 아동의 운동학습프로그램에서 체력 활동 중 나를 잘 따른다(0-9), 마음의 결정을 내리는데 많은 시간이 걸린다(0-9), 맥빠진(0-9) 등을 변수로 사용하여 '성별', '체육교실', 나이의 '상중하'를 분류하고 스포츠 재활치료를 통한 자아 탄력(ego-resiliency)과 자아 통제(self-control)의 변화를 관찰하여 정신 건강 변화를 알아본다. 이를 위해 취득한 데이터를 병합하고 Label encoder와 One-hot encoding을 사용하여 숫자의 크고 작음의 특성을 제거한 후 MLP, SVM, Dicesion tree, RNN, LSTM의 각각의 알고리즘을 적용하여 성능을 평가하기 위해 Train, Test 데이터를 75%, 25% 스플릿 한 뒤 Train 데이터로 알고리즘을 학습하고 Test 데이터로 알고리즘의 정확성을 측정한다. 측정 결과 성별에서는 LSTM, 체육 교실은 MLP와 LSTM, 나이는 SVM이 가장 우수한 결과를 보임을 확인하였다.

빈번히 갱신되는 XML 문서에 대한 프라임 넘버 레이블링 기법 (An Improved Method of the Prime Number Labeling Scheme for Dynamic XML Documents)

  • 유지열;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.129-137
    • /
    • 2006
  • XML 레이블링 기법은 엘리먼트 간의 조상-자손 관계 및 형제들 간의 순서 둥을 쉽게 결정할 수 있도록 하는 색인을 위한 인코딩(encoding)이라고 할 수 있다. 특히 근래에는 Web Services 및 AXML (Active XML)과 같은 기술에 동적 XML 문서가 등장하게 되었고 이로 인해 동적 XML 레이블링 기법이 필요하게 되었다. 대표적인 동적 레이블링 기법인 프라임 넘버 레이블링(prime number labeling)기법은 XML 문서의 엘리먼트 간의 부모-자식간의 관계를 소수의 특성을 이용하여 결정할 수 있도록 하는 기법이다. 이 기법은 새로운 엘리먼트가 삽입이 될 때 부여되는 레이블이 기존의 레이블 정보를 변화시키지 않는다는 장점이 있으나 형제간의 순서를 결정하는 순서 값(Order number)을 갱신하기 위해 추가의 연산 및 자료구조를 유지하는 비용을 갖는 단점을 가지고 있다. 본 논문에서는 이러한 비용을 줄이기 위해 요소의 순서정보를 나타내는 오더 값을 공유하는 기법과 삽입되는 위치에 따라 레이블의 값 또는 오더 값을 이용하여 형제간의 순서를 결정할 수는 방법을 제안하여 기존방법보다 적은 비용으로 처리할 수 있도록 하였다.

Feature Selection with Ensemble Learning for Prostate Cancer Prediction from Gene Expression

  • Abass, Yusuf Aleshinloye;Adeshina, Steve A.
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12spc호
    • /
    • pp.526-538
    • /
    • 2021
  • Machine and deep learning-based models are emerging techniques that are being used to address prediction problems in biomedical data analysis. DNA sequence prediction is a critical problem that has attracted a great deal of attention in the biomedical domain. Machine and deep learning-based models have been shown to provide more accurate results when compared to conventional regression-based models. The prediction of the gene sequence that leads to cancerous diseases, such as prostate cancer, is crucial. Identifying the most important features in a gene sequence is a challenging task. Extracting the components of the gene sequence that can provide an insight into the types of mutation in the gene is of great importance as it will lead to effective drug design and the promotion of the new concept of personalised medicine. In this work, we extracted the exons in the prostate gene sequences that were used in the experiment. We built a Deep Neural Network (DNN) and Bi-directional Long-Short Term Memory (Bi-LSTM) model using a k-mer encoding for the DNA sequence and one-hot encoding for the class label. The models were evaluated using different classification metrics. Our experimental results show that DNN model prediction offers a training accuracy of 99 percent and validation accuracy of 96 percent. The bi-LSTM model also has a training accuracy of 95 percent and validation accuracy of 91 percent.

효과적인 딥러닝 기반 비프로파일링 부채널 분석 모델 설계방안 (Design of an Effective Deep Learning-Based Non-Profiling Side-Channel Analysis Model)

  • 한재승;심보연;임한섭;김주환;한동국
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1291-1300
    • /
    • 2020
  • 최근 딥러닝 기반 비프로파일링 부채널 분석이 제안됐다. 딥러닝 기반 비프로파일링 분석은 신경망 모델을 모든 추측키에 대해 학습시킨 뒤, 학습된 정도의 차이를 통해 올바른 비밀키를 찾아내는 기법이다. 이때, 신경망 학습모델 설계에 따라 비프로파일링 분석성능이 크게 달라지기 때문에 올바른 모델 설계의 기준이 필요하다. 본 논문은 학습모델 설계에 사용 가능한 2가지 loss 함수와 8가지 label 기법을 설명하고, 비프로파일링 분석과 소비전력모델 관점에서 각 label 기법의 분석성능을 예측했다. 해밍웨이트 소비전력모델을 가정했을 때의 비프로파일링 분석 특징을 고려해서 One-hot 인코딩을 적용하지 않은 HW(Hamming Weight) label과 CO(Correlation Optimization) loss를 적용한 학습모델이 가장 좋은 분석성능을 가질 것으로 예측했다. 그리고 AES-128 1라운드 Subbytes 연산 부분 데이터 집합 3가지에 대해 실제 분석을 수행했다. 제시한 각 label 기법과 loss 함수를 적용한 총 16가지 MLP(Multi-Layer Perceptron)기반 학습모델로 두 데이터 집합을 비프로파일링 분석하여 예측에 대해 검증했다.

BTC 파라메타를 이용한 고압축 영상부호화 (High Compression Image Coding with BTC Parameters)

  • 심영석;이학준
    • 대한전자공학회논문지
    • /
    • 제26권2호
    • /
    • pp.140-146
    • /
    • 1989
  • 본 논문에서는 4${\times}$4 블록 절단부호화를 근사화 파라메타 {($Y_{\alpha},\;Y_{\beta}),\;P_{{\beta}/{\beta}}$}에 의한 블록 근사화 및 그 파라메타 부호화의 두 과정으로 나누고, 각 과정에 대해 연구하였다. 제안된 방식은 일단 블록을 평탄 및 에지블록으로 분류하여 평탄 블록은 한개의 근사화 레벨 Y로만 근사화하도록 하였다. 에지블록의 라벨 평면 $P_{{\beta}/{\beta}}$는 준비된 32개의 표준 패턴을 이용하여 근사화하도록 노력하였고, 근사화가 어려운 것은 그대로 전송하였으며, 근사화 레벨 $Y_{\alpha},\;Y_{\beta}$는 이미 전송된 라벨 평면을 이용하여 예측 양자화한 후 Huffman 부호화하도록 하였다. 본 방식의 성능은 배경부분에서의 표현에는 약간의 문제가 있는 것으로 나타나지만 SNR 면에서는 복잡한 변환 부호화 방식보다도 좋은 결과를 보이며, 특히 에지가 잘 보존되었다.

  • PDF

Computer Codes for Korean Sounds: K-SAMPA

  • Kim, Jong-mi
    • The Journal of the Acoustical Society of Korea
    • /
    • 제20권4E호
    • /
    • pp.3-16
    • /
    • 2001
  • An ASCII encoding of Korean has been developed for extended phonetic transcription of the Speech Assessment Methods Phonetic Alphabet (SAMPA). SAMPA is a machine-readable phonetic alphabet used for multilingual computing. It has been developed since 1987 and extended to more than twenty languages. The motivating factor for creating Korean SAMPA (K-SAMPA) is to label Korean speech for a multilingual corpus or to transcribe native language (Ll) interfered pronunciation of a second language learner for bilingual education. Korean SAMPA represents each Korean allophone with a particular SAMPA symbol. Sounds that closely resemble it are represented by the same symbol, regardless of the language they are uttered in. Each of its symbols represents a speech sound that is spectrally and temporally so distinct as to be perceptually different when the components are heard in isolation. Each type of sound has a separate IPA-like designation. Korean SAMPA is superior to other transcription systems with similar objectives. It describes better the cross-linguistic sound quality of Korean than the official Romanization system, proclaimed by the Korean government in July 2000, because it uses an internationally shared phonetic alphabet. It is also phonetically more accurate than the official Romanization in that it dispenses with orthographic adjustments. It is also more convenient for computing than the International Phonetic Alphabet (IPA) because it consists of the symbols on a standard keyboard. This paper demonstrates how the Korean SAMPA can express allophonic details and prosodic features by adopting the transcription conventions of the extended SAMPA (X-SAMPA) and the prosodic SAMPA(SAMPROSA).

  • PDF

Correcting Misclassified Image Features with Convolutional Coding

  • 문예지;김나영;이지은;강제원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.11-14
    • /
    • 2018
  • The aim of this study is to rectify the misclassified image features and enhance the performance of image classification tasks by incorporating a channel- coding technique, widely used in telecommunication. Specifically, the proposed algorithm employs the error - correcting mechanism of convolutional coding combined with the convolutional neural networks (CNNs) that are the state - of- the- arts image classifier s. We develop an encoder and a decoder to employ the error - correcting capability of the convolutional coding. In the encoder, the label values of the image data are converted to convolutional codes that are used as target outputs of the CNN, and the network is trained to minimize the Euclidean distance between the target output codes and the actual output codes. In order to correct misclassified features, the outputs of the network are decoded through the trellis structure with Viterbi algorithm before determining the final prediction. This paper demonstrates that the proposed architecture advances the performance of the neural networks compared to the traditional one- hot encoding method.

  • PDF

RDA 응용 프로파일 구축시 고려사항에 관한 연구 (A Study on the Considerations for Constructing RDA Application Profiles)

  • 이미화
    • 한국비블리아학회지
    • /
    • 제30권4호
    • /
    • pp.29-50
    • /
    • 2019
  • 본고는 링크드 데이터 및 LRM을 반영하여 2019년 RDA가 개정됨에 따라 RDA의 다양한 활용을 위해 RDA 응용 프로파일 작성시 고려사항을 연구하였다. 연구방법으로 문헌연구와 사례연구를 이용하였으며, 연구 결과로 RDA 응용 프로파일 구축시 다음의 고려사항을 제안하고자 한다. 첫째, 응용 프로파일의 내용으로 기존 연구자들이 제시한 항목인 요소명, 요소 ID, 요소 URI, 기술 방식, 출처, 출처값, 요소의 최소 및 최대 기술 횟수, 주기사항 이외에 추가사항으로 반대 요소, 상위 요소, 하위 요소, 도메인, 범주, 레이블의 여러 이름, MARC 매핑, BIBFRAME 매핑, RDA 기술 사례를 제안하였다. 둘째, RDA의 모든 요소별 규칙에는 4가지 기술 방식과 여러 조건과 선택사항이 제시되고 있는데 이를 보다 구조화시켜 응용 프로파일에 적용하기 위해 RDA 규칙 분석을 바탕으로 규칙을 플로우차트로 표현하는 방법과 이를 다시 응용 프로파일로 표현하는 방안을 제시하였다. 셋째, RDA와 BIBFRAME은 내용 표준과 입력 포맷으로서 상호 연계되고, RDA를 내용규칙 사용하는 BIBFRAME 입력기를 작성하기 위해서는 RDA 규칙과 이에 해당하는 BIBFRAME의 상호 연계가 필수이므로 RDA 응용 프로파일의 내용으로 RDA와 BIBFRAME의 매핑 정보를 추가할 것을 제안하였다. 본 연구를 통해 RDA 응용 프로파일 구축 방안을 모색할 수 있을 것이며, RDA 내용규칙을 바탕으로 한 BIBFRAME의 프로파일 작성에도 기여할 수 있을 것이다.

A Supervised Feature Selection Method for Malicious Intrusions Detection in IoT Based on Genetic Algorithm

  • Saman Iftikhar;Daniah Al-Madani;Saima Abdullah;Ammar Saeed;Kiran Fatima
    • International Journal of Computer Science & Network Security
    • /
    • 제23권3호
    • /
    • pp.49-56
    • /
    • 2023
  • Machine learning methods diversely applied to the Internet of Things (IoT) field have been successful due to the enhancement of computer processing power. They offer an effective way of detecting malicious intrusions in IoT because of their high-level feature extraction capabilities. In this paper, we proposed a novel feature selection method for malicious intrusion detection in IoT by using an evolutionary technique - Genetic Algorithm (GA) and Machine Learning (ML) algorithms. The proposed model is performing the classification of BoT-IoT dataset to evaluate its quality through the training and testing with classifiers. The data is reduced and several preprocessing steps are applied such as: unnecessary information removal, null value checking, label encoding, standard scaling and data balancing. GA has applied over the preprocessed data, to select the most relevant features and maintain model optimization. The selected features from GA are given to ML classifiers such as Logistic Regression (LR) and Support Vector Machine (SVM) and the results are evaluated using performance evaluation measures including recall, precision and f1-score. Two sets of experiments are conducted, and it is concluded that hyperparameter tuning has a significant consequence on the performance of both ML classifiers. Overall, SVM still remained the best model in both cases and overall results increased.