• 제목/요약/키워드: Pre-training Dataset

검색결과 67건 처리시간 0.022초

심층 자동 인코더를 이용한 시맨틱 세그멘테이션용 위성 이미지 향상 방법 (Semantic Segmentation Intended Satellite Image Enhancement Method Using Deep Auto Encoders)

  • ;이효종
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권8호
    • /
    • pp.243-252
    • /
    • 2023
  • 위성 이미지는 토지 표면 조사에서 매우 중요하다. 따라서 위성에서 지상국으로 이미지를 전송하기 위해 다양한 방법을 사용하고 있다. 그러나 전송 시스템의 품질 저하로 인해 이미지는 왜곡에 취약하고 올바른 데이터를 제공하지 못하고 있다. 그러한 이미지의 세그먼트 결과는 토지 표면 데이터를 올바르게 분류할 수 없다. 본 논문에서는 위성영상에 대한 자동인코더 기반의 영상 전처리 방법을 제안한다. 실험결과 사전 향상 기술을 사용하여 세그멘테이션 결과도 크게 향상될 수 있음을 보여주었다. 또한 본 논문에서 적용한 항공 이미지 향상기법은 토지 자원의 정확한 평가에 이바지할 수 있음을 확인하였다.

ResNet-Variational AutoEncoder기반 변종 악성코드 패밀리 분류 연구 (A Study on Classification of Variant Malware Family Based on ResNet-Variational AutoEncoder)

  • 이영전;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.1-9
    • /
    • 2021
  • 전통적으로 대부분의 악성코드는 도메인 전문가에 의해 추출된 특징 정보를 활용하여 분석되었다. 하지만 이러한 특징 기반의 분석방식은 분석가의 역량에 의존적이며 기존의 악성코드를 변형한 변종 악성코드를 탐지하는 데 한계를 가지고 있다. 본 연구에서는 도메인 전문가의 개입 없이도 변종 악성코드의 패밀리를 분류할 수 있는 ResNet-Variational AutoEncder 기반 변종 악성코드 분류 방법을 제안한다. Variational AutoEncoder 네트워크는 입력값으로 제공되는 훈련 데이터의 학습 과정에서 데이터의 특징을 잘 이해하며 정규 분포 내에서 새로운 데이터를 생성하는 특징을 가지고 있다. 본 연구에서는 Variational AutoEncoder의 학습 과정에서 잠재 변수를 추출을 통해 악성코드의 중요 특징을 추출할 수 있었다. 또한 훈련 데이터의 특징을 더욱 잘 학습하고 학습의 효율성을 높이기 위해 전이 학습을 수행했다. ImageNet Dataset으로 사전학습된 ResNet-152 모델의 학습 파라미터를 Encoder Network의 학습 파라미터로 전이했다. 전이학습을 수행한 ResNet-Variational AutoEncoder의 경우 기존 Variational AutoEncoder에 비해 높은 성능을 보였으며 학습의 효율성을 제공하였다. 한편 변종 악성코드 분류를 위한 방법으로는 앙상블 모델인 Stacking Classifier가 사용되었다. ResNet-VAE 모델의 Encoder Network로 추출한 변종 악성코드 특징 데이터를 바탕으로 Stacking Classifier를 학습한 결과 98.66%의 Accuracy와 98.68의 F1-Score를 얻을 수 있었다.

누적 히스토그램과 랜덤 포레스트를 이용한 머리방향 추정 (Head Pose Estimation with Accumulated Historgram and Random Forest)

  • 문성희;이칠우
    • 스마트미디어저널
    • /
    • 제5권1호
    • /
    • pp.38-43
    • /
    • 2016
  • 스마트 환경 구축이 보편화됨에 따라 사람과 컴퓨터 사이의 상호작용(HCI)에 관한 연구가 활발히 진행되고 있다. 인간-컴퓨터 상호작용에서 사람의 얼굴과 시선 방향을 안다는 것은 그 사람의 의도나 관심의 대상을 파악하는데 중요한 정보를 제공할 뿐만 아니라 신체 구조를 이해하는데도 하나의 기준이 될 수 있으므로 중요한 연구 테마이다. 본 논문에서는 랜덤 포레스트를 이용하여 얼굴 방향을 미리 정해놓은 각도로 분류하는 방법을 제안한다. 먼저 영상은 전처리를 거친 뒤 회전정보를 얻기 위하여 평균 정면 얼굴과의 차영상을 이용하여 회전정보를 추출한다. 캐니에지 검출법을 이용하여 얼굴의 특징을 검출하고 이를 이용하여 에지 영상을 구한 뒤, 이 영상에 대해 가로 세로축 각각에 대해 픽셀 수를 누적하여 히스토그램을 작성한다. 누적히스토그램을 특징으로 랜덤 포레스트를 생성하였으며, 랜덤 포레스트의 학습과 테스트에는 CAS-PEAL-R1 데이터를 사용하여 80.6%의 인식률을 얻었다.

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.

순환 적대적 생성 신경망을 이용한 안면 교체를 위한 새로운 이미지 처리 기법 (A New Image Processing Scheme For Face Swapping Using CycleGAN)

  • 반태원
    • 한국정보통신학회논문지
    • /
    • 제26권9호
    • /
    • pp.1305-1311
    • /
    • 2022
  • 최근 모바일 단말기 및 개인형 컴퓨터의 비약적인 발전과 신경망 기술의 등장으로 영상을 활용한 실시간 안면 교체가 가능해졌다. 특히, 순환 적대적 생성 신경망은 상호 연관성이 없는 이미지 데이터를 활용한 안면 교체가 가능하게 만들었다. 본 논문에서는 적은 학습 데이터와 시간으로 안면 교체의 품질을 높일 수 있는 입력 데이터 처리 기법을 제안한다. 제안 방식은 사전에 학습된 신경망을 통해서 추출된 안면의 특이점 정보와 안면의 구조와 표정에 영향을 미치는 주요 이미지 정보를 결합함으로써 안면 표정과 구조를 보존하면서 이미지 품질을 향상시킬 수 있다. 인공지능 기반의 무참조 품질 메트릭 중의 하나인 blind/referenceless image spatial quality evaluator (BRISQUE) 점수를 활용하여 제안 방식의 성능을 정량적으로 분석하고 기존 방식과 비교한다. 성능 분석 결과에 따르면 제안 방식은 기존 방식 대비 약 4.6%~14.6% 개선된 BRISQUE 점수를 나타내었다.

딥러닝기반 감정인식에서 데이터 불균형이 미치는 영향 분석 (Effect Analysis of Data Imbalance for Emotion Recognition Based on Deep Learning)

  • 노하진;임유진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권8호
    • /
    • pp.235-242
    • /
    • 2023
  • 최근 들어 영유아를 대상으로 한 비대면 상담이 증가함에 따라 감정인식 보조 도구로 CNN기반 딥러닝 모델을 많이 사용하고 있다. 하지만 대부분의 감정인식 모델은 성인 데이터 위주로 학습되어 있어 영유아 및 청소년을 대상으로 적용하기에는 성능상의 제약이 있다. 본 논문에서는 이러한 성능제약의 원인을 분석하기 위하여 XAI 기법 중 하나인 LIME 기법을 통해 성인 대비 영유아와 청소년의 감정인식을 위한 얼굴 표정의 특징을 분석한다. 뿐만 아니라 남녀 집단에도 동일한 실험을 수행함으로써 성별 간 얼굴 표정의 특징을 분석한다. 그 결과로 연령대별 실험 결과와 성별별 실험 결과를 CNN 모델의 사전 훈련 데이터셋의 데이터 분포를 바탕으로 설명하고 균형 있는 학습 데이터의 중요성을 강조한다.

Fast Spectral Inversion of the Strong Absorption Lines in the Solar Chromosphere Based on a Deep Learning Model

  • Lee, Kyoung-Sun;Chae, Jongchul;Park, Eunsu;Moon, Yong-Jae;Kwak, Hannah;Cho, Kyuhyun
    • 천문학회보
    • /
    • 제46권2호
    • /
    • pp.46.3-47
    • /
    • 2021
  • Recently a multilayer spectral inversion (MLSI) model has been proposed to infer the physical parameters of plasmas in the solar chromosphere. The inversion solves a three-layer radiative transfer model using the strong absorption line profiles, H alpha and Ca II 8542 Å, taken by the Fast Imaging Solar Spectrograph (FISS). The model successfully provides the physical plasma parameters, such as source functions, Doppler velocities, and Doppler widths in the layers of the photosphere to the chromosphere. However, it is quite expensive to apply the MLSI to a huge number of line profiles. For example, the calculating time is an hour to several hours depending on the size of the scan raster. We apply deep neural network (DNN) to the inversion code to reduce the cost of calculating the physical parameters. We train the models using pairs of absorption line profiles from FISS and their 13 physical parameters (source functions, Doppler velocities, Doppler widths in the chromosphere, and the pre-determined parameters for the photosphere) calculated from the spectral inversion code for 49 scan rasters (~2,000,000 dataset) including quiet and active regions. We use fully connected dense layers for training the model. In addition, we utilize a skip connection to avoid a problem of vanishing gradients. We evaluate the model by comparing the pairs of absorption line profiles and their inverted physical parameters from other quiet and active regions. Our result shows that the deep learning model successfully reproduces physical parameter maps of a scan raster observation per second within 15% of mean absolute percentage error and the mean squared error of 0.3 to 0.003 depending on the parameters. Taking this advantage of high performance of the deep learning model, we plan to provide the physical parameter maps from the FISS observations to understand the chromospheric plasma conditions in various solar features.

  • PDF

CNN 기술을 적용한 침수탐지 학습모델 개발 (Development of a Flooding Detection Learning Model Using CNN Technology)

  • 김동준;최유진;박경민;박상준;이재문;황기태;정인환
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1-7
    • /
    • 2023
  • 본 논문은 인공지능 기술을 활용하여 일반 도로와 침수 도로를 분류하는 학습모델을 개발하였다. 다양한 데이터 증강기법을 사용하여 학습 데이터의 다양성을 확장하며, 여러 환경에서도 좋은 성능을 보이는 모델을 구현하였다. CNN 기반의 Resnet152v2 모델을 사전 학습모델로 활용하여, 전이 학습을 진행하였다. 모델의 학습 과정에서 다양한 파라미터 튜닝 및 최적화 과정을 거쳐 최종 모델의 성능을 향상하였다. 학습은 파이선으로 Google Colab NVIDIA Tesla T4 GPU를 사용하여 구현하였고, 테스트 결과 시험 데이터 세트에서 매우 높은 정확도로 침수상황을 탐지함을 알 수 있었다.

Generative optical flow based abnormal object detection method using a spatio-temporal translation network

  • Lim, Hyunseok;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.11-19
    • /
    • 2021
  • 이상 객체란 일반적이고 평범한 행동을 취하는 객체가 아닌 비정상적이고 흔하지 않은 행동을 하여 관찰이나 감시·감독을 필요로 하는 사람, 물체, 기계 장치 등을 뜻한다. 이를 사람의 지속적인 개입 없이 인공지능 알고리즘을 통해 탐지하기 위해서 광학 흐름 기법을 활용한 시간적 특징의 특이도를 관찰하는 방법이 많이 활용되고 있으며, 이 기법은 정해진 표현 범위가 없는 수많은 이상 행동을 식별하기에 적합하다. 본 연구에서는 생성적 적대 신경망(Generative Adversarial Network, GAN)으로 입력 영상 프레임을 광학 흐름 영상으로 변환하는 알고리즘을 학습시켜 비정상적인 상황을 식별한다. 특히 생성적 적대 신경망 모델이 입력 영상에 대한 중요한 특징 정보를 학습하고, 그 외 불필요한 이상치를 제외시키기 위한 전처리 과정과 학습 후 테스트 데이터셋에서 식별 정확도를 높이기 위한 후처리 과정을 고도화하여 전체적인 모델의 이상 행동 식별 성능을 향상시키는 기법을 제안한다. 이상 행동을 탐지하기 위한 학습 데이터셋으로 UCSD Pedestrian, UMN Unusual Crowd Activity를 활용하였으며, UCSD Ped2 데이터셋에서 프레임 레벨 AUC 0.9450, EER 0.1317의 수치를 보이며 이전 연구에서 도출된 성능 지표 대비 성능 향상이 확인되었다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.