• Title/Summary/Keyword: Encoder Model

Search Result 354, Processing Time 0.027 seconds

Image Understanding for Visual Dialog

  • Cho, Yeongsu;Kim, Incheol
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1171-1178
    • /
    • 2019
  • This study proposes a deep neural network model based on an encoder-decoder structure for visual dialogs. Ongoing linguistic understanding of the dialog history and context is important to generate correct answers to questions in visual dialogs followed by questions and answers regarding images. Nevertheless, in many cases, a visual understanding that can identify scenes or object attributes contained in images is beneficial. Hence, in the proposed model, by employing a separate person detector and an attribute recognizer in addition to visual features extracted from the entire input image at the encoding stage using a convolutional neural network, we emphasize attributes, such as gender, age, and dress concept of the people in the corresponding image and use them to generate answers. The results of the experiments conducted using VisDial v0.9, a large benchmark dataset, confirmed that the proposed model performed well.

DG-based SPO tuple recognition using self-attention M-Bi-LSTM

  • Jung, Joon-young
    • ETRI Journal
    • /
    • 제44권3호
    • /
    • pp.438-449
    • /
    • 2022
  • This study proposes a dependency grammar-based self-attention multilayered bidirectional long short-term memory (DG-M-Bi-LSTM) model for subject-predicate-object (SPO) tuple recognition from natural language (NL) sentences. To add recent knowledge to the knowledge base autonomously, it is essential to extract knowledge from numerous NL data. Therefore, this study proposes a high-accuracy SPO tuple recognition model that requires a small amount of learning data to extract knowledge from NL sentences. The accuracy of SPO tuple recognition using DG-M-Bi-LSTM is compared with that using NL-based self-attention multilayered bidirectional LSTM, DG-based bidirectional encoder representations from transformers (BERT), and NL-based BERT to evaluate its effectiveness. The DG-M-Bi-LSTM model achieves the best results in terms of recognition accuracy for extracting SPO tuples from NL sentences even if it has fewer deep neural network (DNN) parameters than BERT. In particular, its accuracy is better than that of BERT when the learning data are limited. Additionally, its pretrained DNN parameters can be applied to other domains because it learns the structural relations in NL sentences.

Automatic Linkage Model of Classification Systems Based on a Pretraining Language Model for Interconnecting Science and Technology with Job Information

  • Jeong, Hyun Ji;Jang, Gwangseon;Shin, Donggu;Kim, Tae Hyun
    • Journal of Information Science Theory and Practice
    • /
    • 제10권spc호
    • /
    • pp.39-45
    • /
    • 2022
  • For national industrial development in the Fourth Industrial Revolution, it is necessary to provide researchers with appropriate job information. This can be achieved by interconnecting the National Science and Technology Standard Classification System used for management of research activity with the Korean Employment Classification of Occupations used for job information management. In the present study, an automatic linkage model of classification systems is introduced based on a pre-trained language model for interconnecting science and technology information with job information. We propose for the first time an automatic model for linkage of classification systems. Our model effectively maps similar classes between the National Science & Technology Standard Classification System and Korean Employment Classification of Occupations. Moreover, the model increases interconnection performance by considering hierarchical features of classification systems. Experimental results show that precision and recall of the proposed model are about 0.82 and 0.84, respectively.

모바일환경에서 위조서명에 강건한 딥러닝 기반의 핑거서명검증 연구 (Mobile Finger Signature Verification Robust to Skilled Forgery)

  • 남승수;서창호;최대선
    • 정보보호학회논문지
    • /
    • 제26권5호
    • /
    • pp.1161-1170
    • /
    • 2016
  • 본 논문에서는 스마트폰에서 손가락으로 서명하는 동적서명에서 위조서명에 강건한 검증 방법을 제안한다. 본 논문에서는 위조서명을 효과적으로 구분할 수 있도록 재생산 신경망의 일종인 1 class Auto-Encoder 모델을 사용한다. 핑거서명에서는 지원되지 않는 펜 압력 등 기존의 특징 정보 대신 대부분의 스마트폰에서 지원하는 가속도센서를 추가로 활용하여 서명이 이루어지고 있는 동안 스마트폰의 동적인 움직임의 특징정보를 추출한다. 서명 데이터는 리샘플링을 통해 길이를 맞추고, 일정한 크기로 정규화하여 사용한다. 제안 방법의 성능을 평가하기 위해 테스트셋을 구축하여 단일세션검증, 시간차 검증, 위조서명 검증의 3가지 실험을 실시하였다. 실험결과 위조서명 구분에 있어서 제안방법은 기존 방법보다 EER이 최대 6.9% 더 낮았다. 또한, 서명의 모양과 속도만 사용한 기존의 방식보다 가속도센서를 추가한 방식이 1.5% 나은 성능을 보였고, 최고 3.5%의 에러율을 얻었다.

오토인코더 기반 수치형 학습데이터의 자동 증강 기법 (Automatic Augmentation Technique of an Autoencoder-based Numerical Training Data)

  • 정주은;김한준;전종훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.75-86
    • /
    • 2022
  • 본 연구는 딥러닝 기반 변분 오토인코더(Variational Autoencoder)를 활용하여 수치형 학습데이터 내 클래스 불균형 문제를 해결하고, 학습데이터를 증강하여 학습모델의 성능을 향상시키고자 한다. 우리는 주어진 테이블 데이터에 대하여 인위적으로 레코드 개수를 늘리기 위해 'D-VAE'을 제안한다. 제안 기법은 최적의 데이터 증강을 지원하기 위해 우선 이산화와 특징선택을 수반한 전처리 과정을 수행한다. 이산화 과정에서 k-means 클러스터링을 적용하여 그룹화한 후, 주어진 데이터가 원-핫 인코딩(one-hot encoding) 기법으로 원-핫 벡터(one-hot vector)로 변환한다. 이후, 특징 선택 기법 중 RFECV 기법을 활용하여 예측에 도움이 되는 변수를 가려내고, 이에 대해서만 변분 오토인코더를 활용하여 새로운 학습데이터를 생성한다. 제안 기법의 성능을 검증하기 위해 4가지 유형의 실험 데이터를 활용하여 데이터 증강 비율별로 그 유효성을 입증한다.

흐름이 있는 문서에 적합한 비지도학습 추상 요약 방법 (Unsupervised Abstractive Summarization Method that Suitable for Documents with Flows)

  • 이훈석;안순홍;김승훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.501-512
    • /
    • 2021
  • 최근 Encoder-Decoder를 기반한 요약은 거의 인간 수준에 도달하였다. 하지만 이는 영어, 중국어 등 수백만 건의 데이터세트가 잘 갖추어진 주류 언어권에서만 활용 가능하며 데이터세트가 구축되지 않은 비주류 언어권에서는 활용하지 못하는 한계가 있다. 또한, 문서의 일부 영역에 초점 하여 요약하는 편향의 문제를 갖고 있어 동화나 소설과 같이 흐름이 있는 문서에는 적합하지 않다. 본 논문에서는 두 개의 Discriminator가 있는 GAN을 통해 비지도 학습 기반의 추상 요약을 하며, 가이드 토큰의 추출과 주입을 통해 편향 문제를 개선하는 추출 요약과 추상 요약을 혼합한 하이브리드 요약 방법을 제안한다. CNN/Daily Mail 데이터세트를 통해 모델을 평가하여 객관적인 타당성을 검증하고 비주류 언어 중 하나인 한국어에서도 유효한 성능을 보인다는 것을 입증한다.

순환신경망과 벡터 양자화를 이용한 비정상 소나 신호 탐지 (Abnormal sonar signal detection using recurrent neural network and vector quantization)

  • 이기배;고건혁;이종현
    • 한국음향학회지
    • /
    • 제42권6호
    • /
    • pp.500-510
    • /
    • 2023
  • 수동소나 신호에는 정상신호와 비정상 신호가 같이 존재하는 경우가 대부분이다. 정상신호와 혼재된 비정상 신호는 주로 정상신호만을 학습하는 오토인코더를 이용하여 탐지된다. 하지만 기존의 오토인코더는 혼재된 신호로부터 왜곡된 정상신호를 복원하므로 부정확한 탐지를 수행할 수 있다. 이러한 한계를 개선하고자, 본 논문에서는 순환신경망과 벡터 양자화 기반의 비정상 신호 탐지 모델을 제안한다. 제안된 모델은 학습된 잠재벡터들을 대표하는 코드 북을 생성하고, 제안된 코드벡터의 탐색을 통해 보다 정확하게 비정상 신호를 탐지한다. 공개된 수중 음향 데이터를 이용한 실험에서 제안된 기법이 적용된 오토인코더와 변이형 오토인코더는 기존 모델에 비해 최소 2.4 % 향상된 탐지 성능과 최소 9.2 % 높은 비정상 신호 추출 성능을 보였다.

비지도학습 오토 엔코더를 활용한 네트워크 이상 검출 기술 (Network Anomaly Detection Technologies Using Unsupervised Learning AutoEncoders)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.617-629
    • /
    • 2020
  • 인터넷 컴퓨팅 환경의 변화, 새로운 서비스 출현, 그리고 지능화되어 가는 해커들의 다양한 공격으로 인한 규칙 기반 침입탐지시스템의 한계점을 극복하기 위해 기계학습 및 딥러닝 기술을 활용한 네트워크 이상 검출(NAD: Network Anomaly Detection)에 대한 관심이 집중되고 있다. NAD를 위한 대부분의 기존 기계학습 및 딥러닝 기술은 '정상'과 '공격'으로 레이블링된 훈련용 데이터 셋을 학습하는 지도학습 방법을 사용한다. 본 논문에서는 공격의 징후가 없는 일상의 네트워크에서 수집할 수 있는 레이블링이 필요 없는 데이터 셋을 이용하는 비지도학습 오토 엔코더(AE: AutoEncoder)를 활용한 NAD 적용 가능성을 제시한다. AE 성능을 검증하기 위해 NSL-KDD 훈련 및 시험 데이터 셋을 사용해 정확도, 정밀도, 재현율, f1-점수, 그리고 ROC AUC (Receiver Operating Characteristic Area Under Curve) 값을 보인다. 특히 이들 성능지표를 대상으로 AE의 층수, 규제 강도, 그리고 디노이징 효과 등을 분석하여 레퍼런스 모델을 제시하였다. AE의 훈련 데이터 셋에 대한 재생오류 82-th 백분위수를 기준 값으로 KDDTest+와 KDDTest-21 시험 데이터 셋에 대해 90.4%와 89% f1-점수를 각각 보였다.

모바일 환경에서 지하공간객체의 경량화를 위한 단순화 방법 (Simplification Method for Lightweighting of Underground Geospatial Objects in a Mobile Environment)

  • 김종훈;김용태;고훈준
    • 산업융합연구
    • /
    • 제20권12호
    • /
    • pp.195-202
    • /
    • 2022
  • 지하공간정보지도 관리 시스템은 지하공간의 다양한 지하시설물을 3D 메쉬 데이터로 통합하고, 모바일 환경에서 지하시설물의 3D 이미지와 위치를 확인할 수 있도록 지원한다. 그러나 모바일 환경에서 실행되는 일정 지역 안에는 다양한 지하시설물이 존재할 수 있고 층층히 겹쳐 보일 수 있어서 모바일 환경에서 실행하는데 시간이 오래 걸리는 문제가 있다. 본 논문에서는 가시성에서 문제가 되지 않는 범위 내에서 3D 메쉬 데이터의 정점의 개수를 줄여서 데이터의 크기를 줄임으로써 모바일 환경에서 실행 시간을 줄일 수 있는 방법으로 딥러닝 기반 K-means 정점 클러스터링 알고리즘을 제안한다. 첫번째로 우리가 제안하는 방법은 딥러닝 Encoder-Decoder 기반의 모델을 통하여 정재된 정점의 특징 정보를 얻고, 두번째로 특징 정보를 K-means 정점 클러스터링을 통하여 서로 비슷한 정점끼리 묶어서 단순화를 하였다. 실험결과 제안한 방법으로 다양한 지하시설물들의 정점을 30%까지 줄였을 때, 이미지 모형이 약간의 변형은 발생하였지만 사라지는 부분은 없어서 모바일 환경에서 확인하는데 문제가 없었다.

신경망 기반 비디오 압축을 위한 레이턴트 정보의 방향 이동 및 보상 (Latent Shifting and Compensation for Learned Video Compression)

  • 김영웅;김동현;정세윤;최진수;김휘용
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.31-43
    • /
    • 2022
  • 전통적인 비디오 압축은 움직임 예측, 잔차 신호 변환 및 양자화를 통한 하이브리드 압축 방식을 기반으로 지금까지 발전해왔다. 최근 인공 신경망을 통한 기술이 빠르게 발전함에 따라, 인공 신경망 기반의 이미지 압축, 비디오 압축 연구 또한 빠르게 진행되고 있으며, 전통적인 비디오 압축 코덱의 성능과 비교해 높은 경쟁력을 보여주고 있다. 본 논문에서는 이러한 인공 신경망 기반 비디오 압축 모델의 성능을 향상시킬 수 있는 새로운 방법을 제시한다. 기본적으로는 기존 인공 신경망 기반 비디오 압축 모델들이 채택하고 있는 변환 및 복원 신경망과 엔트로피 모델(Entropy model)을 이용한 율-왜곡 최적화(Rate-distortion optimization) 방법을 사용하며, 인코더 측에서 디코더 측으로 압축된 레이턴트 정보(Latent information)를 전송할 때 엔트로피 모델이 추정하기 어려운 정보의 값을 이동시켜 전송할 비트량을 감소시키고, 손실된 정보를 추가로 전송함으로써 손실된 정보에 대한 왜곡을 보정한다. 이러한 방법을 통해 기존의 인공 신경망 기반 비디오 압축 기술인 MFVC(Motion Free Video Compression) 방법을 개선하였으며, 실험 결과를 통해 H.264를 기준으로 계산한 BDBR (Bjøntegaard Delta-Bitrate) 수치(%)로 MFVC(-14%) 보다 두 배 가까운 비트량 감축(-27%)이 가능함을 입증하였다. 제안된 방법은 MFVC 뿐 아니라, 레이턴트 정보와 엔트로피 모델을 사용하는 신경망 기반 이미지 또는 비디오 압축 기술에 광범위하게 적용할 수 있다는 장점이 있다.