• Title/Summary/Keyword: 부분 합성곱 신경망

Search Result 26, Processing Time 0.028 seconds

Semantic Object Segmentation Using Conditional Generative Adversarial Network with Residual Connections (잔차 연결의 조건부 생성적 적대 신경망을 사용한 시맨틱 객체 분할)

  • Ibrahem, Hatem;Salem, Ahmed;Yagoub, Bilel;Kang, Hyun Su;Suh, Jae-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.12
    • /
    • pp.1919-1925
    • /
    • 2022
  • In this paper, we propose an image-to-image translation approach based on the conditional generative adversarial network for semantic segmentation. Semantic segmentation is the task of clustering parts of an image together which belong to the same object class. Unlike the traditional pixel-wise classification approach, the proposed method parses an input RGB image to its corresponding semantic segmentation mask using a pixel regression approach. The proposed method is based on the Pix2Pix image synthesis method. We employ residual connections-based convolutional neural network architectures for both the generator and discriminator architectures, as the residual connections speed up the training process and generate more accurate results. The proposed method has been trained and tested on the NYU-depthV2 dataset and could achieve a good mIOU value (49.5%). We also compare the proposed approach to the current methods in semantic segmentation showing that the proposed method outperforms most of those methods.

Age and Gender Classification with Small Scale CNN (소규모 합성곱 신경망을 사용한 연령 및 성별 분류)

  • Jamoliddin, Uraimov;Yoo, Jae Hung
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.17 no.1
    • /
    • pp.99-104
    • /
    • 2022
  • Artificial intelligence is getting a crucial part of our lives with its incredible benefits. Machines outperform humans in recognizing objects in images, particularly in classifying people into correct age and gender groups. In this respect, age and gender classification has been one of the hot topics among computer vision researchers in recent decades. Deployment of deep Convolutional Neural Network(: CNN) models achieved state-of-the-art performance. However, the most of CNN based architectures are very complex with several dozens of training parameters so they require much computation time and resources. For this reason, we propose a new CNN-based classification algorithm with significantly fewer training parameters and training time compared to the existing methods. Despite its less complexity, our model shows better accuracy of age and gender classification on the UTKFace dataset.

Multifaceted Evaluation Methodology for AI Interview Candidates - Integration of Facial Recognition, Voice Analysis, and Natural Language Processing (AI면접 대상자에 대한 다면적 평가방법론 -얼굴인식, 음성분석, 자연어처리 영역의 융합)

  • Hyunwook Ji;Sangjin Lee;Seongmin Mun;Jaeyeol Lee;Dongeun Lee;kyusang Lim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.55-58
    • /
    • 2024
  • 최근 각 기업의 AI 면접시스템 도입이 증가하고 있으며, AI 면접에 대한 실효성 논란 또한 많은 상황이다. 본 논문에서는 AI 면접 과정에서 지원자를 평가하는 방식을 시각, 음성, 자연어처리 3영역에서 구현함으로써, 면접 지원자를 다방면으로 분석 방법론의 적절성에 대해 평가하고자 한다. 첫째, 시각적 측면에서, 면접 지원자의 감정을 인식하기 위해, 합성곱 신경망(CNN) 기법을 활용해, 지원자 얼굴에서 6가지 감정을 인식했으며, 지원자가 카메라를 응시하고 있는지를 시계열로 도출하였다. 이를 통해 지원자가 면접에 임하는 태도와 특히 얼굴에서 드러나는 감정을 분석하는 데 주력했다. 둘째, 시각적 효과만으로 면접자의 태도를 파악하는 데 한계가 있기 때문에, 지원자 음성을 주파수로 환산해 특성을 추출하고, Bidirectional LSTM을 활용해 훈련해 지원자 음성에 따른 6가지 감정을 추출했다. 셋째, 지원자의 발언 내용과 관련해 맥락적 의미를 파악해 지원자의 상태를 파악하기 위해, 음성을 STT(Speech-to-Text) 기법을 이용하여 텍스트로 변환하고, 사용 단어의 빈도를 분석하여 지원자의 언어 습관을 파악했다. 이와 함께, 지원자의 발언 내용에 대한 감정 분석을 위해 KoBERT 모델을 적용했으며, 지원자의 성격, 태도, 직무에 대한 이해도를 파악하기 위해 객관적인 평가지표를 제작하여 적용했다. 논문의 분석 결과 AI 면접의 다면적 평가시스템의 적절성과 관련해, 시각화 부분에서는 상당 부분 정확도가 객관적으로 입증되었다고 판단된다. 음성에서 감정분석 분야는 면접자가 제한된 시간에 모든 유형의 감정을 드러내지 않고, 또 유사한 톤의 말이 진행되다 보니 특정 감정을 나타내는 주파수가 다소 집중되는 현상이 나타났다. 마지막으로 자연어처리 영역은 면접자의 발언에서 나오는 말투, 특정 단어의 빈도수를 넘어, 전체적인 맥락과 느낌을 이해할 수 있는 자연어처리 분석모델의 필요성이 더욱 커졌음을 판단했다.

  • PDF

Automatic Classification of Frequently Asked Questions Using Class Embedding and Attentive Recurrent Neural Network (클래스 임베딩과 주의 집중 순환 신경망을 이용한 자주 묻는 질문의 자동 분류)

  • Jang, Youngjin;Kim, Harksoo;Kim, Sebin;Kang, Dongho;Jang, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.367-370
    • /
    • 2018
  • 웹 또는 모바일 사용자는 고객 센터에 구축된 자주 묻는 질문을 이용하여 원하는 서비스를 제공받는다. 그러나 자주 묻는 질문은 사용자가 직접 핵심어를 입력하여 검색된 결과 중 필요한 정보를 찾아야 하는 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자 질의를 입력 받아 질의에 해당하는 클래스를 분류해주는 문장 분류 모델을 제안한다. 제안모델은 웹이나 모바일 환경의 오타나 맞춤법 오류에 대한 강건함을 위해 자소 단위 합성곱 신경망을 사용한다. 그리고 기계 번역 이외에도 자연어 처리 부분에서 큰 성능 향상을 보여주는 주의 집중 방법과 클래스 임베딩을 이용한 문장 분류 시스템을 사용한다. 457개의 클래스 분류와 769개의 클래스 분류에 대한 실험 결과 Micro F1 점수 기준 81.32%, 61.11%의 성능을 보였다.

  • PDF

Spectral Pooling: A study on the various possibilities of the DFT-based Pooling layer (Spectral Pooling: DFT 기반 풀링 계층이 보여주는 여러 가능성에 대한 연구)

  • Lee, Sung Ju;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.11a
    • /
    • pp.87-90
    • /
    • 2020
  • GPU의 발전과 함께 성장한 딥러닝(Deep Learning)은 영상 분류 문제에서 최고의 성능을 보이고 있다. 그러나 합성곱 신경망 기반의 모델을 깊게 쌓음에 따라 신경망의 표현력이 좋아짐과 동시에 때로는 학습이 잘되지 않고 성능이 저하되는 등의 부작용도 등장했다. 성능 향상을 방해하는 주요 요인 중 하나는, 차원감소 목적에 따라 필연적으로 정보 손실을 겪어야 하는 풀링 계층에 있다. 따라서 특성맵(Feature map)의 차원감소를 통해 얻게 되는 비용적 이득과 모델의 분류 성능 사이의 취사선택(Trade-off)이 존재한다. 그리고 이로부터 자유로워지기 위한 다양한 연구와 기법이 존재하는데 Spectral Pooling도 이 중 하나이다. 본 논문에서는 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 이용한 Spectral Pooling에 대한 소개와, 해당 풀링의 성질을 통상적으로 사용되고 있는 Max Pooling과의 성능 비교를 통해 분석한다. 또한 영상 내 고주파수 부분에서 특히 더 강건하지 못하다는 맥스 풀링의 고질적인 문제점을, Spectral Pooling과의 하이브리드(Hybrid) 구조를 통해 어떻게 극복해나갈 것인지 그 가능성을 중심으로 실험을 수행했다.

  • PDF

Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront (비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로)

  • Kim, Seungsoo;Kim, Jongwoo
    • Journal of Intelligence and Information Systems
    • /
    • v.24 no.2
    • /
    • pp.221-241
    • /
    • 2018
  • Deep learning is getting attention recently. The deep learning technique which had been applied in competitions of the International Conference on Image Recognition Technology(ILSVR) and AlphaGo is Convolution Neural Network(CNN). CNN is characterized in that the input image is divided into small sections to recognize the partial features and combine them to recognize as a whole. Deep learning technologies are expected to bring a lot of changes in our lives, but until now, its applications have been limited to image recognition and natural language processing. The use of deep learning techniques for business problems is still an early research stage. If their performance is proved, they can be applied to traditional business problems such as future marketing response prediction, fraud transaction detection, bankruptcy prediction, and so on. So, it is a very meaningful experiment to diagnose the possibility of solving business problems using deep learning technologies based on the case of online shopping companies which have big data, are relatively easy to identify customer behavior and has high utilization values. Especially, in online shopping companies, the competition environment is rapidly changing and becoming more intense. Therefore, analysis of customer behavior for maximizing profit is becoming more and more important for online shopping companies. In this study, we propose 'CNN model of Heterogeneous Information Integration' using CNN as a way to improve the predictive power of customer behavior in online shopping enterprises. In order to propose a model that optimizes the performance, which is a model that learns from the convolution neural network of the multi-layer perceptron structure by combining structured and unstructured information, this model uses 'heterogeneous information integration', 'unstructured information vector conversion', 'multi-layer perceptron design', and evaluate the performance of each architecture, and confirm the proposed model based on the results. In addition, the target variables for predicting customer behavior are defined as six binary classification problems: re-purchaser, churn, frequent shopper, frequent refund shopper, high amount shopper, high discount shopper. In order to verify the usefulness of the proposed model, we conducted experiments using actual data of domestic specific online shopping company. This experiment uses actual transactions, customers, and VOC data of specific online shopping company in Korea. Data extraction criteria are defined for 47,947 customers who registered at least one VOC in January 2011 (1 month). The customer profiles of these customers, as well as a total of 19 months of trading data from September 2010 to March 2012, and VOCs posted for a month are used. The experiment of this study is divided into two stages. In the first step, we evaluate three architectures that affect the performance of the proposed model and select optimal parameters. We evaluate the performance with the proposed model. Experimental results show that the proposed model, which combines both structured and unstructured information, is superior compared to NBC(Naïve Bayes classification), SVM(Support vector machine), and ANN(Artificial neural network). Therefore, it is significant that the use of unstructured information contributes to predict customer behavior, and that CNN can be applied to solve business problems as well as image recognition and natural language processing problems. It can be confirmed through experiments that CNN is more effective in understanding and interpreting the meaning of context in text VOC data. And it is significant that the empirical research based on the actual data of the e-commerce company can extract very meaningful information from the VOC data written in the text format directly by the customer in the prediction of the customer behavior. Finally, through various experiments, it is possible to say that the proposed model provides useful information for the future research related to the parameter selection and its performance.

Noise Removal of Radar Image Using Image Inpainting (이미지 인페인팅을 활용한 레이다 이미지 노이즈 제거)

  • Jeon, Dongmin;Oh, Sang-jin;Lim, Chaeog;Shin, Sung-chul
    • Journal of the Society of Naval Architects of Korea
    • /
    • v.59 no.2
    • /
    • pp.118-124
    • /
    • 2022
  • Marine environment analysis and ship motion prediction during ship navigation are important technologies for safe and economical operation of autonomous ships. As a marine environment analysis technology, there is a method of analyzing waves by measuring the sea states through images acquired based on radar(radio detection and ranging) signal. However, in the process of deriving marine environment information from radar images, noises generated by external factors are included, limiting the interpretation of the marine environment. Therefore, image processing for noise removal is required. In this study, image inpainting by partial convolutional neural network model is proposed as a method to remove noises and reconstruct radar images.

Efficient Multiple Object Tracking without Appearance Features (외형 특징을 사용하지 않는 효율적인 다중 물체 추적 방법)

  • Lee, Hyemin;Kim, Daijin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.872-874
    • /
    • 2021
  • 본 논문은 외형 특징을 사용하지 않는 효율적인 다중 물체 추적 방법을 제안한다. 본 논문의 목적은 다중 물체 추적 방법이 합성곱 신경망 등의 외형 특징을 사용하지 않고 순수한 모션 모델의 힘으로 도달할 수 있는 최대의 성능을 찾는 것이다. 많은 다중 물체 추적 방법들이 추적 대상들 간의 유사성을 파악하기 위해 외형 특징을 사용한다. 하지만 다양한 외형 특징들을 갖는 방법들은 기본 특징 추출 알고리즘이 다르고, 다중 추적의 성능 향상이 어느 부분으로부터 오는지 정확히 파악할 수 없다. 또한, 각각 다른 매칭 알고리즘과 특징 디자인은 서로 다른 알고리즘의 효과를 순수하게 비교할 수 없다. 이러한 관점에서, 본 연구에서는 어떠한 외형 특징을 사용하지 않고 명확하게 추적 알고리즘의 효율성을 비교할 수 있는 가이드라인을 제시한다. 외형 특징을 사용하지 않고도 실용적으로 사용 가능한 성능에 도달할 수 있음을 공인 MOT2016, MOT2016 데이터셋에 대한 실험을 통해 증명한다. 이러한 방법은 GPU 를 사용하지 않고 200 fps 이상의 높은 속도를 보여 실시간 속도를 요구하는 임베디드 시스템 상의 어플리케이션에 적합하다.

Vector-Based Data Augmentation and Network Learning for Efficient Crack Data Collection (효율적인 균열 데이터 수집을 위한 벡터 기반 데이터 증강과 네트워크 학습)

  • Kim, Jong-Hyun
    • Journal of the Korea Computer Graphics Society
    • /
    • v.28 no.2
    • /
    • pp.1-9
    • /
    • 2022
  • In this paper, we propose a vector-based augmentation technique that can generate data required for crack detection and a ConvNet(Convolutional Neural Network) technique that can learn it. Detecting cracks quickly and accurately is an important technology to prevent building collapse and fall accidents in advance. In order to solve this problem with artificial intelligence, it is essential to obtain a large amount of data, but it is difficult to obtain a large amount of crack data because the situation for obtaining an actual crack image is mostly dangerous. This problem of database construction can be alleviated with elastic distortion, which increases the amount of data by applying deformation to a specific artificial part. In this paper, the improved crack pattern results are modeled using ConvNet. Rather than elastic distortion, our method can obtain results similar to the actual crack pattern. By designing the crack data augmentation based on a vector, rather than the pixel unit used in general data augmentation, excellent results can be obtained in terms of the amount of crack change. As a result, in this paper, even though a small number of crack data were used as input, a crack database can be efficiently constructed by generating various crack directions and patterns.

Fingertip Detection through Atrous Convolution and Grad-CAM (Atrous Convolution과 Grad-CAM을 통한 손 끝 탐지)

  • Noh, Dae-Cheol;Kim, Tae-Young
    • Journal of the Korea Computer Graphics Society
    • /
    • v.25 no.5
    • /
    • pp.11-20
    • /
    • 2019
  • With the development of deep learning technology, research is being actively carried out on user-friendly interfaces that are suitable for use in virtual reality or augmented reality applications. To support the interface using the user's hands, this paper proposes a deep learning-based fingertip detection method to enable the tracking of fingertip coordinates to select virtual objects, or to write or draw in the air. After cutting the approximate part of the corresponding fingertip object from the input image with the Grad-CAM, and perform the convolution neural network with Atrous Convolution for the cut image to detect fingertip location. This method is simpler and easier to implement than existing object detection algorithms without requiring a pre-processing for annotating objects. To verify this method we implemented an air writing application and showed that the recognition rate of 81% and the speed of 76 ms were able to write smoothly without delay in the air, making it possible to utilize the application in real time.