• 제목/요약/키워드: 부분 합성곱 신경망

검색결과 26건 처리시간 0.033초

잔차 연결의 조건부 생성적 적대 신경망을 사용한 시맨틱 객체 분할 (Semantic Object Segmentation Using Conditional Generative Adversarial Network with Residual Connections)

  • ;;;강현수;서재원
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1919-1925
    • /
    • 2022
  • 본 논문에서는 시맨틱 분할을 위한 조건부 생성적 적대 신경망 기반의 이미지 대 이미지 변환 접근법을 제안한다. 시맨틱 분할은 동일한 개체 클래스에 속하는 이미지 부분을 함께 클러스터링하는 작업이다. 기존의 픽셀별 분류 방식과 달리 제안하는 방식은 픽셀 회귀 방식을 사용하여 입력 RGB 이미지를 해당 시맨틱 분할 마스크로 구문 분석한다. 제안하는 방법은 Pix2Pix 이미지 합성 방식을 기반으로 하였다. 잔차 연결이 훈련 프로세스를 가속화하고 더 정확한 결과를 생성하므로 생성기 및 판별기 아키텍처 모두에 대해 잔여 연결 기반 컨볼루션 신경망 아키텍처를 사용하였다. 제안하는 방법은 NYU-depthV2 데이터셋를 이용하여 학습 및 테스트 되었으며 우수한 mIOU 값(49.5%)을 달성할 수 있었다. 또한 시맨틱 객체분할 실험에서 제안한 방법과 현재 방법을 비교하여 제안한 방법이 기존의 대부분의 방법들보다 성능이 우수함을 보였다.

소규모 합성곱 신경망을 사용한 연령 및 성별 분류 (Age and Gender Classification with Small Scale CNN)

  • ;류재흥
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.99-104
    • /
    • 2022
  • 인공지능은 놀라운 이점으로 우리 삶의 중요한 부분을 차지하고 있다. 기계는 이미지에서 물체를 인식하는 것, 특히 사람들을 정확한 나이와 성별 그룹으로 분류하는 것에 있어서 인간을 능가하고 있다. 이러한 측면에서 나이와 성별 분류는 최근 수십 년 동안 컴퓨터 비전 연구자들 사이에서 뜨거운 주제 중 하나였다. 심층 합성곱 신경망(CNN) 모델의 배포는 최첨단 성능을 달성했다. 그러나 대부분의 CNN 기반 아키텍처는 수십 개의 훈련 매개 변수로 매우 복잡하기 때문에 많은 계산 시간과 자원이 필요하다. 이러한 이유로 기존 방법에 비해 훈련 매개 변수와 훈련 시간이 현저히 적은 새로운 CNN기반 분류 알고리즘을 제안한다. 덜 복잡함에도 불구하고 우리 모델은 UTKFace 데이터 세트에서 연령 및 성별 분류의 더 나은 정확도를 보여준다.

AI면접 대상자에 대한 다면적 평가방법론 -얼굴인식, 음성분석, 자연어처리 영역의 융합 (Multifaceted Evaluation Methodology for AI Interview Candidates - Integration of Facial Recognition, Voice Analysis, and Natural Language Processing)

  • 지현욱;이상진;문성민;이재열;이동은;임규상
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.55-58
    • /
    • 2024
  • 최근 각 기업의 AI 면접시스템 도입이 증가하고 있으며, AI 면접에 대한 실효성 논란 또한 많은 상황이다. 본 논문에서는 AI 면접 과정에서 지원자를 평가하는 방식을 시각, 음성, 자연어처리 3영역에서 구현함으로써, 면접 지원자를 다방면으로 분석 방법론의 적절성에 대해 평가하고자 한다. 첫째, 시각적 측면에서, 면접 지원자의 감정을 인식하기 위해, 합성곱 신경망(CNN) 기법을 활용해, 지원자 얼굴에서 6가지 감정을 인식했으며, 지원자가 카메라를 응시하고 있는지를 시계열로 도출하였다. 이를 통해 지원자가 면접에 임하는 태도와 특히 얼굴에서 드러나는 감정을 분석하는 데 주력했다. 둘째, 시각적 효과만으로 면접자의 태도를 파악하는 데 한계가 있기 때문에, 지원자 음성을 주파수로 환산해 특성을 추출하고, Bidirectional LSTM을 활용해 훈련해 지원자 음성에 따른 6가지 감정을 추출했다. 셋째, 지원자의 발언 내용과 관련해 맥락적 의미를 파악해 지원자의 상태를 파악하기 위해, 음성을 STT(Speech-to-Text) 기법을 이용하여 텍스트로 변환하고, 사용 단어의 빈도를 분석하여 지원자의 언어 습관을 파악했다. 이와 함께, 지원자의 발언 내용에 대한 감정 분석을 위해 KoBERT 모델을 적용했으며, 지원자의 성격, 태도, 직무에 대한 이해도를 파악하기 위해 객관적인 평가지표를 제작하여 적용했다. 논문의 분석 결과 AI 면접의 다면적 평가시스템의 적절성과 관련해, 시각화 부분에서는 상당 부분 정확도가 객관적으로 입증되었다고 판단된다. 음성에서 감정분석 분야는 면접자가 제한된 시간에 모든 유형의 감정을 드러내지 않고, 또 유사한 톤의 말이 진행되다 보니 특정 감정을 나타내는 주파수가 다소 집중되는 현상이 나타났다. 마지막으로 자연어처리 영역은 면접자의 발언에서 나오는 말투, 특정 단어의 빈도수를 넘어, 전체적인 맥락과 느낌을 이해할 수 있는 자연어처리 분석모델의 필요성이 더욱 커졌음을 판단했다.

  • PDF

클래스 임베딩과 주의 집중 순환 신경망을 이용한 자주 묻는 질문의 자동 분류 (Automatic Classification of Frequently Asked Questions Using Class Embedding and Attentive Recurrent Neural Network)

  • 장영진;김학수;김세빈;강동호;장현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.367-370
    • /
    • 2018
  • 웹 또는 모바일 사용자는 고객 센터에 구축된 자주 묻는 질문을 이용하여 원하는 서비스를 제공받는다. 그러나 자주 묻는 질문은 사용자가 직접 핵심어를 입력하여 검색된 결과 중 필요한 정보를 찾아야 하는 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자 질의를 입력 받아 질의에 해당하는 클래스를 분류해주는 문장 분류 모델을 제안한다. 제안모델은 웹이나 모바일 환경의 오타나 맞춤법 오류에 대한 강건함을 위해 자소 단위 합성곱 신경망을 사용한다. 그리고 기계 번역 이외에도 자연어 처리 부분에서 큰 성능 향상을 보여주는 주의 집중 방법과 클래스 임베딩을 이용한 문장 분류 시스템을 사용한다. 457개의 클래스 분류와 769개의 클래스 분류에 대한 실험 결과 Micro F1 점수 기준 81.32%, 61.11%의 성능을 보였다.

  • PDF

Spectral Pooling: DFT 기반 풀링 계층이 보여주는 여러 가능성에 대한 연구 (Spectral Pooling: A study on the various possibilities of the DFT-based Pooling layer)

  • 이성주;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.87-90
    • /
    • 2020
  • GPU의 발전과 함께 성장한 딥러닝(Deep Learning)은 영상 분류 문제에서 최고의 성능을 보이고 있다. 그러나 합성곱 신경망 기반의 모델을 깊게 쌓음에 따라 신경망의 표현력이 좋아짐과 동시에 때로는 학습이 잘되지 않고 성능이 저하되는 등의 부작용도 등장했다. 성능 향상을 방해하는 주요 요인 중 하나는, 차원감소 목적에 따라 필연적으로 정보 손실을 겪어야 하는 풀링 계층에 있다. 따라서 특성맵(Feature map)의 차원감소를 통해 얻게 되는 비용적 이득과 모델의 분류 성능 사이의 취사선택(Trade-off)이 존재한다. 그리고 이로부터 자유로워지기 위한 다양한 연구와 기법이 존재하는데 Spectral Pooling도 이 중 하나이다. 본 논문에서는 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 이용한 Spectral Pooling에 대한 소개와, 해당 풀링의 성질을 통상적으로 사용되고 있는 Max Pooling과의 성능 비교를 통해 분석한다. 또한 영상 내 고주파수 부분에서 특히 더 강건하지 못하다는 맥스 풀링의 고질적인 문제점을, Spectral Pooling과의 하이브리드(Hybrid) 구조를 통해 어떻게 극복해나갈 것인지 그 가능성을 중심으로 실험을 수행했다.

  • PDF

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

이미지 인페인팅을 활용한 레이다 이미지 노이즈 제거 (Noise Removal of Radar Image Using Image Inpainting)

  • 전동민;오상진;임채옥;신성철
    • 대한조선학회논문집
    • /
    • 제59권2호
    • /
    • pp.118-124
    • /
    • 2022
  • Marine environment analysis and ship motion prediction during ship navigation are important technologies for safe and economical operation of autonomous ships. As a marine environment analysis technology, there is a method of analyzing waves by measuring the sea states through images acquired based on radar(radio detection and ranging) signal. However, in the process of deriving marine environment information from radar images, noises generated by external factors are included, limiting the interpretation of the marine environment. Therefore, image processing for noise removal is required. In this study, image inpainting by partial convolutional neural network model is proposed as a method to remove noises and reconstruct radar images.

외형 특징을 사용하지 않는 효율적인 다중 물체 추적 방법 (Efficient Multiple Object Tracking without Appearance Features)

  • 이혜민;김대진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.872-874
    • /
    • 2021
  • 본 논문은 외형 특징을 사용하지 않는 효율적인 다중 물체 추적 방법을 제안한다. 본 논문의 목적은 다중 물체 추적 방법이 합성곱 신경망 등의 외형 특징을 사용하지 않고 순수한 모션 모델의 힘으로 도달할 수 있는 최대의 성능을 찾는 것이다. 많은 다중 물체 추적 방법들이 추적 대상들 간의 유사성을 파악하기 위해 외형 특징을 사용한다. 하지만 다양한 외형 특징들을 갖는 방법들은 기본 특징 추출 알고리즘이 다르고, 다중 추적의 성능 향상이 어느 부분으로부터 오는지 정확히 파악할 수 없다. 또한, 각각 다른 매칭 알고리즘과 특징 디자인은 서로 다른 알고리즘의 효과를 순수하게 비교할 수 없다. 이러한 관점에서, 본 연구에서는 어떠한 외형 특징을 사용하지 않고 명확하게 추적 알고리즘의 효율성을 비교할 수 있는 가이드라인을 제시한다. 외형 특징을 사용하지 않고도 실용적으로 사용 가능한 성능에 도달할 수 있음을 공인 MOT2016, MOT2016 데이터셋에 대한 실험을 통해 증명한다. 이러한 방법은 GPU 를 사용하지 않고 200 fps 이상의 높은 속도를 보여 실시간 속도를 요구하는 임베디드 시스템 상의 어플리케이션에 적합하다.

효율적인 균열 데이터 수집을 위한 벡터 기반 데이터 증강과 네트워크 학습 (Vector-Based Data Augmentation and Network Learning for Efficient Crack Data Collection)

  • 김종현
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권2호
    • /
    • pp.1-9
    • /
    • 2022
  • 본 논문에서는 균열을 감지 할 때 필요한 데이터를 생성할 수 있는 벡터 기반 증강 기법과 이를 학습할 수 있는 합성곱 인공신경망(Convolution Neural Networks, ConvNet) 기법을 제안한다. 균열을 빠르고 정확하게 감지하는 것은 건물 붕괴와 낙하 사고를 사전에 방지할 수 있는 중요한 기술이다. 이 문제를 인공지능으로 해결하기 위해서는 대량의 데이터 확보가 필수적이지만, 실제 균열 이미지를 얻기 위한 상황은 대부분 위험하기 때문에 대량의 균열 데이터를 확보하기는 어렵다. 이런 데이터베이스 구축의 문제점은 인위적인 특정 부분에 변형을 주어 데이터의 양을 늘리는 탄성왜곡(Elastic distortion)으로 완화시킬 수 있지만, 본 논문에서는 이보다 향상된 균열 패턴 결과를 ConvNet을 활용하여 모델링한다. 탄성왜곡보다 우리의 방법이 실제 균열 패턴과 유사하게 추출된 결과를 얻을 수 있었고, 일반적인 데이터 증강에서 사용되는 픽셀 단위가 아닌, 벡터 기반으로 균열 데이터 증강을 설계함으로써 균열의 변화량 측면에서 우수한 결과를 얻을 수 있다. 결과적으로 본 논문에서는 적은 개수의 균열 데이터를 입력으로 사용했음에도 불구하고 균열의 방향 및 패턴을 다양하게 생성하여 효율적으로 균열 데이터베이스를 구축할 수 있다.

Atrous Convolution과 Grad-CAM을 통한 손 끝 탐지 (Fingertip Detection through Atrous Convolution and Grad-CAM)

  • 노대철;김태영
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권5호
    • /
    • pp.11-20
    • /
    • 2019
  • 딥러닝 기술의 발전으로 가상 현실이나 증강 현실 응용에서 사용하기 적절한 사용자 친화적 인터페이스에 관한 연구가 활발히 이뤄지고 있다. 본 논문은 사용자의 손을 이용한 인터페이스를 지원하기 위하여 손 끝 좌표를 추적하여 가상의 객체를 선택하거나, 공중에 글씨나 그림을 작성하는 행위가 가능하도록 딥러닝 기반 손 끝 객체 탐지 방법을 제안한다. 입력 영상에서 Grad-CAM으로 해당 손 끝 객체의 대략적인 부분을 잘라낸 후, 잘라낸 영상에 대하여 Atrous Convolution을 이용한 합성곱 신경망을 수행하여 손 끝의 위치를 찾는다. 본 방법은 객체의 주석 전처리 과정을 별도로 요구하지 않으면서 기존 객체 탐지 알고리즘 보다 간단하고 구현하기에 쉽다. 본 방법을 검증하기 위하여 Air-Writing 응용을 구현한 결과 평균 81%의 인식률과 76 ms 속도로 허공에서 지연 시간 없이 부드럽게 글씨 작성이 가능하여 실시간으로 활용 가능함을 알 수 있었다.