• 제목/요약/키워드: Improved deep learning

검색결과 571건 처리시간 0.026초

MSaGAN: Improved SaGAN using Guide Mask and Multitask Learning Approach for Facial Attribute Editing

  • Yang, Hyeon Seok;Han, Jeong Hoon;Moon, Young Shik
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.37-46
    • /
    • 2020
  • 최근 얼굴 속성 편집(facial attribute editing)의 연구는 GAN(Generative Adversarial Net)과 인코더-디코더(encoder-decoder) 구조를 활용하여 사실적인 결과를 얻고 있다. 최신 연구 중 하나인 SaGAN(Spatial attention GAN)은 공간적 주의 기제(spatial attention mechanism)를 활용하여 얼굴 영상에서 원하는 속성만을 변경할 방법을 제안하였다. 그러나 불충분한 얼굴 영역 정보로 인하여 때로 부자연스러운 결과를 얻는 경우가 발생한다. 본 논문에서는 기존 연구의 한계점을 개선하기 위하여 유도 마스크(guide mask)를 학습에 활용하고, 다중작업 학습(multitask learning) 접근을 적용한 개선된 SaGAN(MSaGAN)을 제안한다. 폭넓은 실험을 통해 마스크 손실 함수와 신경망 구조에 따른 얼굴 속성 편집의 결과를 비교하여 제안하는 방법이 기존보다 더 자연스러운 결과를 효율적으로 얻을 수 있음을 보인다.

Study on driver's distraction research trend and deep learning based behavior recognition model

  • Han, Sangkon;Choi, Jung-In
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.173-182
    • /
    • 2021
  • 본 논문에서는 운전자의 주의산만을 유발하는 운전자, 탑승자의 동작을 분석하고 핸드폰과 관련된 운전자의 행동 10가지를 인식하였다. 먼저 주의산만을 유발하는 동작을 환경 및 요인으로 분류하고 관련 최근 논문을 분석하였다. 분석된 논문을 기반으로 주의산만을 유발하는 주요 원인인 핸드폰과 관련된 10가지 운전자의 행동을 인식하였다. 약 10만 개의 이미지 데이터를 기반으로 실험을 진행하였다. SURF를 통해 특징을 추출하고 3가지 모델(CNN, ResNet-101, 개선된 ResNet-101)로 실험하였다. 개선된 ResNet-101 모델은 CNN보다 학습 오류와 검증 오류가 8.2배, 44.6배가량 줄어들었으며 평균적인 정밀도와 f1-score는 0.98로 높은 수준을 유지하였다. 또한 CAM(class activation maps)을 활용하여 딥러닝 모델이 운전자의 주의 분산 행동을 판단할 때, 핸드폰 객체와 위치를 결정적 원인으로 활용했는지 검토하였다.

SRCNN과 VDSR의 구조와 방법 및 개선된 성능평가 함수 (Structure, Method, and Improved Performance Evaluation Function of SRCNN and VDSR)

  • 이광찬;왕광싱;신성윤
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.543-548
    • /
    • 2021
  • 이미지는 해상도가 높을수록 이미지를 시청하는 사람들의 만족도가 높아지며 초고해상도 이미지화는 컴퓨터 비전이나 영상처리 분야 중에서도 연구 가치가 꽤 높아지고 있다. 본 연구에서는 주로 딥 러닝 초 해상도 모델을 사용하여 저해상도 이미지 LR의 주요 특징을 추출한다. 추출된 특징을 학습 및 재구성하고, 고해상도 이미지 HR을 생성하는 재구성 기반 알고리즘에 중점을 둔다. 본 논문에서는 재구성에 기반을 둔 초 해상도 알고리즘 모델에서 SRCNN과 VDSR에 대하여 알아보도록 한다. SRCNN과 VDSR모델의 구조 및 알고리즘 프로세스를 간략하게 소개하고 개선된 성능평가 함수에서도 다중 채널과 특수한 형태에 대하여 알아보도록 하며, 실험을 통하여 각 알고리즘의 성능을 이해하도록 한다. 실험에서는 SRCNN 및 VDSR 모델의 결과와 피크 신호 대 잡음 비 및 이미지 구조 유사도를 비교하는 실험을 수행하여 결과를 한눈에 볼 수 있도록 하였다.

실시간 3차원 객체 검출을 위한 포인트 클라우드 기반 딥러닝 모델 경량화 (Lightweight Deep Learning Model for Real-Time 3D Object Detection in Point Clouds)

  • 김규민;백중환;김희영
    • 한국정보통신학회논문지
    • /
    • 제26권9호
    • /
    • pp.1330-1339
    • /
    • 2022
  • 3D 물체검출은 대체로 자동차, 버스, 사람, 가구 등과 같은 비교적 크기가 큰 데이터를 검출하는 것을 목표로 두어 작은 객체 검출에는 취약하다. 또한, 임베디드 기기와 같은 자원이 제한적인 환경에서는 방대한 연산량 때문에 모델의 적용이 어렵다. 본 논문에서는 1개의 레이어만을 사용하여 로컬 특징에 중점을 두어 작은 객체 검출의 정확도를 높였으며, 제안한 사전 학습된 큰 네트워크에서 작은 네트워크로의 지식 증류법과 파라미터 크기에 따른 적응적 양자화를 통해 추론 속도를 향상시켰다. 제안 모델은 SUN RGB-D Val 와 자체 제작한 모형 사과나무 데이터 셋을 이용하여 성능을 평가하였고 최종적으로 mAP@0.25에서 62.04%, mAP@0.5에서 47.1%의 정확도 성능을 보였으며, 추론 속도는 120.5 scenes per sec로 빠른 실시간 처리속도를 보였다.

회랑 감시를 위한 딥러닝 알고리즘 학습 및 성능분석 (Deep Learning Algorithm Training and Performance Analysis for Corridor Monitoring)

  • 정우진;홍석민;최원혁
    • 한국항행학회논문지
    • /
    • 제27권6호
    • /
    • pp.776-781
    • /
    • 2023
  • K-UAM은 2035년까지의 성숙기 이후 상용화될 예정이다. UAM 회랑은 기존의 헬리콥터 회랑을 수직 분리하여 사용될 예정이기에 회량 사용량이 증가할 것으로 예상된다. 따라서 회랑을 모니터링하는 시스템도 필요하다. 최근 객체 검출 알고리즘이 크게 발전하였다. 객체 검출 알고리즘은 1단계 탐지와, 2단계 탐지 모델로 나뉜다. 실시간 객체 검출에 있어서 2단계 모델은 너무 느리기에 적합하지 않다. 기존 1단계 모델은 정확도에 문제가 있었지만, 버전 업그레이드를 통해 성능이 향상되었다. 1단계 모델 중 YOLO-V5는 모자이크 기법을 통한 소형 객체 검출 성능을 향상시킨 모델이다. 따라서 YOLO-V5는 넓은 회랑의 실시간 모니터링에 가장 적합하다고 판단된다. 본 논문에서는 YOLO-V5 알고리즘을 학습시켜 궁극적으로 회랑 모니터링 시스템에 대한 적합도를 분석한다.

Gaussian Blending: Improved 3D Gaussian Splatting for Model Light-Weighting and Deep Learning-Based Performance Enhancement

  • Yeong-In Lee;Jin-Nyeong Heo;Ji-Hwan Moon;Ha-Young Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권8호
    • /
    • pp.23-32
    • /
    • 2024
  • NVS는 여러 각도와 위치에서 수집한 이미지를 이용해 3차원 공간을 재현하는 연구 분야로, 증강현실, 가상현실, 자율주행, 로봇 네비게이션 등에서 중요성이 커지고 있다. 최근 주목받는 3D-GS 방법론은 기존 NeRF 보다 고품질 장면 생성, 빠른 학습 시간, 실시간 렌더링이 가능하지만, Gaussian points의 밀도 조정 과정에서 전체 Gaussian points 수의 증가로 메모리 소모량 상승과 렌더링 속도가 저하되는 문제가 있다. 이를 개선하기 위해 본 논문에서는 불필요한 Gaussian points를 제거하여 메모리 효율성을 높이는 Gaussian blending 기법과 Gaussian points 감소로 인한 표현력 손실을 최소화하는 깊이 정보 반영 손실 함수를 제안하여 모델의 성능을 보완한다. 실험 결과, Tanks & Temples 벤치마크 데이터셋에서 성능을 유지하면서 Gaussian points 수를 최대 4% 감소시키는 효과를 확인하였다. 따라서 본 논문에서 제안한 방법론은 3D-GS 모델의 경량화 가능성을 실험적으로 증명하였다.

일반화 적응 심층 잠재요인 추천모형 (A Generalized Adaptive Deep Latent Factor Recommendation Model)

  • 김정하;이지평;장성현;조윤호
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.249-263
    • /
    • 2023
  • 대표적인 추천 시스템 방법론인 협업 필터링(Collaborative Filtering)에는 이웃기반 방법(Neighbor Methods)과 잠재 요인 모델(Latent Factor model)이라는 두 가지 접근법이 있다. 이중 행렬 분해(Matrix Factorization)를 이용하는 잠재 요인 모델은 사용자-아이템 상호작용 행렬을 두 개의 보다 낮은 차원의 직사각형 행렬로 분해하고 이들의 행렬 곱으로 아이템의 평점(Rating)을 예측한다. 평점 패턴으로부터 추출된 요인 벡터들을 통해 사용자와 아이템 속성을 포착할 수 있기 때문에 확장성, 정확도, 유연성 측면에서 이웃기반 방법보다 우수하다고 알려져 있다. 하지만 평점이 지정되지 않은 아이템에 대해서는 선호도가 다른 개개인의 다양성을 반영하지 못하는 근본적인 한계가 있고 이는 반복적이고 부정확한 추천을 초래하게 된다. 이러한 잠재요인 모델의 한계를 개선하고자 각각의 아이템 별로 사용자의 선호도를 적응적으로 학습하는 적응 심층 잠재요인 모형(Adaptive Deep Latent Factor Model; ADLFM)이 등장하였다. ADLFM은 아이템의 특징을 설명하는 텍스트인 아이템 설명(Item Description)을 입력으로 받아 사용자와 아이템의 잠재 벡터를 구하고 어텐션 스코어(Attention Score)를 활용하여 개인의 다양성을 반영할 수 있는 방법을 제시한다. 하지만 아이템 설명을 포함하는 데이터 셋을 요구하기 때문에 이 방법을 적용할 수 있는 대상이 많지 않은 즉 일반화에 있어 한계가 있다. 본 연구에서는 아이템 설명 대신 추천시스템에서 보편적으로 사용하는 아이템 ID를 입력으로 하고 Self-Attention, Multi-head attention, Multi-Conv1d 등 보다 개선된 딥러닝 모델 구조를 적용함으로써 ADLFM의 한계를 개선할 수 있는 일반화된 적응 심층 잠재요인 추천모형 G-ADLFRM을 제안한다. 다양한 도메인의 데이터셋을 가지고 입력과 모델 구조 변경에 대한 실험을 진행한 결과, 입력만 변경했을 경우 동반되는 정보손실로 인해 ADLFM 대비 MAE(Mean Absolute Error)가 소폭 높아지며 추천성능이 하락했지만, 처리할 정보량이 적어지면서 epoch 당 평균 학습속도는 대폭 향상되었다. 입력 뿐만 아니라 모델 구조까지 바꿨을 경우에는 가장 성능이 우수한 Multi-Conv1d 구조가 ADLFM과 유사한 성능을 나타내며 입력변경으로 인한 정보손실을 충분히 상쇄시킬 수 있음을 보여주었다. 결론적으로 본 논문에서 제시한 모형은 기존 ADLFM의 성능은 최대한 유지하면서 빠른 학습과 추론이 가능하고(경량화) 다양한 도메인에 적용할 수 있는(일반화) 새로운 모형임을 알 수 있다.

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

딥러닝 기반 분류 모델의 성능 분석을 통한 건설 재해사례 텍스트 데이터의 효율적 관리방향 제안 (A Suggestion of the Direction of Construction Disaster Document Management through Text Data Classification Model based on Deep Learning)

  • 김하영;장예은;강현빈;손정욱;이준성
    • 한국건설관리학회논문집
    • /
    • 제22권5호
    • /
    • pp.73-85
    • /
    • 2021
  • 본 연구는 딥러닝 기반의 텍스트 데이터 분류 모델의 성능 고찰을 통해 한국어 건설 재해사례의 효율적 관리방향을 제안한다. 이를 위해 비정형 텍스트 문서인 건설 재해 보고서를 활용해 건설 사고의 대표적 유형인 추락, 감전, 낙하, 붕괴, 협착의 5개 범주로 분류하는 딥러닝 모델을 구현하였다. 초기 모델 테스트 결과, 추락 재해의 분류 정확도가 상대적으로 높게 도출되며 타 유형을 추락 재해로 분류하는 경우가 많이 발생한다는 특징이 나타났다. 원인 분석 결과, 1) 구체적인 사고 유발 행동, 2) 유사한 문장 구조, 3) 여러 유형에 해당되는 복합사고가 위의 특징에 영향을 미치는 것으로 분석되었으며, 이 중 추가 실험을 통해 검증이 가능한 복합사고에 대한 두 가지 정확도 개선 실험을 진행하였다: 1) 재분류, 2) 제외. 실험 결과, 복합사고 제외 시 분류 성능이 185.7% 향상되었으며, 이를 통해 여러 사고 유형에 대한 내용을 동시에 포함하는 복합사고의 다중공선성(multicollinearity)이 해소되었음을 알 수 있다. 결론적으로 본 연구에서는 향후 사고에 대한 상황을 상세히 서술하는 체계를 마련함과 동시에 복합사고를 독립적으로 관리할 필요성을 시사한다.

딥러닝 기반의 분할과 객체탐지를 활용한 도로균열 탐지시스템 개발 (A Development of Road Crack Detection System Using Deep Learning-based Segmentation and Object Detection)

  • 하종우;박경원;김민수
    • 한국전자거래학회지
    • /
    • 제26권1호
    • /
    • pp.93-106
    • /
    • 2021
  • 최근 도로균열 탐지에 대한 많은 연구에서 딥러닝 기반의 접근법을 활용하면서 과거 알고리즘 기반의 접근법을 활용한 연구들보다 높은 성능과 성과를 보이고 있다. 그러나 딥러닝 기반의 많은 연구가 여전히 균열의 유형을 분류하는 것에 집중되어 있다. 균열 유형의 분류는 현재 수작업에 의존하고 있는 균열탐지 프로세스를 획기적으로 개선해 줄 수 있다는 점에서 상당한 기대를 받고 있다. 그러나 실제 도로의 유지보수 작업에 있어서는 균열의 유형뿐만 아니라 균열의 심각도에 관한 판단이 필수적이지만, 아직까지 도로균열 탐지와 관련된 연구들이 균열의 심각도에 대한 자동화된 산출까지 진전되지 못하고 있다. 균열의 심각도를 산출하기 위해서는 균열의 유형과 이미지 속 균열의 부위가 함께 파악되어야 한다. 본 연구에서는 균열 유형과 균열 부위의 동시적 탐지를 효과적으로 자동화하기 위해 딥러닝 기반의 객체탐지 모델인 Mobilenet-SSD를 활용하는 방법을 다루고 있다. 균열탐지의 정확도를 개선하기 위해 U-Net을 활용해 입력 이미지를 자동 분할하고, 이를 객체탐지 기법과 결합하기 위한 여러 실험을 진행하여 그 결과를 정리하였다. 결과적으로 U-Net을 활용한 이미지 의 자동 마스킹을 통해 객체탐지의 성능을 mAP 값이 0.9315가 되도록 향상시킬 수 있었다. 본 연구의 결과를 참고하여 도로포장 관리시스템의 구현에 균열탐지 기능의 자동화가 더욱 진전될 수 있다고 기대된다.