• 제목/요약/키워드: multi-vision

검색결과 482건 처리시간 0.024초

Two person Interaction Recognition Based on Effective Hybrid Learning

  • Ahmed, Minhaz Uddin;Kim, Yeong Hyeon;Kim, Jin Woo;Bashar, Md Rezaul;Rhee, Phill Kyu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권2호
    • /
    • pp.751-770
    • /
    • 2019
  • Action recognition is an essential task in computer vision due to the variety of prospective applications, such as security surveillance, machine learning, and human-computer interaction. The availability of more video data than ever before and the lofty performance of deep convolutional neural networks also make it essential for action recognition in video. Unfortunately, limited crafted video features and the scarcity of benchmark datasets make it challenging to address the multi-person action recognition task in video data. In this work, we propose a deep convolutional neural network-based Effective Hybrid Learning (EHL) framework for two-person interaction classification in video data. Our approach exploits a pre-trained network model (the VGG16 from the University of Oxford Visual Geometry Group) and extends the Faster R-CNN (region-based convolutional neural network a state-of-the-art detector for image classification). We broaden a semi-supervised learning method combined with an active learning method to improve overall performance. Numerous types of two-person interactions exist in the real world, which makes this a challenging task. In our experiment, we consider a limited number of actions, such as hugging, fighting, linking arms, talking, and kidnapping in two environment such simple and complex. We show that our trained model with an active semi-supervised learning architecture gradually improves the performance. In a simple environment using an Intelligent Technology Laboratory (ITLab) dataset from Inha University, performance increased to 95.6% accuracy, and in a complex environment, performance reached 81% accuracy. Our method reduces data-labeling time, compared to supervised learning methods, for the ITLab dataset. We also conduct extensive experiment on Human Action Recognition benchmarks such as UT-Interaction dataset, HMDB51 dataset and obtain better performance than state-of-the-art approaches.

초고해상도 복원에서 성능 향상을 위한 다양한 Attention 연구 (A Study on Various Attention for Improving Performance in Single Image Super Resolution)

  • 문환복;윤상민
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.898-910
    • /
    • 2020
  • 컴퓨터 비전에서 단일 영상 기반의 초고해상도 영상 복원의 중요성과 확장성으로 관련 분야에서 많은 연구가 진행되어 왔으며, 최근 딥러닝에 대한 관심이 증가하면서 딥러닝을 활용한 단안 영상 기반 초고해상도 연구가 활발히 진행되고 있다. 대부분의 딥러닝을 기반으로 하는 단안 영상 기반 초고해상도 복원 연구는 복원 성능을 향상시키기 위해 네트워크의 구조, 손실 함수, 학습 방법에 초점이 맞추어 연구가 진행되었다. 한편, 딥러닝 네트워크를 깊게 쌓지 않고 초고해상도 영상 복원 성능을 향상시키기 위해 추출된 특징 맵을 강조하는 Attention Module에 대한 연구가 다양한 분야에 적용되어 왔다. Attention Module은 다양한 관점에서 네트워크의 목적에 맞는 특징 정보를 강조 및 스케일링 한다. 본 논문에서는 초고해상도 복원 네트워크를 기반으로 다양한 구조의 Channel Attention과 Spatial Attention을 설계하고, 다양한 관점에서 특징 맵을 강조하기 위해 다중 Attention Module 구조를 설계하여 성능을 분석 및 비교한다.

깊이 영상 카메라로부터 획득된 3D 영상의 품질 향상 방법 (A method of improving the quality of 3D images acquired from RGB-depth camera)

  • 박병서;김동욱;서영호
    • 한국정보통신학회논문지
    • /
    • 제25권5호
    • /
    • pp.637-644
    • /
    • 2021
  • 일반적으로, 컴퓨터 비전, 로보틱스, 증강현실 분야에서 3차원 공간 및 3차원 객체 검출 및 인식기술의 중요성이 대두되고 있다. 특히, 마이크로소프트사의 키넥트(Microsoft Kinect) 방식을 사용하는 영상 센서를 통하여 RGB 영상과 깊이 영상을 실시간 획득하는 것이 가능해짐으로 인하여 객체 검출, 추적 및 인식 연구에 많은 변화를 가져오고 있다. 본 논문에서는 다시점 카메라 시스템 상에서의 깊이 기반(RGB-Depth) 카메라를 통해 획득된 영상을 처리하여 3D 복원 영상의 품질을 향상하는 방법을 제안한다. 본 논문에서는 컬러 영상으로부터 획득한 마스크 적용을 통해 객체 바깥쪽 잡음을 제거하는 방법과 객체 안쪽의 픽셀 간 깊이 정보 차이를 구하는 필터링 연산을 결합하여 적용하는 방법을 제시하였다. 각 실험 결과를 통해 제시한 방법이 효과적으로 잡음을 제거하여 3D 복원 영상의 품질을 향상할 수 있음을 확인하였다.

이야기를 통한 치유: 린다 호건의 『세상을 지켜보는 여자: 한 원주민의 회고록』 (Healing through Storytelling: Linda Hogan's The Woman Who Watches Over the World)

  • 전세재
    • 영미문화
    • /
    • 제18권1호
    • /
    • pp.1-21
    • /
    • 2018
  • In Woman Watches over the World, Linda Hogan explores the broken identity of herself and her family, the issue of the poverty and the identity crisis, the alcoholism, prevalent in the Native American community and their silenced history. Previous studies have claimed that her memoir contributes to the restoration of Native American identity and history by accusing the violence of white culture, and seeks to recognize a dialogue between native culture and white mainstream culture as well. However they seem to overlook the complicated relations among story, identity, body and nature, to which Hogan as a multi-binded storyteller resorts as a way to break the silence of herself and her tribe for healing. Her own story, as a way to break the silence, becomes the formative drive to reveal the silenced history of her own tribe to lead the young generation to the future. She also understands the formative function of the story, which becomes the vehicle for embodying and connecting themselves to nature. To her, healing lies in the restoration of sympathetic relationship with nature. History, as a type of story, can be made up or mistold just like a story. There may be a blind spot where one can not assess what is true. In spite of the vision of the parallel worlds of the two cultures she presents, there seems to be no immediate solution to the discrimination against the Native American, poverty, identity crisis, and environmental problems which the Native American community faces. However, it can be said that her memoir serves as a rudder by presenting a direction to not only the Native American but also to readers in other cultures in its quest for practical possibilities for the future.

스마트 홈 사용자를 위한 라이다, 영상, 오디오 센서를 이용한 인공지능 이상징후 탐지 알고리즘 (Intelligent Abnormal Situation Event Detections for Smart Home Users Using Lidar, Vision, and Audio Sensors)

  • 김다현;안준호
    • 인터넷정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.17-26
    • /
    • 2021
  • 최근 COVID-19가 확산하고 외출 자제 권고와 같은 방역지침에 따라 집에서 생활하는 시간이 늘고 있다. 이에 따라 집에서 생활하는 1인 가구가 증가하고 있지만 1인 가구는 다인 가구보다 집 안에서 위급한 상황이 발생할 때 외부에 알리기 어렵다. 본 연구는 집안에서 발생하는 다양한 상황을 라이다, 영상, 음성 센서로 수집하고 센서에 따른 데이터를 각각의 알고리즘을 통해 분석하였다. 이를 이용해 위급상황 등의 비정상 패턴을 분석하여 사람의 이상징후를 탐지하는 연구를 진행했다. 각 센서에 따른 사람의 이상징후를 탐지하는 인공지능 알고리즘을 연구하였으며 센서에 따른 이상징후 탐지 정확도를 측정했다. 또한, 본 연구는 다양한 상황에 대한 센서의 탐지 가능 여부를 실험하여 센서 간의 장단점을 보완한 융합 방식을 제안한다.

SRCNN과 VDSR의 구조와 방법 및 개선된 성능평가 함수 (Structure, Method, and Improved Performance Evaluation Function of SRCNN and VDSR)

  • 이광찬;왕광싱;신성윤
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.543-548
    • /
    • 2021
  • 이미지는 해상도가 높을수록 이미지를 시청하는 사람들의 만족도가 높아지며 초고해상도 이미지화는 컴퓨터 비전이나 영상처리 분야 중에서도 연구 가치가 꽤 높아지고 있다. 본 연구에서는 주로 딥 러닝 초 해상도 모델을 사용하여 저해상도 이미지 LR의 주요 특징을 추출한다. 추출된 특징을 학습 및 재구성하고, 고해상도 이미지 HR을 생성하는 재구성 기반 알고리즘에 중점을 둔다. 본 논문에서는 재구성에 기반을 둔 초 해상도 알고리즘 모델에서 SRCNN과 VDSR에 대하여 알아보도록 한다. SRCNN과 VDSR모델의 구조 및 알고리즘 프로세스를 간략하게 소개하고 개선된 성능평가 함수에서도 다중 채널과 특수한 형태에 대하여 알아보도록 하며, 실험을 통하여 각 알고리즘의 성능을 이해하도록 한다. 실험에서는 SRCNN 및 VDSR 모델의 결과와 피크 신호 대 잡음 비 및 이미지 구조 유사도를 비교하는 실험을 수행하여 결과를 한눈에 볼 수 있도록 하였다.

SDF를 이용한 자동 스키닝 웨이트 페인팅 신경망 (Neural network for automatic skinning weight painting using SDF)

  • 설효석;권태수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권4호
    • /
    • pp.17-24
    • /
    • 2023
  • 컴퓨터 그래픽스 및 컴퓨터 비전 분야의 발전에 따라 삼차원 물체를 다양한 표현 방식으로 나타내고 있다. 이에 따라 여러 표현 방식을 사용하는 캐릭터의 애니메이션 제작에 대한 수요 또한 증가하고 있다. 캐릭터 애니메이션 제작에 주로 사용되는 스켈레탈 애니메이션의 경우 캐릭터 표면이 어느 관절로부터 영향을 받는지를 정하는 스키닝 웨이트 페인팅 작업이 필요하다. 본 논문은 삼각형 메시를 비롯한 여러 표현방식으로 나타난 캐릭터에 대한 스키닝 웨이트 페인팅 과정을 자동화하는 방법을 제안한다. 우선 다양한 표현 방식을 사용한 삼차원 캐릭터에 대해 일반적으로 사용할 수 있도록 Signed Distance Field(SDF)를 이용한다. 이후 그래프 신경망과 다층 퍼셉트론 계층 구조를 활용하여 캐릭터 표면 상에 주어진 위치에서의 스키닝 웨이트를 예측할 수 있다.

IC 패키지 마킹검사를 위한 적응적 다단계 이진화와 정합단위의 동적 선택 (An Adaptive Multi-Level Thresholding and Dynamic Matching Unit Selection for IC Package Marking Inspection)

  • 김민기
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.245-254
    • /
    • 2002
  • 머신비전을 이용한 IC 패키지 마킹검사 시스템은 입력영상으로부터 검사할 요소들의 위치를 식별하고, 추출된 요소들을 학습된 표준 패턴과 비교하여 마킹의 불량 여부를 판단한다. 본 논문에서는 검사 대상 IC 패키지의 위치 판별, 마킹문자 추출, 핀원딤플 검출과 같은 일련의 작업들에 적합한 적응적 다단계 이진화 방법과 마킹문자의 국소적인 오류검출은 물론 잡영에 강건한 정합단위의 동적 선택 방법을 제안한다. 제안하는 이진화 방법은 이진화 대상 영역과 명도 값의 범위를 제한하여 Otsu의 이진화 알고리즘을 적용함으로써 특정 응용에 적응적인 이진화가 가능하다. 정합단위의 동적 선택 방법은 문자추출 및 배치분석에 대한 결과에 따라 정합단위를 선택한다. 그러므로 문자추출 및 배치분석 과정에서 발생하는 예기치 못한 부적절한 상황에서도 가능한 범위내에서 최소의 정합단위를 선택할 수 있다. 제안된 방법을 구현하여 8종의 IC 패키지, 총 280개의 영상에 대하여 실험한 결과, IC 패키지와 핀원딤플의 검출율은 100%였으며, 마킹상태에 대한 판정은 98.8%의 정확도를 나타내어 제안된 방법이 효과적임을 확인할 수 있었다.

다중 분류기의 판정단계 융합에 의한 얼굴인식 (Multi-classifier Decision-level Fusion for Face Recognition)

  • 염석원
    • 대한전자공학회논문지SP
    • /
    • 제49권4호
    • /
    • pp.77-84
    • /
    • 2012
  • 얼굴인식 기술은 지능형 보안, 웹에서 콘텐츠 검색, 지능로봇의 시각부분, 머신인터페이스 등, 활용이 광범위 하다. 그러나 일반적으로 대상자의 표정과 포즈 변화, 주변의 조명 환경과 같은 문제가 있으며 이와 더불어 원거리에서 획득한 영상의 경우 저해상도를 비롯하여 블러와 잡음에 의한 영상의 열화 등의 여러 가지 어려움이 발생한다. 본 논문에서는 포톤 카운팅(Photon-counting) 선형판별법(Linear Discriminant Analysis)을 이용한 다중 분류기(Classifier)에 의한 판정을 융합하여 얼굴 영상 인식을 수행한다. Fisher 선형판별법은 집단 간 분산을 최대로 하고 집단 내 분산을 최소로 하는 공간으로 선형 투영하는 방법으로, 학습영상의 수가 적을 경우 특이행렬 문제가 발생하지만 포톤카운팅 선형 판별법은 이러한 문제가 없으므로 차원축소를 위한 전 처리 과정이 필요 없다. 본 논문의 다중 분류기는 포톤 카운팅 선형판별법의 유클리드 거리(Euclidean Distance) 또는 정규화된 상관(Normalized Correlation)을 적용하는 판정규칙에 따라 구성된다. 다중분류기의 판정의 융합은 각 분류기 cost의 정규화(Normalization), 유효화(Validation), 그리고 융합규칙(Fusion Rule)으로 구성된다. 각 분류기에서 도출된 cost는 같은 범위로 정규화된 후 유효화 과정에서 선별되고 Minimum, 또는 Average, 또는 Majority-voting의 융합규칙에 의하여 융합된다. 실험에서는 원거리에서 획득한 효과를 구현하기 위하여 고해상도 데이터베이스 영상을 인위적으로 Unfocusing과 Motion 블러를 이용하여 열화하여 테스트하였다. 실험 결과는 다중분류기 융합결과의 인식률은 단일분류기보다 높다는 것을 보여준다.

일정간격의 두 능동마커를 이용한 저가형 단안 PSD 모션캡쳐 시스템 개발 (Development of a Low-cost Monocular PSD Motion Capture System with Two Active Markers at Fixed Distance)

  • 서평원;김유건;한창호;유영기;오춘석
    • 전자공학회논문지SC
    • /
    • 제46권2호
    • /
    • pp.61-71
    • /
    • 2009
  • 본 논문에서는 가정용 게임에 적용 가능한 저가이면서 컴팩트한 모션캡쳐 시스템을 목표로 하고 있다. 현재 영화나 게임에 이용되는 모션캡쳐 시스템은 장비가 크고 상당히 고가이기 때문에 간단한 가정용 게임에는 적용하기 어렵다. 요즘 흔히 사용되는 USB CCD카메라를 이용한 모션캡쳐 게임은 속도가 느리고 2차원 인식만 하는 단점을 가지고 있다. 하지만 최근 연구에서 저가이면서 속도가 빠른 PSD센서를 이용하여 3차원 측정이 가능한 시스템을 구현할 수 있게 되었다. 2차원 측정이 가능한 PSD센서를 이용한 3차원 모션캡쳐 시스템에는 2개 이상의 PSD를 사용하는 스테레오 비전 기반의 PSD 모션캡쳐 시스템과 빛의 세기와 거리와의 관계를 이용하여 하나의 PSD만으로도 3차원 측정이 가능한 광량보정 기반의 단일 PSD 모션캡쳐 시스템 등이 소개되었다. 하지만 현재 개발된 두 시스템을 가정용 게임에 적용하기에는 다음과 같은 문제가 있다. 두 개 이상의 PSD 센서를 사용해야 하기 때문에 고가이고 복잡하다. 광량보정 기반의 단일 PSD 모션캡쳐 시스템의 경우에는 측정된 마커의 광량을 이용하여 거리를 계산하기 하기 때문에 거리측정을 위해 전방향으로 균일한 광량을 가지는 마커를 만들어야 하므로 매우 어렵다. 따라서 본 논문에서는 이러한 문제를 해결한 새로운 접근방법을 소개하고자 한다. 일정한 거리에 떨어져 있는 두 개의 마커가 광학적 특성만 동일하다면 두 마커 사이의 상대적 광량차이를 이용하여 3차원 측정을 할 수 있다는 것이다. 결과적으로 저가이며, 빠르고, 컴팩트하고, 광각이며, 게임에도 적용가능한 단일 PSD 모션 캡쳐 시스템을 개발했다. 이 개발된 시스템이 애니메이션이나 영화, 게임에도 사용되어질 것으로 기대한다.