• 제목/요약/키워드: Multi-media learning

검색결과 133건 처리시간 0.019초

스포츠 영상 내에서 자동적인 가상 광고 삽입을 위한 다층퍼셉트론 기반의 저정보 영역 검출 (Low-Informative Region Detection based on Multi-Layer Perceptron for Automatical Insertion of Virtual Advertisement in Sports Image)

  • 정재영;김종하
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.71-77
    • /
    • 2017
  • 가상광고는 컴퓨터 그래픽을 이용하여 스포츠영상과 같은 미디어제작영상에 제품의 이미지, 로고, 선전문구 등을 삽입하는 광고기법이다. 최근 영상처리 기술과 컴퓨터 성능의 상승으로 인해 스포츠영상에 가상광고를 삽입하기 위한 기술적인 요소가 충족되어 영상 내에 가상광고의 삽입이 활발하게 진행되고 있다. 또한 자동적인 가상광고 삽입을 위한 영상 처리 기술이 가상광고 영역에서 중요한 연구 분야로 자리 잡고 있다. 이에 본 논문에서는 스포츠 영상 내에서 자동적으로 가상광고를 삽입하기 위해 영상처리 기법과 기계학습을 활용하여 저정보 영역을 추출하는 방법을 제안한다. 제안 방법은 영상의 밝기 정도를 히스토그램을 통해 분석하고 기계학습 방법을 활용하여 저정보 영역을 추출한다.

스마트 교육 커뮤니티 정보기반 도시재생 (Information-Based Urban Regeneration for Smart Education Community)

  • 김우영;서붕교
    • 대한건축학회논문집:계획계
    • /
    • 제34권12호
    • /
    • pp.13-20
    • /
    • 2018
  • This research is to analyze the public cases of information facilities in terms of central circulations in multi level volumes such as atrium or court which provide visual intervention between different spaces and physical connections such as bridges. Hunt Library design balances the understood pre-existing needs with the University's emerging needs to create a forward-thinking learning environment. While clearly a contemporary structure within a traditional context of the NCSU campus, the Hunt Library provides a positive platform for influencing its surroundings. Both technical and programmatic innovations are celebrated as part of the learning experience and provide a versatile and stimulating environment for students. Public library as open spaces connecting to an interactive social domain over communities can provide variety of learning environments, or technology based labs. There are many cases of the public information spaces with dynamic networks where participants can play their roles in physical space as well as in the intellectual stimulation. In the research, new public projects provide typologies of information spaces with user oriented media. The research is to address a creative transition between the reading space and the experimental links of the integration of state-of-the-art technology is highly visible in the building's design. The user-friendly browsing system that replaces the traditional browsing with the virtual shelves classified and archived by their form, is to reduce the storage space of the public library and it is to allow more space for collaborative learning. In addition to the intelligent robot of information storages, innovative features is the large-scale visualization space that supports team experiments to carry out collaborative online works and therefore the public library's various programs is to provide visitors with more efficient participatory environment.

딥 러닝 및 칼만 필터를 이용한 객체 추적 방법 (Object Tracking Method using Deep Learning and Kalman Filter)

  • 김기철;손소희;김민섭;전진우;이인재;차지훈;최해철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.495-505
    • /
    • 2019
  • 딥 러닝의 대표 알고리즘에는 영상 인식에 주로 사용되는 CNN(Convolutional Neural Networks), 음성인식 및 자연어 처리에 주로 사용되는 RNN(Recurrent Neural Networks) 등이 있다. 이 중 CNN은 데이터로부터 자동으로 특징을 학습하는 알고리즘으로 특징 맵을 생성하는 필터까지 학습할 수 있어 영상 인식 분야에서 우수한 성능을 보이면서 주류를 이루게 되었다. 이후, 객체 탐지 분야에서는 CNN의 성능을 향상하고자 R-CNN 등 다양한 알고리즘이 등장하였으며, 최근에는 검출 속도 향상을 위해 YOLO(You Only Look Once), SSD(Single Shot Multi-box Detector) 등의 알고리즘이 제안되고 있다. 하지만 이러한 딥러닝 기반 탐지 네트워크는 정지 영상에서 탐지의 성공 여부를 결정하기 때문에 동영상에서의 안정적인 객체 추적 및 탐지를 위해서는 별도의 추적 기능이 필요하다. 따라서 본 논문에서는 동영상에서의 객체 추적 및 탐지 성능 향상을 위해 딥 러닝 기반 탐지 네트워크에 칼만 필터를 결합한 방법을 제안한다. 탐지 네트워크는 실시간 처리가 가능한 YOLO v2를 이용하였으며, 실험 결과 제안한 방법은 기존 YOLO v2 네트워크에 비교하여 7.7%의 IoU 성능 향상 결과를 보였고 FHD 영상에서 20 fps의 처리 속도를 보였다.

딥 러닝 기반 감정인식 시스템 개발 (Emotion Recognition System based Deep Learning)

  • 이민규;김대하;최동윤;송병철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 추계학술대회
    • /
    • pp.16-18
    • /
    • 2017
  • 최근 딥 러닝의 발전으로 얼굴인식뿐만 아니라 더 세부적인 기술인 ID식별, 감정인식 등을 분류할 수 있는 알고리즘이 많이 제안되었다. 하지만 딥 러닝은 방대한 연산량을 처리해야 하기 때문에 실시간으로 영상을 구현하는 것은 한계가 있다. 본 논문은 위와 같은 문제를 개선하기 위하여 얼굴인식은 연산량이 비교적 적은 HOG알고리즘을 적용하여 전처리를 진행한다. 그 이후 ID식별 네트워크인 FaceNet과 EmotiW 2017 Challenge의 논문의 감정인식 네트워크를 Multi-Thread 기술을 적용하여 스레드를 분할 연산을 통하여 실시간으로 영상을 출력하는 알고리즘을 제안한다.

  • PDF

Exploration of Chinese-Korean Cooperative Multimedia Design Education

  • Jiang, Zheng-Qing;Lee, Dong-Hun
    • International Journal of Contents
    • /
    • 제5권4호
    • /
    • pp.69-74
    • /
    • 2009
  • This paper has done a study of Chinese-Korean cooperative multimedia design education. Sino-Korean school of multimedia was set up by Shanghai University of Engineering Science (SUES) and Korea Dongseo University in October 2002. We have created "3.5+0.5 Teaching Model". In this model, Chinese and Korea professors take courses together. Firstly, paper points our the Chinese government policy background of Chinese-Foreign Cooperation in running schools and the development of Chinese-Korean cooperative multimedia design education in SUES. Secondly, by analyzing the multimedia design industry to understand the Chinese multi-media design education. Thirdly, paper made in-depth studies for "3.5+0.5 Teaching Model" so as to draw the experience of successes and problems. Through analysis of "Questionnaires for students' learning and living conditions in Dongseo University in 2009" by spss 16.0, paper made a research of mode of "A semester studying in Korea". Finally, paper points out the development direction of Chinese-Korean cooperative multimedia design.

임베디드 GPU에서의 딥러닝 기반 실시간 보행자 탐지 기법 (Deep Learning-Based Real-Time Pedestrian Detection on Embedded GPUs)

  • 비엔 지아 안;이철
    • 방송공학회논문지
    • /
    • 제24권2호
    • /
    • pp.357-360
    • /
    • 2019
  • 본 논문은 임베디드 GPU에서 실시간 동작하는 딥 컨볼루션 뉴럴 네트워크(CNN) 기반의 보행자 탐지 기법을 제안한다. 제안하는 기법에서는 먼저 영상 내 보행자 크기에 대한 통계적 분석을 통해서 최적의 컨볼루션 층의 개수를 결정한다. 또한, 본 논문에서는 다중 스케일 CNN 학습 기법을 적용하여 영상 내의 보행자 크기 변화에 강인한 탐지 기법을 개발한다. 컴퓨터 모의실험을 통해 제안하는 알고리즘이 임베디드 GPU에서 실시간 동작하면서도 기존의 기법과 비교하여 평균적으로 높은 정확도를 보임을 확인한다.

검색어 생성을 위한 딥 러닝 기반 문장 분석 연구 (Deep Learning based Sentence Analysis for Query Generation)

  • 나성원;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.336-337
    • /
    • 2018
  • 최근 이미지의 Visual 정보를 추출하고 Multi label 분류를 통해 나온 결과의 상관관계를 modeling하여 문장으로 출력하는 CNN-RNN 아키텍처가 많은 발전을 이뤘다. 이 아키텍처의 출력은 이미지의 정보가 요약되어 문장으로 표현되기 때문에 Semantic정보가 풍부하여 유사 콘텐츠 검색에도 사용 가능하다. 하지만 결과 문장에 사람이 포함 되면 광범위한 검색 결과를 얻게 되고 부정확한 결과를 초래하게 된다. 이에 본 논문에서는 문장에서 사람을 인식하여 Identity를 부여함으로써 검색어를 좀 더 구체적으로 생성하고자 한다. 이 문제를 해결하기 위해 자연어 처리의 분야 중 하나인 개체명 인식(Named Entity Recognition) 문제로 다루며, 가장 많이 사용되고 있는 모델인 Bidirectional-LSTM-CRF와 CoNLL2003 dataset을 사용하여 수행 한다.

  • PDF

3 차원 휴먼 자세 추정을 위한 다시점 준지도 학습 (Multi-view semi-supervised learning for 3D human pose estimation)

  • 김도엽;장주용
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.134-138
    • /
    • 2021
  • 3 차원 휴먼 자세 추정 모델은 다시점 모델과 단시점 모델로 분류될 수 있다. 일반적으로 다시점 모델은 단시점 모델에 비하여 뛰어난 자세 추정 성능을 보인다. 단시점 모델의 경우 3 차원 자세 추정 성능의 향상은 많은 양의 학습 데이터를 필요로 한다. 하지만 3 차원 자세에 대한 참값을 획득하는 것은 쉬운 일이 아니다. 이러한 문제를 다루기 위해, 우리는 다시점 모델로부터 다시점 휴먼 자세 데이터에 대한 의사 참값을 생성하고, 이를 단시점 모델의 학습에 활용하는 방법을 제안한다. 또한, 우리는 각각의 다시점 영상으로부터 추정된 자세의 일관성을 고려하는 다시점 일관성 손실함수를 제안하여, 이것이 단시점 모델의 효과적인 학습에 도움을 준다는 것을 보인다.

  • PDF

딥러닝 기반 이산웨이블릿변환 네트워크 (Discrete Wavelet Transform Network based on Deep Learning)

  • 이주원;박찬승;윤영재;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.347-350
    • /
    • 2020
  • 본 논문에서는 영상 변환 기술인 이산웨이블릿변환(Discrete Wavelet Transform, DWT)를 딥러닝 기반의 네트워크로 구현한다. 딥러닝 기술 중에도 CNN 기반으로 네트워크를 설계하였으며, 본 DWT 네트워크는 해상도에 의존적이지 않은 계층들로만 구성된다. 데이터세트를 구성할 때 파이썬의 라이브러리를 사용하여 레이블 데이터세트를 구성한다. 128×128크기의 gray-scale 영상을 입력으로 사용하고 이에 대응하는 레이블 데이터세트를 구성하여 1-level DWT를 수행하는 네트워크의 학습을 진행한다. 역방향 변환도 네트워크 설계 후 데이터세트를 구성하여 학습을 진행한다. 학습이 완료된 1-level DWT 네트워크를 반복적으로 사용하여 Multi-level DWT 네트워크를 구성한다. 또한 양자화에 의한 간단한 영상압축 실험을 진행하여 DWT 네트워크의 성능과 압축 등의 응용분야에 활용할 수 있음을 보인다. 설계한 DWT 네트워크의 1-level 순방향 변환 성능은 42.18dB의 PSNR을 보였고, 1-level 역방향 변환 성능은 50.13dB의 PSNR을 보였다.

  • PDF

A multi-label Classification of Attributes on Face Images

  • Le, Giang H.;Lee, Yeejin
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.105-108
    • /
    • 2021
  • Generative adversarial networks (GANs) have reached a great result at creating the synthesis image, especially in the face generation task. Unlike other deep learning tasks, the input of GANs is usually the random vector sampled by a probability distribution, which leads to unstable training and unpredictable output. One way to solve those problems is to employ the label condition in both the generator and discriminator. CelebA and FFHQ are the two most famous datasets for face image generation. While CelebA contains attribute annotations for more than 200,000 images, FFHQ does not have attribute annotations. Thus, in this work, we introduce a method to learn the attributes from CelebA then predict both soft and hard labels for FFHQ. The evaluated result from our model achieves 0.7611 points of the metric is the area under the receiver operating characteristic curve.

  • PDF