• 제목/요약/키워드: Multi-modal Features

검색결과 37건 처리시간 0.032초

다중모드 특징을 사용한 뉴스 동영상의 앵커 장면 검출 기법 (Multi-modal Detection of Anchor Shot in News Video)

  • 유성열;강동욱;김기두;정경훈
    • 방송공학회논문지
    • /
    • 제12권4호
    • /
    • pp.311-320
    • /
    • 2007
  • 본 논문에서는 뉴스 동영상 정보의 생성을 위해 뉴스 단위의 기준이 되는 앵커 장면을 효과적으로 검출하는 기법을 제안한다. 우선 뉴스 동영상의 오디오 및 비디오 구성 요소에 대한 관찰을 통하여 앵커 장면 검출에 적합한 기본적인 특징들을 선택하였다. 제안 알고리듬에서는 색인의 정확도를 높이기 위해 몇몇 오디오 특징과 함께 비디오 특징으로서 움직임 특징을 함께 이용하였으며, 전체적인 구조는 '오디오 정지 구간 검출', '오디오 클러스터 분류', 그리고 '움직임 활동도와의 매칭'의 3단계로 구성된다. MPEG-2 방식으로 부호화된 뉴스 동영상에 대한 실험을 통해 제안 알고리듬의 성능이 만족스러움을 확인하였다.

다양한 형식의 얼굴정보와 준원근 카메라 모델해석을 이용한 얼굴 특징점 및 움직임 복원 (Facial Features and Motion Recovery using multi-modal information and Paraperspective Camera Model)

  • 김상훈
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.563-570
    • /
    • 2002
  • 본 논문은 MPEG4 SNHC의 얼굴 모델 인코딩을 구현하기 위하여 연속된 2차원 영상으로부터 얼굴영역을 검출하고, 얼굴의 특징데이터들을 추출한 후, 얼굴의 3차원 모양 및 움직임 정보를 복원하는 알고리즘과 결과를 제시한다. 얼굴 영역 검출을 위해서 영상의 거리, 피부색상, 움직임 색상정보등을 융합시킨 멀티모달합성의 방법이 사용되었다. 결정된 얼굴영역에서는 MPEG4의 FDP(Face Definition Parameter) 에서 제시된 특징점 위치중 23개의 주요 얼굴 특징점을 추출하며 추출성능을 향상시키기 위하여 GSCD(Generalized Skin Color Distribution), BWCD(Black and White Color Distribution)등의 움직임색상 변환기법과 형태연산 방법이 제시되었다. 추출된 2차원 얼팔 특징점들로부터 얼굴의 3차원 모양, 움직임 정보를 복원하기 위하여 준원근 카메라 모델을 적용하여 SVD(Singular Value Decomposition)에 의한 인수분해연산을 수행하였다. 본 논문에서 제시된 방법들의 성능을 객관적으로 평가하기 위하여 크기와 위치가 알려진 3차원 물체에 대해 실험을 행하였으며, 복원된 얼굴의 움직임 정보는 MPEG4 FAP(Face Animation Parameter)로 변환된 후, 인터넷상에서 확인이 가능한 가상얼굴모델에 인코딩되어 실제 얼굴파 일치하는 모습을 확인하였다.

유비쿼터스 환경의 상황인지 모델과 이를 활용한 멀티모달 인터랙션 디자인 프레임웍 개발에 관한 연구 (Ubiquitous Context-aware Modeling and Multi-Modal Interaction Design Framework)

  • 김현정;이현진
    • 디자인학연구
    • /
    • 제18권2호
    • /
    • pp.273-282
    • /
    • 2005
  • 본 연구는 유비쿼터스 컴퓨팅 환경구축에 활용하기 위한 상황인지 모델과 이를 활용한 멀티모달 인터랙션 디자인 프레임웍을 제안하였다. 먼저 상황인지 모델개발을 위해 사용자의 인터랙션 상황을 파악하는 방법과 수집된 상황의 의미를 추론하여 사용자 요구에 맞는 멀티모달 인터랙션 서비스를 제공하는 방법을 연구하였다. 또한 상황인지 모델(Context cube)을 활용한 멀티모달 인터랙션 디자인 프레임웍을 제안하였으며, 이 프레임웍의 활용성을 검증하는 사례연구를 수행하고, 개인화된 유비쿼터스 서비스 도출 및 이 서비스의 산업화 가능성을 제시하였다. 상황인지는 사용자의 기본 행위(Basic Activity), 공간에서의 사용자 위치 및 공간내의 기기 및 환경 요소, 시간 요소와 사용자의 일상적인 스케줄 정보 요소에 의해 파악할 수 있으며, 이러한 요소들을 종합하여 공간적인 개념의 상황인지 모델(Context Cube)을 개발함으로써, 구체적인 공간 모델 내에서의 다양하고 개인화 된 유비쿼터스 서비스의 제안이 가능하였다. 또한, 실제적인 사용자 시나리오에 의한 사례연구를 통해 개념 모델을 구축하는 과정 및 각 과정에서 요구되는 정보의 유형을 검증하고, 상황인지 모델에서의 구성요소의 내용과 배열 등을 정의함으로써 개념모델의 완성도를 높였으며, 상황인지 모델에서 표현되는 사용자의 인터랙션 특징을 바탕으로 멀티모달 인터랙션 디자인의 접근방법을 개발함으로서 이를 디자인 프레임웍으로 구체화할 수 있었다.

  • PDF

Gait Type Classification Using Multi-modal Ensemble Deep Learning Network

  • Park, Hee-Chan;Choi, Young-Chan;Choi, Sang-Il
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.29-38
    • /
    • 2022
  • 본 논문에서는 멀티 센서가 장착된 스마트 인솔로 측정한 보행 데이터에 대해 앙상블 딥러닝 네트워크를 이용하여 보행의 타입을 분류하는 시스템을 제안한다. 보행 타입 분류 시스템은 인솔에 의해 측정된 데이터를 정규화하는 부분과 딥러닝 네트워크를 이용하여 보행의 특징을 추출하는 부분, 그리고 추출된 특징을 입력으로 보행의 타입을 분류하는 부분으로 구성되어 있다. 서로 다른 특성을 가지는 CNN과 LSTM을 기반으로 하는 네트워크를 독립적으로 학습하여 두 종류의 보행 특징 맵을 추출하였으며, 각각의 분류 결과를 결합하여 최종적인 앙상블 네트워크의 분류 결과를 도출하였다. 20~30대 성인의 걷기, 뛰기, 빠르게 걷기, 계단 오르기와 내려가기, 언덕 오르기와 내려가기의 7종류의 보행에 대해, 스마트 인솔을 이용하여 실측한 멀티 센서 데이터를 제안한 앙상블 네트워크로 분류해 본 결과 90% 이상의 높은 분류율을 보이는 것을 확인하였다.

Multi-Modal Controller Usability for Smart TV Control

  • Yu, Jeongil;Kim, Seongmin;Choe, Jaeho;Jung, Eui S.
    • 대한인간공학회지
    • /
    • 제32권6호
    • /
    • pp.517-528
    • /
    • 2013
  • Objective: The objective of this study was to suggest a multi-modal controller type for Smart TV Control. Background: Recently, many issues regarding the Smart TV are arising due to the rising complexity of features in a Smart TV. One of the specific issues involves what type of controller must be utilized in order to perform regulated tasks. This study examines the ongoing trend of the controller. Method: The selected participants had experiences with the Smart TV and were 20 to 30 years of age. A pre-survey determined the first independent variable of five tasks(Live TV, Record, Share, Web, App Store). The second independent variable was the type of controllers(Conventional, Mouse, Voice-Based Remote Controllers). The dependent variables were preference, task completion time, and error rate. The experiment consist a series of three experiments. The first experiment utilized a uni-modal Controller for tasks; the second experiment utilized a dual-modal Controller, while the third experiment utilized a triple-modal Controller. Results: The first experiment revealed that the uni-modal Controller (Conventional, Voice Controller) showed the best results for the Live TV task. The second experiment revealed that the dual-modal Controller(Conventional-Voice, Conventional-Mouse combinations) showed the best results for the Share, Web, App Store tasks. The third experiment revealed that the triple-modal Controller among all the level had not effective compared with dual-modal Controller. Conclusion: In order to control simple tasks in a smart TV, our results showed that a uni-modal Controller was more effective than a dual-modal controller. However, the control of complex tasks was better suited to the dual-modal Controller. User preference for a controller differs according the Smart TV functions. For instance, there was a high user preference for the uni-Controller for simple functions while high user preference appeared for Dual-Controllers when the task was complex. Additionally, in accordance with task characteristics, there was a high user preference for the Voice Controller for channel and volume adjustment. Furthermore, there was a high user preference for the Conventional Controller for menu selection. In situations where the user had to input text, the Voice Controller had the highest preference among users while the Mouse Type, Voice Controller had the highest user preference for performing a search or selecting items on the menu. Application: The results of this study may be utilized in the design of a controller which can effectively carry out the various tasks of the Smart TV.

A multi-resolution analysis based finite element model updating method for damage identification

  • Zhang, Xin;Gao, Danying;Liu, Yang;Du, Xiuli
    • Smart Structures and Systems
    • /
    • 제16권1호
    • /
    • pp.47-65
    • /
    • 2015
  • A novel finite element (FE) model updating method based on multi-resolution analysis (MRA) is proposed. The true stiffness of the FE model is considered as the superposition of two pieces of stiffness information of different resolutions: the pre-defined stiffness information and updating stiffness information. While the resolution of former is solely decided by the meshing density of the FE model, the resolution of latter is decided by the limited information obtained from the experiment. The latter resolution is considerably lower than the former. Second generation wavelet is adopted to describe the updating stiffness information in the framework of MRA. This updating stiffness in MRA is realized at low level of resolution, therefore, needs less number of updating parameters. The efficiency of the optimization process is thus enhanced. The proposed method is suitable for the identification of multiple irregular cracks and performs well in capturing the global features of the structural damage. After the global features are identified, a refinement process proposed in the paper can be carried out to improve the performance of the MRA of the updating information. The effectiveness of the method is verified by numerical simulations of a box girder and the experiment of a three-span continues pre-stressed concrete bridge. It is shown that the proposed method corresponds well to the global features of the structural damage and is stable against the perturbation of modal parameters and small variations of the damage.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.

Incorporating BERT-based NLP and Transformer for An Ensemble Model and its Application to Personal Credit Prediction

  • Sophot Ky;Ju-Hong Lee;Kwangtek Na
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.9-15
    • /
    • 2024
  • Tree-based algorithms have been the dominant methods used build a prediction model for tabular data. This also includes personal credit data. However, they are limited to compatibility with categorical and numerical data only, and also do not capture information of the relationship between other features. In this work, we proposed an ensemble model using the Transformer architecture that includes text features and harness the self-attention mechanism to tackle the feature relationships limitation. We describe a text formatter module, that converts the original tabular data into sentence data that is fed into FinBERT along with other text features. Furthermore, we employed FT-Transformer that train with the original tabular data. We evaluate this multi-modal approach with two popular tree-based algorithms known as, Random Forest and Extreme Gradient Boosting, XGBoost and TabTransformer. Our proposed method shows superior Default Recall, F1 score and AUC results across two public data sets. Our results are significant for financial institutions to reduce the risk of financial loss regarding defaulters.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

다중 센서 융합 알고리즘을 이용한 운전자의 감정 및 주의력 인식 기술 개발 (Development of Driver's Emotion and Attention Recognition System using Multi-modal Sensor Fusion Algorithm)

  • 한철훈;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제18권6호
    • /
    • pp.754-761
    • /
    • 2008
  • 최근 자동차 산업 및 기술이 발전함에 따라 기계적인 부분에서 서비스적인 부분으로 관심이 점점 바뀌고 있는 추세이다. 이와 같은 추세에 발맞추어 운전자에게 보다 안정적이며 편리한 운전 환경을 조성하기 위한 방법으로 감정 및 인지 인식에 대한 관심이 점점 높아지고 있다. 감정 및 주의력을 인식하는 것은 감정공학 기술로서 이 기술은 1980년대 후반부터 얼굴, 음성, 제스처를 통해 인간의 감정을 분석하고 이를 통해 인간 진화적인 서비스를 제공하기 위한 기술로 연구되어 왔다. 이와 같은 기술을 자동차 기술에 접목시키고 운전자의 안정적인 주행을 돕고 운전자의 감정 및 인지 상황에 따른 다양한 서비스를 제공할 수 있다. 또한 Real-Time으로 운전자의 제스처를 인식하여 졸음운전이나 부주의에 의한 사고를 사전에 예방하고 보다 안전한 운전을 돕는 서비스가 필요시 되고 있다. 본 논문은 운전자가 안전 운전을 하기 위해 생체-행동 신호를 이용하여 감정 및 졸음, 주의력의 신호를 추출하여 일정한 형태의 데이터베이스로 구축하고, 구축된 데이터를 이용하여 운전자의 감정 및 졸음, 주의력의 특징 점들을 검출하여, 그 결과 값을 Multi-Modal 방법을 통해 응합함으로써 운전자의 감정 및 주의력 상태를 인식할 수 있는 시스템을 개발하는데 목표를 두고 있다.