• 제목/요약/키워드: Multi-modal Features

검색결과 37건 처리시간 0.023초

Proposal for AI Video Interview Using Image Data Analysis

  • Park, Jong-Youel;Ko, Chang-Bae
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제14권2호
    • /
    • pp.212-218
    • /
    • 2022
  • In this paper, the necessity of AI video interview arises when conducting an interview for acquisition of excellent talent in a non-face-to-face situation due to similar situations such as Covid-19. As a matter to be supplemented in general AI interviews, it is difficult to evaluate the reliability and qualitative factors. In addition, the AI interview is conducted not in a two-way Q&A, rather in a one-sided Q&A process. This paper intends to fuse the advantages of existing AI interviews and video interviews. When conducting an interview using AI image analysis technology, it supplements subjective information that evaluates interview management and provides quantitative analysis data and HR expert data. In this paper, image-based multi-modal AI image analysis technology, bioanalysis-based HR analysis technology, and web RTC-based P2P image communication technology are applied. The goal of applying this technology is to propose a method in which biological analysis results (gaze, posture, voice, gesture, landmark) and HR information (opinions or features based on user propensity) can be processed on a single screen to select the right person for the hire.

시각자극에 의한 피로도의 객관적 측정을 위한 연구 조사 (A Survey of Objective Measurement of Fatigue Caused by Visual Stimuli)

  • 김영주;이의철;황민철;박강령
    • 대한인간공학회지
    • /
    • 제30권1호
    • /
    • pp.195-202
    • /
    • 2011
  • Objective: The aim of this study is to investigate and review the previous researches about objective measuring fatigue caused by visual stimuli. Also, we analyze possibility of alternative visual fatigue measurement methods using facial expression recognition and gesture recognition. Background: In most previous researches, visual fatigue is commonly measured by survey or interview based subjective method. However, the subjective evaluation methods can be affected by individual feeling's variation or other kinds of stimuli. To solve these problems, signal and image processing based visual fatigue measurement methods have been widely researched. Method: To analyze the signal and image processing based methods, we categorized previous works into three groups such as bio-signal, brainwave, and eye image based methods. Also, the possibility of adopting facial expression or gesture recognition to measure visual fatigue is analyzed. Results: Bio-signal and brainwave based methods have problems because they can be degraded by not only visual stimuli but also the other kinds of external stimuli caused by other sense organs. In eye image based methods, using only single feature such as blink frequency or pupil size also has problem because the single feature can be easily degraded by other kinds of emotions. Conclusion: Multi-modal measurement method is required by fusing several features which are extracted from the bio-signal and image. Also, alternative method using facial expression or gesture recognition can be considered. Application: The objective visual fatigue measurement method can be applied into the fields of quantitative and comparative measurement of visual fatigue of next generation display devices in terms of human factor.

시각적 어텐션을 활용한 입술과 목소리의 동기화 연구 (Lip and Voice Synchronization Using Visual Attention)

  • 윤동련;조현중
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.166-173
    • /
    • 2024
  • 본 연구에서는 얼굴 동영상에서 입술의 움직임과 음성 간의 동기화 탐지 방법을 제안한다. 기존의 연구에서는 얼굴 탐지 기술로 얼굴 영역의 바운딩 박스를 도출하고, 박스의 하단 절반 영역을 시각 인코더의 입력으로 사용하여 입술-음성 동기화 탐지에 필요한 시각적인 특징을 추출하였다. 본 연구에서는 입술-음성 동기화 탐지 모델이 음성 정보의 발화 영역인 입술에 더 집중할 수 있도록 사전 학습된 시각적 Attention 기반의 인코더 도입을 제안한다. 이를 위해 음성 정보 없이 시각적 정보만으로 발화하는 말을 예측하는 독순술(Lip-Reading)에서 사용된 Visual Transformer Pooling(VTP) 모듈을 인코더로 채택했다. 그리고, 제안 방법이 학습 파라미터 수가 적음에도 불구하고 LRS2 데이터 세트에서 다섯 프레임 기준으로 94.5% 정확도를 보임으로써 최근 모델인 VocaList를 능가하는 것을 실험적으로 증명하였다. 또, 제안 방법은 학습에 사용되지 않은 Acappella 데이터셋에서도 VocaList 모델보다 8% 가량의 성능 향상이 있음을 확인하였다.

대조차환경 침식연안의 퇴적학적 특성 (Sedimentologic Characteristics of the Erosional Coast in the Tide-dominated Environment)

  • 금병철;오재경
    • 한국지구과학회지
    • /
    • 제23권7호
    • /
    • pp.565-574
    • /
    • 2002
  • 항공사진과 지형측량 등 기존의 연구자료를 기반으로 선정된 지역인 대부도 조간대 지역에서 침식연안의 퇴적학적 특징을 연구하기 위해 표층퇴적물 137개 및 1개의. 코아 퇴적물을 채취하여 분석하였다. 조상대 지역은 만조와 폭풍 시에 파랑과 조석에 의해서 침식되어진 육상퇴적물과 조석에 의해서 유입되는 세립 퇴적물이 퇴적되어 불량한 분급, 양의 왜도, 다모드(다기원)형 입도분포가 특징적으로 나타나고 있으며 주로 밑짐이동으로 운반되어 지고 있다. 반면, 상부조간대, 중부조간대, 하부조간대에서는 서해안에서 나타나는 일반적인 특징과 마찬가지로 외해로 갈수록 조립해지고 상대적으로 분급도가 양호하며 양의 왜도를 가지고 있다. 조석에 의한 승강작용에 의한 에너지 분산에 의해서 점이부유(graded suspension와 지속적 부유(uniform suspension)에 의해서 운반, 퇴적된다. 또한, 코아시료는 상향조립하고 분급도가 불량해지는데 이는 육상기원의 침식된 퇴적물이 유입되어 나타난 것으로 판단된다. 연구지역은 인위적 요인과 자연적 요인인 조석 만조 시에 태풍과 폭풍 그리고 장단기 해수면 상승에 의한 강한 파랑에 의한 자연적 침식된 지역으로 구성되어 있으며 해안침식을 받고 있다. 그러므로 대조차 침식연안은 만조시에 해안의 지역적, 시간적, 수리학적 상태에 의해서 영향을 받으며 조간대 지역은 전반적인 조간대 퇴적환경을 보인다.

장소 정보를 학습한 딥하이퍼넷 기반 TV드라마 소셜 네트워크 분석 (Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks)

  • 남장군;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.619-624
    • /
    • 2016
  • Social-aware video는 자유로운 스토리 전개를 통해 인물들간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람에게 전달해주고 있다. 특히 장소에 따른 사람들간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 멀티모달과 동적인 특성으로 인해 컴퓨터가 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하기 위해 기존의 연구에서는 딥하이퍼넷 모델을 사용하여 드라마 등장인물의 시각과 언어 정보를 기반으로 계층적 구조를 사용해 소셜 네트워크를 분석하였다. 하지만 장소 정보를 사용하지 않아 전반적인 스토리로부터 소셜 네트워크를 분석할 수밖에 없었다. 본 논문에서는 기존 연구를 바탕으로 장소 정보를 추가하여 각 장소에서의 인물 특성을 분석해 보았다. 본 논문에서는 총 4400분 분량의 TV드라마 "Friends"를 사용했고 C-RNN모델을 통해 등장인물을 인식하였으며 Bag of Features로 장소를 분류하였다. 그리고 딥하이퍼넷 모델을 통해 자동으로 소셜 네트워크를 생성하였고 각 장소에서의 인물 관계 변화를 분석하였다.

감정 온톨로지의 구축을 위한 구성요소 분석 (Component Analysis for Constructing an Emotion Ontology)

  • 윤애선;권혁철
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.157-175
    • /
    • 2010
  • 의사소통에서 대화자 간 감정의 이해는 메시지의 내용만큼이나 중요하다. 비언어적 요소에 의해 감정에 관한 더 많은 정보가 전달되고 있기는 하지만, 텍스트에도 화자의 감정을 나타내는 언어적 표지가 다양하고 풍부하게 녹아들어 있다. 본 연구의 목적은 인간언어공학에 활용할 수 있는 감정 온톨로지를 구축할 수 있도록 그 구성요소를 분석하는 데 있다. 텍스트 기반 감정 처리 분야의 선행 연구가 감정을 분류하고, 각 감정의 서술적 어휘 목록을 작성하고, 이를 텍스트에서 검색함으로써, 추출된 감정의 정확도가 높지 않았다. 이에 비해, 본 연구에서 제안하는 감정 온톨로지는 다음과 같은 장점이 있다. 첫째, 감정 표현의 범주를 기술 대상과 방식에 따라 6개 범주로 분류하고, 이들 간 상호 대응관계를 설정함으로써, 멀티모달 환경에 적용할 수 있다. 둘째, 세분화된 감정을 분류할 수 있되, 감정 간 차별성을 가질 수 있도록 24개의 감정 명세를 선별하고, 더 섬세하게 감정을 분류할 수 있는 속성으로 강도와 극성을 설정하였다. 셋째, 텍스트에 나타난 감정 표현을 명시적으로 구분할 수 있도록, 경험자 기술 대상과 방식 언어적 자질에 관한 속성을 도입하였다. 넷째, 본 연구의 감정분류는 Plutchik의 분류와 호환성을 갖고 있으며, 언어적 요소의 기술에서 국제표준의 태그세트를 수용함으로써, 다국어 처리에 활용을 극대화할 수 있도록 고려했다.

  • PDF

제품 설계 정보 재사용을 위한 그래프 기반의 부품 영상 정보와 설계 정보의 병합 (Integration of Component Image Information and Design Information by Graph to Support Product Design Information Reuse)

  • 이형재;양형정;김경윤;김수형;김선희
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.1017-1026
    • /
    • 2006
  • 최근에는 제품 개발의 효율성 증대를 위해서 다양한 분야의 전문가들이 참여하는 분산된 협업적 개발 환경이 필수적으로 인식되고 있으며 이에 따른 제품 설계 정보의 재사용 문제가 새롭게 부각되고 있다. 본 논문에서는 제품 설계 정보의 재사용을 위해 멀티미디어 기기에서 획득된 제품 영상을 부품 단위로 분할하여 속성 관계 그래프를 생성하고 이를 통해 제품 설계 정보를 검색하는 시스템을 제안한다. 본 논문에서 제안한 시스템은 라벨링 방법으로 제품 영상을 분할하고, 각 분할 영역의 속성과 영역간의 관계를 표현하는 속성 관계 그래프를 생성한다. 속성 관계 그래프는 제품 설계 정보를 추가하여 확장함으로써 영상 검색을 통한 제품 설계 정보의 재사용이 가능하다. 본 시스템의 주요 이점은 다음과 같다. 첫째, 주변 장치로부터 쉽게 획득할 수 있는 멀티미디어 영상을 이용하므로 특정 설계 툴에 종속적이지 않다. 둘째, 비율을 이용한 특징 벡터에 의해 다양한 크기의 유사 부품을 포함하는 영상의 검색이 가능하다. 셋째, 분할된 각 부품의 영역에 대한 다양한 영상 정보와 그들의 관계를 적용하기 때문에 검색 능력이 뛰어나다.