• 제목/요약/키워드: 모달리티

검색결과 70건 처리시간 0.023초

손을 다루는 컴퓨터 비전 작업들을 위한 멀티 모달 합성 데이터 생성 방법 (Generating A Synthetic Multimodal Dataset for Vision Tasks Involving Hands)

  • 이창화;이선경;김동욱;정찬양;백승렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1052-1055
    • /
    • 2020
  • 본 논문에서는 3D 메시 정보, RGB-D 손 자세 및 2D/3D 손/세그먼트 마스크를 포함하여 인간의 손과 관련된 다양한 컴퓨터 비전 작업에 사용할 수 있는 새로운 다중 모달 합성 벤치마크를 제안 하였다. 생성된 데이터셋은 기존의 대규모 데이터셋인 BigHand2.2M 데이터셋과 변형 가능한 3D 손 메시(mesh) MANO 모델을 활용하여 다양한 손 포즈 변형을 다룬다. 첫째, 중복되는 손자세를 줄이기 위해 전략적으로 샘플링하는 방법을 이용하고 3D 메시 모델을 샘플링된 손에 피팅한다. 3D 메시의 모양 및 시점 파라미터를 탐색하여 인간 손 이미지의 자연스러운 가변성을 처리한다. 마지막으로, 다중 모달리티 데이터를 생성한다. 손 관절, 모양 및 관점의 데이터 공간을 기존 벤치마크의 데이터 공간과 비교한다. 이 과정을 통해 제안된 벤치마크가 이전 작업의 차이를 메우고 있음을 보여주고, 또한 네트워크 훈련 과정에서 제안된 데이터를 사용하여 RGB 기반 손 포즈 추정 실험을 하여 생성된 데이터가 양질의 질과 양을 가짐을 보여준다. 제안된 데이터가 RGB 기반 3D 손 포즈 추정 및 시맨틱 손 세그멘테이션과 같은 품질 좋은 큰 데이터셋이 부족하여 방해되었던 작업에 대한 발전을 가속화할 것으로 기대된다.

표면정보 기반 영상정합에서의 대표점 추출기법 비교 연구 (Comparison of Representative Point Sampling Methods in Surface Based Image Registration)

  • 박지영;최유주;김명희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.347-350
    • /
    • 2003
  • 표면정보 기반 영상정합기법은 대상기관에서 추출된 표면정보를 기반으로 변환을 추정하여 서로 다른 영상의 전체적 형태의 유사성 정도를 최대화함으로써 정합을 수행하는 방법이다. 정합 수행에 있어 전체 객체를 가장 잘 대표하는 특정 개수의 표면점을 추출하고, 이 대표점으로부터 변환 값을 계산하는 것이 영상정합의 합리적인 최적화 단계를 위해 필수적이다. 대표점 추출결과에 따라 전체 정합의 결과가 달라지게 되므로 정합의 변환요소 값을 정확하게 구해낼 수 있는 대표점을 추출하기 위해 적절한 샘플링 기법의 선택이 요구된다. 본 연구에서는 효율적인 표면정보 기반 다중 모달리티 영상정합을 위해 계통추출법 기반 샘플링 기법과 특징점 탐지 기법 기반 샘플링 기법의 성능을 비교 분석하였다.

  • PDF

멀티채널 기반 드라마 동영상 의미 분절화를 위한 비모수 베이지안 방법 (Nonparametric Bayesian Approach for Multichannel based Semantic Segmentation of TV Dramas)

  • 석호식;이바도;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.474-476
    • /
    • 2012
  • 본 논문에서는 드라마 동영상의 의미 분절화(Semantic segmentation)를 위한 멀티 채널 기반 비모수적 베이지만 방법론을 소개한다. 기존 방법론은 매우 한정적인 특징만을 이용하여 분절화를 시도하거나 이미지 채널이나 오디오 채널과 같은 단일 채널에서만 유효한 방법론을 이용하여 데이터 분석을 시도하였기에, TV 드라마와 같이 예측할 수 없는 변화를 보여주는 스트림 데이터에 적용하기에는 어려움이 많았다. 이와 같은 단점을 극복하기 위해 우리는 주어진 동영상을 단일 모달리티의 채널로 분할한 후 각 채널 별로 분절화를 시도하고 각 채널의 분절 결과를 동적으로 결합하여 주어진 동영상에서의 의미 분절화를 근사하는 방법을 개발하였다. 제안 방법은 실제 TV 동영상의 의미 분절화에 적용되었으며 인간 평가자에 의한 의미 변화 구간과의 비교를 통해 그 성능을 확인하였다.

비디오 화자 인식 성능 향상을 위한 복합 신경망 모델 (A Hybrid Neural Network model for Enhancement of Speaker Recognition in Video Stream)

  • 이범진;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.396-398
    • /
    • 2012
  • 대부분의 실세계 데이터는 시간성을 띄고 있으므로 시간성을 지닌 데이터를 분석할 수 있는 기계 학습 방법론은 매우 중요하다. 이런 관점에서 비디오 데이터는 다양한 모달리티가 결합된 대표적인 시간 데이터 이므로 비디오 데이터를 대상으로 하는 기계 학습 방법은 큰 의미를 갖는다. 본 논문에서는 음성 채널에기반한 비디오 데이터 분석 방법의 예비 연구로 비디오 데이터에 등장하는 화자를 인식할 수 있는 간단한 방법을 소개한다. 제안 방법은 MFCC (Mel-frequency cepstrum coefficients)를 이용하여 인간 음성 특성의 분포를 분석한 후 분석 결과를 신경망에 입력하여 목표한 화자를 인식하는 복합 신경망 모델을 특징으로 한다. 실제 TV 드라마 데이터에서 가우시안 혼합모델, 가우시안 혼합 신경망 모델, 제안 방법의 화자 인식 성능을 비교한 결과 제안 방법이 가장 우수한 인식 성능을 보임을 확인하였다.

XForms지원 브라우저를 이용한 모바일 오픈 API 플랫폼 개발 (Development of Mobile Open API Platform Using XForms Enabled Browser)

  • 유가연;이은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.444-447
    • /
    • 2007
  • 인터넷 환경의 변화와 함께 많은 서비스가 오픈 API 형태로 지원되면서 이들을 결합하고 이용하는 웹 기반의 클라이언트 프로그램이 모바일 환경의 주요한 어플리케이션 형태로 등장했다. 또한 차세대 웹 폼 언어인 XForms는 간편하고 효과적인 UI기술 언어로서 알려져 있으며, 다양한 모달리티를 지원할 수 있고 장치 독립성을 제공할 수 있어 모바일 장치에 더 적합하다. 본 논문에서는 오픈 API를 지원하는 XFroms 페이지를 설계하고, XForms의 특징을 살려 성능 및 표현력을 개선한 브라우저를 구현하였다. 또한 오픈 API를 사용하는 모바일 블로그 서비스를 XForms기반 오픈 API 페이지들을 통해 작성함으로써 제안된 시스템의 표현력과 유연성을 증명하였다.

멀티모달 인터랙션을 위한 사용자 병렬 모달리티 입력방식 및 입력 동기화 방법 설계 (Design of Parallel Input Pattern and Synchronization Method for Multimodal Interaction)

  • 임미정;박범
    • 대한인간공학회지
    • /
    • 제25권2호
    • /
    • pp.135-146
    • /
    • 2006
  • Multimodal interfaces are recognition-based technologies that interpret and encode hand gestures, eye-gaze, movement pattern, speech, physical location and other natural human behaviors. Modality is the type of communication channel used for interaction. It also covers the way an idea is expressed or perceived, or the manner in which an action is performed. Multimodal Interfaces are the technologies that constitute multimodal interaction processes which occur consciously or unconsciously while communicating between human and computer. So input/output forms of multimodal interfaces assume different aspects from existing ones. Moreover, different people show different cognitive styles and individual preferences play a role in the selection of one input mode over another. Therefore to develop an effective design of multimodal user interfaces, input/output structure need to be formulated through the research of human cognition. This paper analyzes the characteristics of each human modality and suggests combination types of modalities, dual-coding for formulating multimodal interaction. Then it designs multimodal language and input synchronization method according to the granularity of input synchronization. To effectively guide the development of next-generation multimodal interfaces, substantially cognitive modeling will be needed to understand the temporal and semantic relations between different modalities, their joint functionality, and their overall potential for supporting computation in different forms. This paper is expected that it can show multimodal interface designers how to organize and integrate human input modalities while interacting with multimodal interfaces.

한국어 발화 문장에 대한 비언어 표현 정보를 자동으로 생성하는 모델 (A Model to Automatically Generate Non-verbal Expression Information for Korean Utterance Sentence)

  • 김재윤;장진예;김산;정민영;강현욱;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-94
    • /
    • 2023
  • 자연스러운 상호작용이 가능한 인공지능 에이전트를 개발하기 위해서는 언어적 표현뿐 아니라, 비언어적 표현 또한 고려되어야 한다. 본 논문에서는 한국어 발화문으로부터 비언어적 표현인 모션을 생성하는 연구를 소개한다. 유튜브 영상으로부터 데이터셋을 구축하고, Text to Motion의 기존 모델인 T2M-GPT와 이종 모달리티 데이터를 연계 학습한 VL-KE-T5의 언어 인코더를 활용하여 구현한 모델로 실험을 진행하였다. 실험 결과, 한국어 발화 텍스트에 대해 생성된 모션 표현은 FID 스코어 0.11의 성능으로 나타났으며, 한국어 발화 정보 기반 비언어 표현 정보 생성의 가능성을 보여주었다.

  • PDF

철도차량 차체용 더블 스킨 알루미늄 압출 패널의 감쇠특성 (Damping Characterization of the Double-skin Aluminum Extruded Panels for Rolling Stock Carbody)

  • 강길현;김철수
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3197-3202
    • /
    • 2013
  • 철도차량 차체 설계시 음압레벨에 따른 소음해석을 통한 차체 패널의 감쇠특성을 최적화하는 것이 필요하다. 본 논문은 철도차량 차체용 알루미늄 더블스킨 압출패널의 진동감쇠특성 해석을 통한 철도차량 차체의 구조소음 해석에 관한 연구이다. 주파수응답 가진시험을 통하여 측정된 기계적 모빌리티 값인 포인트 모빌리티, 트랜스퍼 모빌리티, 모달 모빌리티와 단순음원이론을 사용하여 정규화된 음압을 계산하였다. 도포용 감쇠재의 감쇠값을 라미네이티드 쉘요소에 사용하여 유한요소해석을 수행함으로써, 감쇠처리에 의한 소음감소수준 예측을 하였다. 또한 실제 차량 구조와 유사한 고정경계조건의 감쇠특성해석을 통하여 열차주행시 발생하는 진동의 영향을 크게 받는 언더프레임과 같은 부위에 일정 두께의 감쇠재 코팅이 진동 및 소음억제에 큰 효과가 있을 것으로 사료된다.

사용자 추적 기능을 가진 야외용 테니스 훈련용 장치 개발 (Development of Tennis Training Machine in Ourdoor Environment with Human Tracking)

  • 양정연
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.424-431
    • /
    • 2020
  • 본 논문은 사용자 위치를 인식하여 공을 자동으로 서브하는 테니스 훈련용의 로봇 개발을 목적으로 한다. 로봇 기술을 스포츠 분야에 활용하는 경우, 야외 환경 및 스포츠 경기 방식의 특수성에 기인하여 시각, 음성과 같은 모달리티 인식에 다양한 문제점이 존재한다. 영상 정보를 이용하여 경기장 내의 사용자 가로 및 깊이 방향의 위치를 인식하는 과정에서, 네트 주위에서의 사용자 자세 변화에 따른 위치 오차 감소를 위해 가우시안 혼합 모델 및 칼만 필터를 적용하고, 이에 따라 해당 위치로 공을 서브하는 기능을 구현하고자 한다. 이를 위해 팬 틸트 기반의 움직임이 가능한 로봇 구동부 및 공압 제어 기반의 공을 발사하는 기능을 구현하고, 이를 다계층의 소프트웨어 구조로 구성하였다. 최종적으로 실험을 통한 추적 기능 및 훈련용 장치의 실효성 및 보완점을 논하고자 한다.

ATL 1.0: 인공지능 기술 수준 정의 (ATL 1.0: An Artificial Intelligence Technology Level Definition)

  • 민옥기;김영길;박종열;박전규;김지용;이윤근
    • 전자통신동향분석
    • /
    • 제35권3호
    • /
    • pp.1-8
    • /
    • 2020
  • Artificial-intelligence (AI) technology is used in a variety of fields, from robot cleaner motion control to call center counselors, AI speakers, and Mars exploration. Because the technology levels of all applications and services that utilize AI vary widely, it is not possible to view all applications using AI technology at the same level. Nevertheless, there have been no cases in which the level of AI technology was defined. Therefore, the Electronics and Telecommunications Research Institute (ETRI) Artificial Intelligence Research Laboratory has defined the levels of the main technical elements of AI from steps 1 to 6. In this report, the Artificial Intelligence Technology Level 1.0 (ATL 1.0) is presented. It was established by comprehensively referring to the AI technology prospects and technology roadmaps of major countries. It is hoped that it can be used as a measure for determining the levels of AI applications or services or as an indicator for establishing a technology roadmap.