• 제목/요약/키워드: Multi-Modal

검색결과 631건 처리시간 0.023초

고위험 현장의 안전관리를 위한 AI 클라우드 플랫폼 설계 (A Design of AI Cloud Platform for Safety Management on High-risk Environment)

  • 김기봉
    • 미래기술융합논문지
    • /
    • 제1권2호
    • /
    • pp.01-09
    • /
    • 2022
  • 최근 기업과 공공기관에서 안전 이슈는 더는 미룰 수 있는 상황이 아니며, 대형 안전사고가 발생했을 때 직접적인 금전적 손실뿐 아니라 해당 기업 및 공공기관에 대한 사회적 신뢰가 함께 떨어지는 간접적인 손실도 매우 커진다. 특히 사망 사고의 경우는 더욱 피해가 심각하다. 이에 따라 기업 및 공공기관은 산업 안전 교육과 예방에 대한 투자를 확대함에 따라, 고위험 상황이 존재하는 산업현장에서 사용자 행동반경에 영향을 받지 않고 안전관리 서비스가 가능한 개방형 AI 학습모델 생성 기술, 에지단말간 AI협업 기술, 클라우드-에지단말 연동 기술, 멀티모달 위험상황 판단기술, AI 모델 학습 지원 기술을 이용한 시스템 개발이 이루어지고 있다. 특히 인공지능 기술의 발전과 확산으로 안전 이슈에도 해당 기술을 적용하기 위한 연구가 활발해지고 있다. 따라서 본 논문에서는 고위험 현장 안전관리를 위해 AI 모델 학습 지원이 가능한 개방형 클라우드 플랫폼 설계 방안을 제시하였다.

멀티모달 패션 추천 대화 시스템을 위한 개선된 트랜스포머 모델 (Improved Transformer Model for Multimodal Fashion Recommendation Conversation System)

  • 박영준;조병철;이경욱;김경선
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.138-147
    • /
    • 2022
  • 최근 챗봇이 다양한 분야에 적용되어 좋은 성과를 보이면서 쇼핑몰 상품 추천 서비스에도 챗봇을 활용하려는 시도가 많은 이커머스 플랫폼에서 진행되고 있다. 본 논문에서는 사용자와 시스템간의 대화와 패션 이미지 정보에 기반해 사용자가 원하는 패션을 추천하는 챗봇 대화시스템을 위해, 최근 자연어처리, 음성인식, 이미지 인식 등의 다양한 AI 분야에서 좋은 성능을 내고 있는 트랜스포머 모델에 대화 (텍스트) 와 패션 (이미지) 정보를 같이 사용하여 추천의 정확도를 높일 수 있도록 개선한 멀티모달 기반 개선된 트랜스포머 모델을 제안하며, 데이터 전처리(Data preprocessing) 및 학습 데이터 표현(Data Representation)에 대한 분석을 진행하여 데이터 개선을 통한 정확도 향상 방법도 제안한다. 제안 시스템은 추천 정확도는 0.6563 WKT(Weighted Kendall's tau)으로 기존 시스템의 0.3372 WKT를 0.3191 WKT 이상 크게 향상시켰다.

대화 영상 생성을 위한 한국어 감정음성 및 얼굴 표정 데이터베이스 (Korean Emotional Speech and Facial Expression Database for Emotional Audio-Visual Speech Generation)

  • 백지영;김세라;이석필
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.71-77
    • /
    • 2022
  • 본 연구에서는 음성 합성 모델을 감정에 따라 음성을 합성하는 모델로 확장하고 감정에 따른 얼굴 표정을 생성하기 위한 데이터 베이스를 수집한다. 데이터베이스는 남성과 여성의 데이터가 구분되며 감정이 담긴 발화와 얼굴 표정으로 구성되어 있다. 성별이 다른 2명의 전문 연기자가 한국어로 문장을 발음한다. 각 문장은 anger, happiness, neutrality, sadness의 4가지 감정으로 구분된다. 각 연기자들은 한 가지의 감정 당 약 3300개의 문장을 연기한다. 이를 촬영하여 수집한 전체 26468개의 문장은 중복되지 않으며 해당하는 감정과 유사한 내용을 담고 있다. 양질의 데이터베이스를 구축하는 것이 향후 연구의 성능에 중요한 역할을 하므로 데이터베이스를 감정의 범주, 강도, 진정성의 3가지 항목에 대해 평가한다. 데이터의 종류에 따른 정확도를 알아보기 위해 구축된 데이터베이스를 음성-영상 데이터, 음성 데이터, 영상 데이터로 나누어 평가를 진행하고 비교한다.

수입물품의 품목 분류를 위한 멀티모달 표현 학습 (Multi-modal Representation Learning for Classification of Imported Goods)

  • 이앞길;최근호;김건우
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.203-214
    • /
    • 2023
  • 우리나라 관세청은 효과적인 원스톱(One-stop) 업무 처리가 가능한 전자통관 시스템으로 효율적으로 업무처리를 하고 있지만 기술의 발달과 비대면 서비스의 증가로 매년 수출입건수가 증가하고 있으며 그에 따른 업무량도 폭증하고 있는 실정으로 이에 따른 보다 효과적인 방법이 매우 필요하다. 수입과 수출은 모든 물품에 대한 분류 및 세율 적용을 위한 HS Code(Harmonized system code)가 필요하고 해당 HS Code를 분류하는 품목 분류는 전문지식과 경험이 필요한 업무 난이도가 높고 관세 통관절차에서 중요한 부분이다. 이에 본 연구는 품목 분류 의뢰서의 물품명, 물품상세설명, 물품 이미지 등의 다양한 유형의 데이터 정보를 활용하여 멀티모달 표현 학습(Multimodal representation learning) 기반으로 정보를 잘 반영할 수 있도록 딥러닝 모델을 학습 및 구축하여 HS Code를 분류 및 추천해 줌으로써 관세 업무 부담을 줄이고 신속한 품목 분류를 하여 통관절차에 도움을 줄 것으로 기대한다.

Healthy lifestyle interventions for childhood and adolescent cancer survivors: a systematic review and meta-analysis

  • Kyung-Ah Kang;Suk Jung Han;Jiyoung Chun;Hyun-Yong Kim;Yerin Oh;Heejin Yoon
    • Child Health Nursing Research
    • /
    • 제29권2호
    • /
    • pp.111-127
    • /
    • 2023
  • Purpose: This study investigated the effects of healthy lifestyle interventions (HLSIs) on health-related quality of life (HR-QoL) in childhood and adolescent cancer survivors (CACS). Methods: Major databases were searched for English-language original articles published between January 1, 2000 and May 2, 2021. Randomized controlled trials (RCTs) and non-RCTs were included. Quality was assessed using the revised Cochrane risk-of-bias tool, and a meta-analysis was conducted using RevMan 5.3 software. Results: Nineteen studies were included. Significant effects on HR-QoL were found for interventions using a multi-modal approach (exercise and education) (d=-0.46; 95% confidence interval [CI]=-0.84 to -0.07, p=.02), lasting not less than 6 months (d=-0.72; 95% CI=-1.15 to -0.29, p=.0010), and using a group approach (d=-0.46; 95% CI=-0.85 to -0.06, p=.02). Self-efficacy showed significant effects when HLSIs provided health education only (d=-0.55; 95% CI=-0.92 to -0.18; p=.003), lasted for less than 6 months (d=-0.40; 95% CI=-0.69 to -0.11, p=.006), and were conducted individually (d=-0.55; 95% CI=-0.92 to -0.18, p=.003). The physical outcomes (physical activity, fatigue, exercise capacity-VO2, exercise capacity-upper body, body mass index) revealed no statistical significance. Conclusion: Areas of HLSIs for CACS requiring further study were identified, and needs and directions of research for holistic health management were suggested.

패션 속성기반 혼합현실 시각화 서비스 (Fashion attribute-based mixed reality visualization service)

  • 유용민;이경욱;김경선
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.2-5
    • /
    • 2022
  • 딥러닝의 등장과 ICT(Information and Communication Technology)의 급속한 발전으로 정치, 경제, 문화 등 사회의 다양한 분야에서 인공지능을 활용한 연구가 활발히 진행되고 있다. 딥러닝 기반 인공지능 기술은 자연어 처리, 영상 처리, 음성 처리, 추천 시스템 등 다양한 영역으로 세분화된다. 특히, 산업이 고도화됨에 따라 시장 동향 및 개인의 특성을 분석하여 소비자에게 추천하는 추천 시스템의 필요성이 점점 더 요구되고 있다. 이러한 기술 발전에 발맞추어, 본 논문에서는 딥러닝 기반 '언어처리지능' 과 '영상처리지능'의 기술개발을 통해 정형 또는 비정형 텍스트 및 이미지 빅데이터로부터 속성 정보를 추출 추출하고, 분류하여 패션시장의 트랜드나 신규소재 등을 분석하고 소비자의 취향 분석을 통하여 '시장-소비자' 인사이트를 발굴하여, 스타일 추천, 가상 피팅, 및 디자인지원 등이 가능한 인공지능 기반 '맞춤형 패션 어드바이저' 서비스 통합 시스템을 제안한다.

  • PDF

비접촉식 제스처 기반 3D 조형 태스크를 위한 다중 모달리티 인터페이스 디자인 연구 (Multi - Modal Interface Design for Non - Touch Gesture Based 3D Sculpting Task)

  • 손민지;유승헌
    • 디자인융복합연구
    • /
    • 제16권5호
    • /
    • pp.177-190
    • /
    • 2017
  • 본 연구는 비접촉식 제스처 기반 조형 태스크의 직관성 향상을 위한 다중 모달리티 인터페이스 디자인 GSS를 제안하였다. 디자인 조형 과정 및 조형 형태에 대한 사용자 경험을 조사한 후, 기술 발전에 따른 세대별 조형 시스템을 분석하였다. 또, 비접촉 3D 조형 시스템상에서의 조형 제작 프로세스, 조형 제작 환경, 제스처와 조형 태스크 간의 관계성, 자연스러운 손 조합 패턴과 사용자 손동작 요소들을 정의하였다. 이후, 기존 비접촉 3D 조형 시스템상에서 비접촉식 제스처 인터랙션을 관찰하고 자연스러운 조형 제작을 위해 조형 작성자의 행동체계가 반영된 인터페이스의 시각적 메타포와 자연스러운 제스처 인터랙션을 유도할 수 있는 행동적 메타포를 도출하였다. 프로토타입을 개발한 후, 제안된 주요 조형 태스크별 제스처 세트의 직관성을 알아보기 위해 기존 조형 시스템들과 비교하여 사용성 평가를 진행하였다. 제안된 GSS 시스템의 제스처는 이해도, 기억성, 오류율에서 우수성을 보였다. 제스처 인터페이스는 사용자의 경험에 기반한 시각적/행동적 메타포를 바탕으로 시각적 모달리티가 함께 사용된 제스처 인터페이스를 사용자들에게 제공되어야 한다는 것을 확인하였다.

컴패니언 로봇의 멀티 모달 대화 인터랙션에서의 감정 표현 디자인 연구 (Design of the emotion expression in multimodal conversation interaction of companion robot)

  • 이슬비;유승헌
    • 디자인융복합연구
    • /
    • 제16권6호
    • /
    • pp.137-152
    • /
    • 2017
  • 본 연구는 실버세대를 위한 컴패니언 로봇의 인터랙션 경험 디자인을 위해 사용자 태스크- 로봇 기능 적합도 매핑에 기반한 로봇 유형 분석과 멀티모달 대화 인터랙션에서의 로봇 감정표현 연구를 수행하였다. 노인의 니즈 분석을 위해 노인과 자원 봉사자를 대상으로 FGI, 에스노그래피를 진행하였으며 로봇 지원 기능과 엑추에이터 매칭을 통해 로봇 기능 조합 유형에 대한 분석을 하였다. 도출된 4가지 유형의 로봇 중 표정 기반 대화형 로봇 유형으로 프로토타이핑을 하였으며 에크만의 얼굴 움직임 부호화 시스템(Facial Action Coding System: FACS)을 기반으로 6가지 기본 감정에 대한 표정을 시각화하였다. 사용자 실험에서는 로봇이 전달하는 정보의 정서코드에 맞게 로봇의 표정이 변화할 때와 로봇이 인터랙션 사이클을 자발적으로 시작할 때 사용자의 인지와 정서에 미치는 영향을 이야기 회상 검사(Story Recall Test: STR)와 표정 감정 분석 소프트웨어 Emotion API로 검증하였다. 실험 결과, 정보의 정서코드에 맞는 로봇의 표정 변화 그룹이 회상 검사에서 상대적으로 높은 기억 회상률을 보였다. 한편 피험자의 표정 분석에서는 로봇의 감정 표현과 자발적인 인터랙션 시작이 피험자들에게 정서적으로 긍정적 영향을 주고 선호되는 것을 확인하였다.

시각적 어텐션을 활용한 입술과 목소리의 동기화 연구 (Lip and Voice Synchronization Using Visual Attention)

  • 윤동련;조현중
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.166-173
    • /
    • 2024
  • 본 연구에서는 얼굴 동영상에서 입술의 움직임과 음성 간의 동기화 탐지 방법을 제안한다. 기존의 연구에서는 얼굴 탐지 기술로 얼굴 영역의 바운딩 박스를 도출하고, 박스의 하단 절반 영역을 시각 인코더의 입력으로 사용하여 입술-음성 동기화 탐지에 필요한 시각적인 특징을 추출하였다. 본 연구에서는 입술-음성 동기화 탐지 모델이 음성 정보의 발화 영역인 입술에 더 집중할 수 있도록 사전 학습된 시각적 Attention 기반의 인코더 도입을 제안한다. 이를 위해 음성 정보 없이 시각적 정보만으로 발화하는 말을 예측하는 독순술(Lip-Reading)에서 사용된 Visual Transformer Pooling(VTP) 모듈을 인코더로 채택했다. 그리고, 제안 방법이 학습 파라미터 수가 적음에도 불구하고 LRS2 데이터 세트에서 다섯 프레임 기준으로 94.5% 정확도를 보임으로써 최근 모델인 VocaList를 능가하는 것을 실험적으로 증명하였다. 또, 제안 방법은 학습에 사용되지 않은 Acappella 데이터셋에서도 VocaList 모델보다 8% 가량의 성능 향상이 있음을 확인하였다.

다중 감각 피드백을 통한 원격 가상객체 조작 시 무게 정보 전달 (Virtual Object Weight Information with Multi-modal Sensory Feedback during Remote Manipulation)

  • 박창현;박재영
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.9-15
    • /
    • 2024
  • 가상현실 기술의 대중화에 따라 가상환경과 사용자 간의 자연스럽고 효율적인 상호작용에 대한 수요가 높아지고 있다. 이러한 수요에 대응하는 솔루션 중 하나인 공중 조작(mid-air manipulation)은 사용자가 객체와 접촉하지 않은 상태에서 3차원 공간의 가상객체를 조작할 수 있도록 한다. 본 논문에서는 시각적으로 객체를 표현하고 객체의 무게에 대한 촉감 정보를 제공하면서 원격의 가상객체를 조작하는 데 초점을 맞췄다. 본 연구진은 사용자 손끝에 가상객체 무게에 대한 촉감 또는 진동 촉감 피드백을 제공할 수 있는 두 가지 유형의 착용 가능한 인터페이스를 개발했다. 가상객체 조작 중에 원격 객체 무게에 대한 지각을 평가하기 위해 인지 실험을 수행했다. 실험 결과는 촉감 정보 전달이 원격 가상객체 조작 중 무게 인지에 유의한 영향을 미친다는 것을 나타낸다.