• 제목/요약/키워드: 멀티 모달

검색결과 272건 처리시간 0.023초

Audio Generative AI Usage Pattern Analysis by the Exploratory Study on the Participatory Assessment Process

  • Hanjin Lee;Yeeun Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.47-54
    • /
    • 2024
  • 첨단기술을 활용한 문화예술 교육은 기술에 대한 문해력 향상과 자기표현, 그리고 융합적 역량 개발의 측면에서 그 중요성이 증대되고 있다. 이에 혁신적인 멀티모달 AI의 생성과정과 결과평가는 확대된 시청각 경험을 제공하고 창의적 영감을 향상할 수 있다. 특히, AI와 함께 음악을 만드는 과정은 멜로디와 악상을 떠올리는 것부터 가사 개선, 편집과 변주, 악기 연주 등 모든 영역에 걸쳐 혁신적 경험을 제공한다. 이에 본 연구에서는 음악 생성 AI 플랫폼을 활용하여 과제를 수행하고 동료 학습자와 토론하는 과정을 실증적으로 분석하고자 하였다. 그 결과 자발적 참여를 통해 12개의 서비스와 10개의 평가기준 유형을 수집하여 사용패턴과 목적으로 구분할 수 있었다. 이를 토대로 학습자 관점의 AI 기반 교양교육을 위한 학술적, 기술적, 정책적 시사점을 제시하였다.

멀티 모달리티 데이터 활용을 통한 골다공증 단계 다중 분류 시스템 개발: 합성곱 신경망 기반의 딥러닝 적용 (Multi-classification of Osteoporosis Grading Stages Using Abdominal Computed Tomography with Clinical Variables : Application of Deep Learning with a Convolutional Neural Network)

  • 하태준;김희상;강성욱;이두희;김우진;문기원;최현수;김정현;김윤;박소현;박상원
    • 한국방사선학회논문지
    • /
    • 제18권3호
    • /
    • pp.187-201
    • /
    • 2024
  • 골다공증은 전 세계적으로 주요한 건강 문제임에도 불구하고, 골절 발생 전까지 쉽게 발견되지 않는 단점을 가지고 있습니다. 본 연구에서는 골다공증 조기 발견 능력 향상을 위해, 복부 컴퓨터 단층 촬영(Computed Tomography, CT) 영상을 활용하여 정상-골감소증-골다공증으로 구분되는 골다공증 단계를 체계적으로 분류할 수 있는 딥러닝(Deep learning, DL) 시스템을 개발하였습니다. 총 3,012개의 조영제 향상 복부 CT 영상과 개별 환자의 이중 에너지 X선 흡수 계측법(Dual-Energy X-ray Absorptiometry, DXA)으로 얻은 T-점수를 활용하여 딥러닝 모델 개발을 수행하였습니다. 모든 딥러닝 모델은 비정형 이미지 데이터, 정형 인구 통계 정보 및 비정형 영상 데이터와 정형 데이터를 동시에 활용하는 다중 모달 방법에 각각 모델 구현을 실현하였으며, 모든 환자들은 T-점수를 통해 정상, 골감소증 및 골다공증 그룹으로 분류되었습니다. 가장 높은 정확도를 갖는 모델 우수성은 비정형-정형 결합 데이터 모델이 가장 우수하였으며, 수신자 조작 특성 곡선 아래 면적이 0.94와 정확도가 0.80를 제시하였습니다. 구현된 딥러닝 모델은 그라디언트 가중치 클래스 활성화 매핑(Gradient-weighted Class Activation Mapping, Grad-CAM)을 통해 해석되어 이미지 내에서 임상적으로 관련된 특징을 강조했고, 대퇴 경부가 골다공증을 통해 골절 발생이 높은 위험 부위임을 밝혔습니다. 이 연구는 DL이 임상 데이터에서 골다공증 단계를 정확하게 식별할 수 있음을 보여주며, 조기에 골다공증을 탐지하고 적절한 치료로 골절 위험을 줄일 수 있는 복부 컴퓨터 단층 촬영 영상의 잠재력을 제시할 수 있습니다.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.

IoT 환경에서 인터유저빌리티(Interusability) 개선을 위한 사물성격(Personality of Things)중심의 UI 프로토타이핑에 대한 연구 (A Study on UI Prototyping Based on Personality of Things for Interusability in IoT Environment)

  • 안미경;박남춘
    • 한국HCI학회논문지
    • /
    • 제13권2호
    • /
    • pp.31-44
    • /
    • 2018
  • 사물인터넷(Internet of Things)시대에는 다양한 사물이 연결되어 사물들 스스로가 데이터를 획득하여 이를 바탕으로 학습하고 동작한다. 이는 사물이 사람의 모습을 닮아가고 있다고 볼 수 있고 변화한 사물과 사람이 어떻게 소통하는가를 설계하는 것이 핵심 이슈로 떠오르고 있다. 이러한 IoT 환경이 도래함에 따라 UI 디자인 분야에서도 많은 연구가 진행되었다. 멀티모달리티(Multi-modality)와 인터유저빌리티(Interusability) 등의 키워드를 통해서 UI 분야에서도 복합적인 요소를 고려하려는 연구가 진행됐음을 알 수 있다. 하지만 기존의 UI 디자인 방법론으로는 IoT 환경에서 사용자 인터페이스(UI)를 설계할 때 사물, 사람, 데이터가 상호작용하는 방식에 대해서 구조화하고 테스트하는데 한계가 있다. 따라서 본 연구에서 새로운 UI 프로토타이핑 방법을 제안하였다. 본 논문의 주요 분석과 연구는 다음과 같다: (1) 먼저 사물의 행동 프로세스를 정의하였다. (2) 행동 프로세스를 토대로 기존의 IoT 제품을 분석하였다. (3) 사물성격(Personality of Things)유형을 구분 지을 수 있는 프레임워크를 제작하였다. (4) 프레임워크를 바탕으로 사물성격(Personality of Things) 유형을 도출하였다. (5) 3개의 대표 사물성격(Personality of Things)을 실제 스마트 홈 서비스에 적용하여 프로토타이핑 테스트를 해보았다. 본 연구는 새로운 UI 프로토타이핑 방법을 제안하여 더 총체적인 방식으로 IoT 서비스에 대한 사용자 경험(UX)을 확인할 수 있었다는 데 의의가 있다. 또한, 향후 본 연구를 발전시켜 인공지능(AI) 기술이 발전한 환경에서 지능화된 서비스의 정체성(Identity) 확립의 도구로 사물성격(Personality of Things) 개념을 활용할 수 있을 것이라 생각한다.

  • PDF

웨어러블 디바이스를 활용한 운동 중 피드백 방식 연구 - 근력 운동에 대한 멀티 모달 피드백 적용을 중심으로 - (Desigining a Feedback for Exercises Using a Wearable Device)

  • 유현진;맹욱재;이중식
    • 한국HCI학회논문지
    • /
    • 제11권3호
    • /
    • pp.23-30
    • /
    • 2016
  • 현재 피트니스 트래커(fitness tracker)시장은 유산소 운동에만 초점을 맞춰 근력 운동 분야는 상대적으로 소외되어 있다. 최근 근력 운동 피트니스 트래커가 소수 출시되고 있으나, 운동 상황에 대한 고려가 부족하여 사람-기기 간 인터랙션에 불편함을 초래한다. 특히, 운동 중에는 신체의 움직임이 활발하므로, 손으로 기기를 휴대하거나 기기를 조작하는 상황은 사용자에게 부정적 경험을 유발한다. 웨어러블 디바이스는 항시적인 착용이 가능하므로, 손과 발의 사용이 자유로워 운동 중 피드백 제공에 효과적이다. 따라서, 이 연구에서는 웨어러블 디바이스를 통해 피드백을 감각하게 함으로써, 운동 수행자가 효과적인 운동을 할 수 있도록 하는 것을 목적으로 한다. 이 연구에서는 다음 세 가지 연구 문제를 검증하였다. 1) 운동 상황에서 필요한 정보는 무엇인가? 2) 근력 운동 중, 어떤 감각 피드백이 선호되는가? 3) 근력 운동 중, 감각 피드백의 가치는 무엇인가? 그 결과, 첫째, 운동 수행자는 운동 단계 중, '운동 중'에 해당하는 정보가 가장 필요하다고 하였으며 '페이스 조절(횟수 카운팅, 동기 부여)'과 '자세 지도(문제점 진단, 자세 교정)'에 해당하는 정보를 가장 필요로 하였다. 둘째, 운동 중 선호되는 감각 피드백에 대해서는 청각 피드백, 촉각 피드백, 시각 피드백 순으로 만족도가 높았으며, 운동 강도가 높을수록 감각 피드백에 대한 만족도가 더 높았다. 셋째, 감각 피드백과 기기 피드백의 가치에 대해 비교한 결과, 기기 피드백과 사람이 제공하는 피드백에 대한 만족도, 유용성, 효용성이 비슷하게 나타났다. 결론적으로, 이 연구에서는 근력 운동 중, 웨어러블 디바이스를 활용한 감각 피드백의 디자인 가이드라인을 도출하였으며, 웨어러블 디바이스의 감각 피드백이 사람이 제공하는 피드백을 대체할 수 있다는 가능성을 확인하였다.

시각장애인의 미술 작품 감상 접근성을 높이는 다중감각 인터랙션의 설계 및 평가 (Design and Evaluation of Multisensory Interactions to Improve Artwork Appreciation Accessibility for the Visually Impaired People)

  • 박경빈;조성기;정찬호;최효진;홍태림;정재호;양창준;왕처우;조준동;이상원
    • 감성과학
    • /
    • 제23권1호
    • /
    • pp.41-56
    • /
    • 2020
  • 본 연구에서는 시각장애인이 시각 외의 잔존감각인 촉각, 청각, 후각을 활용하여 미술 작품을 감상하고 이해할 수 있도록 도울 수 있는 다중감각 인터랙션 기술을 제안한다. 나아가, 다중감각 인터랙션의 설계 적합성을 평가하기 위해 실제 시각장애인을 대상으로 다중감각 인터랙션 기술이 적용된 시스템을 통해 미술 작품을 감상한 경험에 대한 질적 인터뷰 기반의 사용자 테스트를 수행하였다. 사용자 테스트 결과, 미술 작품에 적용한 다중감각 인터랙션 요소들은 전반적으로 시각장애인으로 하여금 미술 작품 감상 및 이해를 도왔으며, 나아가 다중감각 인터랙션을 통해 미술 작품을 감상한 경험이 만족스러웠다는 긍정적인 평가 결과가 나타났다. 반면, 일부 다중감각 인터랙션 요소는 미술 작품을 감상하는 동안 전혀 인지하지 못하였거나 오히려 미술 작품 감상에 있어서 혼란을 야기했다는 부정적인 평가 결과도 나타났다. 본 연구는 시각장애인의 문화예술 작품 감상의 접근성을 증진할 수 있는 기술적 대안으로서 비시각 다중감각 인터랙션의 구체적인 개발 방향성 및 가이드라인을 제공하는 데 기여하였다. 나아가, 시각장애인뿐만 아니라 아동이나 노인과 같은 비시각장애인도 유니버설 인터랙션 기술을 통해 기존의 시각 위주의 단편적 경험을 넘어선 종합적인 감각적 경험을 할 수 있는 기술 기반을 구축하는데 기여할 수 있을 것으로 기대된다.

입자군집최적화 알고리듬을 이용한 효율적인 TOPMODEL의 불확실도 분석 (Efficient Uncertainty Analysis of TOPMODEL Using Particle Swarm Optimization)

  • 조희대;김동균;이강희
    • 한국수자원학회논문집
    • /
    • 제47권3호
    • /
    • pp.285-295
    • /
    • 2014
  • 멀티모달 최적화 알고리듬의 일종인 ISPSO와 불확실도 분석기법인 GLUE를 결합한 ISPSO-GLUE 기법을 TOPMODEL의 불확실도 분석에 적용하였으며, 그 결과를 GLUE 기법과 비교하였다. 두 기법 모두 같은 횟수만큼 모형을 실행하였을 때 ISPSO-GLUE 기법의 누적성능이 더 좋아지는 시점을 발견할 수 있었으며, 그 이후로도 ISPSO-GLUE 기법은 GLUE 기법과는 달리 점진적인 성능의 향상을 보여 주었다. 두 기법이 비슷한 모양과 양상의 95% 불확실도 구간을 생성하였다. 하지만 ISPSO-GLUE 기법이 약5.4배 더 많은 관측치를 포함하는 것으로 나타났으며 GLUE 기법에 비해 훨씬 적은횟수의 모형실행으로도 좋은 성능의 불확실도 구간을 얻을 수 있는 것으로 나타났다. ISPSO-GLUE 기법과 비교했을 때GLUE 기법이 최대 첨두유량의 감쇠곡선 부분에서 불확실도를 과대평가하였다. 이 시간대에 대해서는 GLUE의 경우 불확실도 를 줄이기 위해 더 많은 행동모형들을 찾을 필요가 있다. ISPSO-GLUE 기법이 정량적인 성능평가에서 훨씬 많은 관측치를 포함할 수 있었다는 것은 이 기법의 가능성을 잘 보여 주었다고 할 수 있으며, 특히 계산적으로 값비싼 수문모형에서는 보다 큰 성능의 차이를 보일 것으로 기대된다.

이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스 (Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images)

  • 박정은;주경돈;김철연
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.148-158
    • /
    • 2018
  • 광학 문자 인식(OCR)은 텍스트를 포함한 이미지에서 텍스트 영역을 인식하고 이로부터 텍스트를 추출하는 기술이다. 전체 텍스트 데이터 중 상당히 많은 텍스트 정보가 이미지에 포함되어 있기 때문에 OCR은 데이터 분석 분야에 있어 중요한 전처리 단계를 담당한다. 대부분의 OCR 엔진이, 흰 바탕의 검정 글씨의 단순한 형태를 가진 이미지와 같은, 텍스트와 배경의 구분이 뚜렷한 저 복잡도 이미지에 대해서는 높은 인식률을 보이는 반면, 텍스트와 배경의 구분이 뚜렷하지 않은 고 복잡도 이미지에 대해서는 저조한 인식률을 보이기 때문에, 인식률 개선을 위해 입력 이미지를 OCR 엔진이 처리하기 용이한 이미지로 변형하는 전처리 작업이 필요하게 된다. 따라서 본 논문에서는 OCR 엔진의 정확성 증대를 위해 텍스트 라인별로 이미지를 분리하고, 영상처리 기법 기반의 CLAHE 모듈과 Two-step 모듈을 병렬적으로 수행하여 텍스트와 배경 영역을 효율적으로 분리한 후 텍스트를 인식한다. 이어서 두 모듈의 결과 텍스트에 대하여 N-gram방법과 Hunspell 사전을 결합한 알고리즘으로 인식률을 비교하여 가장 높은 인식률의 결과 텍스트를 최종 결과물로 선정하는 방법론을 제안한다. 대표적인 OCR 엔진인 Tesseract와 Abbyy와의 다양한 비교 실험을 통해 본 연구에서 제안하는 모듈이 복잡한 배경을 가진 이미지에서 가장 정확한 텍스트 인식률을 보임을 보였다.

감정 분류를 이용한 표정 연습 보조 인공지능 (Artificial Intelligence for Assistance of Facial Expression Practice Using Emotion Classification)

  • 김동규;이소화;봉재환
    • 한국전자통신학회논문지
    • /
    • 제17권6호
    • /
    • pp.1137-1144
    • /
    • 2022
  • 본 연구에서는 감정을 표현하기 위한 표정 연습을 보조하는 인공지능을 개발하였다. 개발한 인공지능은 서술형 문장과 표정 이미지로 구성된 멀티모달 입력을 심층신경망에 사용하고 서술형 문장에서 예측되는 감정과 표정 이미지에서 예측되는 감정 사이의 유사도를 계산하여 출력하였다. 사용자는 서술형 문장으로 주어진 상황에 맞게 표정을 연습하고 인공지능은 서술형 문장과 사용자의 표정 사이의 유사도를 수치로 출력하여 피드백한다. 표정 이미지에서 감정을 예측하기 위해 ResNet34 구조를 사용하였으며 FER2013 공공데이터를 이용해 훈련하였다. 자연어인 서술형 문장에서 감정을 예측하기 위해 KoBERT 모델을 전이학습 하였으며 AIHub의 감정 분류를 위한 대화 음성 데이터 세트를 사용해 훈련하였다. 표정 이미지에서 감정을 예측하는 심층신경망은 65% 정확도를 달성하여 사람 수준의 감정 분류 능력을 보여주었다. 서술형 문장에서 감정을 예측하는 심층신경망은 90% 정확도를 달성하였다. 감정표현에 문제가 없는 일반인이 개발한 인공지능을 이용해 표정 연습 실험을 수행하여 개발한 인공지능의 성능을 검증하였다.

정보보안을 위한 생체 인식 모델에 관한 연구 (A Study on Biometric Model for Information Security)

  • 김준영;정세훈;심춘보
    • 한국전자통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.317-326
    • /
    • 2024
  • 생체 인식은 사람의 생체적, 행동적 특징 정보를 특정 장치로 추출하여 본인 여부를 판별하는 기술이다. 생체 인식 분야에서 생체 특성 위조, 복제, 해킹 등 사이버 위협이 증가하고 있다. 이에 대응하여 보안 시스템이 강화되고 복잡해지며, 개인이 사용하기 어려워지고 있다. 이를 위해 다중 생체 인식 모델이 연구되고 있다. 기존 연구들은 특징 융합 방법을 제시하고 있으나, 특징 융합 방법 간의 비교는 부족하다. 이에 본 논문에서는 지문, 얼굴, 홍채 영상을 이용한 다중 생체 인식 모델의 융합 방법을 비교 평가했다. 특징 추출을 위해VGG-16, ResNet-50, EfficientNet-B1, EfficientNet-B4, EfficientNet-B7, Inception-v3를 사용했으며, 특성융합을 위해 'Sensor-Level', 'Feature-Level', 'Score-Level', 'Rank-Level' 융합 방법을 비교 평가했다. 비교평가결과 'Feature-Level' 융합 방법에서 EfficientNet-B7 모델이 98.51%의 정확도를 보이며 높은 안정성을 보였다. 그러나 EfficietnNet-B7모델의 크기가 크기 때문에 생체 특성 융합을 위한 모델 경량화 연구가 필요하다.