통합 검색 | Korea Science

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템 (Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features)

임정우;장윤나;손준영;이승윤;박기남;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
- /
- pp.253-257
- /
- 2023
최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.
PDF

모바일 디바이스 기반의 멀티 모달 사용자 거리 추정 시스템 (Multi-Modal User Distance Estimation System based on Mobile Device)

오병훈;홍광석
- 한국인터넷방송통신학회논문지
- /
- 제14권2호
- /
- pp.65-71
- /
- 2014
본 논문에서는 모바일 디바이스에 기본적으로 제공되는 모노 카메라와 모노 마이크의 멀티 모달 입력을 통하여 사용자와 모바일 디바이스간의 거리를 추정하는 방법을 제안한다. 영상을 이용한 거리 추정은 모노 카메라로 입력되는 영상에서 피부색 영역을 추출하고, 노이즈를 제거한 후에 얼굴 영역 및 눈 영역을 검출하여 사용자의 거리를 추정한다. 음성을 이용한 거리 추정은 모노 마이크로 입력되는 음성으로부터 가장 큰 피크(Peak)를 선정하고, ROI(Region of Interest)를 지정한 후에 FFT(Fast Fourier Transform)을 수행하여 주파수 축에서의 크기(Magnitude)를 계산한다. 계산된 크기 값과 거리별 크기 값의 모델을 비교하여 거리 별 우도(Likelihood)를 계산하고, 정렬한 후 가중치를 주어 더함으로써 사용자의 거리를 추정한다. 실험결과 영상 및 음성을 멀티 모달 입력으로 이용하여 거리를 추정한 결과 단일 모달로 거리를 추정한 결과 보다 향상된 결과를 얻을 수 있었다.
https://doi.org/10.7236/JIIBC.2014.14.2.65 인용 PDF KSCI

치료적 모달리티를 병용한 척추 감압치료가 요추 신경뿌리병증 환자에게 미치는 효과 (The Effects of Spinal Decompression Combined with Therapeutic Modalities for Patients with Lumbar Radiculopathy)

마상렬;권원안;이재홍;민동기
- 한국산학기술학회논문지
- /
- 제14권1호
- /
- pp.336-343
- /
- 2013
본 연구의 목적은 요추 추간판 탈출증 환자에게 치료적 모달리티와 SpineMT(mobilization & traction)를 이용한 척추 감압치료 효과를 확인하는 것이다. 요추 추간판 탈출증 환자 15명(나이 36.62, 범위 20-50, 남자 7명과 여자 8명)을 대상으로 4주간 적용하였다. 치료적 모달리티와 척추 감압치료를 첫 2주 동안 주 6일, 12회 적용하였으며, 마지막 2주간은 주 4일 8회 적용하였다. 모든 실험대상자에게 4주 동안 20회를 적용하였다. 측정은 오스웨스트리 요통장애지수, 근력, 하지 직거상 검사는 실험 전, 치료 10회 후, 치료 20회 후 변화의 차이를 일요인 반복측정을 이용하였으며, 추간판 탈출지수는 실험 전, 치료 20회 후 변화 차이를 대응표본 t-검정을 이용하여 측정하였다. 치료적 중재 기간에 따라 치료 전, 2주 후, 4주 후 측정결과 오스웨스트리 요통장애 지수, 하지 직거상 검사, 그리고 근력은 치료 10회 후, 치료 20회 후가 치료 전에 비하여 통계학적 유의한 변화가 있었다(p<0.05). 그러나 추간판 탈출 지수는 치료 전에 비하여 감소함을 나타냈으나 통계학적으로 유의한 변화는 없었다(p>0.05). 결론적으로 요추 추간판 탈출증 환자에게 치료적 모달리티와 척추 감압치료가 요통장애지수, 하지 직거상 검사, 근력 개선에 효과적이란 결론을 얻었다. 이것은 척추 감압치료의 안전성과 효과의 확인, 그리고 요추 추간판 탈출증 환자에게 비수술적 치료법으로서의 근거를 제시하였다.
https://doi.org/10.5762/KAIS.2013.14.1.336 인용 PDF KSCI

모달테스팅을 위한 기여도 함수값에 대한 실험적 고찰 (An Experimental Study of Coherence Value for Modal Testing)

박미유;한형석;이민재;황원우
- 한국소음진동공학회:학술대회논문집
- /
- 한국소음진동공학회 2009년도 추계학술대회 논문집
- /
- pp.603-604
- /
- 2009
PDF

멀티 모달 음악 무드 분류 기법 (Multi-Modal Scheme for Music Mood Classification)

최홍구;전상훈;황인준
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
- /
- pp.259-262
- /
- 2011
최근 들어 소리의 세기나 하모니, 템포, 리듬 등의 다양한 음악 신호 특성을 기반으로 한 음악 무드 분류에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 음악 무드 분류의 정확도를 높이기 위하여 음악 신호 특성과 더불어 노래 가사와 소셜 네트워크 상에서의 사용자 평가 등을 함께 고려하는 멀티 모달 음악 무드 분류 기법을 제안한다. 이를 위해, 우선 음악 신호 특성에 대해 퍼지 추론 기반의 음악 무드 추출 기법을 적용하여 다수의 가능한 음악 무드를 추출한다. 다음으로 음악 가사에 대해 TF-IDF 기법을 적용하여 대표 감정 키워드를 추출하고 학습시킨 가사 무드 분류기를 사용하여 가사 음악 무드를 추출한다. 마지막으로 소셜 네트워크 상에서의 사용자 태그 등 사용자 피드백을 통한 음악 무드를 추출한다. 특정 음악에 대해 이러한 다양한 경로를 통한 음악 무드를 교차 분석하여 최종적으로 음악 무드를 결정한다. 음악 분류를 기반한 자동 음악 추천을 수행하는 사용자 만족도 평가 실험을 통해서 제안하는 기법의 효율성을 검증한다.

다중 모달리티 뇌 영상의 해부학적 분석 및 진단 시뮬레이션을 위한 영상분할 시스템 (The segmentation system for the anatomical analysis and diagnosis simulation of multi-modality brain image)

윤현주;이정민;김명희
- 한국시뮬레이션학회:학술대회논문집
- /
- 한국시뮬레이션학회 2004년도 춘계학술대회 논문집
- /
- pp.118-122
- /
- 2004
본 논문에서는 인체의 머리 부분을 촬영한 의료 영상에서 뇌 영역만을 분할하는 방법에 대해 제시하고자 한다. 뇌의 해부학적 구조 및 기능적 이상 부위를 파악할 경우에 영상 내에 함께 보여지는 두개골과 뇌척수액 등을 제외한 대뇌피질 영역을 분할하면 보다 효과적인 정보 분석 및 진단이 가능하게 된다. 본 시스템에서는 3단계 알고리즘을 제시한다. 첫 번째 단계에서는 영상 내에 존재하는 잡음을 제거하기 위한 필터링이고, 두 번째 단계에서는 필터링된 결과에 대한 영상분할을 수행하는 것이다 이 때 정확한 결과 도출을 위하여 사용자의 인터렉션이 들어가게 된다. 세번째 단계에서는 형태학적 방법을 이용하여 분할 결과를 보완한다. 본 연구를 위한 실험에는 자기 공명 촬영 영상(MRI: Magnetic Resonance Imaging), 단일 광전자 방출 단층 촬영영상(SPECT: Single Photon Emission Computed Tomography), 양전자 방출 단층 촬영영상(PET: Positron Emission Tomography) 등을 사용하였다. 본 시스템에서는 다양한 모달리티의 뇌 영상에서 대뇌피질 부분을 정확하게 영상 분할함으로써 뇌의 구조적 이상을 판단하기 위한 해부학적 정보 분석을 가능케 하고 있다. 뿐만 아니라 뇌 질환에 대한 정확한 진단 시뮬레이션도 가능하게 하고자 한다.
PDF

실제 멀티모달 환경에서의 지시 대용어 처리 (Resolution of Deictic Anaphora in Real Multimodal Environments)

최맹식;이세희;김학수
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
- /
- pp.151-155
- /
- 2008
언어기반 대화 시스템에서는 시스템과 사용자의 대화가 발화 자체만으로 이루어지기 때문에 사용자가 사람과 대화하는 것처럼 지시 대용어를 사용할 수 없어서 불편하다. 그리고 사용자의 발화 의미를 시스템이 정확하게 해석하기가 어렵다. 하지만 이런 언어기반 대화 시스템과는 달리 멀티모달 대화 시스템에서는 발화 자체의 정보뿐만이 아닌 제스처와 같은 발화 이외의 행위 정보들이 포함되는데 이 정보를 이용하면 지시 대용어의 처리가 가능해짐으로 시스템과의 대화가 좀 더 자연스러워진다. 본 논문에서는 군집화와 격틀을 이용하여 여러 사물들 중에서 지시 대용어가 될 가능성이 있는 지시 후보 선정을 한다. 그리고 특출성 점수와 엔트로피를 이용하여 후보 사물들 중에서 지시 대용어가 될 수 있는 대상을 선택하는 알고리즘을 제안한다. 시뮬레이션 환경에서의 실험결과 평균 2.8번의 상호작용으로 지시 대용어를 처리할 수 있었다.
PDF

상호정보 최적화를 통한 다중 모달리티 영상정합 (Multimodality Image Registration by Optimization of Mutual Information)

홍헬렌;김명희
- 한국시뮬레이션학회:학술대회논문집
- /
- 한국시뮬레이션학회 2000년도 추계학술대회 논문집
- /
- pp.180-185
- /
- 2000
방사선 치료계획이나 사전수술계획 등에 컴퓨터 사용이 늘어남에 따라 의료영상별 특성에 따른 복합적 처리를 필요로 한다. 본 논문에서는 다중 모달리티 영상으로부터 의미 있는 정보를 제공하기 위하여 상호정보 최적화를 통한 영상정합 방법을 제안한다. 본 방법은 두 영상에서 대응되는 위치의 명암도간 통계적 의존관계와 정보중복성을 계산하는 상호정보(mutual information)를 통해 영상간 변형관계를 추정함으로써 영상을 정합한다. 실험결과로는 뇌 자기공명영상(MRI)과 컴퓨터단층촬영영상(CT)의 상호정보를 최적화하여 정합 결과를 제시한다. 본 방법은 기존 정합방법에서 사용하는 영상분할이나 특징점 추출 등의 전처리 과정 없이 영상 자체 정보를 기반으로 계산함으로써 정합의 정확도를 높일 수 있다.
PDF

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템 (Audio-Visual Integration based Multi-modal Speech Recognition System)

이상운;이연철;홍훈섭;윤보현;한문성
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2002년도 추계학술발표논문집 (상)
- /
- pp.707-710
- /
- 2002
본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.
PDF

전동차용 AC 견인전동기의 진동특성해석 (Analysis of Rotor Dynamic Characteristics of AC Traction Motor)

정춘상;배동진;신상엽;이충동
- 소음진동
- /
- 제9권2호
- /
- pp.348-354
- /
- 1999
An AC traction motor was developed, of which the rotor core has an unique structure, made of multi-layered silicon steel plates which were shrink-fitted to a shart. the equivalenet material properties were estimated with a newly proposed efficient method, based on the correlation between finite element analysis results and modal testing. A general rotordynamic analysis for the rotor with the equivalent material properties was carried out to evaluate the structural integrity of the virtually built-up motor.
PDF

검색결과 162건 처리시간 0.022초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)