• 제목/요약/키워드: 모달분석

검색결과 200건 처리시간 0.029초

비디오 화자 인식 성능 향상을 위한 복합 신경망 모델 (A Hybrid Neural Network model for Enhancement of Speaker Recognition in Video Stream)

  • 이범진;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.396-398
    • /
    • 2012
  • 대부분의 실세계 데이터는 시간성을 띄고 있으므로 시간성을 지닌 데이터를 분석할 수 있는 기계 학습 방법론은 매우 중요하다. 이런 관점에서 비디오 데이터는 다양한 모달리티가 결합된 대표적인 시간 데이터 이므로 비디오 데이터를 대상으로 하는 기계 학습 방법은 큰 의미를 갖는다. 본 논문에서는 음성 채널에기반한 비디오 데이터 분석 방법의 예비 연구로 비디오 데이터에 등장하는 화자를 인식할 수 있는 간단한 방법을 소개한다. 제안 방법은 MFCC (Mel-frequency cepstrum coefficients)를 이용하여 인간 음성 특성의 분포를 분석한 후 분석 결과를 신경망에 입력하여 목표한 화자를 인식하는 복합 신경망 모델을 특징으로 한다. 실제 TV 드라마 데이터에서 가우시안 혼합모델, 가우시안 혼합 신경망 모델, 제안 방법의 화자 인식 성능을 비교한 결과 제안 방법이 가장 우수한 인식 성능을 보임을 확인하였다.

장소 정보를 학습한 딥하이퍼넷 기반 TV드라마 소셜 네트워크 분석 (Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks)

  • 남장군;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.619-624
    • /
    • 2016
  • Social-aware video는 자유로운 스토리 전개를 통해 인물들간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람에게 전달해주고 있다. 특히 장소에 따른 사람들간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 멀티모달과 동적인 특성으로 인해 컴퓨터가 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하기 위해 기존의 연구에서는 딥하이퍼넷 모델을 사용하여 드라마 등장인물의 시각과 언어 정보를 기반으로 계층적 구조를 사용해 소셜 네트워크를 분석하였다. 하지만 장소 정보를 사용하지 않아 전반적인 스토리로부터 소셜 네트워크를 분석할 수밖에 없었다. 본 논문에서는 기존 연구를 바탕으로 장소 정보를 추가하여 각 장소에서의 인물 특성을 분석해 보았다. 본 논문에서는 총 4400분 분량의 TV드라마 "Friends"를 사용했고 C-RNN모델을 통해 등장인물을 인식하였으며 Bag of Features로 장소를 분류하였다. 그리고 딥하이퍼넷 모델을 통해 자동으로 소셜 네트워크를 생성하였고 각 장소에서의 인물 관계 변화를 분석하였다.

멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 (A News Video Mining based on Multi-modal Approach and Text Mining)

  • 이한성;임영희;유재학;오승근;박대희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권3호
    • /
    • pp.127-136
    • /
    • 2010
  • 정보 통신기술이 발전함에 따라 멀티미디어 데이터를 포함하는 디지털 기록물의 양은 기하급수적으로 증가하고 있다. 특히 뉴스 비디오는 시대상을 반영하는 풍부한 정보를 내포하고 있으므로, 이를 효과적으로 관리하고 분석하기 위한 뉴스 비디오 데이터베이스 및 뉴스 비디오 마이닝은 광범위하게 연구되어왔다. 그러나 현재까지의 뉴스 비디오 관련 연구들은 뉴스 기사에 대한 브라우징, 검색, 요약에 치중되어 있으며, 뉴스 비디오에 내재되어 있는 풍부한 잠재적 지식을 탐사하는 고수준의 의미 분석 단계에는 이르지 못하고 있다. 본 논문에서는 뉴스 비디오 클립과 스크립트를 동시에 이용하는, 멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 시스템을 제안한다. 제안된 시스템은 텍스트 마이닝의 군집분석을 통해 뉴스 기사들을 자동 분류하고, 분류 결과에 대해 기간별 군집 추이그래프, 군집성장도 분석 및 네트워크 분석을 수행함으로써, 뉴스 비디오의 기사별 주제와 관련한 다각적 분석을 수행한다. 제안된 시스템의 타당성 검증을 위하여 "2007년 제2차 남북 정상회담" 관련 뉴스 비디오를 대상으로 뉴스 비디오 분석을 수행하였다.

초고층건물의 성능평가를 위한 응답의존 시스템판별 및 모델향상 (Output-Only System Identification and Model Updating for Performance Evaluation of Tall Buildings)

  • 조순호
    • 한국지진공학회논문집
    • /
    • 제12권4호
    • /
    • pp.19-33
    • /
    • 2008
  • 구조물에 고유한 진동수,모드형태 및 감쇠비 등과 같은 동적성능치를 추출하기 위하여 25층 및 42층 건물에 대하여 자연진동에 의한 동적계측실험을 수행하였다. 고려된 건물은 주요 횡하중 지지기구로서 코아벽체 혹은 전단벽체가 추가된 철근콘크리트건물이며, 입면 혹은 평면상으로 골조가 혼합된 구조형식을 나타낸다. 특히, 25층 건물은 측면에 위치한 코아벽체 이외에 상부로부터 내려오는 전단벽 구조가 4층 바닥이하에서 골조형식으로 전환되는 복잡한 구조이다. 이와 같은 이유 및 건물 주방향의 유사한 강성배치로 매우 근접하고 혼합된 모드형태가 예상되어 시스템판별 시 어려움이 예상된다. 현재까지 개발된 다양한 시스템판별법을 대상건물의 자연진동 실측기록에 적용하여 모달계수를 유도하였으며, 그 결과를 비교 분석하였다. 3개의 주파수영역 및 4개의 시간영역에 근거한 응답의존 시스템판별법이 고려되었다. 서로 다른 시스템판별법에 의하여 추출된 고유진동수 및 감쇠비는 대체로 상당한 일치를 보였으나, 모드형태는 사용된 방법에 따라 정도가 다르게 불일치를 나타냈다. 실험으로부터 추출한 성능치와 초기 유한요소해석 값을 비교해 본 결과 대상건물 모두 적어도 저차 3개의 고유진동수에서 2배 정도의 차이를 나타냈다. 실험과 해석결과의 일치를 위하여 몇몇 수동모델향상이 시도되었으며, 허용할 만한 결과를 획득하였다. 사용된 시스템판별법에 대하여 각자의 장, 단점에 대하여 기술하였으며, 본 연구와 같은 실제 대형구조물에 대하여 자동모델향상기법을 적용할 시 예상되는 문제점에 대하여 토의하였다.

K-Pop에서 사용된 선법음악 형태에 관한 연구 (A Study on the Form of Modal Music used in K-Pop)

  • 김진선;정재윤
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권6호
    • /
    • pp.25-32
    • /
    • 2019
  • 최근 KOFICE의 조사결과에 따라 K-Pop의 인기요인을 추리면 시각요소와 청각요소로 나뉘며 청각요소의 비중이 큰 것을 확인할 수 있다. 다양한 가수형태 중에서 아이돌이 K-Pop을 주도하고 있으며, 연구 대상으로 2018년 선호하는 K-Pop 가수에서 여자그룹부문 1위를 차지한 블랙핑크를 선정하였다. 더불어 블랙핑크의 활동기간과 비슷한 트와이스의 음악을 비교 연구범위로 정했다. 두 그룹의 음악에서 나타난 공통점은 선율과 화성리듬을 중심으로 구현된 후렴구와 리듬구조가 있으며, 장조와 단조의 사용빈도는 큰 차이를 보인다. 이를 선법과 모달 인터체인지를 통해, 2016년에서 2018년까지 발매된 상위권의 K-Pop을 분석한다. 연구결과 첫 번째, 한 개 이상의 선법이 중심선율로 사용된다. 두 개 이상 선법이 사용될 시 같은 계열의 다른 선법이 노래의 기능적 형식에 따라 변한다. 두 번째, 보컬과 악기로 표현한 선율의 리듬은 2마디 패턴을 기준으로 반복한다. 마지막으로 화음을 적게 사용하고, 화성리듬을 느리게 표현할 때 화음 성질을 결정짓는 3음을 생략하거나 변형하는 방식이 나타난다. 본 연구결과를 통해, 장조와 단조에 따라 선법과 모달 인터체인지의 사용형태가 나뉘는 것을 알 수 있다.

디지털 X-선 시스템에서 흉부 전·후 방향 검사 시 검사복이 영상에 미치는 영향과 적정 검사복 원단의 분석 (Analysis of the Influence of Examination Gowns on the Image and the Suitable Fabrics for Chest AP Examinations on DR X-ray Systems)

  • 백은비;정유진;임수빈;박상조;허영철
    • 한국방사선학회논문지
    • /
    • 제17권6호
    • /
    • pp.865-872
    • /
    • 2023
  • 본 연구에서는 디지털 일반촬영 시스템에서 흉부 전·후방향 검사 시 검사복이 영상에 영향을 미치는지를 확인하고 검사복으로 사용하기에 적절한 원단을 분석하고자 하였다. 서울 소재 3차 의료기관 다섯 곳에서 사용 중인 검사복을 수집하였고 모달, 텐셀, 면, 레이온 원단을 이용하였다. 원단의 선택은 촉감, 흡수성, 신축성, 구김성이 우수한 원단으로 보고된 연구를 참고하였다. 의료기관 다섯 곳 검사복과 네 개의 원단을 1겹에서 8겹까지 겹치도록 배열한 팬텀을 제작한 후 디지털 일반촬영 시스템에서 흉부 전·후방향 조건으로 검사하였다. 검사한 영상은 1차 프로파일 분석, 2차 신호강도 평균값 분석, 3차 현미경 분석하였다. 결과적으로 총 아홉 가지 재료 모두 원단의 겹침이 증가할수록 영상에 미치는 영향이 증가하는 것을 확인하였고 1차, 2차, 3차 분석 모두에서 영상에 미치는 정도가 가장 적은 것은 모달 원단이었다. 결론적으로 디지털 장치의 해상력이 증가할수록 검사복이 영상에 미치는 영향이 증가할 것이며 이에 따라 적정 검사복 재질을 찾는 연구에 지속적인 관심이 필요하다.

랩뷰를 이용한 FFT 분석기의 충격시험모듈 개발 (Developing the Impact Testing Module with LabVIEW)

  • 최기수;전수홍;정의봉
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2007년도 춘계학술대회A
    • /
    • pp.885-890
    • /
    • 2007
  • Fast Fourier Transformation(FFT) is one of the most useful way to analyze response signal for the purpose of grasping the dynamic characteristics of system. Vibration test using impact hammer is typical and simple experimental method widely used for catching hold of dynamic peculiar characters and modal behaviors of system. In this thesis, impact testing module for NI-PXI equipment is developed. The analyzing and visualizing module are developed with LabVIEW tool. A user can see quickly and easily modal shape of system after analyzing acquired data. This developed module will be expected to build up more convenient and serviceable measurement system.

  • PDF

굴절차량의 안내/추진 제어 설계용 Toolbox (Matlab Toolbox for Guidance & Traction Control Designs of an Articulated Transportation Vehicle)

  • 민경득;윤경한;김영철;변윤섭;목재균
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.1549-1550
    • /
    • 2008
  • KRRI 바이모달 트램은 굴절버스 형태로 모든 차륜이 조향 가능하며 트레일러의 차륜과 트랙터의 후륜이 독립적으로 구동 가능한 시스템이다. 본 논문은 굴절차량용 자동 안내/추진 제어기를 설계하기 위한 차량의 동역학 분석 및 제어기의 성능분석용 Toolbox를 소개한다.

  • PDF

시간영역 이미지 필터링에 의한 립리딩 성능 향상 (Time domain Filtering of Image for Lip-reading Enhancement)

  • 이지은;김진영;이주헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.45-48
    • /
    • 2001
  • 립리딩은 잡음 환경 하에서 음성 인식 성능을 향상을 위해 영상정보를 이용한 바이모달(bimodal)음성인식으로 연구되었다[1][2]. 그 일환으로 이미 영상정보를 이용한 립리딩은 구현되었다. 그러나 현재까지의 시스템들은 환경의 변화에 강인하지 못하다. 본 논문에서는 이미지 기반 립리딩 방법을 적용하여 입술 영역을 보다 안정적으로 찾아 성능을 향상 시켰다. 그러나 이 방법은 많은 데이터량을 처리해야 하므로 전처리 과정이 필요하다. 전처리로 입력영상을 그레이 레벨로 변환하는 방법과, 입술을 반으로 접는 방법, 그리고 주성분 분석(PCA: Principal Component Analysis)을 사용하였다. 또한 인식성능 향상을 위해 음성에서 잡음 제거나 분석$\cdot$합성에 효과적인 성능을 보이는 RASTA(Relative Spectral)필터를 적용하여 시간 영역에서의 변화가 적은 성분이나 급변하는 성분, 그 밖의 잡음 등을 제거하였다. 그 결과 $72.7\%$의 높은 인식 성능을 보였다.

  • PDF

모멘트 및 free-form 변형기반 비선형 뇌영상 정합 (Non-liner brain image registration based on moment and free-form deformation)

  • 김민정;최유주;김명희
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.271-274
    • /
    • 2004
  • 영상정합을 통한 의료영상 분석방법들 중 동일환자에 대한 선형적 다중모달리티 정합이 널리 이용되고 있다. 그러나 실제적으로 여러 종류의 환자영상 취득이 어렵거나 해부학적 영상정보가 손실되는 경우가 적지 않다 본 논문에서는 표준 형상을 가지는 정상인 해부학적 뇌영상에 대한 환자 기능적 뇌영상의 정합방법을 제안한다. 먼저 두 영상간 모멘트 정보 매칭 및 초기선형 변환을 수행하고, 3차원 B zier 함수 기반 free-form 변형기법을 이용한 비선형 정합을 수행하여 정합 영상간 형상 차이를 최소화한다 제안방법은 환자 기능영상의 해부학적 분석 뿐 아니라 시술전-시술중 영상정합을 통한 영상유도시술에도 확장 적용될 수 있다.

  • PDF