• 제목/요약/키워드: 자동 음악 생성

검색결과 33건 처리시간 0.029초

심층 CNN을 활용한 영상 분위기 분류 및 이를 활용한 동영상 자동 생성 (Image Mood Classification Using Deep CNN and Its Application to Automatic Video Generation)

  • 조동희;남용욱;이현창;김용혁
    • 한국융합학회논문지
    • /
    • 제10권9호
    • /
    • pp.23-29
    • /
    • 2019
  • 본 연구에서는 영상의 분위기를 심층 합성곱 신경망을 통해 8 가지로 분류하고, 이에 맞는 배경 음악을 적용하여 동영상을 자동적으로 생성하였다. 수집된 이미지 데이터를 바탕으로 다층퍼셉트론을 사용하여 분류 모델을 학습한다. 이를 활용하여 다중 클래스 분류를 통해 동영상 생성에 사용할 이미지의 분위기를 예측하며, 미리 분류된 음악을 매칭시켜 동영상을 생성한다. 10겹 교차 검증의 결과, 72.4%의 정확도를 얻을 수 있었고, 실제 영상에 대한 실험에서 64%의 오차 행렬 정확도를 얻을 수 있었다. 오답의 경우, 주변의 비슷한 분위기로 분류하여 동영상에서 나오는 음악과 크게 위화감이 없음을 확인하였다.

허밍을 이용한 고품질 음악 생성 (Humming based High Quality Music Creation)

  • 이윤재;김선민
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2014년도 추계학술대회 논문집
    • /
    • pp.146-149
    • /
    • 2014
  • In this paper, humming based automatic music creation method is described. It is difficult for the general public which does not have music theory to compose the music in general. However, almost people can make the main melody by a humming. With this motivation, a melody and chord sequences are estimated by the humming analysis. In this paper, humming is generated without a metronome. Then based on the estimated chord sequence, accompaniment is generated using the MIDI template matched to each chord. The 5 Genre is supported in the music creation. The melody transcription is evaluated in terms of onset and pitch estimation accuracy and MOS evaluation is used for created music evaluation.

  • PDF

고해상도 사이드 스캔 소나 영상의 보정 및 매핑 알고리즘의 개발 (Development of Algorithms for Correcting and Mapping High-Resolution Side Scan Sonar Imagery)

  • 이동진;박요섭;김학일
    • 대한원격탐사학회지
    • /
    • 제17권1호
    • /
    • pp.45-56
    • /
    • 2001
  • 해저면의 정보를 얻기 위하여 사이드 스캔 소나(Side Scan Sonar)를 이용하여 해저면의 모자이 영상을 생성하였다. 경사거리 보정에 필요한 Tow-Fish의 수증고도 산출을 위해 short time energy 함수를 각 ping의 음압 레벨에 적용하였으며, 수주(water column) 영역이 제거된 모자익 영상을 생성할 수 있었다. 모자익 영상 생성시 각 화소의 음압 대표값으로 최대값, 최근값 및 평균값을 사용하였으며, 평균값 사용시 일정 방향으로 발사된 음파의 음악값만을 대상으로 평균값을 구하여 해저면의 3차원 정보를 보존하였다. 모자익 영상 생성 방법으로 Im/pixel 이상의 저해상도로 전테 탐사 영역에 대한 조자익 영상을 생성한 후 관심 대상 영역을 선택하여 0.1m/pixel의 공간 해상도를 가진 고화질의 모자익 영상을 생성하였으며, 해저면의 암석, 연흔, 개펄, 인공 어초 등의 해저 물체를 확인할 수 있었다.

한류문화 전수를 위한 수퍼인텔리전스 기반 확장현실 소프트웨어 플랫폼 설계 (A Study on Enhanced XR Software Platform based on Superintelligence)

  • 지수미;곽정훈;성연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.43-44
    • /
    • 2020
  • 최근 케이팝 문화의 확산으로 한류라는 브랜드가 구축되고, 이에 관심이 급증함에 따라 관련 콘텐츠 시장의 혁신이 요구되고 있다. 본 논문은 한류문화 전수를 위한 수퍼인텔리전스 기반의 확장현실(XR) 소프트웨어 플랫폼에 관한 것으로, 본 플랫폼을 통하여 한류 문화 체험 및 전수가 가능하다. 세부적으로는 한류 콘텐츠 전수를 위한 확장현실 기반 공간을 바탕으로 딥러닝 기반 영상 생성 및 동작 분석기술, 자동 음악생성 기술, 한류 문화 데이터 보안 기술을 포함한 통합적인 플랫폼 환경을 설계하여 제안한다. 또한 이 플랫폼의 3차원 동작 분류 및 예측을 향상 시킬 수 있는 방법을 제안한다.

뮤직비디오 브라우징을 위한 중요 구간 검출 알고리즘 (Salient Region Detection Algorithm for Music Video Browsing)

  • 김형국;신동
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.112-118
    • /
    • 2009
  • 본 논문은 모바일 단말기, Digital Video Recorder (DVR) 등에 적용할 수 있는 뮤직비디오 브라우징 시스템을 위한 실시간 중요 구간 검출 알고리즘을 제안한다. 입력된 뮤직비디오는 음악 신호와 영상 신호로 분리되어 음악 신호에서는 에너지기반의 음악 특징값 최고점기반의 구조분석을 통해 음악의 후렴 구간을 포함하는 음악 하이라이트 구간을 검출하고, SVM AdaBoost 학습방식에서 생성된 모델을 이용해 음악신호를 분위기별로 자동 분류한다. 음악신호로부터 검출된 음악 하이라이트 구간과 영상신호로부터 검출된 가수, 주인공의 얼굴이 나오는 영상장면을 결합하여 최종적으로 중요구간이 결정된다. 제안된 방식을 통해 사용자는 모바일 단말기나 DVR에 저장되어 있는 다양한 뮤직비디오들을 분위기별로 선택한 후에 뮤직비디오의 30초 내외의 중요구간을 빠르게 브라우징하여 자신이 원하는 뮤직비디오를 선택할 수 있게 된다. 제안된 알고리즘의 성능을 측정하기 위해 200개의 뮤직비디오를 정해진 수동 뮤직비디오 구간과 비교하여 MOS 테스트를 실행한 결과 제안된 방식에서 검출된 중요 구간이 수동으로 정해진 구간보다 사용자 만족도 측면에서 우수한 결과를 나타내었다.

사이버음향(CyberSound) - 가상세계의 음향

  • 김형교;이의택
    • 방송과미디어
    • /
    • 제2권3호
    • /
    • pp.23-31
    • /
    • 1997
  • 컴퓨터 음향발생에 관한 연구는 컴퓨터 음악, 인간-컴퓨터 상호작용, 데이터 청각화등의 분야에서 오랫동안 진행되어 왔지만, 최근 들어 컴퓨터 애니메이션이나 가상세계등에서 시각적 효과와 함께 보다 입체감 있고 현실감 있는 가상환경을 제공하기 위해 더욱더 중요한 문제로 떠오르고 있다. 지금까지 음향발생을 위해 음향의 모델링이나 합성등 음향 자체에 대한 요소 기술들에 관해서는 많은 연구가 진행되었으나 컴퓨터 애니메이션, 가상세계등과 같이 영상내 동작 내지 사건과 음향이 서로 밀접하게 연관된 분야에서 필수적인 음향을 영상내 동작과 통합 처리할 수 있는 기술에 대한 연구는 초보적인 단계에 머무르고 있다. 최근 들어, 음향의 입체감과 임장감을 강화하기 위하여 3차원 음향이라는 개념이 도입되고 있고 이의 구현에 대한 연구가 활발하게 진행되고 있다. 여기서는 컴퓨터 애니메이션이나 가상현실등에서 영상내 물체의 움직임이나 사건 그와 동기된 음향의 자동생성 및 이의 3차원 음향효과 발생 기술 원리를 사이버음향(CyberSound)이라는 개념으로 묶어서 소개하면서, 이의 전망을 기술하고자 한다.

  • PDF

딥러닝을 이용한 오디오 콘텐츠 분석 기반의 자동 음량 제어 기술 개발 (Development of Automative Loudness Control Technique based on Audio Contents Analysis using Deep Learning)

  • 이영한;조충상;김제우
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.42-43
    • /
    • 2018
  • 국내 디지털 방송 프로그램은 2016년 방송법 개정 이후, ITU-R / EBU에서 제안한 측정 방식을 활용하여 채널 및 프로그램 간의 음량을 맞추어 제공되고 있다. 일반적으로 뉴스나 중계와 같이 실시간으로 음량을 맞춰야 하는 분야를 제외하고는 평균 음량을 규정에 맞춰 송출하고 있다. 본 논문에서는 일괄적으로 평균 음량을 맞출 경우 발생하는 저음량의 명료도를 높이기 위한 기술을 제안한다. 즉, 방송 음량을 조절하는 기술 중의 하나로 오디오 콘텐츠를 분석하여 구간별 음량 조절 정도를 달리함으로써 저음량에서의 음성은 상대적으로 높은 음량을 가지고 배경음악 등을 상대적으로 낮음 음량을 가지도록 생성함으로써 명료도를 높이는 방식을 제안한다. 제안한 방식의 성능을 확인하기 위해 오디오 콘텐츠 분석 정확도 측정과 오디오 파형 분석을 실시하였으며 이를 통해 기존의 음량 제어 기술과 비교하여 음성 구간에 대해 음량을 증폭시키는 것을 확인하였다.

  • PDF

비대면 미술교육 서비스를 위한 맞춤형 ART 융합 서비스 연구 (A study on customized ART convergence service for non-face-to-face art education service)

  • 김형균
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.275-280
    • /
    • 2022
  • 본 논문은 비대면 미술감상 교육을 위해 사용자의 상황 정보 및 취향에 맞는 태그가 융합된 융·복합 예술 플레이리스트 콘텐츠를 사용자에게 추천하는 기술을 제안하고자 한다. 제안한 기술의 구현을 위해 예술 작품의 특성을 분석하고, 분석된 작품들의 태그를 기반으로 관련된 음악과 미술작품을 매칭한다. 또한 매칭된 작품을 활용해 융·복합 예술 관람 플레이리스트 콘텐츠를 자동으로 생성하는 기술을 제안하고자 한다.

SAAnnot-C3Pap: 반자동 주석화 방법을 적용한 연주 자세의 그라운드 트루스 수집 기법 (SAAnnot-C3Pap: Ground Truth Collection Technique of Playing Posture Using Semi Automatic Annotation Method)

  • 박소현;김서연;박영호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권10호
    • /
    • pp.409-418
    • /
    • 2022
  • 본 논문에서는 연주자 자세의 그라운드 트루스 획득을 위한 반자동 주석 방법인 SAAnnot-C3Pap를 제안한다. 기존 음악 도메인에서 2차원 관절 위치에 대한 그라운드 트루스를 획득하기 위하여 2차원 자세 추정 방법인 오픈포즈를 활용하거나 수작업으로 라벨링 하였다. 하지만 기존의 오픈포즈와 같은 자동 주석 방법은 빠르지만 부정확한 결과를 보인다는 단점이 있고, 사용자가 직접 주석을 생성하는 수작업 주석화의 경우 많은 노동력이 필요하다는 한계점이 있다. 따라서 본 논문에서는 그 둘의 절충 방안인 반자동 주석화 방법인 SAAnnot-C3Pap을 제안한다. 제안하는 SAAnnot-C3Pap은 크게 3가지 과정으로 오픈포즈를 사용하여 자세를 추출하고, 추출된 부분 중 오류가 있는 부분을 슈퍼바이즐리를 사용하여 수정한 뒤, 오픈포즈와 슈퍼바이즐리의 결과값을 동기화하는 과정을 수행한다. 제안하는 방법을 통하여 오픈포즈에서 발생하는 잘못된 2차원 관절 위치 검출 결과를 교정할 수 있었고, 2명 이상의 사람을 검출하는 문제를 해결하였으며, 연주 자세 그라운드 트루스 획득이 가능하였다. 실험에서는 반자동 주석 방법인 오픈포즈와 본 논문에서 제안하는 SAAnnot-C3Pap의 결과를 비교·분석한다. 비교 결과, 제안하는 SAAnnot-C3Pap는 오픈포즈로 잘못 수집된 자세 정보를 개선한 결과를 보였다.

음악 감정 분석을 통한 키네틱 타이포그래피 자막 자동 생성 서비스 (Automatic Generation Subtitle Service with Kinetic Typography according to Music Sentimental Analysis)

  • 지영서;이하람;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제24권8호
    • /
    • pp.1184-1191
    • /
    • 2021
  • In a pop song, the creator's intention is communicated to the user through music and lyrics. Lyric meaning is as important as music, but in most cases lyrics are delivered to users in a static form without non-verbal cues. Providing lyrics in a static text format is inefficient in conveying the emotions of a music. Recently, lyrics video with kinetic typography are increasingly provided, but producing them requires expertise and a lot of time. Therefore, in this system, the emotions of the lyrics are found through the analysis of the text of the lyrics, and the deep learning model is trained with the data obtained by converting the melody into a Mel-spectrogram format to find the appropriate emotions for the music. It sets properties such as motion, font, and color using the emotions found in the music, and automatically creates a kinetic typography video. In this study, we tried to enhance the effect of conveying the meaning of music through this system.