• 제목/요약/키워드: chroma feature

검색결과 16건 처리시간 0.031초

GAN-based Color Palette Extraction System by Chroma Fine-tuning with Reinforcement Learning

  • Kim, Sanghyuk;Kang, Suk-Ju
    • Journal of Semiconductor Engineering
    • /
    • 제2권1호
    • /
    • pp.125-129
    • /
    • 2021
  • As the interest of deep learning, techniques to control the color of images in image processing field are evolving together. However, there is no clear standard for color, and it is not easy to find a way to represent only the color itself like the color-palette. In this paper, we propose a novel color palette extraction system by chroma fine-tuning with reinforcement learning. It helps to recognize the color combination to represent an input image. First, we use RGBY images to create feature maps by transferring the backbone network with well-trained model-weight which is verified at super resolution convolutional neural networks. Second, feature maps are trained to 3 fully connected layers for the color-palette generation with a generative adversarial network (GAN). Third, we use the reinforcement learning method which only changes chroma information of the GAN-output by slightly moving each Y component of YCbCr color gamut of pixel values up and down. The proposed method outperforms existing color palette extraction methods as given the accuracy of 0.9140.

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구 (An investigation of chroma n-gram selection for cover song search)

  • 서진수;김정현;박지현
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.436-441
    • /
    • 2017
  • 음악 유사도 계산은 음악 검색 시스템 구현에 있어서 필수적인 구성 요소이다. 본 논문은 음악 검색 중에서 커버곡 검색에 대해서 다룬다. 크로마 n-gram을 이용한 커버곡 검색에 있어서 특징 DB 저장 공간을 줄이고 성능을 향상시키기 위해서 t-tab n-gram을 제안하고, n-gram 선택 방법, n-gram 집합 간 비교 방법에 관해서 연구하였다. 공개되어 있는 커버곡 데이터셋에서 실험을 수행하여 제안된 방법이 저장 공간을 줄이면서 동시에 커버곡 검색 성능을 향상시킬 수 있음을 보였다.

음성 감정인식에서의 톤 정보의 중요성 연구 (On the Importance of Tonal Features for Speech Emotion Recognition)

  • 이정인;강홍구
    • 방송공학회논문지
    • /
    • 제18권5호
    • /
    • pp.713-721
    • /
    • 2013
  • 본 연구는 음성의 감정인식에 있어서 크로마 피쳐를 기반으로 한 음성 토널 특성에 대하여 기술하였다. 토널 정보가 갖는 장조와 단조와 같은 정보가 음악의 분위기에 미치는 영향과 유사하게 음성의 감정을 인지하는 데에도 토널 정보의 영향이 존재한다. 감정과 토널 정보의 관계를 분석하기 위해서, 본 연구에서는 크로마 피쳐로부터 재합성된 신호를 이용하여 청각 실험을 수행하였고, 인지실험결과 긍정과 부정적 감정에 대한 구분이 가능한 것으로 확인되었다. 인지 실험을 바탕으로 음성에 적합한 토널 피쳐를 적용하여 감정인식 실험을 진행하였고, 토널 피쳐를 사용하였을 경우 감정인식 성능이 향상되는 것을 확인 할 수 있다.

다성음원 기반 QbSH 시스템을 위한 매칭엔진의 설계 및 구현 (Design and Implementation of Matching Engine for QbSH System Based on Polyphonic Music)

  • 박성주;정광수
    • 한국멀티미디어학회논문지
    • /
    • 제15권1호
    • /
    • pp.18-31
    • /
    • 2012
  • 본 논문은 다성음원에서 추출된 특성정보 기반 QbSH (Query-by-Singing/ Humming) 시스템의 매칭엔진에 대해 제안하였다. 다성음원 기반 QbSH 시스템은 사람의 노래나 허밍에서 추출된 특성정보와 MP3 파일과 같은 다성음원에서 추출된 특성정보를 비교하여, 가장 유사한 음원을 검색하는 시스템이다. 제안된 매칭엔진에는 다성음원에서 특성 추출시 발생하는 오류를 줄이고, 매칭성능을 향상시키기 위해 크로마-스케일 표현기법 (Chroma-Scale Representation), 보상기법 (Compensation) 및 비대칭적 DTW (Asymmetric Dynamic Time Warping) 알고리즘을 적용하였다. 또한 다양한 거리 함수 (Distance Metric)를 적용하여 매칭엔진의 성능향상을 확인하였다. 1,000개의 허밍 질의와 450곡의 다성음원 데이터베이스를 기반으로 제안한 QbSH 시스템의 성능 실험을 수행하다. 성능 평가를 통해 제안한 QbSH 시스템이 MRR (Mean Reciprocal Rank) 0.718의 정확도를 가지는 것으로 확인되었다.

무게중심을 이용한 자동얼굴인식 시스템의 구현 (Implementation of an automatic face recognition system using the object centroid)

  • 풍의섭;김병화;안현식;김도현
    • 전자공학회논문지B
    • /
    • 제33B권8호
    • /
    • pp.114-123
    • /
    • 1996
  • In this paper, we propose an automatic recognition algorithm using the object centroid of a facial image. First, we separate the facial image from the background image using the chroma-key technique and we find the centroid of the separated facial image. Second, we search nose in the facial image based on knowledge of human faces and the coordinate of the object centroid and, we calculate 17 feature parameters automatically. Finally, we recognize the facial image by using feature parameters in the neural networks which are trained through error backpropagation algorithm. It is illustrated by experiments by experiments using the proposed recogniton system that facial images can be recognized in spite of the variation of the size and the position of images.

  • PDF

색상패턴 추적을 이용한 실시간 증강영상 시스템 (A Real-time Augmented Video System using Chroma-Pattern Tracking)

  • 박성춘;남승진;오주현;박창섭
    • 방송공학회논문지
    • /
    • 제7권1호
    • /
    • pp.2-9
    • /
    • 2002
  • 최근에 TV 방송에서 가상스튜디오나 가상캐릭터와 같은 가상현실(VR: Virtual Reality) 기술이 자주 사용되고 있으며 증강현실 (AR: Augmented Reality) 기술에 대한 관심도 높아지고 있다. 본 논문에서는 증강현실 기술을 방송에 응용한 가상스크린 시스템에 대해 소개한다. 가상스크린 시스템은 움직이는 색상패턴 패널을 추적하여 실시간으로 그 위에 동영상을 합성하는 증강영상 시스템이다. KBS 기술연구소에서는 가상스크린 시스템을 개발하고 'K-비전'이라 이름지었다. 이 시스템은 사용자가 들고 움직이는 패널에 동영상이나 그래픽 영상 등을 보여줄 수 있는데, 보여지는 모든 영상은 카메라의 움직임과 패널의 움직임에 따라 정확하게 입혀진다. 패널 추적을 위하여 블럽 분석(blob analysis)이나 특징 추적(feature tracking)과 같은 영상처리 기술을 이용한다. K-비전은 모든 타입의 카메라와 사용 가능하며. 특별한 부가장치가 필요하지 않다. 센서를 부착하지 않아도 되고. 캘리브레이션(calibration) 과정 또한 필요하지 않다. K-비전은 선거개표 방송. 다큐멘터리, 오락 프로그램 등 생방송 프로그램에서 활용한다.

이차원 퓨리에 변환의 크기와 위상을 이용한 커버곡 검색 (Cover song search based on magnitude and phase of the 2D Fourier transform)

  • 서진수
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.518-524
    • /
    • 2018
  • 라이브 음악 또는 리메이크를 통해서 재발매된 음악을 원곡의 커버곡이라 부른다. 본 논문은 고속 커버곡 검색을 위한 특징 축약을 위해 2차원 퓨리에 변환을 이용하는 방법을 연구하였다. 이차원 퓨리에 변환은 조변화에 대해서 불변성을 가지고 있으므로, 커버곡 검색을 위한 특징 축약 방법으로 적합하다. 기존 퓨리에 변환 방법에서는 크기값 만을 활용하였으나, 본 논문에서는 인접한 크로마 블록은 같은 조변화를 가진다는 가정하에 위상 정보를 추가로 활용하는 방법을 제안하였다. 두 가지 커버곡 실험 데이터셋에서 성능 비교를 수행하였으며, 제안된 방법이 기존 방법에 비해서 우수한 커버곡 검색 정확도를 보임을 확인하였다.

1차색의 지각범위에 관한 연구 (A Study on the Range of Color Preception in Primary Colors)

  • 이정옥;정용희;이순자
    • 조명전기설비학회논문지
    • /
    • 제13권4호
    • /
    • pp.7-13
    • /
    • 1999
  • 본 연구는 의복디자인에 있어 색채적용에 도움이 되는 자료를 얻고자 1차색의 지각범위에 대하여 여대생 29명을 대상으로 실험을 하였다. 실험기간은 1998년 7월∼10월이다. 그 결과는 다음과 같다. 1) 30[%] 이상의 피험자가 지각한 지각범위 형태는 빨강에 대해서는 표준색 5R 4/14를 중심으로 5R 4/12, 5R 4/10, 5R 5/14로 명도축보다 채도축의 범위가 더 넓다. 노랑의 지각범위 형태는 표준색 5Y 8/14를 중심으로 채도축의 범위가 더 넓다. 파랑의 지각범위 형태는 표준색 5B 4/10을 중심으로 명도 축의 범위가 넓다. 2) 색도도에서 보면 1명 이상의 지각범위는 빨강은 전체 범위의 3/4에 걸쳐 넓게 분포하며, x축 선상으로 쭉 뻗어 있다. 노랑은 전체의 약 1/2에 걸쳐 분포하고 있으며, 전체가 연결되어 있지 않고 소수가 분리된 형태를 가진다. 파랑은 전체의 약 2/3에 걸쳐 분포하고 있으며, 그 선 상으로 늘어진 모든 색표가 포함되어 있다. 결론적으로 빨강의 지각범위는 상당히 넓게 분포되어 있으며, 피험자간의 공통성은 비교적 높으며, 노랑의 지각범위는 중간정도의 범위에 분포되어 있으며 피험자간의 공통성은 낮다. 또한 파랑의 지가범위는 약간 넓은 범위에 분포되어 있으며 피험자간의 공통성은 높다고 말할 수 있다.

  • PDF

Design of Music Learning Assistant Based on Audio Music and Music Score Recognition

  • Mulyadi, Ahmad Wisnu;Machbub, Carmadi;Prihatmanto, Ary S.;Sin, Bong-Kee
    • 한국멀티미디어학회논문지
    • /
    • 제19권5호
    • /
    • pp.826-836
    • /
    • 2016
  • Mastering a musical instrument for an unskilled beginning learner is not an easy task. It requires playing every note correctly and maintaining the tempo accurately. Any music comes in two forms, a music score and it rendition into an audio music. The proposed method of assisting beginning music players in both aspects employs two popular pattern recognition methods for audio-visual analysis; they are support vector machine (SVM) for music score recognition and hidden Markov model (HMM) for audio music performance tracking. With proper synchronization of the two results, the proposed music learning assistant system can give useful feedback to self-training beginners.

이동 평균 필터를 적용한 음악 세그멘테이션 및 요약 (Moving Average Filter for Automatic Music Segmentation & Summarization)

  • 김길연;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.143-146
    • /
    • 2006
  • Music is now digitally produced and distributed via internet and we face a huge amount of music day by day. A music summarization technology has been studied in order to help people concentrate on the most impressive section of the song andone can skim a song as listening the climax(chorus, refrain) only. Recent studies try to find the climax section using various methods such as finding diagonal line segment or kernel based segmentation. All these methods fail to capture the inherent structure of music due to polyphonic and noisy nature of music. In this paper, after applying moving average filter to time domain of MFCC/chroma feature, we achieved a remarkable result to capture the music structure.

  • PDF