• 제목/요약/키워드: Image-to-sound Conversion

검색결과 12건 처리시간 0.021초

HSI 히스토그램에 기초한 이미지-사운드 변환 (Conversion of Image into Sound Based on HSI Histogram)

  • 김성일
    • 한국음향학회지
    • /
    • 제30권3호
    • /
    • pp.142-148
    • /
    • 2011
  • 본 연구는 컬러이미지에서 특정 사운드를 연상하는 인간의 공감각적 기능을 모방하는 지능로봇의 개발을 최종 목표로 하고 있으며, 이는 컬러이미지와 사운드의 상호변환에 기초하여 이루어질 수 있다. 최종 목표의 첫 번째 단계로서, 본 연구는 컬러 이미지에서 사운드로의 변환을 이용한 기본 시스템의 구축에 초점을 맞추었다. 본 연구에서는 빛과 소리사이의 물리적 주파수 정보로부터 그 유사성에 기초하여 컬러이미지에서 사운드로 변환하는 방법을 제시한다. 컬러이미지에서 사운드로 변환하는 방법은 RGB-to-HSI 컬러모델 변환을 통한 HSI 히스토그램을 사용하고 Microsoft Visual C++을 이용하여 코딩함으로써 구현되었다. 두 가지 컬러이미지를 사용하여 시뮬레이션 실험을 하였고, 그 결과, 각각의 입력 컬러이미지의 색상(Hue), 채도 (Saturation) 및 명도 (Intensity)를 사운드의 기본주파수 (F0: Fundamental Frequency), 하모닉 (Harmonics) 및 옥타브 (Octave)로 각각 변환한다. 제안된 시스템을 통하여 변환된 사운드 요소들을 Csound를 이용, 합성함으로써 웨이브(wav) 파일 포맷 음원을 최종 생성하였다.

A Basic Study on the Conversion of Sound into Color Image using both Pitch and Energy

  • Kim, Sung-Ill
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권2호
    • /
    • pp.101-107
    • /
    • 2012
  • This study describes a proposed method of converting an input sound signal into a color image by emulating human synesthetic skills which make it possible to associate an sound source with a specific color image. As a first step of sound-to-image conversion, features such as fundamental frequency(F0) and energy are extracted from an input sound source. Then, a musical scale and an octave can be calculated from F0 signals, so that scale, energy and octave can be converted into three elements of HSI model such hue, saturation and intensity, respectively. Finally, a color image with the BMP file format is created as an output of the process of the HSI-to-RGB conversion. We built a basic system on the basis of the proposed method using a standard C-programming. The simulation results revealed that output color images with the BMP file format created from input sound sources have diverse hues corresponding to the change of the F0 signals, where the hue elements have different intensities depending on octaves with the minimum frequency of 20Hz. Furthermore, output images also have various levels of chroma(or saturation) which is directly converted from the energy.

컬러이미지-소리 변환 시스템에 관한 기초연구 (A Basic Study on the System of Converting Color Image into Sound)

  • 김성일;정진승
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.251-256
    • /
    • 2010
  • 본 논문은 컬러이미지에서 소리를 연상하는 인간의 공감각적 기능을 모방하는 지능로봇의 개발을 위하여 색-음 상호변환에 기초한 응용 시스템의 구축을 목표로 하고 있다. 그 첫 번째 단계로서 컬러 이미지를 소리로 변환하는 방법론에 관한 기초 연구 및 이에 기반한 기본 시스템을 구현하고자 한다. 본 연구에서는 컬러 영상이 갖고 있는 색상과 소리의 파동, 즉 상호 주파수 특성에서의 유사성을 이용하여 가시영역에서 가청영역으로 변환하는 방법을 제시하고, 컬러모델 변환 및 변환된 모델에서의 히스토그램을 이용하여 컬러 영상을 소리의 청각적인 요소로 변환 가능하게 하는 색-음 변환 방법을 제시하고 있다. 또한 본 연구에서 제시된 색-음 변환 방법을 토대로 Microsoft Visual C++을 이용하여 코딩하고 실제 기본 응용 시스템을 구현해 보았다. 그 결과 색채와 소리의 상호 연관성 즉, 색채의 색상(Hue), 채도(Saturation)및 명도(Intensity)를 음의 높이(Fundamental Frequency), 하모닉(Harmonics) 및 옥타브(Octave)에 각각 대응시키고, 변환된 음향 요소를 Csound로 합성하여 웨이브 파일로 변환됨을 확인하였다.

공감각인지기반 컬러이미지-음악요소 변환에 관한 기초연구 (A Basic Study on the Conversion of Color Image into Musical Elements based on a Synesthetic Perception)

  • 김성일
    • 감성과학
    • /
    • 제16권2호
    • /
    • pp.187-194
    • /
    • 2013
  • 본 연구는 컬러영상에서 특정소리를 연상시킬 수 있는 공감각 인지현상에 기반하여 컬러이미지에서 음악요소로 변환하는 시스템의 구현을 최종 목표로 한다. 이는 빛과 소리의 물리적 주파수정보사이의 유사도를 기반으로 이루어진다. 입력 컬러영상은 우선 컬러모델변환이론에 기초하여 색상(Hue), 채도(Saturation) 및 명도(Intensity)영역으로 변환된다. 음계, 옥타브, 크기 및 시간길이 등의 음악적 성분들이 HSI 컬러모델의 각 영역으로부터 추출된다. 기본주파수(F0, Fundamental Frequency)는 색상 및 명도 히스토그램에서 추출되고, 크기 및 시간길이성분은 명도와 채도 히스토그램에서 추출된다. 실험에서, 제안된 시스템은 표준 C 및 VC++ 기반에서 실현되었고, 최종적으로 WAV 포맷의 사운드파일이 생성되었다. 시뮬레이션 결과를 통해서 입력 컬러영상에서 추출된 음악적 요소들이 출력 사운드신호에 반영됨을 알 수 있었다.

  • PDF

피치 기반 사운드-컬러이미지 변환에 관한 기초연구 (A Basic Study on the Pitch-based Sound into Color Image Conversion)

  • 강건우;김성일
    • 감성과학
    • /
    • 제15권2호
    • /
    • pp.231-238
    • /
    • 2012
  • 본 연구는 하나의 감각으로 인해 다른 영역의 감각을 불러일으키는 공감각 현상을 기초로 하여 사운드에서 컬러이미지를 유추하여 생성하는 응용 시스템의 구현을 최종 목표로 한다. 이를 위해 사운드의 특징정보인 기본주파수(F0, Fundamental Frequency)에서 음계(Scale) 및 옥타브(Octave) 성분을 추출한 후, HSI 컬러모델인 색상(Hue), 명도(Intensity) 성분에 각각 매핑한다. 본 논문에서 채도(saturation)값은 고정된 값을 사용한다. 이를 다시 RGB 컬러모델로 변환한 후 최종 BMP 포맷으로 컬러 이미지를 출력한다. 본 연구에서 제시한 사운드-컬러이미지 변환 방법을 토대로 기본 변환 시스템을 구현해 본 결과, 기본주파수에서 추출된 음계 및 옥타브 성분의 변화에 따라 색상 및 명도가 상이한 다양한 컬러가 나오는 것을 확인할 수 있었다. 또한 하드웨어적 구현을 위해 TMS320C6713 DSP Board에 포팅하여 실험한 결과 제안된 시스템의 시뮬레이션 결과와 동일한 컬러 이미지가 출력됨을 확인하였다.

  • PDF

가우스 분류기를 이용한 입술영역 추출 (Lip Region Extraction by Gaussian Classifier)

  • 김정엽
    • 한국멀티미디어학회논문지
    • /
    • 제20권2호
    • /
    • pp.108-114
    • /
    • 2017
  • Lip reading is a field of image processing to assist the process of sound recognition. In some environment, the capture of sound signal usually has significant noise and therefore, the recognition rate of sound signal decreases. Lip reading can be a good feature for the increase of recognition rates. Conventional lip extraction methods have been proposed widely. Maia et. al. proposed a method by the sum of Cr and Cb. However, there are two problems as follows: the point with maximum saturation is not always regarded as lips region and the inner part of lips such as oral cavity and teeth can be classified as lips. To solve these problems, this paper proposes a method which adopts the histogram-based classifier for the extraction of lips region. The proposed method consists of two stages, learning and test. The amount of computation is minimized because this method has no color conversion. The performance of proposed method gives 66.8% of detection rate compared to 28% of conventional ones.

의도적인 공감각 기반 영상-음악 변환 시스템 구현 (Implementation of the System Converting Image into Music Signals based on Intentional Synesthesia)

  • 배명진;김성일
    • 전기전자학회논문지
    • /
    • 제24권1호
    • /
    • pp.254-259
    • /
    • 2020
  • 본 논문은 사전에 학습된 기억으로 공감각 현상을 지각할 수 있는 의도적인 공감각으로 영상에서 음악으로 변환하는 시스템을 구현하였다. 영상에서 변환정보로 색상(Color), 질감(Texture), 모양(Shape)을 사용하여 음악의 멜로디(Melody), 하모니(Harmony), 리듬(Rhythm) 정보로 변환하였다. 정적인 영상에서 단조로운 음이 반복되는 것을 최소화하고 영상에 있는 정보를 표현하기 위해 색상의 분포도에 따라 확률적으로 멜로디를 선택하여 출력함으로써 자연스럽게 음을 구성할 수 있도록 하였고, 영상에서 질감은 통계적 질감 특징 추출방식인 GLCM(Gray-Level Co-occurrence Matrix)의 7가지 특징으로 하모니의 장조와 단조를 표현하였다. 마지막으로 모양은 영상의 외곽선을 추출한 후 주파수 성분 분석인 허프 변환(Hough Transform)을 이용해 선 성분을 검출하여 각도의 분포에 따라 리듬을 선택하는 방식으로 음악을 생성하였다.

그림의 색채 감정 효과를 기반으로 한 음악 생성 알고리즘 (Music Generation Algorithm based on the Color-Emotional Effect of a Painting)

  • 최희주;황정훈;류신혜;김상욱
    • 한국멀티미디어학회논문지
    • /
    • 제23권6호
    • /
    • pp.765-771
    • /
    • 2020
  • To enable AI(artificial intelligence) to realize visual emotions, it attempts to create music centered on color, an element that causes emotions in paintings. Traditional image-based music production studies have a limitation in playing notes that are unrelated to the picture because of the absence of musical elements. In this paper, we propose a new algorithm to set the group of music through the average color of the picture, and to produce music after adding diatonic code progression and deleting sound using median value. And the results obtained through the proposed algorithm were analyzed.

A Fast Implementation of JPEG and Its Application to Multimedia Service in Mobile Handset

  • Jeong Gu-Min;Jung Doo-Hee;Na Seung-Won;Lee Yang-Sun
    • 한국멀티미디어학회논문지
    • /
    • 제8권12호
    • /
    • pp.1649-1657
    • /
    • 2005
  • In this paper, a fast implementation of JPEG is discussed and its application to multimedia service is presented for mobile wireless internet. A fast JPEG player is developed based on several fast algorithms for mobile handset. In the color transformation, RCT is adopted instead of ICT for JPEG source. For the most time-consuming DCT part, the binDCT can reduce the decoding time. In upsampling and RGB conversion, the transformation from YCbCr to RGB 16 bit is made at one time. In some parts, assembly language is applied for high-speed. Also, an implementation of multimedia in mobile handset is described using MJPEG (Motion JPEG) and QCELP(Qualcomm Code Excited Linear Prediction Coding). MJPEG and QCELP are used for video and sound, which are synchronized in handset. For the play of MJPEG, the decoder is implemented as a S/W upon the MSM 5500 baseband chip using the fast JPEG decoder. For the play of QCELP, the embedded QCELP player in handset is used. The implemented multimedia player has a fast speed preserving the image quality.

  • PDF

Seamless Video Switching System for Service Compatible 3DTV Broadcasting

  • Kim, Sangjin;Jeon, Taehyun
    • ETRI Journal
    • /
    • 제38권5호
    • /
    • pp.847-857
    • /
    • 2016
  • Broadcasting services such as multi/single channel HDTV and 3DTV/2DTV use a multi-channel encoder that changes the bitrate and composition of the video service depending on the time. However, this type of multi-channel encoder could cause a longer latency owing to the variable bitrate and relatively bigger size of the buffers, which results in the same delay as in 3DTV even for a conventional DTV service. On the other hand, systems built based on separate encoders, each of which is optimized for the target service, might not have such latency problems. Nevertheless, there might be a distortion problem in the image and sound at the time of a switchover between two encoders with different output bitrates and group of picture structures. This paper proposes a system that can realize a seamless video service conversion using two different video encoders optimized for each video service. An overall functional description of the video service change control server, which is a main control block for the proposed system, is also provided. The experiment results confirm the seamless switchover and reduced broadcasting latency of DTV services compared with a broadcasting system composed of a multi-channel encoder system.