DOI QR코드

DOI QR Code

Music Generation Algorithm based on the Color-Emotional Effect of a Painting

그림의 색채 감정 효과를 기반으로 한 음악 생성 알고리즘

  • Choi, Hee Ju (School of Computer Science and Engineering, Kyungpook National University) ;
  • Hwang, Jung-Hun (School of Convergence & Fusion System Engineering, Kyungpook National University) ;
  • Ryu, Shinhye (School of Computer Science and Engineering, Kyungpook National University) ;
  • Kim, Sangwook (School of Computer Science and Engineering, Kyungpook National University)
  • Received : 2019.08.13
  • Accepted : 2020.06.03
  • Published : 2020.06.30

Abstract

To enable AI(artificial intelligence) to realize visual emotions, it attempts to create music centered on color, an element that causes emotions in paintings. Traditional image-based music production studies have a limitation in playing notes that are unrelated to the picture because of the absence of musical elements. In this paper, we propose a new algorithm to set the group of music through the average color of the picture, and to produce music after adding diatonic code progression and deleting sound using median value. And the results obtained through the proposed algorithm were analyzed.

Keywords

1. 서론

최근 인간과 로봇의 감성적 교류를 위한 다양한 센서들이 개발되고 있다. 하지만 아직 시각 및 음성과 같은 인식 정보를 이용하여 감성을 파악하는 데는 아직 미흡한 점이 있다[1]. 그 중 시각 정보를 통해 인간의 감성을 파악하는 기술의 한계를 극복하기 위하여 그림에 사용된 색상을 이용하여 감성을 추출하기도 한다[2]. 회화를 구성하는 색상에 해당하는 감성 키워드를 매칭시켜 화가와 감상자의 감성을 그림의 분위기로 정의한다.

또한 그림의 요소인 색상과 음악의 요소인 음을 대응시키려는 연구는 오래전부터 계속됐다[3]. 그리고 최근에는 단순히 색을 음과 대응시키는 것에 그치지 않고 이미지의 색 정보에서 연주가 가능한 선율을 생성하는 연구 또한 이루어졌다[4]. 그러나 아무런 규칙성이 없는 음들을 나열하였기 때문에 음악적인 요소가 배제되어있다. 즉, 결과물인 음악을 통해 그림의 분위기를 알기에는 한계가 있다. 이러한 문제를 해결하기 위해 본 논문에서는 분위기를 결정하는 요소로 그림의 평균 색을 음악의 키로 정의하고 결정된 키에서 시작하는 다이어토닉 코드진행을 제안한다. 이때 색과 음의 파장의 비례관계를 설명한 에드워드 마이언의 색-음 변환을 기반으로 한다.

그림의 가로축을 음악의 길이, 세로축을 해당 코드에 맞는 음만으로 배치하고 그림을 왼쪽에서 오른쪽으로 읽어가며 다양한 악기로 다양한 높낮이의 음을 재생하도록 하여 반주를 생성한다. 그리고 그림의 형태를 구분하기 위해 윤곽선을 추출하여 멜로디를생성한다. 멜로디를 생성할 때, 출력하는 음의 개수가 박자를 벗어나지 않으면서 음의 분포 형태를 유지하기 위해 중앙값을 이용하여 음을 삭제 한다. 그 결과로 그림을 표현하는 일정한 음악을 생성한다.

본 논문의 구성은 다음과 같다. 2절에서 관련연구에 대한 간략한 소개와 문제점에 대해 살펴본다. 3절에서는 제안하는 알고리즘을 설명한다. 여기에서는 알고리즘의 전체적인 개요와 반주 생성, 멜로디 생성 순으로 기술한다. 그리고 4절에서는 제안한 알고리즘의 결과에 대해 분석하고 5절에서 결론을 맺는다.

2. 이론

그림에서 음악을 생성하는 많은 연구사례가 있다. 이러한 연구들은 그림의 색채 정보를 음악의 요소와 대응하여 음악을 생성하는 방법을 따른다. 그 중 이미지의 색상(Hue), 채도(Saturation), 명도(Intensity)값인 HSI 컬러 모델을 이용하여 소리를 생성하는 연구가 있다[4]. 이 연구는 색이 가지고 있는 정보를 바탕으로 음을 생성한다. 그러나 이미지의 가로축마다 하나의 음만을 생성해 여러 음을 동시에 출력하지 못하여, 이미지의 모든 시각적 정보를 반영하지 못한다. 그리고 색과 음의 진동수 비율이 유사하다는 점으로 음을 생성 했지만 아무 규칙 없는 음들이 나열되어 음악적인 요소가 존재하지 않고 듣기에 어색하다.

이러한 단점을 보완한 HSB 색상 정보를 활용한 음악적 선율 추출 알고리즘을 제안한 연구가 있다[5]. 이 연구는 색의 파장과 음의 진동수의 비율이 유사하다는 점을 이용하여 멜로디를 생성한다. 색상 값은 음악의 선율을 생성하는 기본 요소로 보고, 색상의 변화는 선율의 변화로 이어지게 된다. 색상의 급격한 변화를 막고 안정적인 진행의 선율을 생성하기 위해 이미지에 가우시안 블러링(Gaussian bluring)을 적용한다. 그 후에 이미지를 8개의 동일한 크기의 영역으로 나누어 한 영역을 한 마디로 결정하고, 한영역에서 가로를 16등분, 세로를 4등분으로 나눈다. 그리고 나누어진 블록의 HSB 컬러 정보를 추출한 뒤, 세로4칸을 하나의 8분음표로 보고 4칸의 HSB값의 평균을 구해 음의 높낮이를 결정하여 음을 출력한다. 이 연구는 음악적인 요소로 마디, 음의 길이를표현하려는 시도가 보였다. 하지만 마찬가지로 색을 단순히 음으로 바꾸어 아무런 규칙이 없는 음들을 나열해 마디가 바뀔 때마다 일관성 있는 음악이라고 느끼기엔 부족함이 있다. 또한 색상차이에 의해 생성되는 음의 급격한 변화를 줄이기 위해 이미지와는 전혀 무관한 진행순서를 적용하여, 순서를 달리할시 전혀 다른 선율이 생성된다. 이는 하나의 이미지를 하나의 음악으로 대응시키기에는 무리가 있다.

위 연구들의 공통된 단점은 생성된 결과물에 음악적인 요소가 부족하여 듣기에 거북하다. 그리고 그림의 분위기를 반영하지 못하고 단순히 소리의 형태로 변환시켰다는 것이다. 이를 개선하기 위해 본 논문에서는 최신의 자동작곡 방법 중 유전알고리즘을 이용한 연구사례에서 변이연산 부분을 참고하였다[6].

인간이 들었을 때 어색하지 않은 하나의 음악이 되기 위해서는 멜로디, 리듬, 하모니의 세 가지 요소가 충족되어야한다[7]. 본 논문에서 제안하는 알고리즘은 회화적 접근을 통한 색상 정보 활용하여, 멜로디와 여러 가지 악기로 음악의 틀을 갖추는 반주를 생성한다. 멜로디와 반주만으로 음악의 기본요소를 충족시키기 위해 반주생성 시에 대표적으로 리듬감을 생성하는 타악기 외 리듬악기와 유사한 역할을 하는 베이스와 같은 악기를 이용하여 리듬감을 형성하고, 뿐만 아니라 이외의 다양한 악기를 사용하여생성할 수 있는 음악의 폭을 넓힐 수 있었다. 그리고 음악적인 요소로써 코드진행을 적용하여 각각의 마디에 코드를 부여해 듣는 이로 하여금 하모니를 느끼게 하여, 하나의 그림을 온전한 하나의 음악으로 표현한다.

3. 제안한 방법

3.1 제안한 알고리듬의 구조

그림의 RGB값을 이용해 음악을 생성하는 방법은 다음과 같이 이미지 분석과 음악 작곡 두 부분으로 나뉘어 진행된다.

각 단계는 보편적인 대중음악 작곡 방법을 따른다. 곡 전체의 분위기인 코드를 선택하고, 피아노로 연주하는 주 멜로디를 생성한 후, 만든 멜로디에 맞춰 화성을 생성해 연주할 다른 악기를 배치한다. 이 작곡 단계를 그림 분석의 각 단계와 대응시켜 그림에서 음악을 생성한다.

MTMDCW_2020_v23n6_765_f0001.png 이미지

Fig. 1. Platform Structure.

기존 공감각 연구는 색을 음으로 매칭할 뿐 그림의 분위기를 나타낼 수 없었다. 이렇게 생성된 음악의 통일성을 떨어뜨리며, 음악의 주제가 되는 일관된 감정이 부족하다. 따라서 분위기를 표현하기 위해 회화에선 사용한 색의 지배적인 색을 사용한다. 이 연구에선 평균 색을 사용한다. 또한 그림의 형태를 표현하기 위해 색들 사이의 경계를 인식해 음악에서의 형태인 멜로디를 생성하고, 색채 고유의 색상은 음악에서 악기를 나타내는 음색과 관계성을 사용해 반주를 생성한다.

분석 시 색을 표현하는 컬러 시스템은 색 점간 거리가 동일해 가까운 색상을 쉽게 구할 수 있는 RGB모델을 이용한다. 음악 생성에는 600*600px png형식의 컬러 이미지 Fig. 2를 사용한다.

MTMDCW_2020_v23n6_765_f0002.png 이미지

Fig. 2. Sample color image.

본 논문은 제시한 순서대로 그림을 분석하고 음악과의 공통점을 찾아 연결해 최종적으로 재생가능 한 음악을 생성한다.

3.2 제안한 알고리듬의 구조

이미지의 폭(Width)과 높이(Height)의 픽셀의 크기로 n의 값을 결정한 뒤, 픽셀 각각의 RGB값으로 식(1)와 같이 그림 전체의 평균 색 \(C_{m}\left(R_{m}, G_{m}, B_{m}\right)\)을 구한다.

\(\begin{aligned} R_{m} &=\frac{1}{n} \sum_{i=1}^{n} R_{i}, G_{m}=\frac{1}{n} \sum_{i=1}^{n} G_{i}, B_{m} \\ & \equiv \frac{1}{n} \sum_{i=1}^{n} B_{i} \quad(n=W \times H) \end{aligned}\)       (1)

결과로 구한 평균 색을 에드워드 마이언의 12음계에 해당되는 색 \(C_{m}\left(R_{m}, G_{m}, B_{m}\right)\)들 중 가장 가까운 색으로 대응한다[3]. 이를 D라 하고, 식(2)을 이용하여 거리 차이가 최소가 되는 색을 구한다.

\(D_{i}=\overline{C_{m} C_{i}}=\sqrt{\left(R_{m}-R_{i}\right)^{2}+\left(G_{m}-G_{i}\right)^{2}+\left(B_{m}-B_{i}\right)^{2}}\)       (2)

그림의 분위기를 나타내는 평균 색과 가장 가까운 색을 선택하고, 그에 맞는 음정을 대응한 후 정해진 근음으로 시작하는 코드진행 중 가장 대중적인 다이어토닉 코드진행을 적용한다. 이 후 반주를 생성하여 마디가 어떤 코드를 반영했는가를 표현한다.

3.3 멜로디 생성

색의 경계는 윤곽선을 통해 검출 가능하며, Open CV의 Canny-edge filter를 사용해 threshold1 50, threshold2 150, apertureSize 3으로 추출했다. 이 후 악보의 구성과 유사하게 이 후 이미지를 가로는 시간축, 세로는 음의 높낮이 나타내는 축으로 설정 후 윤곽선을 따라 음을 나열한다. 이때 단순히 윤곽선과 음을 일대일 대응 할 경우 생성되는 멜로디의 음 사이 연관성이 없어 음악성의 부재로 직결되기 때문에, 코드 진행과 연관성 있는 스케일의 음들만을 사용하고 음악에서 가장 많이 쓰이는 2개의 옥타브에 적용하기 위해 14개의 음들을 사용한다.

MTMDCW_2020_v23n6_765_f0003.png 이미지

Fig. 3. Melody generation.

이후 Fig. 4에서와 같이 음의 조화를 위해 세부적인 배열 순서를 조정한다. 음표 길이를 맞추기 위해 음의 개수를 같은 시간에 그 개수를 넘지 않는 가장 큰 2의 거듭제곱으로 설정하고 단조로움을 줄이기 위해 중앙값을 이용해 등락을 결정한다.

MTMDCW_2020_v23n6_765_f0004.png 이미지

Fig. 4. Melody processing. (a) Part of generated melody, (b) Reducing number of notes at the same time (c) Determination of up and down.

3.4 반주 추가

칸딘스키의 연구에서 대표적인 색 red, orange, yellow, green, light blue, dark blue, violet, gray의 총 8가지 색을 결정해, 이미지 부분의 색과 가장 가까운 색을 매칭한다. 이를 Fig. 5처럼 이미지를 가로 10px, 세로는 반주 스케일에 매칭하기 쉽게 9등분으로 나누어 표현한다. 이후 색과 대응하는 악기로 반주를 추가한다. 이렇게 생성된 반주는 멜로디와 함께 MIDI 데이터화 한다.

MTMDCW_2020_v23n6_765_f0005.png 이미지

Fig. 5. Color image segmentation.

각 방법을 종합하면 왼쪽에서 오른쪽으로, 그림의 평균 색과 형태, 그리고 부분의 색깔과 위치를 통해 하나의 오케스트라 느낌을 내는 음악을 생성한다.

4. 실험 결과 및 고찰

그림에서 색채의 감정 효과를 일으키는 요소와 그 요소들을 바탕으로 생성한 음악의 정보는 다음과 같다.

4.1 생성한 데이터

알고리즘은 Windows OS의 Java를 통해 구현했고, 모든 데이터는 Fig. 2를 이용하여 생성한다. Table 1은 Fig 2의 크기와 평균 색이 음악의 어떤 요소에 대응하는지 보여준다.

Table 1. Information for generated music

MTMDCW_2020_v23n6_765_t0001.png 이미지

생성한 음악의 반주에서 다른 악기들이 연주하는 음의 개수는 Fig. 6에서 확인할 수 있다. 이미지 부분의 색과 가장 가까운 색을 선택하고, 선택한 색을 악기와 매칭한다.

MTMDCW_2020_v23n6_765_f0006.png 이미지

Fig. 6. Color histogram for the number of notes.​​​​​​​

그리고 이러한 요소들을 종합해 생성한 음악의 악보 중 일부분은 Fig. 7에서 확인 할 수 있다.

MTMDCW_2020_v23n6_765_f0007.png 이미지

Fig. 7. Music score for sample picture.​​​​​​​

4.2 결과 분석

Fig. 8은 결과 분석을 돕기 위해 코드진행을 적용하지 않는 기존의 방식으로 생성한 음악의 악보이다. 4/4박자를 가지며 8분음표의 동일 음가밖에 나오지 않고, 화성진행을 발견하기 어렵다.

MTMDCW_2020_v23n6_765_f0008.png 이미지

Fig. 8. Music score for sample picture without transformation.​​​​​​​

생성한 두 음악이 조성음악이라는 가정 하에 다음과 같은 평가가 가능하다. Fig. 8은 동일한 음이 계속 반복되고 도약이 심해서 선율이 존재한다 할 수 없다. 화성 진행도 존재한다 보기 어렵다. 반면 Fig. 7은 멜로디가 존재하며, 각 마디에 다이어토닉 코드를 적용해 화성 진행도 존재한다. 리듬의 영역에서도 차이가 존재한다. 리듬은 리듬의 음길이와 화성적인 요인으로부터 나온다. 생성한 두 곡 모두 리듬의 음길이와 관련 있는 강박, 약박의 구분이 불가능하다. Fig. 8의 경우 화성도 존재하지 않아 화성적 리듬 또한 기대할 수 없다. 그러나 Fig. 7은 아랫성부와 윗성부의 협화 불협화 관계에 따라 화성적 리듬감이 형성된다. 따라서 하모니와 그에 맞는 스케일로 단일선율의 멜로디, 그리고 리듬까지 세 가지 요소를 충족함을 확인할 수 있다.

Table 2는 음악의 기본 3요소에 근거하여 생성한 음악을 비교한 내용을 정리한다[8]. 음악은 개인의 기호, 시대적 상황 등에 따라 평가 기준이 달라져 객관적인 비교는 불가능하다. 그러나 조성음악이라는 가정 하, 음악의 형식 부분에서 다음과 같이 객관적으로 평가 할 수 있다. 분석결과, 본 알고리즘을 통해 생성한 음악이 기존 방법들에 비하여 음악성이 있다고 판단할 수 있다.

Table 2. Musical performance comparison of two sample music scores​​​​​​​

MTMDCW_2020_v23n6_765_t0002.png 이미지

그러나 에드워드 마이언의 12음계에 해당되는 색 외의 평균 색에 대해서는 고려하지 못했고, 화성적 리듬은 존재하나 강박과 약박의 구분이 없어 완전한 리듬감을 형성하기 어렵다. 다이어토닉 진행에 추가적으로 긴장과 이완의 관계 또한 필요하다. 추후 연구에서 이러한 요소들을 보완한다면 더 듣기 좋은 음악을 생성할 수 있을 것이다.

기존 연구와 마찬가지로 색채와 감정의 관계를 무비판적으로 받아들일 수 있을 지에 대한 문제점도 존재한다. 현재는 미학적 타당성을 위해 저명한 예술가가 주장하는 연구를 따르고 있기 때문이다. 하지만, 색채와 감정에 관한 연구는 이미지와 음악의 변환 관계에 대한 최소한의 연관성을 제공하고, 이를 통해 음악을 생성하는 것은 창작의 다양한 방법 중 하나로 간주 할 수 있다. 또한 추후 연구에서 명확히 밝혀진다면 수정 가능한 부분이다.

5. 결론

본 논문에서는 시각을 통해 얻을 수 있는 감정을 판단하기 위해 공감각의 특징을 활용할 수 있는 방법을 제안하고 개발했다. 이를 위해 그림의 색채에서 감정을 일으키는 요소를 음의 높이나 음색으로 대응시켜 상호 변환시키는 알고리즘으로 구현하였다. 또 기존 색-음 변환 연구에서 확장하여 코드나 화성 등의 음악적 요소를 추가한 변환을 가능하게 했다. 따라서 이 연구는 기존과 달리 색채 감성 요소를 기반으로 한 음악을 생성할 수 있으며 이로 인해 감각과 지능개발에 도움을 줄 수 있다. 향후 시청각 외 다양한 공감각을 구현하는 알고리즘 연구를 진행할 예정이다.​​​​​​​

References

  1. C. Park, J. Ryu, and J. Sohn, “Robot Emotion Technology,” Electronics and Telecommunications Trends, Vol. 22, No. 2, pp. 1-9, 2007.
  2. H. Shim, S. Park, and K. Yoon, "A Study on Method for Extracting Emotion from Painting Based on Color," Journal of Korea Multimedia Society, Vol. 19, No. 4, pp. 717-724, 2016. https://doi.org/10.9717/kmms.2016.19.4.717
  3. S. Ko, "Color-hearing Study according to Pitch and Interval," Meeting of the Korea Digital Media Association, pp. 3-5, 2003.
  4. S. Kim and J. Jung, "A Basic Study of the System of Converting Color Image into Sound," Journal of the Korea Institute of Intelligent Systems, Vol. 20, No. 2, pp. 251-256, 2010. https://doi.org/10.5391/JKIIS.2010.20.2.251
  5. T. Kim and D. Lee, "A Suggestion on the Algorithm for Extraction of Musical Melody by Color Image's HSB Color Information," Journal of the Engineering and Arts Society in Korea, Vol. 4, No. 1, pp. 91-104, 2012.
  6. Y. Nam, Intelligent Music Composition over chord P rogression Using Genetic Algorithm and Machine Learning, Doctoral Thesis of Kwangwoon University, 2019.
  7. H. Choi, All Human Senses, Booksea Publishing Corporation, Paju-si, 2009.
  8. Y, Kim, Understanding the Fundamentals of Music, Yesol Publishing, Seoul, 2010.