DOI QR코드

DOI QR Code

Deep Learning-based Person Analysis in Oriental Painting for Supporting Famous Painting Habruta

명화 하브루타 지원을 위한 딥러닝 기반 동양화 인물 분석

  • 문혜영 (국민대학교 비즈니스IT전문대학원) ;
  • 김남규 (국민대학교 비즈니스IT전문대학원)
  • Received : 2021.04.21
  • Accepted : 2021.06.25
  • Published : 2021.09.28

Abstract

Habruta is a question-based learning that talks, discusses, and argues in pairs. In particular, the famous painting Habruta is being implemented for the purpose of enhancing the appreciation ability of paintings and enriching the expressive power through questions and answers about the famous paintings. In this study, in order to support the famous painting Habruta for oriental paintings, we propose a method of automatically generating questions from the gender perspective of oriental painting characters using the current deep learning technology. Specifically, in this study, based on the pre-trained model, VGG16, we propose a model that can effectively analyze the features of Asian paintings by performing fine-tuning. In addition, we classify the types of questions into three types: fact, imagination, and applied questions used in the famous Habruta, and subdivide each question according to the character to derive a total of 9 question patterns. In order to verify the feasibilityof the proposed methodology, we conducted an experiment that analyzed 300 characters of actual oriental paintings. As a result of the experiment, we confirmed that the gender classification model according to our methodology shows higher accuracy than the existing model.

하브루타 교육은 짝을 지어 대화하고 토론하고 논쟁하는 방식의 질문 중심 교육이며, 특히 명화 하브루타는 명화에 대한 질문과 답변을 통해 그림의 감상 능력을 증진하고 표현력을 풍부하게 하기 위한 목적으로 시행되고 있다. 본 연구에서는 동양화를 대상으로 한 명화 하브루타를 지원하기 위해, 최신 딥러닝 기술을 활용하여 동양화 등장인물의 성별 관점에서 질문을 자동으로 생성하는 방안을 제시한다. 구체적으로 본 연구에서는 사전학습모델인 VGG16을 바탕으로 동양화 인물 중심의 미세조정을 수행하여 동양화의 인물 분석을 효과적으로 수행할 수 있는 모델을 제안한다. 또한 질문의 유형을 명화 하브루타에서 사용되는 사실 질문, 상상 질문, 그리고 적용 질문의 3가지 유형으로 분류하고, 각 질문을 등장인물에 따라 세분화하여 총 9가지의 질문 패턴을 도출하였다. 제안 방법론의 활용 가능성을 확인하기 위해 실제 동양화의 등장인물 300건을 분석한 실험을 수행하였으며, 실험 결과 제안 방법론에 따른 성별 분류 모델이 기존 모델에 비해 높은 정확도를 나타냄을 확인하였다.

Keywords

I. 서론

다양한 멀티미디어 콘텐츠 기술은 교수자가 학습자와 상호작용을 통해 학습자의 흥미를 유발하고 집중력을 향상하는 데 도움을 준다. 최근에는 텍스트, 사운드, 그림, 동영상, 애니메이션 등 멀티미디어 콘텐츠의 형식이 더욱 다양해지고 있으며, 단일 형식이 아닌 다양한 형식의 콘텐츠가 혼합하여 사용되는 형태로 빠르게 진화하고 있다[1]. 다양한 콘텐츠 중 특히 그림은 인간이 세상을 만나고 예술의 세계로 나아가기 위한 통로의 역할을 수행해 왔으며, 그림 창작 및 감상을 통해 이해력과 표현력을 풍부하게 할 수 있을 뿐 아니라 자아존중감 또한 향상시키는 효과를 거둘 수 있다. 구체적으로 그림을 통해 자신의 생각과 느낌을 자유롭게 표현할 수 있고, 스스로 작품을 감상하고 느끼는 능력을 습득할 수 있으며, 그림의 내용에 대해 질문하고 대화하는 과정을 통해 그림 등장인물의 감정을 인식하고 공감하는 능력을 향상시킬 수 있다. 그림을 이용한 질문 중심 교육의 대표적인 예로 그림의 한 분야인 명화를 이용한 명화 하브루타(Famous Painting Haburta)를 들 수 있다.

명화의 주요 소재는 지역적 특색과 시대상에 따라 상이하게 나타난다. 예를 들어 우리나라의 명화인 동양화에서 매난국죽(梅蘭菊竹, 매화, 난초, 국화, 대나무) 은사군자(四君子, 네 사람의 군자)라는 상징적 의미를 전달하며, 여백 속 소나무 숲은 보이는 것과 볼 수 없는 것을 상징적으로 전달한다. 또한 학이나 소나무 그림은 장수(長壽)를 기원하는 의미로 사용되는 등, 동양화는 상징적 의미를 전달하는 미술이라고 볼 수 있다. 특히 동양화에서는 등장인물의 표정과 동작을 섬세하게 표현하여 일상생활을 묘사하며, 이를 통해 서민들의 삶과 내면을 솔직하고 진솔하게 표현한다. 구체적으로 동양화에서 남성은 양반, 서민, 천민, 그리고 승려 등으로 나타나며, 여성은 부인, 기녀, 무녀, 그리고 비구니 등으로 나타난다. 즉 동양화는 성별 표현 자체만으로도 성별에 따른 신분 계층에 대한 비판의식과 사회의식을 나타낸다.

이렇듯 동양화에 있어서 그림 전체가 나타내고자 하는 이야기를 이해하기 위해서는 주요 소재의 표현과 상징을 이해하는 것이 매우 중요하며, 특히 등장인물의 특성을 이해함으로써 당시 시대의 성별에 대한 사회의식 및 역할을 이해할 수 있다. 또한 등장인물의 얼굴은 신체 기관 중 내면을 잘 드러내고 있으며, 얼굴은 감정이나 심리의 세계를 여러 표정으로 표현하여 사회적인 상호관계를 위한 소통창구의 역할을 한다. 이러한 측면에서 동양화의 인물을 중심으로 한 명화 하브루타 교육의 필요성과 효과성이 충분히 인정되며, 본 연구에서는 최신 딥러닝(Deep Learning) 기술을 적용하여 이를 지원하기 위한 방안을 제시하고자 한다.

최근 컴퓨터 과학 분야에서 인공지능(Artificial Intelligence), 머신러닝(Machine Learning), 그리고 딥러닝(Deep Learning) 기술의 연구가 활발히 이루어지고 있다. 특히 다양한 딥러닝 기술을 이용한 얼굴 이미지 인식을 통해 성별 인식, 졸음 감지, 감성 분석, 연령 예측, 그리고 얼굴 방향 감지 등을 수행하는 다양한 연구가 수행되고 있으며, 하나의 사진 이미지로부터 복수의 객체를 추출할 수 있는 다양한 알고리즘도 고안되고 있다. 이러한 이미지 딥러닝 분석의 품질은 학습 데이터의 양과 질에 크게 의존하기 때문에, 방대한 양의 이미지 데이터에 대해 미리 학습을 수행한 결과인 사전학습 모델(Pretrained Model)을 사용하여 이미지를 대상으로 한 다양한 분석을 수행하게 된다.

다양한 사전학습 모델 중 인물 이미지 분석에 사용되는 모델의 대표적인 예로는 Haar Cascades, DNN(Deep Neural Network), 그리고 YOLO(You Only Look Once) 등을 들 수 있다. 하지만 이러한 사전학습 모델은 대부분 서양인의 이미지 데이터에 대한 학습을 통해 생성되었기 때문에, 독특한 화풍을 갖는 동양화의 이미지 분석에 그대로 사용되기에는 어려움이 있다.

본 연구에서는 딥러닝의 전이학습(Transfer Learning)을 이용하여 동양화 등장인물의 성별을 정확하게 분류할 수 있는 방안을 제시하고자 한다. 구체적으로는 사전학습 모델인 VGG16을 바탕으로 동양화 인물을 중심으로 한 미세 조정(Fine Tuning)을 수행하여 동양화의 인물 분석에 특화된 모델을 생성하고자 한다. 또한 제안 모델을 통해 동양화 등장인물의 속성에 대한 질문, 특히 성별 관점에서 질문을 생성하는 예를 소개함으로써, 명화 하브루타 교육에 딥러닝 기술을 활용하는 시나리오를 제시하고자 한다.

본 논문의 이후 구성은 다음과 같다. 우선 다음 장인 2장에서는 명화 하브루타 및 딥러닝 기반 이미지 분석 관련 기존 연구를 소개한다. 다음으로 3장에서는 본 연구에서 제안하는 전체 방법론을 소개하며, 제안 방법론을 적용한 실험 결과는 4장에서 소개한다. 마지막 장인 5장에서는 본 연구의 기여와 한계를 요약한다.

Ⅱ. 관련 연구

1. 질문 중심 명화 하브루타

질문의 중요성을 강조한 하브루타 교육은 짝을 지어 질문하고 토론하고 논쟁하면서 스스로 답을 찾도록 유도하는 방식으로[2], 2천 년 이상의 오랜 역사를 가지고 있다[3]. 교육 분야에서 질문을 통한 상호작용의 중요성은 널리 알려져 있으며, 질문을 통해 학습 효과를 제고하기 위한 시도가 많은 연구자들에 의해 다양한 시각에서 이루어지고 있다. 특히 소크라테스가 강조한 산파술, 즉 질문을 거듭하고 답을 찾아가는 과정을 통해 스스로 개념을 정리하고 사고를 더욱 정교하게 발전시키는 교육 방식은 최근 교육학에서 중요한 교육 수단이자 연구주제로 다루어지고 있다. 질문의 중요성을 강조한 대표적 교육 방법론인 하브루타(Habruta)는 질문을 만들어서 먼저 짝과 토론을 한 후, 여러 질문 중 가장 좋은 질문을 선택하여 선택된 질문으로 모둠끼리 토론을 진행한다. 마찬가지로 토론을 통해 각 모둠에서 가장 좋은 질문을 선택한 후, 선택된 질문으로 전체 토론을 진행한다. 즉 토론을 통해 질문을 생성, 발표, 선택, 그리고 정리하는 과정을 반복하며, 이처럼 질문을 만들고 의문을 풀어가는 과정을 통해 스스로 호기심을 가지고 창의적인 생각을 발전시켜 나갈 수 있다[4].

즉, 질문 중심 하브루타 교육은 ‘질문 만들기 → 짝 토론 → 모둠 토론 → 발표 → 쉬우르’의 5단계로 구성되며, 첫 단계에서 생성되는 질문의 유형은 ’내용 질문’, ‘상상 질문’, ‘적용 질문’, ‘종합 질문’ 등으로 구분된다 [5][6]. 구체적으로 내용 질문은 작품을 처음 본 감동과 인상에 대해 확인하는 질문이며, 상상 질문은 발생하지 않은 일에 대해 가정이나 추론을 통한 상상으로 답할 것을 요구하는 질문이다. 또한 적용 질문은 어떤 사실이나 현상을 실제 생활에 적용해 보는 질문이며, 마지막으로 종합 질문은 등장인물이 주장하고 싶은 것이 무엇인지, 그리고 주어진 작품이 말하고자 하는 바는 무엇인지에 대한 질문이다. 질문 중심 교육에서 모든 학습자들이 처음부터 좋은 질문을 만들어낼 수 있는 것은 아니며, 반복 학습을 통해 학습자들이 좋은 질문을 만들어내는 역량을 점차 향상시킬 수 있도록 돕는 것이 교수자의 역할이자 하브루타 교육의 궁극적인 목표이다.

이처럼 질문의 중요성을 강조한 하브루타 교육은 주로 텍스트(Text)로 작성된 도서를 활용하여 이루어져 왔지만, 최근에는 음악, 그림 등 다양한 형태의 작품을 활용하는 형태로 확산하고 있다. 특히 그림을 이용한 질문 만들기 경험은 시각적 사고력 촉진 및 증진을 효과적으로 도울 수 있다[7][8]. 그림을 이용한 질문 중심교육의 대표적인 예로 그림의 한 분야인 명화를 이용한 명화 하브루타(Famous Painting Haburta)를 들 수 있다. 명화 하브루타는 명화에 대해 스스로 독특한 방법으로 생각하고 느끼고 지각한 것을 드러내면서 그림의 감상능력을 증진시킬 뿐 아니라, 서로의 생각을 이야기하고 경청함으로써 서로 깊게 공감하는 능력을 갖게 되는 과정을 강조한다[9][10]. 일찍이 플라톤(BC 428~347)은 어린 시절부터 다양한 종류의 고상한 예술과의 접촉이 필요하다고 주장할 정도로 명화 감상의 필요성을 강조하였는데[11], 이는 명화가 다른 그림에 비해 다양한 미적 요소를 포함하고 있을 뿐 아니라 상호적 관계속에서 우리가 살아가는 세상 및 타인을 이해하는데 도움이 되기 때문이다[12].

명화 하브루타는 등장인물의 여러 가지 체험을 나의 실생활에 적용해 보면서 등장인물의 생각이나 감정을 공감하는 과정을 통해 사고력을 배양하기 위한 목적으로 수행된다[13]. 명화 하브루타를 통해 학습자는 작품의 배경을 더 잘 이해하게 되고 작가가 살았던 시대의 역사와 문화의 가치관 등을 배울 수 있으며, 명화가 가지고 있는 아름다움을 느끼고 시각적 사고력을 향상시키게 된다[14]. 또한 학습자들은 명화에 대한 질문을 만드는 과정을 반복하면서 깊이 있는 질문을 생성할 수 있는 능력이 향상되며, 이를 통해 명화를 새로운 시각으로 바라보고 독창적으로 생각하는 능력을 키울 수 있게 된다[15].

이러한 명화 하브루타의 질문 생성은 하브루타 교육의 핵심 과정이지만, 학습자들이 처음부터 좋은 질문을 만들어 내는 것은 결코 쉬운 일이 아니다. 따라서 본 연구에서는 이미지 딥러닝 기술을 활용하여 제시된 명화에 대한 질문을 자동으로 생성함으로써, 명화 하브루타 교육의 핵심인 질문 만들기 훈련 과정을 지원할 수 있는 방안을 제안하고자 한다.

2. 딥러닝 기반 이미지 분석

최근 인공지능 기술의 비약적인 발전에 따라, 인간의 눈의 기능을 기계가 수행할 수 있도록 이미지를 분석하고 판별하는 알고리즘이 다수 고안되었다. 구체적으로 이미지 데이터를 학습시킨 모델을 활용한 Haar Cascades[16], DNN[17], Landmark[18], 그리고 YOLO[19] 등을 이용하여 개체를 인식하는 연구들이 다수 진행되었으며, 이러한 연구는 최근 성별 및 나이 추정, 졸음 감지, 감성 인식, 얼굴 방향 인식 등 다양한 분야에 널리 활용되고 있다[그림 1].

CCTHCV_2021_v21n9_105_f0001.png 이미지

그림 1. 이미지 딥러닝의 활용 예

하지만 서양 사진 이미지로 학습된 사전학습 모델을 동양화 분석에 적용하는 경우 정확도가 낮게 나타나는 현상을 파일럿(Pilot) 실험을 통해 확인하였으며 실험내용은 [그림 2][표 1]와 같다. 본 예에서는 머신러닝 기반의 객체 추출 알고리즘인 Haar Cascades을 통해 얼굴을 검출하고, 깊은 인공신경망인 DNN을 사용하여 성별을 분류하는 실험을 수행하였다. 분석 데이터로는 서양인의 사진과 동양화의 인물 각 300점씩을 사용하였다[그림 2]. 그 결과 서양인 사진의 경우 얼굴 검출정확도 62%, 성별 분류 정확도 60%로 정확도가 비교적 높게 나타난 것에 비해, 동양화의 경우 얼굴 검출 정확도 15%, 성별 분류 정확도 30%로 정확도가 매우 낮게 나타남을 확인하였다. 본 파일럿 실험을 통해 서양인의 사진 이미지를 학습한 사전학습 모델을 그대로 동양화 분석에 사용했을 때 나타나는 한계를 확인하였다.

CCTHCV_2021_v21n9_105_f0002.png 이미지

그림 2. 서양인 사진과 동양화 인물의 성별 분류 예

표 1. 서양 사진과 동양화의 인물 분석 정확도 비교

CCTHCV_2021_v21n9_105_t0001.png 이미지

이미지 딥러닝 기술은 최근 몇 년간 늘어난 빅데이터와 GPU 처리 속도의 향상에 힘입어 사람의 인지 수준을 능가하는 수준으로[20] 빠르게 발전하고 있으며, 대표적으로 합성곱 신경망(CNN, Convolutional Neural Network)[21], 순환 신경망(RNN, Recurrent Neural Network)[22] 등의 모델이 이미지 처리 분야에서 우수한 성능을 나타내고 있다. 이미지 처리 분야의 대표적인 알고리즘인 CNN은 시신경 구조를 모방한 기술로 이미지 분류에 널리 적용되고 있으며, 입력계층과 출력계층을 포함하여 여러 개의 합성곱 계층으로 구성되어 있다. 각각의 계층을 통해 해당 데이터만이 갖는 특징을 학습하기 위해 여러 계산을 수행하며, 그 결과 각 계층에서 특징을 추출하여 다음 계층의 입력값으로 전파하는 방식으로 학습이 진행된다. 또한 CNN은 각 계층에서 입출력 데이터의 형상과 이미지의 공간 정보가 유지되기 때문에 인접 이미지와의 관계적 특징을 효과적으로 인식할 수 있으며, 복수의 필터를 통해 이미지의 특징을 추출하고 학습할 수 있다는 장점을 갖는다[23].

CNN 모델을 기반으로 한 VGG16(Visual Geometry Group 16)은 [그림 3]와 같이 13개의 합성 곱 층(Convolution Layer)와 3개의 완전연결(Fully Connected) 층으로 구성되며[24][25], 1, 400만 개 이상의 이미지를 1, 000여 개의 클래스로 분류하는 학습을 통해 구축된다.

CCTHCV_2021_v21n9_105_f0003.png 이미지

그림 3. VGG16 Structure

많은 수의 파라미터를 포함하고 있는 VGG16이 높은 성능을 내기 위해서는 충분한 양의 데이터에 대한 학습이 진행되어야 하지만 이렇게 충분한 양의 데이터를 직접 수집하여 처음부터 학습시키는 것은 현실적으로 매우 어렵다. 따라서 이를 해결하기 위해 방대한 양의 데이터에 대한 사전학습(Pre-training)을 수행한 후, 학습이 완료된 모델의 가중치를 토대로 추가적인 데이터에 대한 미세조정[26]을 수행하는 전이학습(Transfer Learning)이 널리 사용되고 있다[27-30].

본 연구는 CNN 모델을 기반으로 한 VGG16 모델을 이용하여 등장인물의 성별을 분석한다. 이를 위해 사전학습 모델인 VGG16을 바탕으로 동양화 인물을 중심으로 한 미세조정을 수행한다. 특히 CNN에서 순차적으로 쌓여있는 각 계층은 이미지의 서로 다른 특징을 학습한다는 특성을 활용하여[31], 본 연구에서는 CNN 의 낮은 계층을 고정하고 상위 계층에 대해서만 고정을 해제하여 이미지의 구체적인 부분에 대해서만 미세조정을 실시하는 방안을 제시한다.

Ⅲ. 본론

1. 제안 모형 개요

본 연구에서 제안하는 제안 모형의 전체과정은 [그림 4]와 같다. 그림에서 Phase 1은 동양화 이미지 분석을 통해 성별을 분류하는 과정을 나타내며, Phase 2는 성별과 관련된 질문의 패턴을 생성하고 이를 Phase 1의 분류 결과와 결합하는 과정을 나타낸다. (1) ~ (5)의 과정으로 구성되는 전체 방법론 중 본 논문에서는 가장 핵심 모듈인 (2) Fine Tuning과 (3) Gender Classification을 중점적으로 다루고, 그 외의 과정에 대해서는 관련 기법 및 간단한 예를 소개하고자 한다. 제안 모델을 이용하여 성별에 따른 질문을 자동으로 생성할 수 있으며, 본 장의 이후 절에서는 각 단계의 주요 내용을 소개한다.

CCTHCV_2021_v21n9_105_f0004.png 이미지

그림 4. Proposed Method

2. Face Detection

다양한 사전학습 모델 중 얼굴 검출에 사용되는 모델에는 대표적으로 Haar Cascades, Landmark, DNN, 그리고 YOLO 등이 있다. [그림 5]은 Haar Cascades 를 이용하여 얼굴을 검출한 파일럿 실험의 예이다.

CCTHCV_2021_v21n9_105_f0005.png 이미지

그림 5. Face Detection(Haar Cascades)

이렇듯 얼굴 검출을 위한 다양한 알고리즘이 공개되어 있지만, 이들 대부분은 서양 이미지 데이터 셋을 이용하여 학습되었기 때문에 동양화에 적용했을 때 얼굴검출 정확도가 매우 낮게 나타났다. 즉 서양 이미지를 활용하여 사전학습이 이루어진 경우 동양화의 성별 분석뿐 아니라 얼굴 검출 자체에도 곧바로 적용되는 데 한계가 있음을 확인하였다. 본 연구의 주요 과제는 기존의 사전학습 모델을 활용하여 동양화 성별 분류의 정확도를 향상시키는 것이므로, 동양화에서 얼굴을 검출해내는 과정은 별도의 알고리즘을 적용하지 않고 수작업으로 직접 수행하였다.

3. Fine Tuning & Gender Classification

본 절에서는 대규모 데이터로 학습된 VGG16 모델을 기반으로 점진적인 미세조정을 수행하여 성별 분류를 수행하는 과정을 소개하며, 이는 [그림 4]의 (2) Fine Tuning과 (3) Gender Classification에 해당한다. CNN은 크게 Convolutional Base 부분과 Classifier 부분으로 구성된다. Convolutional Base는 합성곱층과 폴링층이 여러 겹 쌓여있는 부분으로, 이미지로부터 다양한 수준의 특징을 추출한다. Classifier 부분은 추출된 특징을 학습한 결과를 이용하여 이미지를 특정한 카테고리로 분류한다.

CNN을 기반으로 한 VGG16 모델은 13개의 합성곱층과 3개의 완전연결층으로 이루어진다. 합성곱층 (Convolution Layers)은 합성곱 연산을 통해서 이미지의 특징을 추출하는 역할을 한다. 구체적으로 합성곱층은 필터(Filter)라는 행렬로 Height×Width 크기의 이미지를 처음부터 끝까지 겹쳐가면서, 겹쳐지는 부분의 각 이미지와 필터의 원소값을 곱해서 모두 더한 결과값인 특성맵(Feature Map)을 출력한다[그림 6].

CCTHCV_2021_v21n9_105_f0006.png 이미지

그림 6. Filter(CNN)

합성곱 연산 후에는 ReLU(Rectified Linear Unit) 활성화 함수를 적용해서 다음 층의 활성화 값들을 산출한다. 활성화 함수 입력 데이터를 비선형 출력으로 바꾸는 것이며, 0보다 작은 값이 들어오면 0을, 반대의 경우에는 입력값을 그대로 출력한다.

또한 2×2 Max Pooling을 이용하여 필터와 겹치는 영역 안에서 최대값을 추출하는 방식으로 Down Sampling을 진행한다. 합성곱 연산의 Stride은 1, Padding은 1, Pooling의 Stride은 2로 지정한다.

이러한 과정을 통해 계산된 값은 마지막으로 2개의 노드로 구성된 최종 완전연결계층을 통해 집약되며, 최종적으로 이 값이 Softmax를 거쳐 카테고리 분류에 사용된다. 본 연구는 남녀의 성별 분류 문제를 다루고 있으므로, 두 개의 클래스로 이진 분류를 하기 위해 활성화 함수로 시그모이드(Sigmoid)를, 손실 함수로 이진 교차 엔트로피(Binary Cross Entropy)를 사용하였다.

모델을 재사용하는데 널리 사용되는 기법으로 특성추출을 보완하는 미세조정이 있다. 일반적으로 미세조정은 전체 모델을 새로 학습시키는 방법, Convolutional Base의 일부분을 고정시키고 나머지 계층과 Classifier 를 새로 학습시키는 방법, 그리고 Convolutional Base 전체를 고정시키고 Classifier만 새로 학습시키는 방법으로 구분된다. 1, 500만여 개의 많은 파라미터를 가지고 있는 CNN의 특성상 충분하지 않은 크기의 데이터 셋으로 전체 모델을 새로 학습시키는 것은 바람직하지 않으므로, 일반적으로는 Convolutional Base의 전체, 또는 일부를 고정시킨 상태의 추가 학습을 진행하게 된다.

CNN의 하위층에서는 색상, 질감 등 비교적 일반적인 특징을 추출하고, 상위층에서는 보다 구체적이고 특화된 특징을 추출한다. 따라서 하위층에서 학습한 이미지의 특성의 경우 다른 이미지의 이해에도 큰 수정 없이 사용될 수 있는 반면, 상위층에서 학습한 이미지 특성의 경우 새로운 이미지를 접할 때마다 추가 학습, 즉 미세조정이 이루어져야 한다. 즉 사전 학습된 모델을 새로운 문제에 재활용할 때 수정이 필요한 부분은 일반적인 특성이 아닌 구체적인 특성이므로, 하위층을 그대로 고정한 채 상위층을 미세조정하는 것이 바람직하다. 따라서 본 연구에서는 [그림 7]과 같이 합성곱 블록 4 까지의 하위층을 동결(Freeze)하고, 상위층인 블록 5의 동결을 해제하여 완전연결계층의 분류기와 함께 학습을 수행하였다.

CCTHCV_2021_v21n9_105_f0007.png 이미지

그림 7. Fine Tuning with Lower Layers Frozen

사전학습모델을 활용한 미세조정을 수행할 때 학습률 (Learning Rate)을 설정하는데, 학습률은 사전학습모델에서 학습된 특성을 얼마나 많이, 그리고 얼마나 빠르게 변경할 것인지의 수준을 결정한다. 사전에 학습된 표현을 조금씩 수정하기 위해서는 작은 값의 학습률을 사용하게 되는데, 너무 작은 값으로 학습을 진행하면 학습 속도가 매우 느리고 충분한 학습이 이루어지지 못하는 경우도 발생할 수 있다. 한편 너무 학습률을 너무 큰 값으로 설정하게 되면 변경폭이 너무 커서 적합한 지점을 찾기 어렵거나 학습의 왜곡이 발생할 우려가 있다. 따라서 신경망 학습에서는 사전에 학습한 지식을 잘 보존하면서도 새로 주어진 문제에 적응하기 위해 학습률 값을 변경시켜가며 반복 실험을 수행하고, 가장 적합한 결과를 도출했을 때의 학습률을 최종 값으로 선택하게 된다. 본 연구에서는 0.1부터 10-7까지 학습률을 0.1배씩 줄여가면서 반복 실험을 수행하였으며, 그 결과 10-5의 학습률에서 가장 우수한 성능을 나타냄을 확인하였다. 구체적으로는 Python의 Keras에서 제공하는 RMSProp 옵티마이저를 사용하여 동양화 등장인물의 성별 분류를 수행하였으며, 학습률 파라미터로 10-5를 설정하였을 때 가장 높은 분류 정확도를 얻을 수 있었다.

4. 질문 패턴 및 질문 생성

동양화에 관해 생성할 수 있는 질문의 수와 유형은 매우 많으면서도 다양하다. 본 연구에서는 우선 질문의 유형을 명화 하브루타에서 사용되는 사실 질문, 상상 질문, 적용 질문의 3가지 유형으로 나누고, 각 질문을 등장인물에 따라 ‘남성 또는 여성 중 한 명만 등장하는 경우’(Single), ‘남성과 여성이 모두 등장하지만 역할이 구분되지 않는 경우’(Both / Undirected), ‘남성과 여성이 모두 등장하며 서로의 역할이 상이한 경우’(Both / Directed)로 세분화하여 총 9가지의 질문 패턴을 도출하였다[표 2]. 이 과정은 [그림 4]의 (4) Question Pattern Generation에 해당한다.

[표 2]에서 도출한 패턴의 유용성을 판단하기 위해, 본 연구에서는 동양화에 관해 실제로 생성될 수 있는 질문을 기존 문헌[6][31]을 참조하여 수집한 후 이들 중 등장인물의 성별이 중요한 의미를 갖는 질문만을 추출하여 [그림 8]와 같이 분류하였다.

표 2. 질문 패턴화

CCTHCV_2021_v21n9_105_t0002.png 이미지

CCTHCV_2021_v21n9_105_f0008.png 이미지

그림 8. 질문 패턴화

[그림 8]에 나타난 바와 같이 다양한 질문을 [표 2] 에따라 사실, 상상, 적용 질문을 성별 관점에서 패턴화할 수 있으며, 이러한 패턴에 해당하지 않는 질문의 경우 ‘기타’ 패턴으로 분류하였다. ‘기타’ 패턴을 제외한 9가지 질문 패턴을 세 가지 유형에 대응시킨 결과는 [그림 9]와 같다.

CCTHCV_2021_v21n9_105_f0009.png 이미지

그림 9. 질문 모형

위의 질문 패턴을 적용하여 동양화에 대한 질문을 생성하는 시나리오의 예는 다음과 같다. 동양화 중 신윤복의 미인도(美人圖)에 대해 제안 모형을 통해 분석을 수행한 결과, 해당 그림에는 여성 한 명이 등장하고 남성은 등장하지 않음을 알 수 있었다. 이 경우는 [표 2] 의 패턴 중 ‘Single’ 참여자, 패턴 P1, P4, P7에 속하는 질문을 생성할 수 있으며, ‘여성은 무엇을 하고 있나요?’(사실 질문), ‘여성의 신분은 무엇일까요?’(상상 질문), ‘여성의 머리 모양을 내가 똑같이 한다면 친구들이 무슨 말을 할까요?’(적용 질문)과 같은 질문을 생성할 수 있다[그림 10]. 이 과정은 [그림 4]의 (5) Question Generation에 해당한다.

CCTHCV_2021_v21n9_105_f0010.png 이미지

그림 10. 질문 생성

Ⅳ. 실험

1. 실험 개요

본 장에서는 III장에서 소개한 제안 모형을 실제 데이터에 분석에 적용한 결과를 소개한다. 우선 연구의 실험에 사용한 대상 이미지 자료는 조선의 다채로운 생활상을 그렸던 김홍도와 신윤복, 그리고 김준근의 작품 위주로 수집하였다. 수집된 이미지를 직접 확인하면서 얼굴의 특징이 가려진 이미지는 모두 제거하고 데이터셋을 구성하였다[그림 11].

CCTHCV_2021_v21n9_105_f0011.png 이미지

그림 11. 동양화 등장인물 이미지 데이터 셋(일부)

본 연구에서는 수집된 동양화의 남녀 등장인물 얼굴 이미지 300개를 사용하였으며, 전체 이미지를 훈련용 (Train) 데이터 180개, 검증용(Validation) 데이터 60 개 그리고 평가용(Test) 데이터 60개로 각각 나누어서 실험을 진행하였다. 실험환경은 Google Colaboratory, tensorflow 2.3.0에서 진행하였으며, 분석에는 Python 의 Keras 딥러닝 라이브러리를 활용하였다. 모델의 에폭(Epoch)은 20으로 설정하고 과적합(Overfitting)을 방지하기 위하여 학습 조기 종료(Early Stopping)를 5 로 지정하였다. 학습률은 10-5 , 최적화 알고리즘은 RMSProp을 사용하였으며 matplotlib 패키지를 이용하여 시각화하였다.

2. 성별 분류 실험 결과

본 절에서는 사전학습모델인 VGG16을 이용하여 두 가지 방식의 미세조정을 통해 성별 분류를 수행한 분석 결과를 소개한다. 제안 방법론 중 정량적인 평가가 가능한 부분인 [그림 4]의 Phase 1의 성별 분류에 대해서는 정확도(Accuracy)와 손실(Loss)을 측정하였고, Phase 2의 질문 생성 부분에 대해서는 동양화 중 신윤복의 춘색만원(春色滿園)에 대해 등장인물의 성별 관련질문을 생성한 사례를 보이는 방식으로 실험을 진행하였다.

제안 방법론(Unfreezing Higher Layers)은 VGG16 사전학습모델의 합성곱 계층 중 일부분을 고정시키고, 나머지 계층과 분류기를 새로 학습시키는 방식의 미세조정을 수행하였다. 구체적으로는 이미지의 일반적인 특성 추출을 위한 부분인 합성곱 블록 1부터 4까지의 하위층을 동결하고, 동양화의 세부 특성을 모델에 반영하기 위해 상위층인 블록 5의 동결을 해제하여 완전연결계층의 분류기와 함께 학습을 수행하였다. 제안 방법론의 상대적 성능을 평가하기 위해 비교 실험을 수행하였으며, 비교에 사용된 기준 방법론(Baseline)은 합성 곱 계층 전체를 고정시키고 분류기만 새로 학습시키는 방식의 미세조정을 수행하였다.

실험 결과 제안 방법론과 기준 방법론의 정확도와 손실은 각각 [표 3]과 같으며, 이를 시각화한 결과는 [그림 12]과 같다. [표 3]의 수치는 분류 정확도를 나타내며, 괄호 안의 수치는 손실을 나타낸다.

표 3. 제안 방법론과 기준 방법론의 성별 분류 성능

CCTHCV_2021_v21n9_105_t0003.png 이미지

[표 3]와 [그림 12]에서 훈련, 검증, 그리고 평가 데이터 셋 모두에 대해 제안 방법론이 기준 방법론에 비해 정확도는 높고 손실은 낮게 나타났다. 즉, VGG16 사전학습모델의 합성곱 계층의 하위층을 고정시키고 나머지 상위층과 분류기를 함께 학습시킨 제안 방법론이 기준 방법론에 비해 동양화 등장인물의 성별 분류에서 상대적으로 우수한 성능을 나타냄을 확인하였다.

CCTHCV_2021_v21n9_105_f0012.png 이미지

그림 12. Performance Evaluation

3. 질문 생성 시나리오

동양화 중 신윤복의 춘색만원에 대해 제안 모형에 따른 분석을 수행한 결과, 해당 그림에는 여성 한 명과 남성 한 명이 등장하는 것을 알 수 있었다[그림 13].

CCTHCV_2021_v21n9_105_f0013.png 이미지

그림 13. 춘색만원(春色滿園) 등장인물의 성별 분류

이 경우는 [표 2]의 모든 패턴에 대해 질문 생성이 가능하며, 특히 남성과 여성이 동시에 등장하는 질문으로 ‘Both/Undirected’ 또는 ‘Both/Directed’에 해당하는 패턴 P2, P3, P5, P6, P8, P9에 속하는 질문을 생성할 수 있다. 구체적으로 [그림 13]으로부터 제안 방법론에 따라 성별 분류를 수행한 후, ‘남성과 여성은 어떤 사이인가요?’, ‘남성은 여성에게 왜 그런 표정을 하고 있나요?’(사실 질문), ‘남성과 여성은 다음 장면에서 무엇을 하면서 이야기가 전개될까요?’, ‘남성은 여성을 바라보며 무슨 생각을 하고 있을까요?’(상상 질문), ‘남성과 여성들과 함께 무엇을 하며 어울리고 싶은가요?’, ‘남성은 여성에게 무슨 말을 할까요?’, ‘나라면 무슨 말을 해줄 수 있을까요?’(적용 질문) 등의 질문을 생성할 수 있다 [표 4].

표 4. 성별 관련 질문 생성 예

CCTHCV_2021_v21n9_105_t0004.png 이미지

Ⅴ. 결론 및 제언

본 연구에서는 딥러닝 기술을 활용하여 주어진 동양화에 대한 질문을 성별의 관점에서 자동으로 생성하여 명화 하브루타 교육의 질문 만들기 훈련 과정을 지원하는 방안을 제시하였다. 구체적으로는 대규모로 학습된 VGG16 사전학습모델에 대한 점진적인 미세조정을 수행하는 방식으로, 동양화 등장인물 성별 분류에서 우수한 성능을 나타내는 모형을 제시하였다. 이와 동시에 하브루타 교육의 관점에서 구분한 질문의 3가지 유형, 즉 사실 질문, 상상 질문 그리고 적용 질문을 각각 참여자의 관점에서 3가지로 다시 구분하여 총 9가지의 질문 패턴을 정의하였다. 또한 이를 통해 동양화에서 등장인물의 성별을 식별한 후, 이를 9가지 패턴의 질문생성에 활용하는 시나리오를 제시하였다.

본 연구의 기여는 다음의 측면에서 인정받을 수 있다. 우선 본 연구는 딥러닝의 전이학습을 적용하여 동양화 등장인물 성별 분류의 정확도를 향상시키는 방안을 제시하였다. 즉 서양의 방대한 이미지 데이터 셋에 대한 학습을 통해 이미지의 기본적인 특성을 학습한 사전학습모델을 사용하되, 동양화가 갖는 고유의 특성을 모델에 반영하기 위해 미세조정을 수행하여 동양화 등장인물의 성별 분류 정확도를 향상시키는 방안을 제시하였다. 또한 9가지 질문 패턴을 정의한 후, 제안 모델을 통해 식별한 성별을 질문 패턴에 적용하여 동양화 등장인물의 성별 관련 질문을 생성하는 시나리오를 제시하였다.

본 연구의 후속 연구에서는 다음의 측면에 대한 고려가 이루어져야 한다. 본 연구에서는 동양화에 대한 다양한 관점 중 인물이라는 하나의 객체에 대한 관점만 다루었지만 추후 유사한 방식으로 다양한 객체를 식별하여 더욱 풍부한 질문을 생성할 필요가 있다. 특히 인물이라는 객체에 대해서도 성별뿐 아니라 표정, 신분 등 다양한 속성을 식별하여 질문 생성에 활용함으로써 더욱 심층적인 인물 분석이 가능해질 것으로 기대한다. 또한 이미지로부터 텍스트를 자동으로 생성하는 최근의 다양한 연구 성과를 활용하여 향후 동양화로부터 더욱 풍성한 질문을 생성할 수 있을 것으로 기대한다.

References

  1. 김정희, 김호성, "교육용 플래시 콘텐츠 저작시스템의 구현 및 재사용성 분석," 한국콘텐츠학회논문지, 제5권, 제2호, pp.7-17, 2005.
  2. E. Holzer, "Welcoming Opposition: Havruta Learning and Montaigne's The Art of Discussion," Journal of Moral Education, Vol.44, No.1, pp.64-80, 2015. https://doi.org/10.1080/03057240.2014.1002462
  3. 전정수, 최고의 공부법, 경향비피, 2015.
  4. 장봉석, "국내 하브루타 학습의 효과에 대한 메타 분석," 교육과정연구, 제36권, 제2호, pp.1-24, 2018.
  5. 이성일, 하브루타로 교과수업을 디자인하다, 맘에드림, 2018.
  6. 정지언, "대학생 자기 성장을 위한 그림책 하브루타 수업 사례연구," 학습자중심교과교육연구, 제20권, 제24호, pp.473-495, 2020.
  7. 류재만, 배진희, "사고력 증진을 위한 미술관 감상교육 방안," 학습자중심교과교육연구, 제20권, 제1호, pp.1015-1038, 2020.
  8. 이미정, "공감능력과 미술 감상능력의 상관관계 연구," 미술교육논총, 제31권, 제0호, pp.95-118, 2012.
  9. 최경남, 김현정, "질문중심 하브루타 명화감상이 유아의 그림감상능력과 그림표상능력에 미치는 영향," 인문사회21, 제11권, 제6호, pp.2665-2680, 2020.
  10. 이영석, 유아교육론, 형설출판사, 1998.
  11. 정수아, 김현주, "명화감상을 통한 통합적 교육활동이 유아의 창의성에 미치는 영향," 한국교육문제연구, 제32권, 제1호, pp.193-211, 2014.
  12. 김금선, 염연경, 생각의 근육 하브루타, 매일경제신문사, 2016.
  13. 김보연, 고요나, 신명, 하브루타 수업디자인, 맘에드림, 2019.
  14. 우정희, 유재용, 박주영, "대학생의 질문수준, 질문과정 및 질문저해요인," 한국콘텐츠학회논문지, 제15권, 제12호, pp.336-346, 2015. https://doi.org/10.5392/JKCA.2015.15.12.336
  15. D. Lee, D. Kim, J. Lee, S. Lee, H. Hwang, V. Mariappan, M. Lee, and J. Cha, "Design of Low Cost Real-Time Audience Adaptive Digital Signage using Haar Cascade Facial Measures," 국제문화기술진흥원, 제5권, 제1호, pp.51-57, 2017.
  16. K. Warr, Katy, Strengthening Deep Neural Networks: Making AI Less Susceptible to Adversarial Trickery, Oreilly & Associates Inc, 2019.
  17. G. Medioni, J. Choi, M. Labeau, J. T. Leksut, and L. Meng, "3D Facial Landmark Tracking and Facial Expression Recognition," 한국정보통신학회, 제11권, 제3호, pp.207-215, 2013.
  18. 이길원, 이활리, 정희운, "딥러닝 기반 제조 공장 내 AGV 객체인식에 대한 연구," 한국정보통신학회논문지, 제25권, 제1호, pp.36-43, 2021. https://doi.org/10.6109/JKIICE.2021.25.1.36
  19. 송재민, 이새봄, 박아름, "이미지 인식 기술의 산업 적용 동향 연구," 한국콘텐츠학회논문지, 제20권, 제7호, pp.86-96, 2020. https://doi.org/10.5392/JKCA.2020.20.07.086
  20. Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based Learning Applied to Document Recognition," Proceedings of the IEEE, Vol.86, No.11, pp.2278-2324, 1998.
  21. T. Mikolov, S. Kombrink, L. Burget, J. Cernocky, and S. Khudanpur, "Extensions of Recurrent Neural Network Language Model," Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5528-5531, 2011.
  22. 김봉모, "딥러닝 기반의 이미지 분류 기술 동향," 한국통신학회, 제35권, 제12호, pp.8-14, 2018.
  23. https://neurohive.io/en/popular-networks/vgg16/
  24. 박성욱, 김승현, 임수창, 김도현, "결절성 폐암 검출을 위한 상용 및 맞춤형 CNN의 성능 비교," 멀티미디어학회논문지, 제23권, 제6호, pp.729-737, 2020.
  25. 서동호, 차양훈, "전이학습 기반의 합성곱 신경망을 이용한 애니메이션 캐릭터 성별 분류 기법," 애니메이션연구, 제16권, 제4호, pp.141-156, 2020.
  26. 이한수, 김종근, 유정원, 정영상, 김성신, "전이학습 기반의 합성곱 신경망을 이용한 다중클래스 분류에 관한 연구," 한국지능시스템학회논문지, 제28권, 제6호, pp.531-537, 2018. https://doi.org/10.5391/JKIIS.2018.28.6.531
  27. W. Karl, M. K. Taghi, and D. Wang, "A Survey of Transfer Learning," Journal of Big Data, Vol.3, pp.1-40, 2016. https://doi.org/10.1186/s40537-015-0036-x
  28. S. J. Pan and Q. Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, Vol.22, No.10, pp.1345-1359. 2010. https://doi.org/10.1109/TKDE.2009.191
  29. 정소영, 정민교, "CNN의 깊은 특징과 전이학습을 사용한 보행자 분류," 인터넷정보학회논문지, 제20권, 제4호, pp.91-102, 2019. https://doi.org/10.7472/jksii.2019.20.4.91
  30. B. Byambajav, J. Alikhanov, Y. Fang, S. H. Ko, and G. S. Jo, "Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification," 지능정보연구, 제24권, 제1호, pp.205-225, 2018. https://doi.org/10.13088/jiis.2018.24.1.205
  31. 신현경, "오래된 그림에 그리기 : 동양화에 대한 물음 그리고 되살리기," 미술과 교육, 제21권, 제3호, pp.117-142, 2020.