DOI QR코드

DOI QR Code

Weakly-supervised Semantic Segmentation using Exclusive Multi-Classifier Deep Learning Model

독점 멀티 분류기의 심층 학습 모델을 사용한 약지도 시맨틱 분할

  • 최현준 (LG전자 시스템에어컨연구개발담당) ;
  • 강동중 (부산대학교 기계공학과)
  • Received : 2019.11.12
  • Accepted : 2019.12.06
  • Published : 2019.12.31

Abstract

Recently, along with the recent development of deep learning technique, neural networks are achieving success in computer vision filed. Convolutional neural network have shown outstanding performance in not only for a simple image classification task, but also for tasks with high difficulty such as object segmentation and detection. However many such deep learning models are based on supervised-learning, which requires more annotation labels than image-level label. Especially image semantic segmentation model requires pixel-level annotations for training, which is very. To solve these problems, this paper proposes a weakly-supervised semantic segmentation method which requires only image level label to train network. Existing weakly-supervised learning methods have limitations in detecting only specific area of object. In this paper, on the other hand, we use multi-classifier deep learning architecture so that our model recognizes more different parts of objects. The proposed method is evaluated using VOC 2012 validation dataset.

최근 딥러닝 기술의 발달과 함께 신경 네트워크는 컴퓨터 비전에서도 성공을 거두고 있다. 컨볼루션 신경망은 단순한 영상 분류 작업뿐만 아니라 객체 분할 및 검출 등 난이도가 높은 작업에서도 탁월한 성능을 보였다. 그러나 그러한 많은 심층 학습 모델은 지도학습에 기초하고 있으며, 이는 이미지 라벨보다 주석 라벨이 더 많이 필요하다. 특히 semantic segmentation 모델은 훈련을 위해 픽셀 수준의 주석을 필요로 하는데, 이는 매우 중요하다. 이 논문은 이러한 문제를 해결하기 위한 네트워크 훈련을 위해 영상 수준 라벨만 필요한 약지도 semantic segmentation 방법을 제안한다. 기존의 약지도학습 방법은 대상의 특정 영역만 탐지하는 데 한계가 있다. 반면에, 본 논문에서는 우리의 모델이 사물의 더 다른 부분을 인식하도 multi-classifier 심층 학습 아키텍처를 사용한다. 제안된 방법은 VOC 2012 검증 데이터 세트를 사용하여 평가한다.

Keywords

Ⅰ. 서론

딥 러닝 기술의 비약적인 발전과 함께 컴퓨터 비전 기술이 최근 몇 년간 획기적 성능 향상을 기록하고 있다. 특히 컨볼루션 네트워크(Convolutional Neural Network, CNN)[1]의 등장은 기존의 다층 퍼셉트론(Multi Layer Perceptron, MLP)[2]이 영상의 특징을 제대로 추출하지 못하는 한계점을 극복하면서 많은 컴퓨터 비전 분야들에서 딥 러닝 기반 영상처리 기술들이 최고 수준의 성능을 기록하였다.

컴퓨터 비전 분야에서 영상 내 영상 분할 기술의 정의는 주어진 영상의 모든 픽셀을 사전에 정의한 부류 중 하나로 분류하는 문제이다. 영상 분할 기술은 자동 초점 기능 카메라나 자율 주행 차량, 의료영상 분석 등에 활발히 적용되고 있다. 기존의 대부분의 영상 분할 모델들은 지도학습 기반의 방법으로 모델의 출력과 동일한 수준의 레이블을 생성하여 학습에 사용되는 경우를 가리킨다. 영상 분할 모델의 경우에는 앞서 기술한 것처럼 출력의 형태가 영상의 모든 픽셀에 대해 레이블(pixel-lebel label)이 가공되어 학습에 사용되어야 한다. 그러나 모든 픽셀에 대해 부류 정보를 부여하는 것은 굉장히 큰 비용이 발생한다. 그렇기 때문에 이러한 한계를 극복하기 위해 약 지도학습 기반의 영상 분할 방법들이 활발히 연구되고 있다. 약지도 학습 기반의 방법은 최종적으로 출력하고 하는 정보보다 더 약한 정보를 포함한 레이블을 사용하여 모델을 학습시키는 방법을 말한다. 즉 약지도 학습 기반의 영상 분할 방법에서는 픽셀 수준의 레이블이 아닌 영상 수준의 레이블, 즉 영상 내 객체의 부류 정보만을 사용하여 모델을 학습시키고 추론 시 학습된 모델을 사용하여 영상을 분할하게 된다. 이렇게 픽셀 수준의 레이블을 학습에 사용하지 않고 부류 정보만을 학습에 사용하기 때문에 앞서 기술한 고 비용의 레이블링 작업이 필요하지 않게 된다.

본 논문에서는 기존의 약 지도 학습의 모델에 대해 새로운 형태의 분류 모델을 제안한다. 모델은 CNN으로부터 추출된 특징이 두 개의 분류기로 입력되며, 각 분류기는 서로가 간과하고 있는 객체의 특징을 인식하도록 학습한다. 모델은 객체의 영역에 대해 보다 정밀한 제안 맵을 생성하고 객체가 존재하는 위치에 대한 양질의 시각적 신호를 제공한다. 제안하는 방법은 연구[3]에서 제안하는 프레임웍을 기반으로 하며, 연구[3]보다 뛰어난 성능의 영상 분할 성능을 보여준다. 본 논문에서는 연구[3]이 제안하는 영상분할 프레임웍을 차용하여 사용하기 때문에 구체적인 사항은 3절에서 함께 기술한다.

Ⅱ. 제안하는 계획

본 논문에서 제안하는 방법은 크게 딥 러닝 모델 학습 단계와 영상을 분할하는 추론 단계로 나눌 수 있다(Fig. 1). 딥 러닝 모델 학습 단계에서는 부류 레이블을 사용하여 학습하기 위한 분류 모델의 구조를 설계하고 학습시킨다. 이때 본 논문에서 제안하는 학습 모델의 구조는 기존 연구들과 달리 두 개의 분류기(A, B)를 병렬적으로 배치하였으며, 각 분류기는 서로 배타적으로 학습된다.

OTNBBE_2019_v19n6_227_f0001.png 이미지

그림 1. VOC2012 데이터셋의 PRM 결과

Fig. 1. Peak Response Map results on VOC2012 Dataset

분류기 A는 기존의 다른 연구에서 사용한 분류기와 동일하게 입력된 영상 내 객체의 부류를 분류하기 위한 분류 학습을 수행한다. 반면 분류기 B는 분류기 A가 인식하지 못한 객체의 추가적인 특징을 인식하도록 학습을 수행한다. 이렇게 함으로써 모델은 단일 분류기를 사용하였을 때[3]보다 객체의 더 다양한 특징을 인식할 수 있게 된다.

추론 단계는 학습된 모델을 사용하여 영상 분할을 수행하는 단계이다. 먼저 각 분류기 A, B로부터 Peak Response Map(PRM)을 생성한다. 이 PRM은 영상 내에 객체가 존재하는 위치에 대한 시각적 신호를 나타내며, 연구[4]의 부류 활성화 맵처럼 객체의 위치에 높은 활성화 값을 띠는 형태이다. 본 논문에서는 두 개의 분류기가 서로 객체의 다른 부위를 인식하도록 하는 방법을 제안하여 기존의 방법보다 더 많은 특징 부위를 활성화하도록 하였다.

최종적으로 영역을 분할할 때에는 주어진 객체 영역의 후보군 중에서 가장 적합한 영역을 선별하며, 앞서 추출된 PRM을 사용하여 적합성을 판단하게 된다.

1. 영상 분할과 분할 영역 결정을 위한 딥 러닝 모델 생성

본 논문에서는 영상 데이터 및 부류 레이블을 사용해 학습시키기 위해 분류 모델을 사용한다. 이때 연구[3]과 같은 기존의 연구에서는 기존의 단일 분류기 구조를 학습 모델로 사용하는 반면, 본 논문에서는 두 개의 분류기(Classifier A, B)를 배치하여 모델을 구성하였다(Fig. 2). 두 개의 분류기는 서로 다른 객체의 특징을 인식하도록 배타적 학습을 진행한다. 먼저 분류기 A는 기존 분류모델과 동일한 원리로 학습이 진행된다. 입력된 영상은 일련의 컨볼루션 층으로 구성된 특징 추출기(Feature extractor)에 입력되어 다차원의 특징 맵을 출력한다. 여기서 출력된 특징 맵은 영상으로부터 추상적인 특징을 추출하도록 학습된다.

OTNBBE_2019_v19n6_227_f0002.png 이미지

그림 2. VOC2012 데이터셋의 semantic segmentation 결과

Fig. 2. Semantic segmentation results on VOC2012 dataset.

출력된 특징 맵은 분류기 A에 입력되고, 분류기 A는 3개의 stride 1인 1×1 컨볼루션 층으로 구성된다. 분류기 A는 N차원의 특징 맵을 출력하는데, N은 부류 개수를 의미한다. 각 차원의 특징 맵은 연구[4]에서 소개된 부류 활성화 맵으로 정의되고, 객체가 존재하는 위치에 큰 값이 활성화되도록 학습된다. Fig. 3의 ‘Classifier A output’이 분류기 A에서 출력되는 특징 맵, 즉 부류 활성화 맵이다. 예를 들어, 모델에 고양이 영상이 입력되었을 때 분류기 A는 고양이의 얼굴 부위에 높은 활성화 값을 띠도록 학습되었음을 확인할 수 있다. 즉 분류기 A는 고양이의 가장 구별적인 특징인 얼굴을 보고 영상 내 객체를 고양이로 판단하는 것이다. 그러나 이는 얼굴을 제외한 팔, 몸통 등의 다른 부위에 대해서는 분류기 A가 고양이의 특징으로 인식하지 못한다.

분류기 B는 분류기 A에 대해 배타적으로 학습함으로써 분류기 A가 인식하지 못하는 객체의 추가적인 특징을 인식하게 된다. 이는 사람이 고양이 사진을 육안으로 보았을 때 얼굴을 가리고도 고양이로 인식할 수 있는데, 이러한 역할을 분류기 B가 수행할 수 있도록 학습시키도록 고안하였다. 분류기 B도 마찬가지로 특징 추출기로부터 출력된 특징 맵을 입력으로 받게 되는데, 이때 특징 맵을 온전히 입력 받는 게 아니라 분류기 A의 출력 부류 활성화 맵에서 큰 값으로 활성화된 부위를 제외하여 입력 받게 된다. 이를테면 Fig. 3에서 모델이 고양이 영상을 입력 받으면, 분류기 A로부터 고양이의 부류 활성화 맵을 추출한다. 그리고 임계값보다 높은 값으로 활성화된 영역, 즉 고양이의 얼굴 부위에 대한 정보를 제외시키는 이진 마스크를 생성한다. 생성된 이진 마스크는 특징 추출기로부터의 특징 맵과 곱하여 분류기 B의 입력을 생성한다. 이렇게 생성된 입력 특징 맵을 입력 받아 학습을 진행하면 분류기 B는 얼굴 부위가 아닌 고양이의 다리, 질감 등 다른 특징 부위를 근거로 입력된 영상을 고양이로 인식하게 된다.

각 추출된 특징 맵은 연구[3]에서 제안하는 Peak Stimulation 층을 거치며 각 부류에 대한 점수를 출력하고, 출력된 점수는 레이블 값인 부류 정보와 함께 손실함수 계산에 사용된다. 손실함수로는 이진 교차 엔트로피 손실함수를 사용한다.

2. 영상 분할 방법

가. Peak Response Map(PRM) 생성

추론 단계는 학습된 모델을 사용하여 영상 분할을 수행하기 위해서는 먼저 각 분류기 A, B로부터 Peak Response Map(PRM)을 생성한다. PRM은 부류 활성화 맵처럼 영상 내 객체가 존재하는 영역에 큰 값이 활성화되는 맵이다. PRM을 구하는 수식은 다음과 같이 표현 가능하다.

\(R=\sum_{c}^{C} \sum_{i}^{N^{c}} g\left(P_{i}^{c}\right)\)       (1)

여기서 는 peak로부터 입력 노드까지의 역 전파 함수, 는 부류 c의 번 째 peak, 그리고 R은 PRM을 가리킨다. 이때 PRM은 peak의 개수만큼 생성된다.

본 논문에서는 학습 모델을 두 개의 분류기를 사용하였다. 때문에 분류기 A와 분류기 B로부터 각각 PRM을 추출하게 된다. 이때 분류기 A는 연구[10]에서 사용한 모델과 유사한 수준의 PRM을 생성하게 된다. 그러나 분류기 B는 분류기 A가 인식하지 못하는 객체의 부위를 추가적으로 인식하도록 학습되기 때문에 마찬가지로 분류기 B로부터 생성된 PRM은 분류기 A로부터 생성된 PRM이 제공하지 못하는 객체의 위치에 대한 시각적 신호를 제공한다.

나. 분할 영역 결정 방법

분할 영역을 결정하기 위해서는 PRM을 사용하여 객체 영역의 후보군 중에서 가장 객체에 가까운 영역을 선별함으로써 최종적으로 영상을 분할한다. 객체 영역의 후보군은 기존의 컴퓨터 비전 기반의 영상 분할 기법인 Multi-scale Combinatorial Grouping(MCG)로부터 제안되어 Fig. 4의 노란 박스 안의 그림과 같이 이진마스크 형태 , 로 생성된다. MCG의 각 제안 마스크는 앞서 생성된 PRM을 사용하여 점수를 부여받는다. 이때 점수는 PRM이 가리키는 객체에 가까울수록 값이 커지게 되며 식 (5)를 통해 계산된다.

\(\text { Score }=\alpha \cdot R * S+R * \hat{S}-\beta \cdot Q * S\)           (2)

식(3)의 ∙은 행렬의 요소 간 곱 연산을 가리킨다. 식의 첫 번째 항은 Instance aware score에 해당된다. PRM R 과 제안 마스크 S의 곱으로 연산되며 겹치는 부분이 클수록 큰 값으로 계산된다.

Soptimal = argmax si Score(R, Si)            (3)

추가로, 선정된 각 제안 영역이 동일한 영역을 가리키고 있는 경우를 제외하기 위해서 Non maximum Suppression[5]를 사용하여 최종적으로 객체의 위치를 결정한다.

Ⅲ. 실험 및 결과

1. 실험 환경

실험에는 벤치마크 데이터인 VOC2012를 사용하였다. VOC2012는 객체검출 및 분할 태스크에 주로 사용되는 데이터로, 총 20개의 부류에 대한 영상 데이터와 영상 내 객체의 부류 및 위치 레이블을 제공한다. 본 논문에서는 네트워크 학습 시 부류 정보만을 사용하며, 부류레이블의  형태로 가공하여 사용한다. 학습 데이터는 5,717장으로 구성되어 있으며, 네트워크 학습 시 좌우반전을 사용한 데이터 증식 기법을 적용하였다. 검증 데이터는 VOC2012의 객체 분할 태스크에 대한 검증 데이터셋을 사용하였으며 총 1,122장으로 구성되어 있다.

네트워크의 특징 추출부는 ResNet38[6]의 CNN 구조를 사용하였으며, 네트워크는 ImageNet[7]에 대해 미리 학습된 네트워크를 사용하여 전이 학습[8]하였다. 학습률(Learning rate)에서 시작하여 점차 줄여가는 방식을 사용하였고, 총 20 에포크(Epoch) 동안 8 배치 사이즈로 학습을 수행하였다.

2. Peak Response Map(PRM) 비교

VOC2012 데이터 셋에 대하여 단일 분류기 모델을 사용한 연구[10]과 본 논문에서 제안하는 배타적 이중 분류기 모델로 학습했을 때의 PRM 출력 결과를 비교하였다. Fig. 5는 각각 단일 객체 영상 및 다중 객체 영상에 대한 추론 결과이다. 이때 PRM 상에서 다른 색으로 표현된 영역은 다른 peak로부터 생성된 PRM을 나타낸다. 단일 객체 영상의 경우(Fig. 5 상단) 단일 분류기로부터 획득한 PRM이 객체의 전체 영역을 포함하지 하는 반면, 배타적 이중 분류기 모델로부터 획득한 PRM은 추가적인 객체의 특징 부위에 peak를 추출하기 때문에 객체의 영역을 더 전범위적으로 인식한다. 예를 들어 첫 번째 행의 비행기 영상의 경우 단일 분류기의 PRM은 비행기의 전면부에 1개의 peak만 추출하여 생성되지만, 이중 분류기의 PRM은 비행기의 날개 부위에 추가적인 peak를 추출하여 생성된다. 마찬가지로 말 영상이 입력되었을 때에도 말의 얼굴 부위뿐만 아니라 몸통 부위에도 추가적으로 peak를 추출하여 생성된다. 또한 마지막 행의 예에서는 단일 분류기 모델이 객체를 전혀 인식하지 못하는 경우에도 이중 분류기 모델을 사용하여 객체를 인식함을 보여준다. 이는 분류기의 개수를 늘림으로써 더 다양한 특징을 탐색하여 객체를 인식하기 때문에 가능하다.

다수 객체 영상의 경우에는 이중 분류기 모델이 단일분류기 모델보다 영상으로부터 더 많은 peak를 추출함으로써 추가적인 객체를 인식하는 효과가 있다. 예를 들면 두 마리의 양이 존재하는 영상에 대해서 단일 분류기는 한 마리의 양에 대해서만 peak를 추출하여 PRM을 생성한 반면, 배타적 이중 분류기를 사용한 경우 나머지 한 마리의 양에 대해서도 추가적인 peak를 추출하여 PRM을 생성한다. 학습 시 분류기 모델은 영상 내 객체의 부류 정보만을 사용하기 때문에 영상에 동일한 부류의 객체가 몇 개가 존재하는지는 분류기가 학습하지 못한다. 그러나 이중 분류기를 사용한 경우 단일 분류기가 인식한 객체의 영역을 제외한 잔여 부위에 대해서도 탐색하여 객체를 인식하도록 학습하기 때문에 다중 객체에 대해서도 효과적인 성능을 보여준다.

3. 영상 분할 성능 비교

Table. 1은 단일 분류기를 사용했을 때[10]와 본 논문에서 제안하는 배타적 이중 분류기 구조를 사용했을 때의 영상 분할 성능을 부류별 mIoU의 관점에서 비교한 결과이다. 본 논문에서 제안한 후자의 기존의 방법들[5, 9, 10, 11, 12, 13]과 비교하여 더 높은 mIoU 값을 얻었다. 동일한 프레임웍에 단일 분류기 모델을 사용한 연구[10]보다는 1.5% 가량 높은 수치를 기록하였다. Table. 2는 Pixel accuracy 관점에서 비교한 결과이다. 이중 분류기 구조의 모델이 단일 분류기를 사용하였을 때보다 0.56% 가량 높은 수치를 기록하였다.

표 1. 평균 IoU의 구간에서 VOC 2012 validation 셋에 대한 약지도 semantic segmentation 결과

Table 1. Weakly supervised semantic segmentation results on VOC 2012 validation set in term of the mean IoU.

OTNBBE_2019_v19n6_227_t0001.png 이미지

표 2. 픽셀 정확도 구간에서 VOC 2012 validation 셋에 대한 약지도 semantic segmentation 결과

Table 2. Weakly supervised semantic segmentation results on VOC 2012 validation set in term of the pixel accuracy.

OTNBBE_2019_v19n6_227_t0002.png 이미지

Fig. 6는 VOC2012 검증 데이터에 대해 영상 분할을 한 결과이다. 단일 객체 영상에 대해서는 동일한 객체를 인식하였더라도 더 많은 특징을 인식함으로써 영역을 더 포괄적으로 예측하는 결과를 보였다. 또한 다중 객체 영상에 대해서 단일 분류기가 인식하지 못하는 객체에 대해서도 추가적으로 인식하는 결과를 보였다.

Ⅳ. 결론

본 논문에서는 부류 정보만을 사용하여 영상을 분할하는 약 지도 학습 기반의 방법을 제안하였다. 기존의 방법들은 예측 모델로 단일 분류기 모델을 사용하는 반면 본 논문에서는 이중 분류기 모델을 사용하여 학습한다. 이때 두 개의 분류기는 서로 다른 객체의 특징을 인식하기 위해 배타적으로 학습된다. 추론 시 각 분류기의 출력 활성화 맵으로부터 peak 목록을 추출하고, 그래디언트 역전파를 통해서 객체의 영역을 가리키는 시각적 신호인 PRM을 추출한다. 이때 기존의 단일 분류기를 사용하였을 때보다 객체의 더 다양한 부위에 대해 peak를 추출하였고, 마찬가지로 객체의 영역을 더 포괄적으로 포함하는 PRM을 생성하였다. 이렇게 생성된 PRM은 객체 영역 후보군들에 대해 점수를 부과하는 데에 사용되어 최종적으로 영상을 픽셀 단위의 분할 성능을 향상하여, 영상에서 객체가 차지하는 비중이 크거나 다양한 시각적 특징을 가진 객체 영상에 대해 효과적인 예측이 가능하였다.

제안된 모델은 VOC 2012 검증 데이터 셋에 대해 평가하였다. 평가지표로는 mIOU 및 Pixel accuracy를 사용하였고 각각 기존의 단일 분류기 모델을 사용한 경우보다 향상된 성능을 기록하였다. 특히 영상에서 객체가 차지하는 비중이 크거나 다양한 시각적 특징을 가진 객체 영상에 대해 효과적인 예측이 가능하였다.

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2019R1H1A2080147), 그리고 정부(과학기술정보통신부)의 재원으로 정보통신산업진흥원(nipa)의 지원을 받아 수행된 연구임(S0249-19-1019)

References

  1. O'Shea, Keiron, and Ryan Nash. "An introduction to convolutional neural networks", arXiv preprint arXiv:1511.08458, Nov. 2015.
  2. Ramchoun, Hassan, et al. "Multilayer Perceptron: Architecture Optimization and Training", IJIMAI Vol. 4, No. 1, pp. 26-30, Jan. 2016. DOI: https://doi.org/10.9781/ijimai.2016.415
  3. Zhou, Bolei, et al. "Learning deep features for discriminative localization", Proceedings of the IEEE conference on computer vision and pattern recognition, Vol. 1, pp. 2921-2929, July. 2016. DOI: https://doi.org/10.1109/cvpr.2016.319
  4. Zhou, Yanzhao, et al. "Weakly supervised instance segmentation using class peak response", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Vol. 1, pp. 3791-3800, 2018.
  5. Neubeck, Alexander, and Luc Van Gool. "Efficient non-maximum suppression", 18th International Conference on Pattern Recognition (ICPR'06), Vol. 3, pp. 850-855, 2006. DOI: https://doi.org/10.1109/icpr.2006.479
  6. He, Kaiming, et al. "Deep residual learning for image recognition", Proceedings of the IEEE conference on computer vision and pattern recognition, Vol. 1, pp. 770-778, Jun. 2016. DOI: https://doi.org/10.1109/cvpr.2016.90
  7. Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database", 2009 IEEE conference on computer vision and pattern recognition, Vol. 1, pp. 248-255, Jun. 2009. DOI: https://doi.org/10.1109/cvprw.2009.5206848
  8. Pan, Sinno Jialin, and Qiang Yang. "A survey on transfer learning", IEEE Transactions on knowledge and data engineering, Vol. 22, pp. 1345-1359, Oct. 2010. https://doi.org/10.1109/TKDE.2009.191
  9. Pinheiro, Pedro O., and Ronan Collobert. "Weakly supervised semantic segmentation with convolutional networks", CVPR. Vol. 2. No. 5. 2015.
  10. Durand, Thibaut, et al. "Wildcat: Weakly supervised learning of deep convnets for image classification, pointwise localization and segmentation", Proceedings of the IEEE conference on computer vision and pattern recognition, July. 2017. DOI: https://doi.org/10.1109/cvpr.2017.631
  11. Kolesnikov, Alexander, and Christoph H. Lampert. "Seed, expand and constrain: Three principles for weakly-supervised image segmentation", European Conference on Computer Vision. Springer, Cham, pp. 695-711, Mar. 2016. DOI: https://doi.org/10.1007/978-3-319-46493-0_42
  12. Saleh, Fatemehsadat, et al. "Built-in foreground/background prior for weakly-supervised semantic segmentation", European Conference on Computer Vision. Springer, Cham, pp. 413-432, Sep. 2016. DOI: https://doi.org/10.1007/978-3-319-46484-8_25
  13. Roy, Anirban, and Sinisa Todorovic. "Combining bottom-up, top-down, and smoothness cues for weakly supervised image segmentation", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, July. 2017. DOI: https://doi.org/10.1109/cvpr.2017.770
  14. Dong-Jin Kwon, "The Image Segmentation Method using Adaptive Watershed Algorithm for Region Boundary Preservation", The Journal of The Institute of Internet, Broadcasting and Communication(JIIBC), Vol. 11, No.1, pp. 39-46, Feb. 2019.