Development of a Method for Analyzing and Visualizing Concept Hierarchies based on Relational Attributes and its Application on Public Open Datasets

Hwang, Suk-Hyung;

doi:10.9708/jksci.2021.26.09.013

Journal of the Korea Society of Computer and Information (한국컴퓨터정보학회논문지)

Volume 26 Issue 9
/
Pages.13-25
/
2021
/
1598-849X(pISSN)
/
2383-9945(eISSN)

Korean Society of Computer Information (한국컴퓨터정보학회)

DOI QR Code

Development of a Method for Analyzing and Visualizing Concept Hierarchies based on Relational Attributes and its Application on Public Open Datasets

Hwang, Suk-Hyung (Dept. of Artificial Intelligence and Software Technology, SunMoon University)

Received : 2021.05.27
Accepted : 2021.09.15
Published : 2021.09.30

https://doi.org/10.9708/jksci.2021.26.09.013 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

In the age of digital innovation based on the Internet, Information and Communication and Artificial Intelligence technologies, huge amounts of datasets are being generated, collected, accumulated, and opened on the web by various public institutions providing useful and public information. In order to analyse, gain useful insights and information from data, Formal Concept Analysis(FCA) has been successfully used for analyzing, classifying, clustering and visualizing data based on the binary relation between objects and attributes in the dataset. In this paper, we present an approach for enhancing the analysis of relational attributes of data within the extended framework of FCA, which is designed to classify, conceptualize and visualize sets of objects described not only by attributes but also by relations between these objects. By using the proposed tool, RCA wizard, several experiments carried out on some public open datasets demonstrate the validity and usability of our approach on generating and visualizing conceptual hierarchies for extracting more useful knowledge from datasets. The proposed approach can be used as an useful tool for effective data analysis, classifying, clustering, visualization and exploration.

인터넷과 정보통신, 인공지능기술을 기반으로 하는 디지털 혁신 시대를 맞이하면서 거대한 규모의 데이터집합이 발생, 수집, 축적되어, 다양한 공공기관에서 온라인에 오픈하여 유용한 공공정보를 제공하고 있다. 데이터를 분석하여 유용한 통찰력과 정보를 얻기 위하여, 데이터집합에 내재되어 있는 객체와 속성 사이의 이진 관계를 기반으로 데이터를 분석, 분류, 군집화 및 시각화하는 형식개념분석기법이 성공적으로 사용되어 왔다. 본 논문에서는 형식개념분석기법을 확장하여, 객체의 속성뿐만 아니라 객체들 사이의 관련 관계를 기반으로 데이터집합을 분류하고 개념화하여 가시화하기 위한 기법과 지원도구를 제안한다. 일부 공공 오픈 데이터집합을 대상으로 본 논문의 제안기법을 적용하여 몇 가지 실험을 수행한 결과, 데이터집합으로부터 개념 계층구조를 생성하고 시각화하여 보다 유용한 지식을 추출함으로써 제안기법의 타당성과 유용성을 실증하였다. 본 논문에서 제안한 분석기법은 효과적인 데이터분석, 분류, 군집화, 시각화, 정보검색 등을 위한 유용한 도구로 사용될 수 있다.

Keywords

I. Introduction

데이터는 4차 산업혁명을 견인하는 핵심 자원으로서 국내뿐만 아니라 해외 주요 국가들에서는 정부 차원에서 데이터 산업을 육성하기 위한 다양한 정책 수립과 플랫폼 구축, 공공데이터(Public Open Data) 제공을 위해 노력하고 있으며, 데이터 관리, 데이터분석, 머신러닝 등 데이터 및 데이터 관련 산업이 지속해서 성장하고 있다[1]. 우리나라의 공공데이터 포탈(www.data.go.kr)에서는 교육, 국토관리, 공공행정 등 총 16개 영역으로 분류하여, 956개 기관에서 38, 139개의 파일데이터와 6, 774개의 오픈 API를 개방하고 있고(2021년 3월 17일 현재)[2], 최근 4년간의 공공데이터 개방 및 활용이 크게 증가하여, 2021년 코로나 19의 확산과 함께 국내 데이터 시장은 2024년까지 연평균 15.3%씩 성장하여 약 30조 원 규모에 이를 전망이다[3].

최근에는 인터넷과 정보통신, 인공지능기술을 발판으로 하는 디지털 기반 혁신의 시대를 맞이하면서 다양한 영역에서 빅데이터가 발생, 수집, 축적, 공개되고 있으며, 수집된 대량의 데이터를 분석하여 데이터 항목들 간의 규칙성 및 관련성 등, 이용 가능한 지식을 추출하기 위한 데이터분석, 데이터마이닝, 데이터사이언스 분야의 연구가 활발하게 진행되고 있다[4-6]. 특히, 다양한 데이터로부터 공통의 속성을 갖는 객체들을 그룹화하고 개념을 추출하고계층구조를 구성하여 지식체계를 가시화하기 위한 형식개념분석기법[7]이 새로운 지식발견을 위한 다양한 분야에서 널리 응용되고 있다[8].

본 논문에서는, 형식개념분석기법을 확장하여, 객체의 속성뿐만 아니라 객체들 사이의 관련 관계를 기반으로 데이터 집합을 분류하고 개념화하기 위한 기법을 제안한다. 구체적으로는, 주어진 데이터로부터 관계 속성을 기반으로 개념을 추출하여 계층 구조화하기 위한 관계형 개념분석기법의 제반 정의들을 토대로 개념분석알고리즘을 제안하고 분석도구(RCA Wizard)를 구현하여 몇 가지 공공데이터를 대상으로 수행한 분석실험 결과 등을 설명한다. 본 논문의 구성은 다음과 같다. 제2장에서는 형식개념분석기법에 대한 배경지식을 소개하고, 제3장에서는 관계 속성을 기반으로 하는 관계형 개념분석기법과 분석알고리즘 및 분석 도구를 제안한다. 제4장에서는 관계형 개념분석기법을 이용한 공공데이터 분석실험에 관해서 서술한다. 제5장에서는 본 논문의 결론과 향후 연구에 관해서 설명한다.

II. Related Works

형식개념분석기법[7]에서는 관심 영역 내의 분석 대상 (객체. Object)들이 각각 어떠한 특징(속성. Attribute)을소유하고 있는지를 테이블 형태로 정형화하여 나타낸 데이터 테이블(Formal Context)로부터 공통의 속성을 갖는 객체들을 개념(Concept) 단위로 그룹화하여 분류체계 (Concept Hierarchy)를 구성해서 가시화하기 위한 수학적 이론체계를 제공한다. 형식개념분석기법의 수학적 이론체계를 구성하는 몇 가지 정의들은 다음과 같다.

[정의1]데이터테이블 \(K=(G, M, I)\)는 다음과 같은 3개 요소들로 구성되는 튜플이다.

• \(G\): 객체들의 집합,

• \(M\): 속성들의 집합,

• \(I \subseteq G \times M\): 어떤 객체가 어떤 속성을 갖는지를 나타내는 관계 집합.

관계 집합의 임의의 원소\((g, m) \in I\)는 객체g가 속성m을 가지고 있다는 것을 의미한다. Table 1은 5명의 학생과 6가지 속성들을 기반으로 어떤 학생이 어떠한 속성을 가졌는지를 나타낸 데이터 테이블\(K_{1}=\left(G_{1}, M_{1}, I_{1}\right)\)의 예이다.

Table 1. An example of Formal Context \(K_{1}\)

CPTSCQ_2021_v26n9_13_t0001.png 이미지

[정의2]데이터테이블 \(K=(G, M, I)\)가 주어졌을 때, 임의의 집합\(X \subseteq G\)와 \(Y \subseteq M\)에 대하여, 공통요소들을 추출하기 위한 연산자\(C A: 2^{G} \rightarrow 2^{M}\)와 \(C O: 2^{M} \rightarrow 2^{G}\)를 다음과 같이 정의한다.

\(\text { • } C A(X)=\{m \in M \mid \forall g \in X:(g, m) \in I\}\),

\(\text { • } C O(Y)=\{g \in G \mid \forall m \in Y:(g, m) \in I\}\).

연산자CA(X)는 집합X의 원소들(즉, 객체들)이 공유하고 있는 공통속성들의 집합을 추출하며, 연산자CO(Y) 는 집합Y의 원소들(즉, 속성들)을 공유하고 있는 객체들의 집합을 추출해준다.

[정의3]데이터테이블 K=(G,M,I)의 임의의 두 집합 X⊆G,Y⊆M에 대하여,

\(C=(X, Y) \Leftrightarrow(C A(X)=Y \wedge C O(Y)=X)\)

를 만족하는 C를 데이터 테이블 K=(G,M,I)로부터 도출된 형식개념(또는 개념)이라고 한다.

즉, 데이터 테이블 K=(G,M,I)로부터 도출된 개념 C는, CA(X)=Y ∧ CO(Y)의 조건을 만족하는 두 집합X⊆G,Y⊆M로 구성되는 쌍(X,Y)이다. 이때, X와 Y를 각각 개념C의 외연과 내포라고 부른다.

데이터 테이블 K=(G,M,I)로부터 도출된 모든 개념들의 집합을 C_K라고 하고, C_K의 임의의 두 개념 C₁=(X₁,Y₁)과 C₂=(X₂,Y₂)에 대하여, X₁⊆X₂(⇔Y₂⊆Y₁)를 만족하는 경우, 두 개념들 사이에는 “상하위 개념관계”가 있다고 하고, C₁≤_KC₂로 나타낸다. 이때, C₁을 C₂의 하위개념, C₂를 C₁의 상위개념이라고 부른다. 데이터 테이블 K=(G,M,I)에 대한 형식개념들의 집합C_K와 상하위 개념관계≤_K는 완비 격자(complete lattice)를 구성하며, L_K=(C_K≤_K)로 나타낸다. 이러한 완비격자를 개념 격자(Concept Lattice) 또는 개념 계층구조(Concept Hierarchy)라고 부른다. 데이터 테이블로부터 개념들을 추출하여 개념 계층구조를 구성하기 위한 알고리즘 FCA는 다음과 같다.

Algorithm FCA

개념 계층구조는 Fig. 1과 같은 형태의 개념계층구조도 (Concept Hierarchy Diagram)로 가시화하며, 정점과 유향 변은 각각 개념과 상하위개념관계를 나타낸다. 이때, 각 정점은 개념의 이름, 내포(해당 개념을 구성하는 객체들이 가지고 있는 속성들), 외연(해당 개념을 구성하는 객체들) 을 구성요소로 하는 사각형으로 표시하고, 상하위개념관계는 하위개념으로부터 상위개념으로 향하는 화살표로 나타낸다. 특히, 개념 계층 구조도에서는, 속성들은 상위에서 하위로, 객체들은 하위에서 상위 방향으로 계승하는 형태로 간략화하여 표기한다. Table 1의 데이터 테이블 K₁에 형식개념분석기법을 적용하여 추출된 8개의 개념들은 상하위개념관계를 토대로 Fig. 1과 같은 개념계층구조 도로 표현할 수 있다. 개념 계층구조도 상의 각 정점(개념)의 의미를 설명하기 위하여, 예를 들면, Fig. 1의 가장 왼쪽에 자리 잡고 있는 정점(Concept_Students_5)은, 2개의 속성(freshman, male)을 가지고 있는 2명의 학생(s1, s2) 에대응하는 개념(즉, 1학년 남학생)을 나타내고 있다. 또한, Concept_Students_1은, 2개의 속성(senior, male)을 가지고 있는 1개의 객체(s5)를 나타내는 개념(즉, 3학년 남학생)이다.

CPTSCQ_2021_v26n9_13_f0001.png 이미지

Fig. 1. Concept Hierarchy Diagram \(L_{K_{1}}\)for Table 1

형식개념분석에 의해 구축된 개념 계층 구조도는 주어진 데이터들에 대한 공통속성 기반의 분류체계를 제공한다. 예를 들면, Table 1의 데이터 테이블을 분석한 결과(Fig. 1)로부터, 6명의 학생은 남학생 그룹(Concept_Students_6 : s1, s2, s5)과 여학생 그룹(Concept_Students_4 : s3, s4) 으로 분류되었다. 또한, 남학생그룹은 1학년 남학생 그룹 (Concept_Students_5 : s1, s2)과 4학년 남학생 그룹 (Concept_Students_1 : s5)으로, 여학생 그룹은 2학년 여학생 그룹(Concept_Students_2 : s4)과 3학년 여학생 그룹(Concept_Students_3 : s3)으로 다시 세부적으로 분류되었음을 알 수 있다.

III. The Proposed Method

형식개념분석기법은 관심 영역의 주어진 데이터셋으로부터 어떤 객체가 어떤 속성을 가졌는지를 나타내는 “객체 -속성”관계(객체와 속성 사이의 소유관계)에 초점을 맞추어서 데이터를 분석하고 추출된 정보를 가시화한다. 그러나, 다양한 관심 영역들에 실존하는 대부분의 데이터에는 같은 영역 내에 존재하는 객체들 사이의 관련관계(예를 들면, 학교 영역에서 교수-학생 관계) 뿐만 아니라, 서로 다른 영역에 소속된 객체들 사이의 관련 관계(예를 들면, 학생과 교과목 사이의 수강 관계)가 다수 존재하며, 데이터분석과 데이터마이닝 분야에서는 이러한 관련 관계 데이터가 핵심 정보를 구성하고 새로운 지식을 발견하기 위한 중요한 자원이 된다[9].

위와 같은 형식개념분석기법의 한계점에 주목하여, 본 논문에서는 기존의 형식개념분석기법과 더불어서, 객체들 사이의 관련 관계 정보를 추출하여 분석하기 위한 관계형 개념분석기법(Relational Concept Analysis)[10]을 기반으로, 객체들 사이의 관련 관계를 토대로 데이터집합을 분류하고 개념화하기 위한 기법(개념분석 알고리즘 RCA와 분석 지원 도구 RCA Wizard)을 제안한다.

1. Definitions

관계형 개념분석기법의 제반 정의들[10]을 보다 구체적으로 정형화하여 아래의 정의4~6에 재정의하고, 이를 토대로 개념분석알고리즘(RScaling과 RCA)을 새롭게 제안하였다.

[정의4]관계형 데이터 테이블 그룹 Ω=(K,R)는 데이터 테이블들의 집합K와 관련 관계 데이터 테이블들의 집합R로 구성된 모임이다.

\(\bullet \ K=\left\{K_{i}\right\}_{i \in[1, n]}: K_{i}=\left(G_{i}, M_{i}, I_{i}\right)\),

\(\bullet \ R=\left\{R_{j}\right\}_{i \in[1, m]}: R_{j}=\left(G_{k}, G_{l}, r_{j}\right)\),

이때, k,l∈[1,n]에 대해서, r_j⊆G_k×G_l은 관련 관계를 나타내며, r_j에 대한 정의역과 치역은 각각 dom(r_j)=G_k와 ran(r_j)=G_l이다.

관계형 데이터 테이블 그룹Ω은, 객체들의 속성 소유정보와 객체들 사이의 관련 관계 정보를, 각각 데이터 테이블들(K)과 관련 관계 데이터 테이블들(R)에 모아놓은 형태를 갖는다. 예를 들면, 관계형 데이터 테이블 그룹 Ω=({K₁,K₂}, {R₁})은, Table 1의 학생 데이터 테이블K₁=(G₁,M₁,I₁)과 Table 2의 컴퓨팅기기에 관한 데이터 테이블K₂=(G₂,M₂,I₂), 그리고 Table 3의 학생-컴퓨팅기기 소유관계(has⊆G₁×G₂)를 나타내는 관련 관계 데이터 테이블R₁=(G₁,G₂,has)로 구성된다.

관계형 개념분석기법에서는 관련 관계 데이터 테이블에 함축된 관련 관계 정보를 정의역에 해당하는 데이터 테이블에 포함해서 표현하기 위하여 관계 정보 변환과정 (relational scaling)을 거친다. 즉, 관계 정보 변환과정에서는 관련 관계r_j⊆G_k×G_l를 정의역dom(r_j)=G_k의 데이터 테이블 내부에 다음과 같은 관계 속성(relational attribute)으로 추가하여 표현한다.

Table 2. An example of Formal Context K₂

CPTSCQ_2021_v26n9_13_t0002.png 이미지

Table 3. An example of Relational Context R₁

CPTSCQ_2021_v26n9_13_t0003.png 이미지

[정의5]관계형 데이터 테이블 그룹 Ω=(K,R)의 임의의 관련 관계r_j⊆G_k×G_l에 대하여, r_j의 정의역G_k의 객체(g∈G_k)와 치역G_l의 객체들(치역의 데이터 테이블 K_l로부터 추출된 개념c=(X,Y)∈C_Kl의 외연을 형성하는 객체들) 사이의 관련 관계r_j가 r_j(g)∩X≠∅의 조건을 만족하는 경우, 정의역의 데이터 테이블 K_k=(G_k,M_k,I_k)에 관계 속성∃r_j(c)으로 정의한다.

관계형 데이터 테이블 그룹 Ω=(K,R)의 임의의 관련 관계 데이터 테이블R_j=(G_k,G_l,r_j)과 이에 대응하는 관련 관계r_j⊆G_k×G_l의 정의역 및 치역에 해당하는 데이터 테이블K_k=(G_k,M_k,I_k)와 K_l=(G_l,M_l,I_l)에 대하여, 관계r_j를 기반으로 관계 속성∃r_j(c)으로 K_k를 확장하기 위한 추가분(데이터 테이블 \(K_k ^{r,j}\))은 다음과 같이 구성된다. 즉, \(K_{k}^{r_{j}}=\left(G_{k}^{r_{j}}, M_{k}^{r_{j}}, I_{k}^{r_{j}}\right)\),

\(\bullet \quad G_k^{rj} = G_k\),

\(\bullet \quad M_{k}^{r_{j}}=\left\{\exists r_{j}(c) \mid c \in \mathrm{C}_{\mathrm{K}_{1}}\right\}\)

\(\bullet \quad I_{k}^{r_{j}}=\left\{\left(g, \exists r_{j}(c)\right) \mid g \in G_{k}, c=(X, Y) \in \mathrm{C}_{k_{l}}, r_{j}(g) \cap X \neq \varnothing\right\}\)

앞서 주어진 데이터 테이블 그룹 Ω=({K₁,K₂}, {R₁})에 대하여, 관계형 데이터 테이블 R₁=(G₁,G₂,has)을 기반으로 관계 속성을 추가하기 위한 데이터 테이블은 Table 4와 같다.

[정의6]주어진 데이터 테이블 K_k=(G_k,M_k,I_k)와 관련 관계r_j⊆G_k×G_l를 기반으로 K_k를 확장하여 변환시 \(K_k^+\)을 다음과 같이 정의한다.

\(K_{k}^{+}=\left(G_{k}^{+}, M_{k}^{+}, I_{k}^{+}\right)\),

\(\bullet \quad G_{k}^{+}=G_{k}, M_{k}^{+}=M_{k} \cup M_{k}^{r_{j}}, I_{k}^{+}=I_{k} \cup I_{k}^{r_{j}}\)

Table 4. Additional context \(K_{1}^{\text {has }}=\left(G_{1}^{\text {has }}, M_{1}^{\text {has }}, I_{1}^{\text {has }}\right)\)for weak relational scaling

CPTSCQ_2021_v26n9_13_f0004.png 이미지

2. Algorithms

본 논문에서는 위의 정의들(정의4~6)을 토대로 관계 정보변환과정(Relational Scaling)을 알고리즘RScaling으로 제안하였다. 알고리즘RScaling에서는, 입력으로 주어진 데이터 테이블K_k=(G_k,M_k,I_k)에 대하여 관련 관계 r_j⊆G_k×G_l를 기반으로 K_k를 확장하여 변환시킨 \(K_{k}^{+}=\left(G_{k}^{+}, M_{k}^{+}, I_{k}^{+}\right)\)을 다음과 같은 절차에 의해 구성한다.

(1) G_k⁺의 구성(라인1) :

입력으로 주어진 데이터 테이블K_k=(G_k,M_k,I_k)의 객체 집합G_k를 그대로 G_k⁺로유지한다.

(2) 치역의 데이터 테이블로부터 추출된 각 개념들 c=(X,Y)∈C_i과 정의역의 객체g∈G_k에 대하여 아래의 처리를 반복적으로 수행한다.

(가) M_k⁺의 구성(라인5) :

K_k=(G_k,M_k,I_k)의 속성집합M_k에 이항관계 r_j⊆G_k×G_l를 기반으로 관게 속성 ∃r_j(c)을 추가하여 M_k⁺를 확장한다.

Algorithm RScaling

(가) I_k⁺의 구성(라인6) :

K_k=(G_k,M_k,I_k)의 관계 집합I_k에 관련 관계 r_j⊆G_k×G_l를 기반으로 (g,∃r_j(c))을 추가하여 I_k⁺를 확장한다.

데이터 테이블 그룹 Ω=({K₁,K₂}, {R₁})에 대하여, 위의 알고리즘을 적용한 결과(즉, RScaling(K1,R1,\(L_{K_{2}}\))을 수행한 결과)는 Table 5와 같다.

Table 5. Extended context \(K_{1}^{+}=\left(G_{1}^{+}, M_{1}^{+}, I_{1}^{+}\right)\) based on relational attributes

CPTSCQ_2021_v26n9_13_t0005.png 이미지

이상에서 소개한 제반 정의들과 알고리즘 FCA 및 RScaling을 기반으로, 관계형 형식개념분석의 모든 과정 (Fig. 2(a))을 알고리즘 RCA로 정리하여 제안한다.

Algorithm RCA

알고리즘 RCA에서는, 입력으로 주어진 관계형 데이터 테이블 그룹 Ω=(K,R)의 데이터 테이블들의 집합 \(K=\left\{K_{i}\right\}_{i \in[1, n]}\)(단, K_i=(G_i,M_i,L_i))의 각 데이터 테이블에 대해서 형식개념분석기법을 적용하여 개념 계층구조를 구성한 후에(3~4라인), (5~10라인)의 과정을 반복하면서, 전 단계(p-1)에서 구성된 개념으로부터 도출된 관계 속성을 기반으로 데이터 테이블을 확장시키는 관계 정보 변환과정을 수행한 후(8라인)에 형식개념분석기법을 적용하여 새로운 개념 계층구조를 구성하는 작업(9라인)을 시행하면서 전후 단계(p-1,p단계)에서 구해지는 개념계층구조들이 동형(isomorphic), 즉, 데이터 테이블에 변화가 없는 동일한 상태가 되면 종료한다(10라인).

CPTSCQ_2021_v26n9_13_f0002.png 이미지

Fig. 2. Overview of Processing of RCA(a) and screenshots of RCA Wizard(b)

3. RCA Wizard

본 논문에서 제안한 알고리즘 RCA를 토대로 관계형 형식개념분석 지원도구 RCA Wizard를 개발하였다. RCA Wizard는 Eclipse IDE 2021-03 개발환경과 Java(14.0.2 버전) 기반으로 제작되었으며, 아래와 같은 기능들(메뉴들) 이 Fig. 2(b)와 같은 인터페이스 형태로 구성되어 있다.

● 파일

■ 관계형 데이터 테이블 불러오기

■ 저장하기

■ 다른 이름으로 저장하기

■ RCA 실행하기

■ 개념 계층구조 가시화하기

● 관계형 데이터 테이블 그룹

■ 객체x속성 테이블 불러오기

■ 데이터 테이블 추가/삭제

■ 관련관계 테이블 추가/삭제

■ 행/열의 추가/삭제

■ 행/열의 이름 변경

사용자는 “관계형 데이터 테이블 그룹” 메뉴의 각 서브 메뉴들을 사용하여 관계형 데이터 테이블 그룹을 입력(또는 편집)하고, “파일”메뉴의 “RCA 실행하기” 서브 메뉴를 선택하면 본 논문에서 제안한 RCA 알고리즘이 실행되어 개념 계층구조들이 생성된다. 이어서 “개념 계층구조 가시화하기” 서브메뉴를 실행하면 개념 계층구조가 가시화되어 화면에 표시된다.

Fig. 3은 앞서 살펴보았던 관계형 데이터테이블 그룹 Ω=({K₁,K₂}, {R₁})에 대하여 RCA Wizard를 이용하여 RCA(Ω)을 실행한 결과물(개념 계층구조들)이다. Fig. 3의 최종결과물(개념 계층구조도\(L_{K_1^+}^2\))의 주요 정점들은 다음과 같은 정보를 나타내고 있다.

● Concept_Students_13 : Microsoft의 SurfacePro 와 같은 랩탑과 태블릿 겸용 제품을 가지고 있는 학생들은 s1과 s4이다.

● Concept_Students_4: s4와 s3와 같은 여학생들을 나타내는 정점(개념)으로써, 이 학생들은 SurfacePro 와 MacBookAir와 같은 랩탑과 iMac과 같은 Apple 의 데스크톱을 가지고 있다.

● Concept_Students_5: s1과 s2와 같은 남자 신입생들을 나타내는 정점(개념)으로서, Apple의 휴대용 랩톱 MacBookAir를 소유하고 있다는 공통점이 있다. Concept_Students_12: iPad와 MacBookAir를 모두 가지고 있는 학생들은 s3와 s2이다.

● Concept_Students_10 : 학생 s3와 s5는 Apple의 휴대용 iPad와 데스크톱 iMac을 소유하고 있다는 공통점이 있다.

● Concept_Students_11 : s2와 s5는 남학생들로서, Apple의 휴대용 iPad를 소유하고 있다는 공통점이 있다.

● Concept_Students_16: MacBookAir와 같은 Apple 의 휴대용 랩탑을 가지고 있는 학생들은 s1, s2, s3이다.

● Concept_Students_14: iMac과 같은 Apple의 데스크톱을 가지고 있는 학생들은 s3, s4, s5이다.

CPTSCQ_2021_v26n9_13_f0003.png 이미지

Fig. 3. Results of RCA(Ω), where Ω=({K₁,K₂}, {R₁})

● Concept_Students_6: 휴대용 Apple기기를 가지고 있는 남학생그룹을 나타내는 정점으로써, 이 그룹에는 s1, s2, s5와 같은 학생들이 포함되어 있다.

● Concept_Students_15: iPad와 같은 Apple의 휴대용 태블릿을 가지고 있는 학생 그룹을 나타내는 정점으로써, 이 그룹에는 s3와 s5가 포함되어 있다.

● Concept_Students_18 : 휴대용 랩톱을 가지고 있는 학생 그룹을 나타내는 정점으로써, 이 그룹에는 s1, s2, s3, s4와 같은 학생들이 포함되어 있다.

● Concept_Students_17: 휴대용 Apple 제품을 소유한 학생 그룹을 나타내는 정점으로써, 이 학생 그룹은 다시 MacBookAir를 소유한 학생 그룹 (Concept_Students_16 : s1, s2, s3)과 iPad를 소유한 학생 그룹(Concept_Students_15 : s2, s3, s5), 그리고 남학생그룹(Concept_Students_6 : s1, s2, s5)으로 분류된다.

CPTSCQ_2021_v26n9_13_f0004.png 이미지

Fig. 4. Public Open Data of public parking lot of Seoul Facilities Corporation

IV. Experiments and Results

우리나라의 공공데이터포탈(www.data.go.kr)에서는 교육, 국토관리, 공공행정 등 총 16개 영역으로 분류하여 956 개 기관에서 38, 139개의 파일데이터와 6, 774개의 오픈 API 를 개방하고 있다. 본 연구에서는 관계형 형식개념분석기법 (RCA 알고리즘과 분석 지원 도구 RCA Wizard)의 유효성을 실증하기 위하여, 이러한 공공데이터 중에서 조회 수 2만 회를 넘고 있는 전국주차장 정보표준 데이터(2021.4.1.현재)²⁾를 대상으로 RCA Wizard를 이용하여 다음과 같은 실험들(Experiment 1, Experiment 2)을 실시하였다.

1. Experiment 1

1.1 Dataset

전국주차장정보표준데이터 중에서 “서울시설공단”에서 관리하는 137개소의 공영주차장 관련 데이터(Fig. 4)를 추출하여 주차장 유형(노상/노외)과 요금정보(유료/무료/혼합)와 같은 중요 속성들을 기반으로 Table 6과 같은 서울시설공단 공영주차장 데이터 테이블K₁을 구성하였다. 또한, 서울시 생활권 계획³⁾에서 공개하고 있는 권역생활권 구분자료(Table 7)를 토대로 25개의 객체와 5개의 속성을 갖는 서울시 권역생활권 데이터 테이블K₂(Table 8)를 구성하였다. 한편, 각 주차장의 소재지 지번 주소를 바탕으로, K₁의 각 주차장이 서울의 어떤 행정자치구에 자리 잡고 있는지를 나타내는 관련 관계(At⊆G₁×G₂)를 기반으로 관련관계 데이터테이블R_At을 구성하였다(Table 9).

Table 6. Formal context K₁of Fig. 5

CPTSCQ_2021_v26n9_13_t0006.png 이미지

Table 7. Division of living areas of Seoul Metropolitan Government

CPTSCQ_2021_v26n9_13_t0007.png 이미지

Table 8. Formal context K₂of Table 7

CPTSCQ_2021_v26n9_13_t0008.png 이미지

Table 9. Relational context R_At of relationships between parking lots and their locations

CPTSCQ_2021_v26n9_13_t0009.png 이미지

1.2 Experimental Process

위와 같은 데이터 테이블K₁, K₂, R_At에 대하여, K₁의 객체(서울시 공영주차장) 개수를 10개씩 증가시킨 단위로 총 14개의 데이터 테이블(\(K_{1}^{1}, K_{1}^{2}, \ldots, K_{1}^{14}\))을 구성하고, 각각에 대하여 RCA Wizard를 이용하여 관계형 데이터 테이블 그룹\(\Omega^{i}=\left(\left\{K_{1}^{i}, K_{2}\right\},\left\{R_{A t}\right\}\right)\)(단, i=1…14) 에 대한 관계형 형식개념분석 알고리즘 RCA(Ωⁱ)을 적용하는 실험을 총 14회 실시하였다.

1.3 Results

Fig. 5는 14회의 실험 결과물 중에서 일부분(실험1-1, 실험1-2, 실험1-3, 실험1-4)을 나타내고 있다⁴⁾. 각각의 개념 계층 구조도는 다양한 정보를 함의하고 있다. 예를 들어, Fig. 5의 실험1-1에 대한 실행 결과(\(L_{K_1}\) of Experiment 1-1)에서 가장 왼쪽에 있는 정점(Concept_ 공영주차장_4)은, 10개의 공영주차장 중에서 도심권(종로구, 중구, 용산구)에 있는 노상무료 공영주차장은 DDP 동 측(양쪽)과 DDP북측 마장로와 같은 2개소가 존재하고 있음을 나타내고 있다. 또한, 정점(Concept_공영주차장_11) 은, 10개의 공영주차장 중에서 서남권에 있는 노상 공영주차장을 나타내는 개념으로써, 개봉역(북), 가마산고가밑, 가산동 금천교, 개봉역(남단), 개봉역(중앙)과 같은 주차장들이 이에 해당한다는 사실을 나타내고 있다.

이어서, 20개의 공영주차장을 대상으로 실험을 수행한 결과(\(L_{K_1}\) of Experiment 1-2)에서는, 더욱 풍부한 정보를 갖는 개념들을 더 많이 발굴할 수 있다. 예를 들면, \(L_{K_1}\)of Experiment 1-2의 정점(Concept_공영주차장_4) 은 도심권(종로구, 중구, 용산구)에 있는 노상무료 공영주차장을 나타내고 있으며, 정점(Concept_공영주차장_13) 은 도심권(종로구, 중구, 용산구)에 있는 노상 유료 공영주차장을 나타내고 있다. 이처럼 실험 대상이 되는 데이터 테이블의 객체 개수가 증가할수록 실험 결과는 더욱 다양하고 풍부한 정보를 함의하게 되며, 더욱 세부적인 데이터 분류 및 계층화가 가능하다.

또한, 실험1-1~14의 결과로부터, 실험데이터(즉, K₁의 객체 집합 크기 : ∣G₁∣)가 증가함에 따라서, 관련 관계 At⊆G₁×G₂의 정의역에 해당하는 개념 계층구조\(L_{K_1}\)에서 발굴되는 개념들의 규모는 일정한 수에 수렴하고, 치역에 해당하는 개념 계층구조\(L_{K_2}\)의 개념들의 규모는 변화 없음을 알 수 있다(Fig. 6).

CPTSCQ_2021_v26n9_13_f0006.png 이미지

Fig. 6. Number of concepts in Experiment 1-1 to 1-14