Analyzing and Visualizing the Intellectual Structure of Data Science

Park, Hyoungjoo;

doi:10.5392/JKCA.2022.22.07.018

The Journal of the Korea Contents Association (한국콘텐츠학회논문지)

Volume 22 Issue 7
/
Pages.18-29
/
2022
/
1598-4877(pISSN)
/
2508-6723(eISSN)

The Korea Contents Association (한국콘텐츠학회)

DOI QR Code

Analyzing and Visualizing the Intellectual Structure of Data Science

데이터사이언스 연구의 지적 구조 분석 및 시각화

Park, Hyoungjoo

박형주 (충남대학교 문헌정보학과)

Received : 2022.06.08
Accepted : 2022.07.11
Published : 2022.07.28

https://doi.org/10.5392/JKCA.2022.22.07.018 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

The purpose of this exploratory study is to examine the intellectual structure of data science. For this purpose, this research examined a total of 17,997 bibliographies on data science indexed in Web of Science(WoS) of Clarivate Analytics from 2012 to 2021. This research applied methods such as descriptive analysis, citation analysis, co-author network analysis, co-occurrence network analysis, bibliographic coupling analysis, and co-citation analysis. This research contributes to finding the research directions of future data science topics.

본 탐색적 연구의 목적은 데이터사이언스 관련 논문의 연구 동향을 분석하는 것이다. 본 연구는 Clarivate Analytics사의 Web of Science(WoS)에 색인된 데이터사이언스 관련 논문을 분석의 대상으로 했다. 2012년부터 2021년까지 WoS에 색인된 데이터사이언스 관련 논문 총 17,997편을 분석했다. 데이터사이언스 연구의 지적 구조를 집중 분석하기 위해 기술 분석, 인용 분석, 공동 저자 네트워크 분석, 동시 출현 네트워크 분석, 서지 결합 분석, 동시 인용 분석을 수행했다. 본 연구의 결과는 향후 데이터사이언스 관련 연구의 방향성 모색에 유용하게 사용될 수 있다.

Keywords

Ⅰ. 서론

1. 연구의 필요성과 목적

데이터사이언스는 정보화 시대의 패러다임이 하드웨어에서 소프트웨어로 이동하고 이후 데이터로 이동함에 따라 빅데이터 사회의 도래[1]와 함께 부상했다. 데이터사이언스라는 용어는 데이터의 중요성의 부각과 함께 빅데이터를 포함한 데이터에 대한 포괄적인 분야로 논의되고 있다[2]. 데이터사이언스는 컴퓨터 공학, 통계학, 정보학 등의 여러 학문이 빅데이터를 활용해 머신 러닝, 데이터 마이닝, 확률 모형 등을 활용해서 분석된 정보를 현실적 문제를 해결하는 데 적용하는 접근이다[3]. 맥킨지 보고서는 2018년까지 미국에서만 약 14만명에서 19만명의 데이터사이언스 관련 전문가가 부족할 것이며, 미국에서만 150만명의 데이터 전문 관리자가 필요하다고 했다[4]. 데이터사이언티스트는 2022년 미국 최고의 직업 3위를 차지했고, 유사 직군인 머신 러닝 엔지니어는 6위, 데이터 엔지니어는 7위를 차지했다[5]. 데이터사이언스가 빅 데이터로부터 의미 있는 정보 혹은 패턴을 추출하는 것이라 전제한다면, 역동적으로 변화하고 있는 데이터 경제에서 데이터사이언스 관련 논문의 시의 적절한 연구 동향을 살펴볼 필요가 있다.

지적 구조 분석은 학문 분야에서 수행 중인 연구 현황, 동향, 흐름을 요약하고 제시할 수 있는 장점이 있다. 연구자들은 다양한 계량 정보학 방법을 통해 특정 학문분야의 지적 구조와 내용을 파악해 왔으며, 연구 결과를 해당 분야의 발전 방향과 주요 내용으로 제시할 수 있다. 인용 분석의 기본 가정은 연구자가 본인의 연구에 필요한 논문에 대해 가장 적합하다고 판단한 기존의 논문, 즉 선행 연구의 참고 행위로 볼수 있다. 인용분석을 통해 해당 분야의 지적 구조 파악이 가능하므로 특정 분야의 연구자들의 연구 활동 경향성을 살펴볼 수 있으며, 그 집단의 학술 활동 형태, 구조 분석, 학술지와 발행 기관의 평가를 도와준다. 특히, 개인의 연구 결과, 주제 영역, 저자 생산성 분포 정도, 학술 생산성, 학술커뮤니케이션 등도 확인할 수 있도록 도와준다[6]. 키워드를 기반으로 한 네트워크 분석은, 텍스트에서 주요한 의미를 갖고 있는 단어 추출을 가능하게 하고, 언어의 맥락 내에서 이들 간의 연결 관계를 파악하게 하며, 네트워크 시각화를 재구조화해서 다양한 특성을 분석할 수 있게 하는 기법이다[7]. 본 연구는 공동 저자 네트워크 분석, 동시 출현 네트워크 분석, 서지 결합 분석, 동시인용 분석 등 다양한 계량 정보학 분석 기법을 활용해 데이터사이언스 연구의 지적 구조를 이해하고자 했다.

2. 연구 문제

연구의 필요성 및 목적에서 확인한 내용을 바탕으로 설정한 연구 문제는 다음과 같다.

첫째, 데이터사이언스 관련 논문의 공동 연구 현황은 어떠한가?

둘째, 데이터사이언스 관련 논문 키워드의 동시 출현현황은 어떠한가?

셋째, 데이터사이언스 관련 논문의 서지 결합은 어떠 한가?

넷째, 데이터사이언스 관련 논문의 동시 인용 현황은 어떠한가?

Ⅱ. 이론적 논의

인용 분석은 해당 분야의 지적 구조를 연구자들의 연구활동 경향성의 계량적 지표를 통해 발견하도록 도와준다. 인용은 연구자가 자신의 연구에 필요한 논문에 대해 가장 중요하다고 판단한 논문을 참고하는 것을 전제로 한다. 즉, 인용은 관련 연구의 성과물의 활용을 통해서 기존의 지식 정보를 전달하고 새로운 지식 정보를 생성하는 데 도움을 준다. 동시 인용 분석은 논문에 함께 인용이 되었으나, 육안으로는 쉽게 보이지 않는 영역들을 발견할 수 있게 한다. 동시 인용 링크를 통해 서로 연결된 피인용 네트워크를 확인할 수 있기 때문이다. White, Griffith에 의해 처음 소개된 저자 동시 인용 분석 기법[8]은, 동시 인용이 제3의 저자에 의해 두명의 저자가 동시에 인용된 경우 발생했음을 의미한다 [9]. 이는 두 명의 저자가 특정 논문에 인용된 횟수가 빈번할수록, 이 두 명의 저자가 연구하는 주제 분야가 더욱 밀접한 관계임을 전제로 한다. 김희전과 조현양은 저자명을 분석 대상으로 하는 저자 동시 인용 분석의 장점은, 저자가 특정 주제를 포괄적으로 나타낸다는 특성을 이용하기 때문에, 연구자가 해당 분야에 대한 전문지식을 갖고 있지 않아도 분석이 가능하다고 했다[9].

서지 결합 분석은 후속 문헌이 특정 선행 문헌을 동시에 인용하는 관계이다. 즉, 문헌 단위의 서지 결합 정도를 활용하여 문헌 간의 관계를 분석하는 기법이다. 서지 결합의 가정은 선행 문헌 A를 후속 문헌인 B와 C 가 동시에 인용한 경우, 후속 문헌인 B와 C는 서로 주제적으로 연관되어 있다는 것이다. 즉, 선행 문헌을 후속문헌이 공통으로 인용하는 문헌이 많을수록, 후속문헌은 주제적으로 밀접할 개연성이 높음을 의미한다[10].

네트워크는 용어들 간의 관계를 나타내며, 해당 주제분야의 지적 구조 분석에 도움을 준다. 네트워크 분석에서 연결 중심성(degree centrality)은 다양한 개념과의 관련성을 가지고 있다[11]. 밀도(density)는 네트워크 내에서 연결이 가능한 총 링크의 수와 실제로 맺어진 링크 수의 비율이다. 밀도가 높다는 것은, 네트워크 내에서 노드 간 연결이 많은 것을 의미하는데, 즉 텍스트 단어들 사이의 연관성이 높다는 것을 의미한다. 빈도(frequency)는 노드 들의 동시 출현 횟수를 계산한 값이다. 빈도가 높다는 것은 다수의 논문에 동시에 등장한 핵심어이거나, 특정 시기에 저자들이 공통적으로 중요하게 여겼던 연구 대상으로 해석이 가능하다. 중심성(centrality)은 노드가 네트워크의 중심 구조에 위치하는 정도를 나타내는 값을 의미한다. 즉, 중심성은 네트워크 내 각 노드가 갖는 상대적 중요성을 나타내는 지표이다. 연결 중심성(degree centrality)은 연결되어있는 이웃 노드 들의 총 개수이다. 연결 중심성이 높은 단어는, 연구 논의의 중심일 가능성이 크다는 것을 의미한다. 근접 중심성(closeness centrality)은 한 노드가 네트워크 내에서 모든 노드들과 연결되기 위해서 몇 단계를 거쳐야 하는 지를 나타내는 지표이다[12]. 매개 중심성(between centrality)은 한 노드가 네트워크 내에서 중개적 역할을 수행하는 정도를 나타내는 지표이다[13]. 매개 중심성이 높다는 것은 전체 네트워크 속에서의 중개자적 위치에서 다른 키워드들의 이음 역할을 하고 있음을 뜻한다.

키워드 네트워크 분석은 의미 네트워크 분석 방법 (semantic network analysis)으로 연구의 제목 또는 초록에 등장하는 키워드와 키워드 간의 관계를 링크(link)인 연결 관계와 노드(node)인 개체 간의 관계로 구성되는 네트워크에 기반해 해석을 한다. 키워드 네트워크 분석을 시각화 함으로써, 키워드 간 관련성 혹은 유사성 등을 보다 직관적으로 파악할 수 있다는 점은, 연구 대상인 학문의 지식 구조를 표현하는 데 유용하다 [14]. 즉, 키워드 네트워크 분석은 연구의 주요 키워드 10000 연결 구조를 탐색하는 것이다.

동시 출현 단어 분석은 논문의 집합에 나타난 키워드혹은 분류 코드 등이 동시에 출현하는 빈도를 이용해 주제 분야의 영역을 분석하는 기법이다. 네트워크의 군집화를 통해 세부 주제 영역을 살펴보는 데 도움을 준다. 논문에서 두 키워드가 동시에 출현했을 때, 두 키워드가 표현하는 연구 주제가 서로 관련이 있다고 본다 [15]. 즉, 다양한 분야의 주제 영역의 경향과 시기에 따른 변화를 파악할 수 있다. 동시 출현 단어 분석을 판단하는 텍스트의 범위는 문자열, 텍스트 전체, 문장, 문단 등으로 다양하다. 초창기의 동시 출현 단어 분석은 통제 어휘인 주제 명 표목 및 디스크립터 등을 사용한 경우가 일반적이었다[16]. 이 후, 자연어인 제목 및 초록 등에 나타난 동시 출현 단어 분석 연구가 수행되었다 [17]. 또한, 동시 출현 단어 분석에 네트워크 기법을 적용한 주제 영역 및 학술 연구 동향 분석이 수행되었다 [18]. 동시 출현 단어 분석의 전제는, 동시에 출현하는 단어는 해당되는 범위의 텍스트에서 특정한 의미를나타내는 주제를 표현하기 위해 함께 사용하는 것이므로 주제적으로 유사한 의미라고 판단하는 것이다. 예를 들어, 문장을 범위로 설정한 경우, 한 문장 안에서 두개 이상의 키워드들이 함께 사용되면 이 키워드들이 해당 문장 내에서 주제적으로 서로 밀접한 관계라는 것을 의미한다. 동시 출현 단어 분석과 빈도 수의 파악은 수작업으로는 쉽지 않은 일이므로, 관련된 분석 도구를 활용하는 경우가 많다. 분석 도구에는 VOSviewer, Sci2, Paiek, NetMiner 등이 있다.

지적 구조는 학제성, 연구 동향, 세부 주제 영역을 이해할 수 있도록 하며, 해당 연구는 꾸준히 진행되어 왔다. 하지만, 데이터사이언스와 관련된 연구의 지적 구조분석은 상대적으로 초기 단계에 있다. 김현정[19)은 데이터사이언스와 관련된 연구가 주로 이루어지는 학문분야를 기준으로 계량 정보학 연구를 수행했다. 김현정은 데이터사이언스 연구는 지난 10년간 지속적으로 증가해왔으며, 컴퓨터 공학 분야에서 가장 많은 연구를 수행해 왔고, 정보학에서도 다수의 연구가 진행되고 있다고 했다.

Ⅲ. 연구 방법

본 논문에 사용된 데이터는 Clarivate Analytics사의 WoS의 핵심 컬렉션에 수록된 논문을 대상으로 전체 검색을 통해 수집됐다. WoS의 질의어는 "data science"로 따옴표를 사용하여 정확히 "데이터사이언스"와 일치하는 구문 만을 검색했다. 데이터사이언스는 비교적 새롭게 등장한 주제이기에 문서 유형은 학술지 논문(journal article)과 학술발표대회 논문(conference proceedings)을 모두 분석의 대상으로 삼았다. 학술발표대회 논문을 포함한 이유는, 학술지의 심사 기간이 상대적으로 긴 데 비해 학술발표대회 논문의 심사 기간이 상대적으로 짧으므로, 빠르게 변화하는 데이터사이언스의 트렌드를 읽기 위해서는 학술발표대회 논문의 분석이 함께 필요했기 때문이다. 언어 분석의 정확성과 통일성을 높이기 위해 언어는 "영어"로 한정했다. 자료는 2012년 1월부터, 2021년 12월까지 최근 10년간의 자료를 대상으로 했다. 컷오프 년도(cut-off year)를 2012년으로 설정한 이유는 [그림 1]에서 보듯이 구글트렌드[20]에서의 데이터사이언스 단어의 출현 빈도가 성장하기 시작한 년도이기 때문이다.

그림 1. 구글 트렌드의 데이터사이언스 단어의 출현 빈도

[표 1]은 데이터사이언스와 관련된 논문의 출판 년도별 분포에서, 분석에 사용된 데이터를 구체적으로 보여준다. 총 17,997건의 자료가 분석의 대상이 되었으며, 문서 유형은 논문 7,770건, 학술발표대회 논문 10,227 건이었다. 데이터사이언스 관련의 논문은 2013년까지는 100편 미만이었지만, 이후 양적으로 크게 성장해 왔다.

표 1. 데이터사이언스 관련 논문의 출판 년도 별 분포

[표 2]는 분석의 대상이 되었던 WoS의 메타데이터에 대한 설명을 보여준다[21]. 수집된 자료의 메타데이터에는 17,997개의 논문에 대한 메타데이터가 포함되어 있었으며, 본 연구를 위해서 국가 명, 기관 명, 제목, 논문유형, 발행 년도 저자 명, 주제 분야, 참고 문헌, 출판년도 통제 키워드 피인용 횟수를 추출했다.

표 2. WoS 메타데이터

수집된 데이터는 전처리 과정을 수동으로 거쳤다. 이유는 동일한 의미를 지녔지만, 다르게 사용되고 있는 데이터를 일치시키기 위해서였다. 영어는 Machine Learning'과 'machine learning'과 같은 대문자, 소문자는 표기 방식에 따라 다른 키워드로 인식될 수 있기에, machine learning'와 같이 모두 소문자로 변환했다. Scientific data infrastructure (dsi)'와 같이 원괄호 안에 동일한 용어를 약어로 표시한 경우, scientific data infrastructure'로 원괄호 안의 용어를 삭제했다. the internet of things' 등의 단어는 'the'를 제거해 'internet of things'로 통일시켰다. 특수 기호를 변경시켰는데, 'big data analytics & platform'의 경우 &를 and로 변경시켰다. 하이픈(-)으로 구분된 용어를 모두 동일한 용어로 바꾸어 주기 위해서 'large-scale'의 경우 ~을 제거해 ·large scale 등으로 변경하는 과정을 거쳤다 또한, SQL와 같은 축약어의 경우, structured query language의 정식 명칭으로 변환 후 소문자로 통일시켰다. 기관명과 저널명은 WoS의 분류를 따랐다. 불용어 처리는 VOSviewer 에서 제공하는 불용어 리스트가 활용됐다.

분석을 위해 마이크로소프트 엑셀과 VOSviewer 1.6.18 버전[22]을 활용하여 기술 분석, 인용 분석, 공동 저자 네트워크 분석, 동시 출현 네트워크 분석, 서지결합 분석, 동시 인용 분석을 수행했다. 데이터사이언스 관련 연구들의 핵심 주제 및 지식 구조를 파악하기 위해 논문 별 통제 키워드(keyword plus)의 동시 출현네트워크 분석을 실시했다. 통제 키워드를 사용한 이유는시스템이 부여한 통제 키워드가 논문 내용을 깊이있고 다양하게 포착할 수 있기 때문이다[23]. 네트워크분석은 논문의 주제 및 핵심을 나타내는 키워드 간의 관계를 통해 연구의 동향을 파악하고 연구 대상의 특징 도출과 연구 분야 간의 연관성 이해에 효과적이다. 본 연구에서는 전체 키워드를 분석 대상으로 하지 않았는데, 전체 키워드를 분석 대상으로 할 경우 키워드가 너무 많아지므로 지식 네트워크의 구조와 형태 확인이 쉽지 않고, 그에 따른 분석의 의미도 찾기 어려워지거나 왜곡될 수 있기 때문에 네트워크 시각화의 가시적 효과를 위해서였다.

IV. 연구 결과

1. 기술 분석

[표 3]은 데이터사이언스 분야 논문의 수에 따른 상위 10위의 WoS 주제 범주(subject category)를 보여 준다. 데이터사이언스 연구 동향을 보다 세부적으로 살펴보기 위해, 주제 범주로 논문을 분석했다. Clarivate Analytics사는 WoS의 주제 범주를 총 252개로 분류해놓고 있다[24]. 데이터사이언스 관련 연구의 WoS 주제 범주를 기준으로 한 상위 10위는 모두 과학, 기술, 엔지니어링, 수학(Science, Technology, Engineering, Mathematics: STEM) 분야임을 확인했다. 가장 많은논문이 속한 WoS 주제 범주는 컴퓨터 과학(computer science)이었다.

표 3. 데이터사이언스 관련 논문의 상위 10개 WoS 주제

[표 4]는 데이터사이언스 관련 논문의 상위 10개 기관, 기관이 속한 국가, 논문 수, 백분율을 보여준다. 데이터사이언스 관련 논문의 기관이 출판사가 아닌 대학교 명이 대부분인 이유는, 학회는 대학교가 주관하는 경우가 많기 때문으로 해석될 수 있다. 기관이 속한 국가는 인도가 두드러졌다.

표 4. 데이터사이언스 관련 논문의 빈도수 상위 10위 기관

[표 5]와 [표 6]은 데이터사이언스 관련 학술지 논문과 학술발표대회 논문의 상위 10개 논문의 빈도를 보여준다. 학술발표대회 논문은 총 10,227건, 학술지 논문은 총 7,770 건으로 총 17,997건이 분석되었다. 학술지의 경우 EPJ Data Science, International Journal of Data Science and Analytics가 각각 1순위와 2순위를 차지했는데, 공통점은 학술지 명에 data science가 있다는 점이었다. 또한, 특정 학문 분야에 특화된 학술지명을 가진 경우, 상위에 랭크되었다. 구체적으로 수학 분야, 천문 물리학 분야, 엔지니어링, 통계분야의 학술지였다. 예를 들어, 학술지 제목에 특정 학문 분야가 명시된 수학 분야 학술지인 SIAM Journal on Mathematics of Data Science가 3위, 천문 물리분야 학술지인 Astrophysical Journal이 5위, Monthly Notices of the Royal Astronomical Society가 10위를 차지했으며, 엔지니어링 분야의 Data Science and Engineering 학술지가 6위를 차지했고, 통계 분야 학술지인 Japanese Journal of Statistics and Data Science가 7위를 차지했다. 학술발표대회지의 경우, IEEE가 차지하는 비중이 컸다. 구체적으로 IEEE가 데이터사이언스 관련 분야의 1위(537회, 5.25%), 2위(459회, 4.49%), 3위(334회, 3.27%), 5위(287회, 2.81%), 7위(209회, 2.04%)를 지했다.

표 5. 데이터사이언스 관련 논문의 빈도수 상위 10위:학술지 논문

표 6. 데이터사이언스 관련 논문의 빈도수 상위 10위: 학술발표대회 논문

2. 인용 분석 (citation analysis)

[표 7]과 [표 8]은 데이터사이언스 관련 논문의 종류에 따른 연도별 비교를 통해서 논문 수, 인용 수, 논문별 인용 수를 비교한 표이다. 데이터사이언스 관련 논문은 학술발표대회 논문(10,227건)이 학술지 논문(7,770건)보다 많았다. 이는 데이터사이언스 분야가 역동적으로 변화하는 분야이기 때문으로 해석될 수 있는 데, 일반적으로 논문의 심사 기간이 학술발표대회 논문의 심사 기간보다 길게 소요되기 때문이다. 또한, 데이터사이언스 관련 학술발표대회의 수가 학술지보다 많기 때문으로 해석될 수 있다. 데이터사이언스 관련 논문의 연도별 논문의 숫자는 꾸준히 증가했지만, 인용빈도는 2021년도에 현저히 낮아졌다. 학술발표대회 논문의 경우, 연도별 논문의 개수는 꾸준히 증가하다가2016년을 기점으로 현저히 낮아졌으며, 인용 수 또한 꾸준히 증가한 것은 아니었다. 논문 별 인용 수는 2021 년의 인용 빈도가 학술지 논문(0.4783) 및 학술발표대회 논문(1.0000)에서 모두 가장 높았다. 요약하면, 데이터사이언스 관련 논문의 출판은 매년 증가하고 있지만, 논문 별 인용 수는 대체로 일관성이 없었다. 학술발표대회 논문의 경우, 논문 수와 논문 별 인용 수 모두 대체로 일관성이 없었다.

표 7. 데이터사이언스 관련 논문의 인용 현황: 학술지 논문

표 8. 데이터사이언스 관련 논문의 인용 현황:학술발표대회 논문

3. 공동 저자 분석 (co-author analysis)

[표 9]와 [표 10]은 공동 저자 협력 네트워크를 국가별, 조직 별로 분석한 상위 10위의 결과이다. 총 235개 국가와 총 10,548개 기관이 분석되었다. 국가 별 공동저자 네트워크는 중국을 제외하면 모두 북미와 유럽국가였으며, 기관 별 공동 저자 네트워크는 대부분이 미국에 소재한 기관이었다. 기관의 경우, 미국 항공 우주국(9위)을 제외한 기관은 모두 대학교였다.

표 9. 데이터사이언스 관련 논문의 공동 저자 분석: 국가 별 분석

표 10. 데이터사이언스 관련 논문의 공동 저자 분석: 기관 별 분석

4. 동시출현 단어 분석 (co-occurence analysis)

전체 네트워크를 시각화 한 지도에서 각 노드는 키워드를 나타내며, 노드의 크기가 클수록 해당 키워드와 연결된 다른 키워드가 많은 것을 의미한다. 링크는 동시에 등장한 키워드를 의미하는 것으로 두께가 굵을수록 두 키워드가 하나의 논문에 등장하는 경우가 많음을 확인할 수 있었다. 키워드 집단 별 색상은 군집성의 지표인 모듈성[25]으로 설정했다. 자주 등장하는 키워드들의 연관성을 구조화해서 데이터사이언스 연구를 전체적으로 집약하여 살펴보았다. 논문 내 함께 등장하는 경우가 많은 경우, 유사도가 높은 키워드들끼리 서로 가깝게 위치하여 하위 주제를 이루고 있다는 가정에 기반해 살펴보았다.

4.1 동시 출현 단어 분석: 논문의 제목을 기준으로

[그림 2]는 데이터사이언스 관련 논문의 제목(title)을 기준으로 한 동시 출현 네트워크 분석을 보여준다. 총 36,703개의 용어 중, 최소 출현 횟수가 50회인 키워드 64개가 분석되었다. 붉은색의 군집 1의 주요 주제는 데이터사이언스의 방법론에 대한 군집이었으며, 구체적으로 분류(classification), 신경망(neural network), 예측(prediction), 특징 추출(feature extraction), 딥러닝(deep learning) 등이었다. 녹색의 군집 2의 주요 주제는 데이터사이언스 분석 방법의 효과성에 대한 군집이었는데, 구체적으로 연구(study), 데이터사이언스 접근(data science approach), 영향(effect), 임팩트 (impact) 등이었다. 파란색의 군집 3의주요 구정규의안과 소셜 미디어 이용에 대한 내용이었으며, 구체적으로 프라이버시(privacy), 소셜 네트워크(social network), 이용자(user) 등이었다. 연두색의 군집 4의 주요주제는 데이터사이언스의 기회와 도전과제 등에 대한 군집이었는데, 구체적으로 데이터사이언스(data science), 기회(opportunity), 도전(challenge), 역할(role) 등이었다.

그림 2. 데이터사이언스 관련 논문의 제목을 기준으로 분석한 동시 출현 네트워크 시각화

4.2 동시 출현 단어 분석: 통제 키워드를 기준으로

[그림 3]은 데이터사이언스 관련 논문의 통제 키워드 (keyword plus)를 기준으로 한 동시 출현 네트워크 분석을 보여준다. 데이터사이언스 관련 논문의 38,348개 통제 키워드 중, 통제 키워드의 최소 출현 횟수가 50회인 키워드 337개의 군집을 분석했다. 총 6개의 군집에서 150개의 용어를 발견했다. 군집 1이 키워드의 수가 가장 많았지만, 키워드 별 출현 빈도수가 가장 많은 군집은 데이터사이언스(dataa science)와 빅데이터(big data)가 있는 군집 3과 머신 러닝(machine learning) 이 있는 군집 2였다. 붉은색의 군집 1의 주요 주제는 의료 분야와 관련된 군집이었으며, 코로나 19(covid-19), 암(cancer), 질병(disease), 바이오 정보학(bioinformatics) 등이 있었다. 녹색의 군집 2의주요 주제는 데이터사이언스 방법론이었으며, 머신 러 닝(machine learning), 딥러닝(deep learning), 분류 (classification), 알고리즘(algorithm), 신경망(neural network), 서포트 벡터 머신(support vector machine) 등이 있었다. 파란색의 군집 3의 주요 주제는 데이터사이언스 분석을 통한 패턴과 미래 예측에 대한 군집이었으며, 데이터사이언스(dataa science), 빅데이터(big data), 영향(impact), 미래(future) 등이 있었 다. 노란색의 군집 4의 주요 주제는 보안과 소셜 미디어에 대한 키워드의 군집이었으며, 보안(security), 인 증(authentication), 프라이버시(privacy), social media(소셜 미디어), 트위터(Twitter) 등이 있었다. 보라색의 군집 5의 주요 주제는 컴퓨터와 데이터 분석 및 시각화에 대한 내용이었으며, 파이썬(python), 소프트웨어(software), 데이터 분석(data analysis), 데이터 시각화(data visualization) 등이 있었다. 하늘색의 군집 6은 인공 지능(artificial intelligen.ce)이라는 하나의 키워드로만 군집이 이루어져 있었다. 즉, 인공 지능주제는 데이터사이언스 논문에서 별도의 주제로 연구되고 있었다.

그림 3. 데이터사이언스 관련 논문의 통제 키워드를 기준으로 분석한 동시 출현 네트워크 시각화

5. 서지 결합 분석 (bibliographic coupling analysis)

데이터사이언스 관련 논문을 대상으로 서지 결합분석을 하였으며, 분석의 단위는 국가, 기관, 학술지 및 학 술발표대회지, 저자였다.

5.1 데이터사이언스 관련 논문의 서지 결합 분석: 국가를 기준으로

[그림 4]는 데이터사이언스 관련 논문의 국가(country)를 기준으로 한 서지 결합 분석의 결과이다. 상위 5위 국가는 미국, 중국, 영국, 독일, 프랑스였다. 공동 연구가 활발한 국가는 파란색 군집의 미국-영국- 프랑스, 하늘색 군집의 중국-독일-싱가포르, 붉은색 군집의 인도-말레이시아·독일-호주 등이었다. 국가별 서지 결합에서 논문의 수가 가장 많은 상위 3위는 국가는 미국(5,812회), 중국(3,419회), 인도(2,143회)였으며, 인용이 가장 많은 국가 상위 3위는 미국(68,651회), 중국(22,499회), 영국(16.428회)이었다.

그림 4. 데이터사이언스 관련 논문의 국가를 기준으로 분석한 서지 결합 네트워크

5.2 데이터사이언스 관련 논문의 서지 결합 분석: 기관을 기준으로

[그림 5]는 데이터사이언스 관련 논문을 기관(organization)을 기준으로 서지 결합 분석을 실시한 결과이다. 총 10,548개의 기관 중, 기관의 수가 최저 5개인 1,419개의 조직이 분석되었다. 총 링크 강도가 강한 기관의 상위 3위는 워싱턴 대학교, 캘리포니아 대학교-버클리, 캘리포니아 공과 대학교였다. 논문이 가장 많은 기관 상위 3위는 중국 과학원(526회), 스탠포드 대학교(290회), 워싱턴 대학교(284회)였으며, 인용이 가장 많은 기관 상위 3위는 스탠포드 대학교(총 10,113회), 뉴욕 대학교(총 5,243회), 캘리포니아 대학교-버클리(총 5,127회)였다. 요약하면, 저자들의 소속기관은 미국에 소재한 대학이 상위에 랭크되어 있었다.

그림 5. 데이터사이언스 관련 논문의 기관을 기준으로 한 서지 결합 네트워크

5.3 데이터사이언스 관련 논문의 서지 결합 분석: 학술지 및 학술발표대회지 별 분석

[그림 6]은 데이터사이언스 관련 학술지 및 학술발표대회지를 기준으로 분석한 서지 결합 네트워크를 보여준다. 총 3,897개의 학술지 및 학술발표대회지 중에서, 최소 5개 이상의 논문이 있는 503개의 학술지 및 학술발표대회지가 분석되었다. 문서의 수가 가장 많은 학술지 및 학술발표대회 논문 상위 3위는 IEEE Trustcom/Bigdat:ase/ISPA, IEEE International Conference on Data Science and Advanced Analytics와 International Conference on Cloud Computing, Data Science & Engineering 순이었다. 인용 수가 가장 많은 학술지 및 학술발표대회지 상위 3위는 EPJ Data Science, Proceedings of the ACM Sigkddintfernational Conference on Knowledge Discovery, Astrophysical Journal 순이었다.

그림 6. 데이터사이언스 관련 논문의 학술지 및 학술발표대회지를 기준으로 한 서지 결합 네트워크

5.4 데이터사이언스 관련 논문의 서지 결합 분석: 저 자를 기준으로

[그림 7]은 데이터사이언스 관련 논문의 저자(author)를 기준으로 서지 결합 분석을 한 결과이다. 총 53,225명의 저자 중, 문서 당 최소 저자의 수가 5명인 1,076명의 저자가 분석되었다. 그림에서 보듯이 대부분의 저자는 Yuesheng Zhu를 위주로 응집성이 높았으나, Wu-chien Chien과 Shao-mei Huang은 별도 연구를 하고 있음을 확인했다. 총문서 수를 기준으로 한 상위 3명의 저자는 Yuesheng Zhu, Maarten de Rijke, Jure Leskovec이었다. 총 인용 수를 기준으로 한 상위 3위 저자는 Jure Leskovec, Aditya Grover, Jiebo Luo순이었다.

그림 7. 데이터사이언스 관련 논문의 저자를 기준으로 한 서지 결합 네트워크

6. 동시 인용 분석 (co-citation analysis)

6.1 동시 인용 분석: 피인용된 참고 문헌을 기준으로

[그림 8]은 데이터사이언스 관련 논문이 피인용된 참고 문헌(cited references)을 기준으로 분석한 동시 인용 결과이다. 총 462,233의 참고 문헌 중에서, 피인용된 참고 문헌의 인용이 최소 20회인 649건이 분석되었다. 제목이 없는 논문(no title captured)이 1위를 차지했으나, 해석에서는 제외됐다. 이는 WoS의 한계로 보인다. 제목이 없는 논문을 제외하면, 인용수 상위 3 위 논문은 Pedregosa et al.(1,469)회, Breiman(473 회), Hochreiter & Schmidhuber(435회)였다. 요약하면, 각 논문 별로 뚜렷한 피인용이 발견되었다.

그림 8. 데이터사이언스 관련 논문의 피인용된 참고 문헌을 기준으로 한 동시 인용 분석 네트워크

6.2 동시 인용 분석: 피인용된 학술지와 학술발표대 회지를 기준으로

[그림 9]는 데이터사이언스 관련 논문이 피인용된 학술지 또는 학술발표대회지를 기준으로 분석한 동시 인용 분석의 결과이다. 총 134,792개의 학술지 혹은 학술발표대회 논문 중, 최소 20회 이상의 인용이 있는 3,612건을 분석했다. 총 링크 강도를 기준으로 한 상위 3위는 The Astrophysical Journal, Monthly Notice of the Royal Astronomical Society, Nature였다. 인용을 기준으로 한 상위 3위는 Lecture Notes in Computer Science, The Astrophysical Journal, Nature였다. 특히, 피인용 횟수가 상위 5회 이상인 학술지 또는 학술발표대회지에서 과학 분야의 특정 학문분야인 천문학 관련 저널이 1위(The Astrophysical Journal), 2위(Monthly Notices of the Royal Astronomical Society), 4위(Astronomy & Astrophysics)를 차지했다. 상위 3위와 5위는 과학의 전 분야를 다루는 저명한 저널인 Nature와 Science였다.

그림 9. 데이터사이언스 관련 논문의 피인용된 학술지와 학술발표대회지를 기준으로 한 동시 인용 분석 네트워크

6.3 동시 인용 분석: 피인용된 저자를 기준으로

[그림 10]은 데이터사이언스 관련 논문이 피인용된 저자(cited authors)를 기준으로 분석한 동시 인용의 결과를 보여준다. 총 251,245명의 저자 중, 저자의 인용 수가 최소 20회인 2,778명의 저자를 분석했다. 인용 수에 따른 상위 3위 저자는 Breiman, Lecun, Pedregosa 순이었다.

그림 10. 데이터사이언스 관련 논문의 피인용된 저자를 기준으로 한 동시 인용 분석 네트워크

Ⅴ. 결론

본 연구는, 데이터사이언스의 연구 동향을 이해하기 위해서 2012년부터 2021년까지 WoS 핵심 컬랙션에 수록된 자료 중, 데이터사이언스 관련 논문 총 17,997 건을 수집해서 분석했다. 기술 분석, 인용 분석, 공동구자 네트워크 분석, 동시 출현 네트워크 분석, 서지 결합 분석, 동시 인용 분석을 수행했다.

분석의 결과는 다음과 같다. 첫째, 기술 분석 결과, 데이터사이언스 관련 논문의 WoS 주제 범주를 기준으로한 상위 10위 주제 범주는 모두 STEM 분야였다. 학술지의 경우, 수학, 천문 물리학, 엔지니어링, 통계 등 특정 학문 분야에 특화된 경우에 상위를 차지했다. 학술발표대회지의 경우, IEEE 학술발표대회지가 상위를 차지하는 비중이 높았다. 둘째, 인용 분석 결과, 데이터사이언스 관련 논문의 출판이 매년 증가함에도 불구하고, 인용 수는 대체로 일관성이 없었다. 데이터사이언스 관련 학술발표대회지의 경우, 논문의 증가 수와 인용 수모두 일관성이 없었다. 셋째, 공동 저자 네트워크 분석 결과, 국가 별 공동 저자 네트워크에서는 상위 10위를 차지한 국가는 중국을 제외하고는 모두 북미와 유럽 국가였다. 기관별 공동 저자 네트워크 분석 결과, 상위 10 위를 차지한 기관은 중국의 중국 과학원을 제외한 상위9개의 기관은 모두 미국에 소재한 기관이었으며, 대부분 대학교였다. 넷째, 동시 출현 네트워크 분석 결과, 논문의 제목을 기준으로 한 동시 출현 네트워크는 4개의 군집으로 나누어졌으며, 각 군집의 주요 주제는 방법론, 사회적 역할, 보안 및 소셜 미디어 이용, 기회와 도전 과제였다. 논문의 통제 키워드를 기준으로 한 동시 출현 네트워크는 6개의 군집으로 나누어졌고, 각 군집의 주요 주제는 의료, 방법론, 패턴 및 미래 예측, 보안과 소셜 미디어, 컴퓨터와 데이터 분석 및 시각화, 인공 지능이었다. 다섯째, 서지 결합 분석 결과, 국가를 기준으로 한서지 결합 분석에서 상위를 차지한 국가는 미국, 중국, 영국, 독일, 프랑스였다. 기관을 기준으로 한서지결합 분석에서 상위를 차지한 기관은 모두 미국에 소재한 대학교였으며, 구체적으로는 워싱턴 대학교, 캘리포니아 대학교-버클리, 캘리포니아 공과 대학교, 뉴욕 대학교, 노스웨스턴 대학교였다. 학술지 및 학술발표대회논문을 기준으로 한 서지 결합 분석 결과, 데이터사이언스라는 단어가 학술지 및 학술발표대회명에 있는 경우 혹은 특정 학문 분야가 학술지 명에 있는 경우에 상위를 차지했다. 여섯째, 동시 인용 분석 결과, 피인용된 참고 문헌을 기준으로 동시 인용 분석을 한 경우, 각논문 별로 피인용이 뚜렷이 발견되었다. 피인용된 학술지또는 학술발표대회 논문을 기준으로 동시 인용 분석한 결과, 천문 물리학 분야의 학술지와 같은 특정 학문 분야의 학술지와 함께 Nature, Science 지 등 과학 전분야를 다루는 영향도 높은 저널이 상위를 차지했다. 피인용된 저자를 기준으로 한 동시 인용 분석 결과, 집단 별로 뚜렷한 피인용 양상을 띄었다.

본 연구의 한계는 다음과 같다. 본 연구는 연구 대상이 해외 학술지에 출판된 자료에 한정되어 있어 국내학술지에 발표된 국내 연구자의 연구는 포함하지 못했다. 따라서 향후 연구에서는 국내 학술지를 포함하여 국내의 데이터사이언스 관련 연구도 포함시킴으로써 데이터사이언스 관련 연구가 어떻게 이뤄졌는지 보다 폭넓게 검토할 필요가 있다. WoS를 분석 대상으로 했기에 충분한 논문과 주제어를 포함하지 못했을 수 있다. 하지만 WoS의 저널 분류 스킴(journal classification scheme)은 전문가에 의해 분류됐고, 널리 사용되어왔다[26]. 다음의 연구를 향후 연구에 포함하고자 한다. 첫째, Scopus 등 다양한 학술 데이터베이스를 활용하여 분석을 수행하고, 실제 논문의 전문을 활용해 집중 분석하고자 한다. 둘째, 데이터사이언스와 관련된 보다 다양한 유사어를 포함한 검색을 통한 분석을 하고자 한다. 셋째, 통계학 및 머신러닝에서 제공하는 다양한 분석 기법을 활용한 보다 심도 있는 분석을 하고자 한다. 본 연구는 기존의 연구에서 다루지 않았던 다양한 계량 정보학 분석방법을 활용해 데이터사이언스 관련 연구 동향을 다각적인 방법으로 분석했다는데에 학술적 의의가 있다.

References

윤상오, "빅데이터의 위험유형 분류에 관한 연구," 한국지역정보화학회지, 제16권, 제2호, pp.93-122, 2013. https://doi.org/10.22896/KARIS.2013.16.2.004
F. Emmert-Streib, S. Mountari, and M. Dehmer, "The Process of Analyzing Data is the Emergent Feature of Data Science," Frontiers in Genetics, Vol.7, No.12, pp.1-4, 2016.
H. F. Cervone, "Informatics and Data Science: An Overview for the Information Professional," Digital Library Perspectives, Vol.32, No.1, pp.7-10, 2015. https://doi.org/10.1108/dlp-10-2015-0022
McKinsey Global Institute, Big Data: The Next Frontier for Innovation, Competition, and Productivity, McKinsey & Company, 2011.
https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm, 2022.05.30.
박초희, 이성숙, "연구 생태계 관점에서 본 국내 행정학 분야의 구조적 특성 분석: 공저자, 인용, 키워드 네트워크를 중심으로," 한국비블리아학회지, 제31권, 제1호, pp.213-235, 2020. https://doi.org/10.14699/kbiblia.2020.31.1.213
이수상, "언어 네트워크 분석 방법을 활용한 학술논문의 내용분석," 정보관리학회지, 제31권, 제4호, pp.49-68, 2014. https://doi.org/10.3743/KOSIM.2014.31.4.049
H. D. White and B. C. Griffth, "Author Cocitation: A Literature Measure of Intellectual Structure," Journal of the American Society for Information Science, Vol.32, No.3, pp.163-171, 1981. https://doi.org/10.1002/asi.4630320302
김희전, 조현양, "저자동시인용분석과 저자서지결합분석에 의한 지적 구조 분석: 사회복지학 분야를 중심으로," 정보관리학회지, 제27권, 제3호, pp.283-306, 2010. https://doi.org/10.3743/KOSIM.2010.27.3.283
N. De Bellis, Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics, Lanham: Scarecrow Press, 2009.
조재인, "네트워크 텍스트 분석을 통한 문헌정보학 최근 연구 경향 분석," 정보관리학회지, 제28권, 제4호, pp.65-83, 2011. https://doi.org/10.3743/KOSIM.2011.28.4.065
K. Badar, J. M. Hite, and Y. F. Badir, "Examining the Relationship of Co-authorship Network Centrality and Gender on Academic Research Performance: The Case of Chemistry Researchers in Pakistan," Scientometrics, Vol.94, pp.755-775, 2013. https://doi.org/10.1007/s11192-012-0764-z
임병학, "논문 공동저자 네트워크가 연구 성과에 미치는 영향에 대한 연구: 로고스경영연구의 공동저자를 중심으로," 로고스경영연구, 제24권, pp.1-20, 2012.
조규락, 김찬희, "국내 교육공학 학문공동체의 지식구조의 모습과 특성 탐색: 네트워크 텍스트 분석을 통한 「교육공학연구」와 「교육정보미디어연구」의 비교를 중심으로," 교육공학연구, pp.571-609, 2016.
G. Y. Liu, J. M. Hu, and H. L. Wang, "A Co-word Analysis of Digital Library Field in China," Scientometrics, Vol.91, No.1, pp.203-217, 2012. https://doi.org/10.1007/s11192-011-0586-4
M. Callon, J. P. Courtial, W. Turner, and S. Bauin, "From Translation to Problematic Networks: An Introduction to Co-word Analysis," Social Science Information, Vol.22, pp.191-235, 1984. https://doi.org/10.1177/053901883022002003
A. L. Porter, "QTIP: Quick Technology Intelligence Processes," Technological Forecasting & Social Change, Vol.72, pp.1070-1081, 2005. https://doi.org/10.1016/j.techfore.2004.10.007
J. Bar-Ilan, "Which H-index? - A Comparison of WoS, Scopus and Google Scholar," Scientometrics, Vol.74, No.2, pp.257-271, 2008. https://doi.org/10.1007/s11192-008-0216-y
김현정, "동시출현단어분석을 통한 데이터과학 분야의 지적구조에 관한 연구," 정보관리학회지, 제34권, 제4호, pp.101-126, 2017. https://doi.org/10.3743/KOSIM.2017.34.4.101
https://trends.google.com/trends/explore?date=all&q=%22DATA%20SCIENCE%22 2022.04.10.
https://images.webofknowledge.com/images/help/WOK/hs_alldb_fieldtags.html 2022.04.12.
https://www.vosviewer.com/download, 2022.04.20.
E. Garfield, "Keywords Plus: ISI's Breakthrough Retrieval Method. Part 1. Expanding Your Searching Power on Current Contents on Diskette," Current Contents, Vol.13, No.32, pp.295-299, 1990.
https://images.webofknowledge.com/images/help/WOS/hp_research_areas_easca.html, 2022, 04.01.
V. Blondel, J. L. Guillaume, R. Lambiotte, and E. Lefebvre, "Fast Unfolding of Communities in Large Networks," Journal of Statistical Mechanics Theory and Experiment, Vol.2008, p.P10008, 2008.
K. W. Boyak, R. Klavans, and K. Borner, "Mapping the Backbone of Science," Scientometrics, Vol.64, pp.351-374, 2005. https://doi.org/10.1007/s11192-005-0255-6

The Journal of the Korea Contents Association (한국콘텐츠학회논문지)

Analyzing and Visualizing the Intellectual Structure of Data Science

데이터사이언스 연구의 지적 구조 분석 및 시각화

Abstract

Keywords

Ⅰ. 서론

1. 연구의 필요성과 목적

2. 연구 문제

Ⅱ. 이론적 논의

Ⅲ. 연구 방법

IV. 연구 결과

1. 기술 분석

2. 인용 분석 (citation analysis)

3. 공동 저자 분석 (co-author analysis)

4. 동시출현 단어 분석 (co-occurence analysis)

4.1 동시 출현 단어 분석: 논문의 제목을 기준으로

4.2 동시 출현 단어 분석: 통제 키워드를 기준으로

5. 서지 결합 분석 (bibliographic coupling analysis)

5.1 데이터사이언스 관련 논문의 서지 결합 분석: 국가를 기준으로

5.2 데이터사이언스 관련 논문의 서지 결합 분석: 기관을 기준으로

5.3 데이터사이언스 관련 논문의 서지 결합 분석: 학술지 및 학술발표대회지 별 분석

5.4 데이터사이언스 관련 논문의 서지 결합 분석: 저 자를 기준으로

6. 동시 인용 분석 (co-citation analysis)

6.1 동시 인용 분석: 피인용된 참고 문헌을 기준으로

6.2 동시 인용 분석: 피인용된 학술지와 학술발표대 회지를 기준으로

6.3 동시 인용 분석: 피인용된 저자를 기준으로

Ⅴ. 결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)