DOI QR코드

DOI QR Code

A Regression Analysis of Factors Affecting Dropout of College Students

대학생의 중도탈락에 영향을 미치는 요인 다중회귀분석

  • 황승연 (안양대학교 컴퓨터공학과) ;
  • 신동진 (안양대학교 컴퓨터공학과) ;
  • 오재곤 ((주)진우산전) ;
  • 이용수 (여주대학교 소프트웨어융합과) ;
  • 김정준 (안양대학교 ICT융합학부 소프트웨어전공)
  • Received : 2020.04.03
  • Accepted : 2020.08.07
  • Published : 2020.08.31

Abstract

In this study, we wanted to analyze the factors at the national university level that affect college students ' elimination. In addition, national universities, private universities, universities in Seoul and universities outside of Seoul were divided into more college-specific characteristics. Except for leave of absence and departure from school, it was defined as a middle school dropout among changes of students. The data were used for analysis by receiving raw data from "University Alerts," which are operated by the Ministry of Education and the Korean Council for Educational Universities. At the university notification, 222 universities out of the schools classified as "Universities" were utilized for final analysis, and jobs, credits, scholarships, tuition fees, students, independent students, and full-time teachers were secured through multiple education. Overall, the higher the average graduate level and employee-rate the lower the rate of elimination from the middle of college students, the analysis showed. Second, the higher the average tuition fees at private universities, the more negatively affects the rate of elimination of university students. Third, higher tuition fees at universities outside the Seoul metropolitan area have a negative impact on the rate of elimination of students.

본 연구에서는 국내 대학 차원에서의 요인들을 중심으로 대학생의 중도탈락에 영향을 미치는 것이 무엇인지 분석하고자 하였다. 또한, 국립대학과 사립대학, 수도권(서울, 경기, 인천)에 소재하고 있는 대학과 수도권에 소재하고 있지 않은 대학으로 나누어 보다 대학별 특징에 맞춰 분석하였다. 대학의 학생변동사항 중 휴학과 전출을 제외하고, 자퇴를 중도탈락으로 정의하였다. 데이터는 교육부와 한국교육대학협의회에서 주관하여 운영하고 있는 "대학알리미" 포탈에서 원시자료를 받아 분석에 사용하였다. 대학 알리미에서 "대학"으로 분류된 학교 가운데 209개 대학을 최종 분석에 사용하였으며, 졸업생 취업 현황·평균 졸업 학점·재학생 1인당 장학금·평균 등록금·휴학생·재적 학생·경쟁률·전임교원 1인당 학생 수·교지확보율(%)을 독립변수로 투입하여 다중회귀분석을 통해 분석하였다. 분석결과, 첫째, 전체적으로 졸업생 평균 졸업 학점과 취업률이 높을수록 대학생 중도탈락률이 낮은 것으로 나타났다. 둘째, 국립대학과 비교하면 사립대학에서의 평균 등록금이 비쌀수록 대학생 중도탈락률에 부정적인 영향을 미치는 것으로 나타났다. 셋째, 수도권 외 소재 대학에 비해 수도권 소재 대학에서의 등록금이 비쌀수록 대학생 중도탈락률에 부정적인 영향을 미치는 것으로 나타났다.

Keywords

Ⅰ. 서론

우리나라의 고등교육은 양적으로 매우 급격하게 팽창해 왔다. 고등교육의 양적인 증가는 연도별 대학 수의 변화를 통해 확인할 수 있는데, 1980년 85개교에서 꾸준히 증가하여 2000년 161개교, 2010년 179개교로 증가하였으며, 2017년에 189개의 대학이 운영되고 있다(교육통계서비스). 1980년 27.2%에 불과했던 대학 진학률도 지속적으로 증가하여 2000년 62%, 2010년 75.4%에 달하였으며, 2017년에는 68.9%로 조금 감소하였지만 여전히 높은 수준을 유지하고 있다.(교육통계서비스)

최근 전 세계적으로 지식과 정보의 경제적 가치가 중요하게 고려되면서 대학 경쟁력 제고 및 교육의 질 향상에 대한 요구가 높아지고 있다. 더구나 출산율 저하에 따른 지속적인 학령인구의 감소로 인해 앞으로 각 대학은 입학자원의 부족으로 대학 운영과 존립에 위기를 맞을 수 있다(김수연, 2006). 안정적인 대학 운영을 위해 대학 경쟁력에서 우위를 점하기 위한 많은 노력이 필요한 시점에 직면하였다.

학령인구의 감소에 따라 2018년부터 대학 입학정원이 고교 졸업자 수를 초과하게 될 것으로 예상되며, 이는 대학의 충원율 감소로 이어질 것으로 전망하고 있다(교육부, 2014). 이뿐만 아니라 대학생의 중도탈락률은 해마다 증가하는 추세를 보이고 있어 문제가 심각한 상황이다. 대학 알리미 포탈에서의 공시자료를 통해 대학생의 중도탈락률을 살펴보면, 전문대학의 경우 2000년 4.6%에서 2013년 7.6%로 중도탈락학생 비율이 증가하였으며, 4년제 대학 또한 2000년 3.6%에서 2013년 6.4%로 증가하였다 실제로, 대학의 중도탈락 학생수가 2010년부터 지속적으로 매년 14만명 정도로 나타나고 있고, 이에 대한 사회적 비용이 3조원이 넘는 것으로 추정되고 있다(한국일보, 2015). 또한 교육부의 ‘중도탈락 대학생의 경제·사회적 비용’ 자료에서는 학업을 중도에 포기하는 학생들의 등록금, 입학금, 교재비 등을 추산하면 1인당 800만원 상당에 달하며, 중도탈락 학생들이 취업했을 때의 경제적 이익은 1인당 1,729만원으로 이를 종합하여 계산하면 총 2조 5,187억원의 기회비용이 발생하는 것으로 나타난다(중앙일보, 2013).

국내에서 이루어진 선행연구들을 살펴보면, 대학생의 중도탈락에 영향을 미치는 요인으로 설정한 변수들이 대부분 개인적인 요인에 집중되어 있으며, 대학 수준의 요인을 중점적으로 분석한 연구는 부족한 상황이다. 따라서 본 연구에서는 대학의 중도탈락 현황을 살펴보고, 중도탈락에 영향을 미치는 대학 요인이 무엇인지 분석하여 대학생 중도탈락률을 낮추기 위해 대학 차원에서 고려해야 할 사항에 대한 시사점을 도출하고자 한다.

Ⅱ. 관련기술

1. 빅데이터(Big Data)

빅데이터란 기존 데이터베이스 관리도구로 대량의 정형 또는 비정형 데이터를 포함한 데이터로부터 가치를 추출고 수집, 저장, 관리, 분석할 수 있는 기술이다.

가트너는 빅데이터를 세 개의 차원으로 정의하였는데 이는 데이터의 양(Volume), 데이터 입출력의 속도(Velocity), 데이터 종류의 다양성(Variety)을 뜻한다. 2012년에는 가트너의 기존 정의를 개정하였는데 정확성(Value)이나 복잡성(Complexity)을 덧붙이기도 한다[1].

대용량 데이터를 가지고 자료 관리기술과 자료 분석기술을 이용할 수 있다. 자료관리 기술은 Hadoop등을 이용하고 자료 분석 기술로는 통계학, 기계학습, 인공신경망, 데이터 마이닝 등을 이용할 수 있다[2,3].

2. 하둡(Hadoop)

하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 분산시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 맵리듀스(MapReduce)를 이용해 데이터를 처리한다. 일반적인 파일 시스템처럼 불륨 기반으로 파일을 적재하거나 파일 단위로 저장하지 않고, 파일을 블록 단위로 쪼개 여러 서버에 분산 저장한다. 따라서 서버의 디스크 용량보다 큰 수십 테라바이트 또는 페타바이트 이상의 대용량 파일도 저장하고 처리할 수 있다[4,5].

3. 하이브(Hive)

HIve는 하둡에서 동작하는 데이터 웨어하우스(Data Warehouse) 인프라 구조로서 데이터 요약, 질의 및 분석 기능을 제공한다. HiveQL은 SQL언어와 유사하지만 기능은 다소 부족하다. 하지만 고급 조인이 필요하지 않은 경우 SQL로 할 수 있는 모든 작업을 SQL과 동일하게 처리가 가능하다. Hive 엔진을 사용하여 mapreduece를 작성하지 않고 쿼리 언어만으로 hadoop의 비정형 데이터 분석이 가능하다[6].

4. R 기반 통계분석

R은 무료 오픈소스 통계 프로그래밍 환경이며, 다양한 통계적 기법과 수치 해석 기법을 제공할 뿐만 아니라 우수하고 다양한 그래픽 방법이 있어 이용자가 새로운 함수를 작성하여 확장 및 추가할 수 있다. 또한, 한 번에 하나의 프로세스를 수행하는 대화식이기 때문에 분석하는 동안 보이는 것에 기초하여 변경이 가능하다. R은 주로 연구 및 산업별 응용 프로그램으로 많이 사용되고 있으며 최근에는 기업에서도 많이 사용하기 시작했다. 특히 빅데이터 분석을 목적으로 주목받고 있으며 5000개가 넘는 패키지들이 다양한 기능을 지원하고 있으며 수시로 업데이트되고 있다[7].

자바(Java), C, C++, 파이썬(Python) 등 다른 프로그램 언어와도 쉽게 연동할 수 있으며, 윈도, 리눅스·유닉스, 맥(Mac) OS 등 대부분의 개발 환경을 지원한다. 또한, 하둡 분산처리 환경을 지원하는 라이브러리가 제공되기 때문에 구글, 페이스북, 아마존 등도 빅데이 분석에 R을 사용하고 있다. R은 빅데이터 분석에 가 강력하면서 유용한 도구로 점차 자리를 잡아가고 있다[8].

5. 다중 회귀 분석(multiple regression analysis)

회귀분석은 종속변수(Dependent Variable)와 독립 변수(Independent Variable)간의 상관관계를 검증하여 독립변수가 종속변수에 어떠한 영향력을 미치는지 파악하거나, 독립변수의 변화에 따라 종속변수의 변화를 예측하기 위하여 사용되는 통계학적 분석방법이다. 회귀분석은 독립변수의 개수에 따라 독립변수가 둘 이상인 경우는 다중회귀분석, 하나인 경우는 단순회귀분석이라 한다[9,10].

회귀분석이 사용되는 이유는 결과(종속변수)의 일부 원인(독립 변수)을 한 번에 분석이 가능하기 때문이다. 또한 회귀분석에서는 종속변수에 대한 각각의 독립변수들이 어떠한 영향을 미치는지 개별적으로 분석이 가능하기 때문에 특정 변수를 통제할 시 다른 독립변수가 종속변수의 변화에 어떠한 상호관련성이 있는지 쉽게 판단이 가능하다. 하지만, 독립변수간의 상호연관성을 배제하고, 단방향의 관계만을 취급하는 특징을 갖고 있다. 또한 측정 오차를 허용하지 않는 특징을 가지고 있다. 따라서 독립변수내의 관련성 문제 및 다중공선성 문제를 극복 가능한 간단한 인과모형을 대상으로 할 시, 종속변수에 대한 독립변수간의 상호영향력의 크기를 비교 가능한 뛰어난 통계기법 중 하나이다[11].

Ⅲ. 연구방법

1. 분석대상

본 연구에서는 대학생의 중도탈락에 영향을 미치는 대학 요인을 분석하기 위해 교육부와 한국교육대한협의회에서 주관하여 운영하고 있는 ‘대학 알리미’ 포탈을 통해 원시자료를 받아 분석에 사용하였다. 가장 최근 자료인 2018년도 자료에는 일부 누락된 데이터가 있어 분석 자료의 기준년도는 2017년으로 설정하였다.

대학 유형에 따라 대학의 특성이 다양하며, 학교 유형에 따라 중도탈락률에 차이가 나타날 수 있기 때문에 대학 알리미에서 “대학”으로 분류된 학교 가운데 분교와 전문대학 및 사이버대학, 방송통신대학을 제외하고 최종적으로 209개 대학을 분석에 사용하였다. 또한 지역별로 수도권(서울, 경기, 인천)에 소재한 대학과 수도권에 소재하지 않은 대학, 국립대학과 사립대학으로 나누어 나타난 결과를 분석해 보았다. 분석에 사용한 주요 변수는 표 1과 같다.

표 1. 변수설명

Table 1. Variable Description

OTNBBE_2020_v20n4_187_t0001.png 이미지

2. 데이터 정제

대학의 학교 요인이 대학생의 중도탈락에 미치는 영향력을 분석하기 위하여 먼저 대학의 학교 요인들을 추출하는 작업이 필요하다. 원하는 변수가 존재하는 파일들을 Hadoop에 저장하여 Hive를 이용해 테이블 형로 저장하였다. 저장된 테이블에서 필요한 컬럼들을 HiveQL을 사용하여 분석에 필요한 변들로 이루어진 새로운 테이블을 생성하여 하둡에 저장하였고, 이를 다시 로컬에 저장하여 그림 1과 같은 결과를 얻을 수 있다.

OTNBBE_2020_v20n4_187_f0001.png 이미지

그림 1. 필요한 변수들을 추출한 최종 형태

Fig. 1. Required parameter extraction method

3. 분석방법

대학의 학교 요인이 대학생의 중도탈락에 미치는 영향력을 분석하기 위하여 다중회귀분석을 사용하였다. 다중 회귀분석은 독립변수가 2개 이상인 추정식을 이용하는 회귀분석으로 여러 개의 독립변수 중 종속변수에 가장 큰 영향을 미치는 변수가 무엇인지, 종속변수를 설명해 줄 수 있는 가장 적합한 모형이 무엇인지 밝히는 통계적 방법이다. 알고자 하는 독립변수들을 순차적으로 투입하면서 대학의 요인들의 설명력을 확인할 수 있기 때문에 분석방법으로 사용하였다.

본 연구에서는 대학생 중도탈락률을 종속변수로 설정하고, 독립변수로는 졸업생 취업 현황·평균 졸업 학점·재학생 1인당 장학금·평균 등록금·휴학생·재적 학생·경쟁률·전임교원 1인당 학생 수·교지확보율(%) 변인을 투입하여 분석하였다. 모형에 투입하여 대학의 변인들이 중토 탈락률에 미치는 영향력 정도를 살펴보고자 하였다. 다중 회귀분석에 사용된 수식은 그림 2와 같고, Yi는 종속변수인 표 1의 재학생 중도탈락률을 의미하며, 각 Xni는 표 1의 독립변수를 의미한다.

\(Y_{i}=B_{1}+B_{2} X_{2 i}+B_{3} X_{3 i}+\ldots+B_{10 \Sigma} X_{10 i}+u_{i}(i=1,2, \ldots, n)\)

그림 2. 다중회귀분석 수식

Fig. 2. Multiple Regression Analysis Formula

Ⅳ. 분석 결과

본 연구에서는 대학생의 중도탈락에 영향을 미치는 대학 요인을 분석하기 위해 분교와 사이버대학과, 전문대학, 교육대학을 제외한 209개 학교를 분석대상으로 사용하였다. 209개 4년제 대학의 대학생 중도탈락률 평균은 4.83%로 나타났으며, 가장 중도탈락이 높은 대학은 19.2%에 달하는 것으로 나타났다. 대학 평판도와 관련된 정원 내 신입생 경쟁률 평균은 1:8로 나타났으며 졸업생 취업 현황의 평균은 66%, 평균 졸업 학점의 평균은 86.8점, 재학생 1인당 장학금 평균은 3,423만원, 평균 등록금의 평균은 6,530만원, 휴학생의 평균은 2496명, 재적학생의 평균은 8,646명, 전임교원 1인당 학생 수의 평균은 27명, 교지확보율을 균은 318%로 나타났다.

대학 설립유형별로 살펴보면 국공립학교 46개교(22%), 사립학교 163개교(78%)로 사립대학의 비중이 높게 나타났으며 수도권(서울, 경기, 인천)에 소재한 대학이 75개교(35.8%), 수도권에 소하지 않은 대학이 134개교(64.1%)로 나타났다.

표 2의 fail은 퇴학률을, employment은 졸업생 취업 현황, grade은 평균 졸업 학점, scholarship은 재학생 1인당 장학금, tuition은 평균 등록금, absence은 휴학생, enrollment은 재적 학생, competition은 경쟁률, teacher은 전임교원 1인당 학생 수, grand은 교지확보율(%)을 지칭하며 “대학알리미” 포탈에서 제공하는 데이터를 위 그림과 같이 정제하였다. 또한 분석에 앞서 변수간 충분한 변량을 확보하였는지 확인하였다.

표 2. 대학별 데이터

Table 2. University Data

OTNBBE_2020_v20n4_187_t0002.png 이미지

전체 데이터에서 다중회귀분석을 한 결과에서 취업률 변수인 employee_rate, 학점 변수인 grade, 경쟁률 변수인 competition, 전임교원 1인당 학생 수 변수인 teacher의 p-value 값이 0.05보다 작으므로 중도탈락률과 연관성이 있음을 아래 그림 3에서 확인할 수 있다. 또한, Estimate 값은 다른 변수가 고정되어있고, 각 X가 한 단위 변화했을 때 중도탈락률의 평균적인 변화량을 나타낸다.

OTNBBE_2020_v20n4_187_f0002.png 이미지

그림 3. 전체 다중회귀 분석 결과

Fig. 3. multiple regression analysis results

수도권을 기준으로 한 다중회귀 분석 결과에서는 취업률 변수인 employee_rate, 학점 변수인 grade, 장학금 변수인 scholarship의 p-value 값이 0.05보다 작으므로 중도탈락률과 연관성이 있음을 아래 그림 4에서 확인할 수 있다.

OTNBBE_2020_v20n4_187_f0003.png 이미지

그림 4. 수도권을 기준으로 한 다중회귀분석 결과

Fig. 4. multiple regression analysis of Capital Region

비수도권을 기준으로 한 다중회귀분석 결과에서는 취업률 변수인 employee_rate, 학점 변수인 grade, 등록금 변수인 tuition, 전임교원 1인당 학생 수 변수인 teacher의 p-value 값이 0.05보다 작으므로 중도탈락률과 연관성이 있음을 아래 그림 5에서 확인할 수 있다.

OTNBBE_2020_v20n4_187_f0004.png 이미지

그림 5. 비수도권을 기준으로 한 다중회귀분석 결과

Fig. 5. multiple regression analysis of NonCapital Region

국립대학을 기준으로 한 다중회귀 분석 결과에서는 취업률 변수인 employee_rate, 학점 변수인 grade, 휴학생 수 변수인 absence, 교지확보율 변수인 grand의 p-value 값이 0.05보다 작으므로 중탈락률과 연관성이 있음을 아래 그 6에서 확인할 수 있다.

OTNBBE_2020_v20n4_187_f0005.png 이미지

그림 6. 국립대학을 기준으로 한 다중회귀분석 결과

Fig. 6. multiple regression analysis of national university

마지막으로 사립 대학을 기준으로 한 다중회귀분석 결과에서는 학점 변수인 grade, 등록금 변수인 tuition , 경쟁률 변수인 competition, 전임교원 1인당 학생 수 변수인 teacher의 p-value 값이 0.05보다 작으므로 중도탈락률과 연관성이 있음을 아래 그림 7에서 확인할 수 있다.

OTNBBE_2020_v20n4_187_f0006.png 이미지

그림 7. 사립대학을 기준으로 한 다중회귀분석 결과

Fig. 7. multiple regression analysis of private university

Ⅴ. 결론

본 논문에서는 대학알리미에서 제공하는 데이터의 대학생을 중심으로 중도탈락에 영향을 미치는 변수에 대해 전체, 수도권, 비수도권, 국립, 사립 조건에서 측정하였다. 측정된 데이터를 Hive 솔루션을 통해 정제 후, 다중 회귀분석을 사용하여 분석하고, 어떠한 상관관계가 있는지를 확인하였다.

학점 변수인 grade와 취업률 변수인 employee_rate가 중도탈락률 변수인 drop_rate에 가장 유의한 관계임을 확인할 수 있었다. 또 상대적으로 수도권(서울, 경기, 인천)대학이 비수도권대학보다 등록금이 낮게 측정되고, 국립대학보다는 사립대학이 낮게 측정되었다. 수도권대학의 분석에서 장학금 변수인 scholarship이 연관성이 있음을 확인하고, 사립대학의 분석에서 등록금 변수인 tuituion이 연관성이 있음을 확인하여 경제적으로 등록금의 부담이 큰 학생들이 자퇴를 할 확률이 높다고 할 수 있다. 마지막으로 관련성이 적은 휴학생, 재적학생, 교지 확보율 변수인 absence, enrollment, grand는 대학 차원에서 중도탈락률과 관련하여 고려할 필요성이 없음을 확인할 수 있다.

향후 연구에서는 대학생의 중도탈락에 영향을 미치는 대학 수준의 요인을 보다 정확하게 분석하기 위해서 개인 요인과 결합된 자료를 수집하여 추가 분석할 예정이다.

References

  1. Man-Mo Kang, Sang-Rak Kim, Sang-Mu Park, "Analysis and utilization of big data", Journal of Information Science and Technology, Vol. 30, No. 6, pp. 25-32, 2012.3.
  2. Man-Jai Lee, "Big Data and the Utilization of Public Data", Internet and Information Security, Vol. 2, No. 2, pp. 47-64, 2011.11.
  3. Seung-Yeol Bang, Hyo-Dong Ha, and Chang-Jae Kim, "A Study on BigData-based Software Architecture Design for Utilizing Public Open Data", The Journal of KIIT, Vol. 13, No. 10, pp. 99-107, 2015.10. DOI : https://dx.doi.org/10.14801/jkiit.2015.13.10.99
  4. Hyun-Jong Lee, "Big Data Leverages the Hadoop Platform", The Korean Institute of Conmunications and Information Sciences, Vol. 29, No. 11, pp. 43-47, 2012.10.
  5. Hyun-Joo Kim, "Design and Implementation of an Efficient Web Services Data Processing Using Hadoop-Based Big Data Processing Technique", The Journal of the Korea Academia-Industrial cooperation Society, Vol. 16, No. 1, pp. 726-734, 2015. DOI: https://doi.org/10.5762/KAIS.2015.16.1.726
  6. Ki-Chan Park, Hong-Kuen Yoon, Seok-Ju Jang, Jung-Jun Lee, "Development of web based hive management tool using open source", Proceedings of the Korea Information Science Society Conference, 1671-1673, 2014.6.
  7. Jong-gi Lee, "A Case Study of R Programming for Big Data Analysis", Computational Accounting Research, Vol. 13, No. 1, pp. 1-22, 2015.6.
  8. Ji-Hee Lee, Joon-Sung Lee, Jung-Wook Son, "R programming based unstructured construction data analysis", Journal of the Architectural Institute of Korea - Structural Systems, Vol. 32, No. 5, pp. 37-44, 2016.5.
  9. Yoo-jae Lee, "A Study on the Verification of the Main Effect in Multiple Regression Analysis including Interaction Effect", Management Research, Vol. 23, No. 4, pp. 183-210, 1994.7.
  10. Uh-Soo Kyun, Sung-Hoon Cho, Jeong-Joon Kim, "A Study on Perception for Public Safety of Seoul Citizens using Multiple Regression Analysis", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 18, No. 1, pp. 195-201, Feb 2018. DOI: https://doi.org/10.7236/JIIBC.2018.18.1.195
  11. Bong-Woo Nam, Kyung-Bin Kim, Kyu-Ho Kim, Jun-Min Cha, "Regional Power Demand Forecasting Algorithm Using Multiple Regression Analysis", Journal of the Korean Institute of Illuminating and Electrical Installation, Vol. 22, No. 2, pp. 63-70, 2008.2. https://doi.org/10.5207/JIEIE.2008.22.2.063