• 제목/요약/키워드: 탐색적 데이터 분석

검색결과 900건 처리시간 0.028초

탐색적요인분석과 확인적요인분석의 비교에 과한 연구 (The Study on the comparative analysis of EFA and CFA)

  • 최창호;유연우
    • 디지털융복합연구
    • /
    • 제15권10호
    • /
    • pp.103-111
    • /
    • 2017
  • 본 연구는 탐색적 요인분석과 확인적 요인분석에 대한 특성과 그 차이점에 대하여 살펴보고, 동일한 데이터를 활용하여 탐색적 요인분석과 확인적 요인분석의 분석과정 및 결과를 비교분석함으로써 두 방법론의 올바른 이해와 적용에 대하여 알아보고자 한다. 한편, 실증분석 결과는 아래와 같다. 탐색적 요인분석에서는 판별타당도가 저해되는 p.1, p.3이 제거된 반면, 확인적 요인분에서는 집중타당도가 저해되는 p.3가 제거 되었다. 탐색적 요인분석의 경우 다수의 측정변수를 소수의 요인으로 축약하는 분석과정(다소 부족한 이론적배경)인 반면, 확인적 요인분석은 측정변수와 잠재변수들 간의 관계를 파악 및 확인하는 과정(강력한 이론적배경)으로 동일한 데이터를 활용한다 하더라도 두 방법론은 언제든지 다른 결과 값이 도출될 수 있는 바, 데이터의 성격 등에 따라 올바른 방법론의 활용이 요구된다는 시사점을 보여주고 있다.

소셜 빅 데이터 분석을 통한 미용분야 대학생 창업지원 정책에 관한 연구 -탐색적 데이터 분석법을 기반으로- (Study on the Policy of Supporting University Students in the Beauty Field through Social Big Data Analysis: Based on exploratory data analytics)

  • 윤미연;박남훈
    • 한국응용과학기술학회지
    • /
    • 제39권6호
    • /
    • pp.853-863
    • /
    • 2022
  • 본 연구에서는 미용분야 창업 활성화를 위해 소셜 빅데이터 분석을 탐색적 데이터 분석(EDA)을 기반으로 하여 2019년부터 2021년 동안 각 년도별로 기간을 구분하여 '미용창업'에 대한 수요 변화와 감정 및 의미 차이의 특징적인 패턴을 도출하고자 하였다. '미용창업' 키워드를 주제로 연관된 검색어를 추출한 결과 창업에 필요한 전문적인 창업교육 보다는 미용관련 기술을 배울 수 있는 기관이나 자격증에 더 많은 관심을 보였으며, 이는 정부 및 지자체에서 여러 가지 창업지원 정책들이 마련되고 있음에도 불구하고 여전히 전문적인 창업교육의 중요성을 인식하지 못하고 있는 것으로 파악할 수 있으며, 이에 대한 대안으로 미용분야 창업을 성공적으로 이루기 위한 전공별 맞춤형 창업교육 프로그램을 개발하는 것이 필요할 것으로 사료된다. 탐색적 데이터 분석을 통해 가설을 설정하고 전통적인 확증적 데이터 분석(CDA)을 결합하여 가설을 검증한다. 미용 창업을 위한 탐색적 데이터 분석 방법이 존재한 적은 없으며, 정식 창업교육의 필요성을 언급하기보다는 미용창업에 대한 관심 변화와 예비창업자의 요구사항을 탐색적 데이터로 분석한다면 맞춤형 창업 프로그램 개발에 도움이 될 것이라고 확신한다.

거주지 분화에 대한 공간통계학적 접근 (II): 국지적 공간 분리성 측도를 이용한 탐색적 공간데이터 분석 (A Spatial Statistical Approach to Residential Differentiation (II): Exploratory Spatial Data Analysis Using a Local Spatial Separation Measure)

  • 이상일
    • 대한지리학회지
    • /
    • 제43권1호
    • /
    • pp.134-153
    • /
    • 2008
  • 이 논문의 주된 목적은 국지적 공간 분리성 측도를 이용한 탐색적 공간데이터 분석을 통해 거주지 분화 연구에서 공간통계학적 접근이 가지는 의의를 논증하는 것이다. 탐색적 공간데이터 분석은 공간 데이터를 다양한 과학적 지도학적 시각화 방식을 통해 탐색함으로써 패턴을 발견해 내고, 의미 있는 가설을 수립하며, 더 나아가 공간 데이터에 대한 통계학적 모델을 평가하는 것을 주목적으로 한다. 이 연구는 국지 통계량에 기반한 탐색적 공간데이터 분석이 구체적인 연구 수행에서 실질적인 도움을 줄 수 있다는 믿음에 기반을 두고 진행된 것이다. 중요한 결과는 다음과 같다. 첫째, 이미 개발된 전역적 공간 분리성 측도로부터 국지적 공간 분리성 측도를 도출하였다. 둘째, 두 가지 유의성 검정을 위한 가정, 즉 총체적 랜덤화 가정과 조건적 랜덤화 가정에 기반한 가설검정 방법을 제시하였다 셋째, 측도와 유의성 검정을 바탕으로 한 탐색적 공간데이터 분석 기법으로 '공간 분리성 산포도 지도'와 '공간 분리성 이례치 지도'를 제시하였다. 부가적으로 각 인구 집단 별 집중도에 대한 표준화 지표도 제시되었다. 넷째, 개발된 기법을 우리나라 7대 도시의 고학력 집단과 저학력 집단간 거주지 분화에 적용한 결과, 특히, 이변량 공간적 클러스터와 공간적 특이점을 확인하는 데 유용성이 있는 것으로 드러났다.

재현그림을 통한 우리나라 환율 자료에 대한 탐색적 자료분석 (Exploratory data analysis for Korean daily exchange rate data with recurrence plots)

  • 장대흥
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1103-1112
    • /
    • 2013
  • 탐색적 자료분석에서는 자료를 통계적 모형에 바로 적합시키기 보다는 자료를 있는 그대로 보려는 데 주안점을 둔다. 우리는 시계열 자료에 대한 그래픽 탐색적 자료분석방법의 하나로서 재현그림을 사용할 수 있다. 재현그림의 장점은 통계모형에 대한 가정 없이 시계열 자료의 구조적 패턴을 확인할 수 있고 이 패턴을 통하여 탐색적으로 시계열 데이터의 구조 변화점을 한 눈에 확인할 수 있다는 데 있다.

지리정보를 갖는 통계 데이터의 Visualization

  • 이정진
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.27-29
    • /
    • 2003
  • 정보화시대의 발전과 더불어 우리 일상생활에 친숙하게 다가온 기술 중의 하나가 지리정보시스템(Geographical Information System: GIS)이다. GIS는 공간(지표, 지하, 해양 등)상에 분포하고 있는 정보에 대해 여러 종류의 세밀한 지도를 이용하여 효율적으로 사용자에게 제공하여 관리하는 종합정보기술이다. 통계 데이터 중에는 지리정보를 가지고 있는 경우가 상당히 많다. 하지만 지리정보를 갖는 통계 데이터의 탐색적 자료분석(Exploratory Data Analysis)을 위한 Visualization 기법에 대해서는 별로 연구된 바가 없다. 본 논문에서는 GIS를 위한 벡터맵(vector map)의 간단한 제작방법과 GIS의 개발방법, 그리고 탐색적 자료분석을 위한 Visualization기법을 소개한다.

  • PDF

데이터 탐색을 활용한 딥러닝 기반 제천 지역 산사태 취약성 분석 (Assessment of Landslide Susceptibility in Jecheon Using Deep Learning Based on Exploratory Data Analysis)

  • 안상아;이정현;박혁진
    • 지질공학
    • /
    • 제33권4호
    • /
    • pp.673-687
    • /
    • 2023
  • 데이터 탐색은 수집한 데이터를 다양한 각도에서 관찰 및 이해하는 과정으로 데이터 구조 및 특성 분석을 통해 데이터의 분포와 상관관계를 파악하는 과정이다. 일반적으로 산사태는 다양한 인자들에 의해 유발되고 발생 지역에 따라 유발 인자들이 미치는 영향이 상이하기 때문에 산사태 취약성 분석 이전에 데이터 탐색을 통해 유발 인자 사이의 상관관계를 파악하고 특징적인 유발 인자를 선별한다면 효과적인 분석을 수행할 수 있다. 따라서 본 연구는 데이터 탐색이 예측 모델의 성능에 미치는 결과를 확인하기 위해 두 단계에 걸친 데이터 탐색을 수행하여 인자를 선별하고, 선별된 유발 인자들 사이의 조합과 23개의 전체 유발 인자 조합을 활용하여 딥러닝 기반의 산사태 취약성 분석을 진행하였다. 데이터 탐색 과정에서는 Pearson 상관계수 heat map과 random forest의 인자 중요도 histogram을 활용하였으며, 딥러닝 기반 산사태 취약성 분석 결과의 정확도는 분석을 통해 획득한 산사태 취약 지수 값을 이용해 제작한 산사태 취약성 지도를 confusion matrix 기반의 정확도 검증 방법을 통해 분석하였다. 분석 결과, 전체 23개의 인자를 사용한 산사태 취약성 해석 결과는 55.90%의 낮은 정확도를 보였지만 한 단계의 탐색을 거쳐 선별한 13개 인자를 활용한 취약성 해석 결과는 81.25%의 분석 정확도를 보였고, 두 단계 데이터 탐색을 모두 수행하여 선별된 9개의 유발 인자를 활용한 산사태 취약성 분석 결과는 92.80%로 가장 높은 정확도를 보였다. 따라서 데이터 탐색을 통해 특징적인 유발 인자를 선별하고 분석에 활용하는 것이 산사태 취약성 분석에서 더 좋은 분석 성능을 기대할 수 있음을 확인하였다.

R을 이용한 흙탕물 발생현황 분석 (Analysis of muddy water generation status using R)

  • 박운지;오승민;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.350-350
    • /
    • 2022
  • R은 통계 및 빅데이터 분석에 널리 사용되는 오픈 소스 프로그래밍 언어로, 통계와 그래픽스에 관련된 기능을 확정할 수 있어 다양한 분야에 활용되고 있다. 특히, 수자원 분야의 연구에서 그 활용이 늘어나고 있으며, 최근 들어 다양한 수자원 관련 R 패키지가 발표되고 있다. 이중, 미국 지질조사국(U.S. Geological Survey, USGS)이 개발한 EGRET은 수질 및 유출량 자료의 장기 추세 변화 분석을 위한 패키지로 R 프로그래밍 언어를 기반으로 구동되며, 분석·처리한 데이터에 대하여 광범위한 그래픽 프리젠테이션을 제공하여 탐색적 자료 분석에 매우 효과적인 도구이다. 특히, EGRET 패키지는 농도와 유출 사이의 관계 특성, 수집된 자료의 계절성 존재 및 특성, 점진적 또는 급격한 경향의 존재를 검토할 수 있는 그래픽 결과를 제시하며, 가중 회귀(Weighted Regressions on Time, Discharge, and Season, 이하 WRTDS) 모델을 적용하여 농도와 부하의 상태와 경향을 특성화한다. 시간, 유량 및 계절에 대한 WRTDS 모델은 농도 및 부하의 상태와 경향을 특성화하는 데 사용할 수 있는 수질 데이터 세트의 분석 방법으로, 근본적으로 탐색적 데이터 분석 방법으로 다양한 유형의 트렌드 시나리오에 민감하도록 설계되었으며 선형 또는 2차 함수형에 맞지 않을 수 있는 시간적 추세를 탐지하여 설명할 수 있고, 불규칙한 간격의 자료를 사용하기에 적합한 장점이 있다. 본 연구에서는 북한강 상류의 지속적인 흙탕물 발생으로 문제가 되고 있는 자운지구의 자운천을 대상으로 흙탕물 발생 현황을 분석하기 R을 이용하여 탐색적 자료 분석을 실시하였다. 자료 분석은 EGRET 패키지를 사용하여 수집된 자료(2016년 4월 - 2021년 7월까지 수집된 191개의 SS 자료와 인근 유량측정망의 유량자료)의 유량과 SS 농도 간의 관계, 시간에 따른 SS 농도 분포, SS 농도의 월별 특성 분석 및 유황별 SS 농도 변화 등을 검토하였으며, WRTDS 모델로 SS와 부하량을 예측하고 검토하여 자운천 유역의 흙탕물 부하 특성을 검토하였다.

  • PDF

GPS 데이터를 이용한 이동객체의 이동패턴 분석

  • 조재희;서일정;이덕규;하병국
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 International Conference
    • /
    • pp.603-607
    • /
    • 2007
  • GPS 수신기의 지속적인 가격 하락과 GPS 기반의 다양한 위치기반서비스 개발로 인하여 개인 휴대용 GPS 수신기의 보급이 확대되고 있다. 이동객체의 위치 및 시간 정보를 포함하고 있는 GPS 데이터를 분석하면 이전에는 불가능했던 이동패턴을 파악하고 이해하는 것이 가능해진다. 이동객체 데이터의 저장과 분석에 관한 연구들이 진행되고 있지만, 이동객체의 속성에 따른 다차원적 이동패턴 분석에 관한 연구는 찾아보기 힘들다. 본 연구는 개인 휴대용 GPS 수신기를 통해 수집된 이동 데이터와 이동객체의 속성 데이터를 통합하여 이동객체의 시공간적 특성을 다차원적으로 분석할 수 있는 데이터마트를 구현하고 시각적으로 표현하였다. 이러한 과정을 통해 GPS 데이터를 이용한 이동패턴 분석의 유용성과 문제점을 탐색적으로 살펴보았다.

  • PDF

탐색적 데이터분석(EDA) 기능에 대한 통계팩키지 프로그램의 비교검토 (Software review of statistical package programs on EDA aspects)

  • 허명회;정진환
    • 응용통계연구
    • /
    • 제3권2호
    • /
    • pp.17-25
    • /
    • 1990
  • 본 소고에서는 탐색적 데이터분석(EDA)의 방법들이 국내에서 비교적 쉽게 구할 수 있는 통계 팩키지 프로그램에 어떻게 수용되어 있는지를 비교검토할 것이다. 여기에서 고려된 통계 팩키지 프로그램은 IBM-PC의 XT/AT 기종에서 사용가능한 Minitab, NCSS, SAS, SPSS/PC+, Statgraphics, SYSTAT의 모두 6종이다.

  • PDF

암호화폐 가격 정보 데이터에 대한 상관관계분석 및 회귀테스트 (Correlation Analysis and Regression Test on Cryptocurrency Price Data)

  • 권도형;허주성;김주봉;임현교;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.346-349
    • /
    • 2018
  • 기존의 전통적인 금융 시장에 대한 탐색적 데이터 분석에 비해 암호화폐에 대한 탐색적 데이터 분석은 전무하다. 본 논문에서는 대표적인 암호화폐인 비트코인을 비롯하여 총 12 개의 암호화폐에 대한 상관관계 분석 및 회귀 모델을 적용하기 적합한지 여부를 결정하는 평균회귀테스트를 수행하고 그 결과에 대해 논한다.