• 제목/요약/키워드: Big data analysis tool

검색결과 157건 처리시간 0.027초

엔트리를 활용한 초등 데이터 과학 교육 사례 연구 (A Study on Elementary Education Examples for Data Science using Entry)

  • 허경
    • 정보교육학회논문지
    • /
    • 제24권5호
    • /
    • pp.473-481
    • /
    • 2020
  • 데이터과학은 스몰데이터 분석에서 출발하여, 빅데이터 분석을 위한 머신러닝, 딥러닝까지 포함하고 있다. 데이터과학은 인공지능 기술의 핵심 영역이고, 학교 교육과정에 체계적으로 반영해야 할 내용이다. 데이터과학 교육을 위해, 엔트리에서도 초등교육용 데이터 분석 도구를 제공하고 있다. 빅데이터 분석에서는 데이터 표본을 추출하여, 통계학적인 추측과 판단을 통해 분석결과를 해석한다. 본 논문에서는 통계학적인 지식을 필요로 하는 빅데이터 분석 영역을 초등영역에서 제외하기로 하고, 초등영역에 초점을 맞춘 데이터과학 교육 사례를 제안하였다. 이를 위해서, 일반적인 데이터과학 교육 단계를 먼저 설명하고, 초등 데이터과학 교육 단계를 새롭게 제안하였다. 그리고 엔트리에서 제공하는 공공 스몰 데이터를 사용한 데이터 변수 값 비교 사례와 데이터 변수 간 상관관계 분석 사례를 초등 데이터과학 교육 단계에 따라 제안하였다. 본 논문에서 제안된 엔트리 데이터분석 사례들을 활용하면, 여러 교과에서 발생하는 데이터를 사용한 초등 데이터과학 융합 교육이 가능하다. 또한, 엔트리를 사용하여 텍스트, 음성 및 영상인식 AI 도구와 결합한 데이터과학 교육 자료도 개발 가능하다.

Machine Learning Frameworks for Automated Software Testing Tools : A Study

  • Kim, Jungho;Ryu, Joung Woo;Shin, Hyun-Jeong;Song, Jin-Hee
    • International Journal of Contents
    • /
    • 제13권1호
    • /
    • pp.38-44
    • /
    • 2017
  • Increased use of software and complexity of software functions, as well as shortened software quality evaluation periods, have increased the importance and necessity for automation of software testing. Automating software testing by using machine learning not only minimizes errors in manual testing, but also allows a speedier evaluation. Research on machine learning in automated software testing has so far focused on solving special problems with algorithms, leading to difficulties for the software developers and testers, in applying machine learning to software testing automation. This paper, proposes a new machine learning framework for software testing automation through related studies. To maximize the performance of software testing, we analyzed and categorized the machine learning algorithms applicable to each software test phase, including the diverse data that can be used in the algorithms. We believe that our framework allows software developers or testers to choose a machine learning algorithm suitable for their purpose.

Big 5 성격 요소와 머신 러닝 알고리즘을 통한 창의적인 사람들의 특징 연구 (Feature Selection for Creative People Based on Big 5 Personality traits and Machine Learning Algorithms)

  • 김용준
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.97-102
    • /
    • 2019
  • 창의적인 사람에 대한 정확한 기준이나 수치화를 사용하여 체계적인 분류와 분석 방법이 없었기에 정의하는 데에 어려움이 많다. 이 문제를 해결하기 위하여 본 연구에서는 창의적인 사람을 어떻게 구분 지을 수 있을지에 대한 것과 어떤 유사한 성격이 있는지 분석한다. 본 연구에서 우선 Big 5 성격 특성 기법을 이용하여 설문조사를 진행하고, 그 설문조사로 얻은 데이터 세트를 가지고 데이터 마이닝 도구인 WEKA를 이용하여 데이터 세트를 분류하고 분석한 뒤, 창의적인 사람들과 연관성 있는 성격 특징들을 다양한 머신 러닝 기법을 이용하여 분석하는 것을 목표로 진행하였다. 7개의 특징 선택 알고리즘을 활용하고, 특징 선택 알고리즘들로 분류된 특징 집단을 선택하여 머신 러닝 알고리즘에 적용하여 정확도를 알아냈고, 서포트 벡터 머신을 통해 나온 특징이 가장 높은 분류 결과를 도출하였다.

패션 트렌드의 주기적 순환성에 관한 빅데이터 융합 분석 (The Analysis of Fashion Trend Cycle using Big Data)

  • 김기현;변혜원
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.113-123
    • /
    • 2020
  • 본 논문은 과거와 현재의 패션 트렌드와 패션 유행 주기에 관한 빅데이터 분석을 실시하였다. 패션 전문가나 패션쇼가 아닌 일반 사람들의 데일리룩을 위한 패션 트렌드를 분석하는데 집중하였다. 소셜 매트릭스 도구인 텍스톰을 활용하여 빈도수 분석, N-gram 분석, 네트워크 분석 및 구조적 등위성 분석을 수행하였다. 분석 결과, 첫째, 패션 전문가가 아닌 일반 사람들의 데일리 룩을 대상으로 과거(1980년대, 1990년대)와 현재(2019년, 2020년)의 패션 키워드를 도출하였다. 둘째, 과거의 패션이 현재의 패션으로 재현되는 순환성과 순환 주기가 30-40년 정도로 짧아졌음을 빅데이터 분석을 통해 과학적으로 검증하였다. 셋째, 도출된 패션 키워드들의 구조적 등위성 분석을 수행한 결과, 과거 패션에서는 청바지 패션, 레트로 코디, 애슬레저룩, 연예인 복고패션의 4개의 군집으로, 현재 패션에서는 레트로 청바지, 뉴트로, 레이디 쉬크, 레트로 퓨처리즘의 4개의 군집을 확인하였다. 넷째, 과거의 패션이 현재의 패션으로 재현되고 진화하는 네트워크 연결 관계를 확인하고 그 배경에 관한 이슈를 고찰하였다. 이와 같은 연구결과는 과거와 현재의 패션 키워드를 도출하고 이로부터 패션 유행의 순환 주기를 확인함으로써 과거를 통해 미래 패션을 예측하도록 하는데 의의가 있다.

소셜미디어 빅데이터를 활용한 게이미피케이션 적용 박물관 관람객 인식 비교 분석 (Comparative Analysis of Perception of Museum Tourists applying Gamification using Social Media Big Data)

  • 전세원;안윤주;류기환
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.169-175
    • /
    • 2023
  • 본 논문에서는 소셜미디어 빅데이터를 활용하여 박물관과 게이미피케이션을 이용한 박물관 관련 빅데이터를 분석하고 소셜미디어에서 거론되는 관람객들의 인식을 파악하고 비교하여 게이미피케이션 이용 방안을 제시한다. 본 논문은 수집된 데이터를 바탕으로 박물관을 관람한 관람객과 게이미피케이션을 이용한 박물관의 관람객의 인식을 비교 분석하여 자료를 제공하는 것이 목적이다. 본 논문은 소셜미디어 분석툴인 TEXTOM을 활용하여 소셜미디어 분석을 통해 관람객의 인식을 조사하여 인식 차이를 파악한다. 분석결과 기존에 전시형태로 관람하는 박물관에 비해 게이키피케이션을 활용한 박물관 관람에 재미와 흥미를 느낀다는 것으로 나타났다. 더불어 키워드 및 연관 키워드 분석결과를 바탕으로 국립중앙박물관과 독립기념관의 박물관 인식, 관람동기, 관람형태를 확인하였다. 더불어 기존 박물관에 비해 게이미피케이션을 이용한 박물관을 관람한 관람객의 성취감이 더 높이 나타나는 것을 확인할 수 있다. 향후 박물관 관람에 있어 게임 관련 콘텐츠를 개발 및 활성화하여 많은 관람객들이 박물관에 관심도를 높이고 재미와 흥미를 느낄수 있을것이라 판단된다. 연구의 분석결과는 박물관에 관람한 관람객의 전반적인 인식을 파악하기 위한 기초자료로 의미있을 것이라 사료되며, 이를 바탕으로 관람객이 박물관을 다양하게 관람 및 체험할 수 있도록 활성화될 것이라 기대한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

Rhipe를 활용한 빅데이터 처리 및 분석 (Analysis of big data using Rhipe)

  • 고영준;김진석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.975-987
    • /
    • 2013
  • 최근 Hadoop은 빅데이터의 저장, 처리 및 분석을 위한 표준시스템으로 인식되고 있으며, 많은 빅데이터 관련 시스템들이 Hadoop에 기반하여 구축되고 있다. 또한 R은 다른 소프트웨어와의 연동이 쉽고 다양한 분석 라이브러리들을 탑재하고 있어서 Hadoop 환경하에서 빅데이터의 분석을 위한 공통 분석 플렛폼으로 여겨지고 있다. 본 논문에서는 Hadoop 환경에서 분산 데이터 처리를 위한 R패키지인 Rhipe를 소개하고 빅데이터를 이용한 병렬 다중회귀분석을 위해 MapReduce 프로그램을 작성하는 방법을 예시하였다. 또한 시뮬레이션을 통해 기존의 대용량처리를 위한 R 분석패키지인 ff와 bigmemory와의 연산속도를 비교하였으며, 데이터의 크기가 커짐에 따라 Rhipe를 이용한 MapReduce 프로그램의 계산속도가 ff와 bigmemory에 비해 우수함을 확인하였다.

보편적 학습설계 측면에서의 고등학교 국어과 교수 실태: 소셜 빅데이터 및 설문조사 분석 (An Analysis of High School Korean Language Instruction Regarding Universal Design for Learning: Social Big Data Analysis and Survey Analysis)

  • 신미경;이옥인
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.326-337
    • /
    • 2020
  • 본 연구의 목적은 뉴스 기사에 나타난 고등학교 국어과 교수 및 보편적 학습설계에 대한 사회의 관심도를 소셜 빅데이터 분석 방법으로 살펴보는 것이었다. 또한 고등학교 국어 수업에서 교사들이 어떻게 보편적 학습설계를 수업에 적용하고 있는지를 살펴보기 위하여 총 330명의 고등학생들을 대상으로 설문조사를 실시하였다. 소셜 빅데이터 분석 결과, 총 10,339건의 검색 건수 중, 고등학교 국어 교수에 대한 관심과 비교하여 보편적 학습설계에 대한 관심은 현저하게 낮았다. 빅데이터 연관어 분석 결과, 고등학교 국어 교수와 연관되어 검색되어진 용어는 '교육과정'(17.22%)이 가장 높았다. 고등학생들은 국어 교사들이 수업 중 매일 활용하는 빈도가 가장 높은 테크놀로지 관련 수업도구를 컴퓨터(38.79%)라고 인식하였다. 그리고 고등학생들은 국어 교사들이 '교사 주도의 설명식 수업'(52.12%)을 위하여 테크놀로지를 활용하는 빈도가 가장 높다고 응답하였다. 1학년 학생들은 2-3학년 학생들보다 테크놀로지 관련 수업 도구 및 다양한 수업 목적으로 테크놀로지를 활용하는 경우가 더 높은 것으로 나타났다(ps<.05). 마지막으로, 5점 평점 척도 설문조사 결과, 고등학생들은 국어 교사들이 다양한 방식의 학습 참여 제공 및 다양한 방식의 행동과 표현 수단 제공과 관련된 보편적 학습설계 지침을 위해서는 '중간' 정도로 적용한다고 여겼다. 반면 다양한 방식의 표상 제공을 위한 실천 부분에서는 수업 내용을 이해하기 쉽도록 다양한 방식으로 학습자료를 제공하거나 학생들이 새로운 정보를 충분히 이해할 수 있도록 다양한 자료를 제공하는 사항들에서는 상대적으로 더욱 긍정적으로 인식하였다. 1학년 학생들의 경우 교사들의 UDL 적용 실태에 관하여 더욱 긍정적으로 인식하고 있었다.

머신러닝 알고리즘 기반의 의료비 예측 모델 개발 (Development of Medical Cost Prediction Model Based on the Machine Learning Algorithm)

  • Han Bi KIM;Dong Hoon HAN
    • Journal of Korea Artificial Intelligence Association
    • /
    • 제1권1호
    • /
    • pp.11-16
    • /
    • 2023
  • Accurate hospital case modeling and prediction are crucial for efficient healthcare. In this study, we demonstrate the implementation of regression analysis methods in machine learning systems utilizing mathematical statics and machine learning techniques. The developed machine learning model includes Bayesian linear, artificial neural network, decision tree, decision forest, and linear regression analysis models. Through the application of these algorithms, corresponding regression models were constructed and analyzed. The results suggest the potential of leveraging machine learning systems for medical research. The experiment aimed to create an Azure Machine Learning Studio tool for the speedy evaluation of multiple regression models. The tool faciliates the comparision of 5 types of regression models in a unified experiment and presents assessment results with performance metrics. Evaluation of regression machine learning models highlighted the advantages of boosted decision tree regression, and decision forest regression in hospital case prediction. These findings could lay the groundwork for the deliberate development of new directions in medical data processing and decision making. Furthermore, potential avenues for future research may include exploring methods such as clustering, classification, and anomaly detection in healthcare systems.

전과정평가(LCA)와 간략전과정평가(S-LCA)의 비교분석 및 철도산업에의 활용방안 (Comparison Analysis of Life Cycle Assessment and Simplified-LCA and Application Scheme on Rail Industry)

  • 양윤희;이건모;정인태;김용기
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2005년도 춘계학술대회 논문집
    • /
    • pp.193-198
    • /
    • 2005
  • According to the ISO 14040(1997), Life Cycle Assessment is not the tool only focusing on the emissions from the manufacturing processes of a product, but the tool also expressing environmental adverse impact quantitatively through products entire life cycle (i.e. raw material acquisition, manufacturing, transportation, use, and end-of-life stage). Because the LCA for EMUs(Electrical Multiple Units), however, requires astronomical time and cost for collecting big amount of data. it is inevitable to bring in the simplified LCA methodology, In this study, we introduced standardized methodology of LCA in the world, and found appropriate S-LCA methodology for EMUs. Furthermore, we recommended how to evaluate the environmental impact of EMUs in detail and precisely, using the S-LCA.

  • PDF