• Title/Summary/Keyword: 데이터과학자

Search Result 604, Processing Time 0.035 seconds

Exploring the Job Competencies of Data Scientists Using Online Job Posting (온라인 채용정보를 이용한 데이터 과학자 요구 역량 탐색)

  • Jin, Xiangdan;Baek, Seung Ik
    • The Journal of Society for e-Business Studies
    • /
    • v.27 no.2
    • /
    • pp.1-20
    • /
    • 2022
  • As the global business environment is rapidly changing due to the 4th industrial revolution, new jobs that did not exist before are emerging. Among them, the job that companies are most interested in is 'Data Scientist'. As information and communication technologies take up most of our lives, data on not only online activities but also offline activities are stored in computers every hour to generate big data. Companies put a lot of effort into discovering new opportunities from such big data. The new job that emerged along with the efforts of these companies is data scientist. The demand for data scientist, a promising job that leads the big data era, is constantly increasing, but its supply is not still enough. Although data analysis technologies and tools that anyone can easily use are introduced, companies still have great difficulty in finding proper experts. One of the main reasons that makes the data scientist's shortage problem serious is the lack of understanding of the data scientist's job. Therefore, in this study, we explore the job competencies of a data scientist by qualitatively analyzing the actual job posting information of the company. This study finds that data scientists need not only the technical and system skills required of software engineers and system analysts in the past, but also business-related and interpersonal skills required of business consultants and project managers. The results of this study are expected to provide basic guidelines to people who are interested in the data scientist profession and to companies that want to hire data scientists.

Design and Implementation of Distributed Visualization Server for Real-time Visualization of Massive Dataset (거대 데이터의 실시간 가시화를 위한 분산 가시화 서버의 설계 및 구현)

  • Lee, Joong-Youn;Kim, MinAh;Hur, Youngju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.467-470
    • /
    • 2011
  • 일반 PC의 메인 메모리에 올릴 수 없는 거대 용량의 데이터의 경우 가시화를 통한 해석을 수행하는데 어려움이 많다. 본 논문에서는 이러한 거대 용량의 데이터를 실시간으로 처리하기 위한 분산 환경에서의 가시화 서버의 설계를 제안한다. 본 논문에서 제안하는 가시화 서버는 가시화 관리자, 네트워크 관리자, 데이터 관리자로 구분되며 이들 관리자를 통해 복수의 사용자에 대한 가시화 서비스 제공, 거대 데이터의 실시간 동적 데이터 분할 및 할당 및 실시간 가시화를 지원한다.

A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data (대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템)

  • Son, Siwoon;Kim, Dasol;Moon, Yang-Sae;Choi, Hyung-Jin
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.58-68
    • /
    • 2018
  • Distributed computing helps to efficiently store and process large data on a cluster of multiple machines. The performance of distributed computing is greatly influenced depending on the state of the servers constituting the distributed system. In this paper, we propose a self-diagnosis system that collects log data in a distributed system, detects anomalies and visualizes the results in real time. First, we divide the self-diagnosis process into five stages: collecting, delivering, analyzing, storing, and visualizing stages. Next, we design a real-time self-diagnosis system that meets the goals of real-time, scalability, and high availability. The proposed system is based on Apache Flume, Apache Kafka, and Apache Storm, which are representative real-time distributed techniques. In addition, we use simple but effective moving average and 3-sigma based anomaly detection technique to minimize the delay of log data processing during the self-diagnosis process. Through the results of this paper, we can construct a distributed real-time self-diagnosis solution that can diagnose server status in real time in a complicated distributed system.

Data Publishing and Library (데이터 출판과 도서관)

  • Jung, Youngim
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2017.08a
    • /
    • pp.101-101
    • /
    • 2017
  • 연구 성과물에 대한 접근성을 개선함으로써 다른 연구에도 도움을 주어 또 다른 과학적 발명과 발견에 기여할 수 있어야 한다는 오픈 사이언스의 철학이 전세계적으로 설득력을 얻으면서 연구 데이터 공개 및 출판을 위한 사회적 논의도 활발하게 이루어지고 있다. 또한, 지난 몇년 동안 글로벌 표준식별자 개발, 메타데이터 및 인용 방식의 표준화, 데이터 리포지토리 구축 등 연구 데이터 공개 및 출판을 위한 기술이 비약적으로 발전하고 있다. 전통적으로 학술지 논문의 부속 자료로 여겨지던 데이터(연구 데이터)는 이제 다양한 분야에서 논문과는 독립적으로 데이터 리포지토리에 기탁되어 공개되거나 데이터 저널에 출판되기도 한다. 그러나 학술 논문의 출판과는 달리 데이터 출판은 종종 다른 용어와 의미로 정의되기도 하며 분야마다 데이터 출판의 방식과 구현의 정도가 크게 다르다. 본 연구에서는 현재 진행 중인 데이터 공개 및 출판 이니셔티브를 소개하고 데이터의 공적 이용가능성, 문서화, 인용, 식별자 부여, 검증 및 데이터 출판의 단계별 구현 사례를 분석한다. 또한 국내에서 데이터 출판과 관련하여 수행 중인 과제를 검토한다. 마지막으로, 학술 정보 출판과 연구데이터 관리를 도서관의 기능으로 인식하고 출판과 관련한 다양한 관심사를 논의하는 도서관 중심 이니셔티브를 살펴봄으로써 데이터 출판과 관련한 도서관의 역할을 모색하고자 한다.

  • PDF

Blockchain-based Secure Multi-Party Computation Architecture for Privacy Preservingin IoT Network (IoT 네트워크에서 개인정보 보호를 위한 블록체인 기반의 안전한 다자간 계산 아키텍처)

  • Haotian Chen;Heeji Park;Jong Hyuk Park
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.115-118
    • /
    • 2023
  • IoT 장치들은 연구, 의료, 금융, 민생 분야 등에 지원하고 있으며 취약한 보안 메커니즘으로 인하여 IoT 네트워크의 개인정보 안전성이 중요해지고 있다. 안전한 다자간 계산은 서로 믿지 않는 참여자라도 데이터 수요자에게 원본 데이터를 누설하지 않는 범위 안에서 다자간 연합 계산 능력을 제공한다. 상업 네트워크나 산업 네트워크에서는 대량의 데이터는 다른 플랫폼들과 통신하기 때문에 기업이나 개인의 개인정보 데이터가 통신 과정에서 도청될 경우 데이터 보유자에게 막대한 경제적이나 잠재적인 손실이 발생한다. 본 논문에서 데이터 통신 과정을 계층별로 정의하여 블록체인에 기반의 안전한 다자간 계산 아키텍처를 제안한다. 제안하는 이키텍처에서 블록체인을 사용함으로써 데이터의 유효성 및 검증 가능성을 보장한다. 인증된 데이터로 안전한 다자간 계산 수행하기 때문에 통신과정의 보안성 및 기밀성도 확보한다. 암호학 및 블록체인 기술의 지속적 발전 및 활성화에 따라 제안하는 아키텍처가 지속적으로 개선할 잠재력이 있다.

Bigdata Prediction Support Service for Citizen Data Scientists (시민 데이터과학자를 위한 빅데이터 예측 지원 서비스)

  • Chang, Jae-Young
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.19 no.2
    • /
    • pp.151-159
    • /
    • 2019
  • As the era of big data, which is the foundation of the fourth industry, has come, most related industries are developing related solutions focusing on the technologies of data storage, statistical analysis and visualization. However, for the diffusion of bigdata technology, it is necessary to develop the prediction analysis technologies using artificial intelligence. But these advanced technologies are only possible by some experts now called data scientists. For big data-related industries to develop, a non-expert, called a citizen data scientist, should be able to easily access the big data analysis process at low cost because they have insight into their own data. In this paper, we propose a system for analyzing bigdata and building business models with the support of easy-to-use analysis system without knowledge of high-level data science. We also define the necessary components and environment for the prediction analysis system and present the overall service plan.

Self-Leadership as Antecedent of Organizational Commitment and Intention to Leave among Data Scientists (데이터과학자의 셀프리더십이 이직의도에 미치는 영향: 인지된 직무자율성의 조절된 매개역할)

  • Jung, Chang Mo
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.5
    • /
    • pp.47-69
    • /
    • 2021
  • Data scientists are new knowledge workers representing the knowledge economy era. Knowledge workers perform unstandardized works that solve ambiguity-intensive problems. Therefore, self-leadership, which emphasizes self-motivated, autonomous judgment and execution, significantly influences their work-related outcomes. Even knowledge workers have high occupational commitment, they usually show low organizational commitment. Knowledge workers' intention to leave is also relatively high due to this reason. This study focused on data scientists' self-leadership, predicted that self-leadership would increase an organization's commitment and intention to leave. Based on the trait activation theory(TAT), the author also confirmed how perceived job autonomy enhances self-leadership influences. Results showed that data scientists' self-leadership significantly lowered intention to leave through organizational commitment and this mediating effect was moderated by perceived job autonomy. This study broadened the theoretical understanding the effects of knowledge workers' self-leadership and presented practical implications for managing data scientists.

How does the General Public Understand Science and Technology Issues?: A Case on the Nuclear Power Issue Using Topic Modeling Approach (과학기술이슈에 대한 일반인의 인식분석: 토픽모델링을 활용한 원자력발전 사례)

  • Choi, Hyundo;Ahn, Jongwuk
    • Journal of Technology Innovation
    • /
    • v.23 no.4
    • /
    • pp.151-175
    • /
    • 2015
  • The general public is a key stakeholder in the science and technology domain. However, traditional approaches require substantial efforts and resources to analyze how does the general public understand science and technology issues. We applied the topic modeling, a form of text clustering, to the texts about the nuclear power which were posted on an online space in order to explore the general public's thoughts on the issue. This study investigates the extent to which macro-level events influence understandings of the general public on the science and technology issues and weather these changes in understandings are sustained over time. It examines the possibility of applying topic modeling in narrowing a perception gap between the general public and the experts through a near-real-time monitoring of the public interests and perceptions about the science and technology issues.

A Design of User Profile Agent Model for Intelligent Tutoring System (지능형 튜터링 시스템을 위한 사용자 프로파일 에이전트 모델 설계)

  • Jang, Jin-Cheul;Hong, Sung-Ho;Hong, Seong-Yong;Yi, Mun-Yong;Yoon, Wan-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1222-1225
    • /
    • 2011
  • 개인화된 IT 서비스의 트렌드는 학습자를 위한 튜터링 시스템에도 학습자의 능력과 수요를 고려한 개인화된 서비스를 요구하고 있다. 본 연구에서는 지능형 튜터링 시스템을 위해 사용자 프로파일 에이전트(UPA, User Profile Agent) 모델을 제안한다. UPA는 프로세스, 메타데이터, 사용자 인터페이스로 구성되어 있으며, 사용자의 기본 정보와 학력 및 경력 정보, 학습 영역 지식, 개인 능력 측정 정보를 메타데이터에 기반으로 저장한다. 저장된 사용자 프로파일 정보는 에이전트의 프로세스에 의해 가공되어 학습자에게 유용한 정보를 제공할 수 있도록 기여할 수 있다. 향후 본 논문의 모형 설계를 기반으로 이러닝 기술 환경의 변화를 반영한 지능화된 지능형 튜터링 시스템 개발에 기여할 수 있도록 연구 발전시키는 것을 목표로 한다.