• Title/Summary/Keyword: 데이터과학과

Search Result 5,279, Processing Time 0.039 seconds

Data Analysis for Plasma Equipment Sensor data (플라즈마 공정 장비의 센서데이터 분석 연구)

  • Ryu, Jinseung;Jeong, Minjoong;Jung, Hee-Jin
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.25-26
    • /
    • 2022
  • 플라즈마 공정장비 지능화를 이루기 위해서는 플라즈마 공정장비에서 플라즈마를 생성하는 다양한 조건 값에 따라 변화되는 플라즈마의 상태 값이 필요하며 이러한 데이터를 수집하기 위해 여러 종류의 측정 센서를 사용한다. 측정 센서에서 생산된 데이터를 이용하여 다양한 분석 기법을 사용하여 플라즈마 생성 조건 및 센서 데이터의 주요한 특징점 간의 관계성을 파악함으로써 플라즈마 공정장비의 상태를 진단할 수 있다. 이를 위해 플라즈마 공정장비에서 생산된 데이터를 기반으로 다양한 데이터 분석 연구를 통한 데이터간의 연관성을 보여주도록 한다.

  • PDF

Development of integrated data augmentation automation tools for deep learning (딥러닝 학습용 집적화된 데이터 증강 자동화 도구 개발)

  • Jang, Chan-Ho;Lee, Seo-Young;Park, Goo-Man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.283-286
    • /
    • 2021
  • 4차 산업혁명을 맞이해 최근 산업 및 기술 영역에서는 인공지능을 이용한 생산력 향상, 자동화 등 딥러닝의 보편화가 빠르게 진행되고 있다. 또한, 딥러닝의 성능을 도출하기 위해서는 수많은 양의 학습용 데이터가 필요하며 그 데이터의 양은 딥러닝 모델의 성능과 정비례한다. 이에 본 작품은 최신형 영상처리 Library인 Albumentations를 이용하여 영상처리 알고리즘을 이용하여 이미지를 증강하고, 이미지 데이터 크롤링 기능을 통해 Web에서 영상 데이터를 수집을 자동화하며, Label Pix를 연동하여 수집한 데이터를 라벨링 한다. 더 나아가 라벨링 된 데이터의 증강까지 포함하여 다양한 증강 자동화를 한 인터페이스에 집적시켜 딥러닝 모델을 생성할 때 데이터 수집과 전처리를 수월하게 한다. 또한, Neural Net 기반의 AdaIN Transfer를 이용하여 이미지를 개별적으로 학습하지 않고 Real time으로 이미지의 스타일을 옮겨올 수 있도록 하여 그림 데이터의 부족 현상을 해결한다.

  • PDF

An Identification on Big Data Application Fields by Utilizing Journal Bibliographic Coupling Analysis (서지결합분석을 통한 빅데이터 활용 분야 연구)

  • Lee, Boram
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2016.08a
    • /
    • pp.19-22
    • /
    • 2016
  • 본 연구는 빅데이터의 처리 저장 등과 같은 기술적 측면이 아닌 분석 활용적 측면에 초점을 맞춰 관련 학문분야를 파악하고 분야 간 지적구조를 규명하고자 하였다. 연구 결과 빅데이터 관련 연구들이 주제분야에 따라 명백한 차이를 보이고 있음을 확인할 수 있었다. 주제범주 분석을 통해 공학 기술(34.60%), 사회과학(25.24%), 자연과학(23.14%), 의학 보건학(14.85%) 등은 관련 연구가 비교적 고르게 분포되어 있지만, 인문학(1.69%)과 농업과학(0.21%)은 연구가 미비함을 알 수 있었다. 네트워크 분석 결과 사회과학 분야(31.58%)에 비해 공학 및 자연과학 분야(68.42%)의 빅데이터 연구가 더 활발함을 확인할 수 있었다. 또한 공학 및 자연과학 분야 연구들은 다양한 주제분야를 다루는 반면 사회과학 분야에서는 아직 한정된 주제분야에서 연구가 진행되고 있음을 알 수 있었다.

  • PDF

Fast Streamline Visualization on Structured Grids using Computational Space Based Hierarchical Tree (계산 공간 기반 계층 트리를 이용한 구조화된 격자 상에서의 빠른 스트림라인 가시화)

  • Joong-Youn Lee;Geebum Koo;Youngju Hur;Bokhee Keum
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.207-210
    • /
    • 2008
  • (비)구조화된 격자 상에 정의된 벡터 데이터는 다양한 과학 및 공학 분야에서 매우 중요하게 다루어진다. 이러한 데이터는 데카르트 격자 상의 데이터에 비해 많은 처리시간을 필요로 하는데, 이러한 문제는 계층 트리를 이용해서 빠르게 처리하는 것이 가능하다. 본 논문에서는 구조화된 격자 데이터에 대해 계산 공간을 기반으로한 계층 트리를 생성하고 이 트리를 이용해서 빠르게 데이터 샘플링을 처리하고자 했다. 이러한 방법을 이용해서 스트림라인 생성 시간을 평균 1800배 빨라지게 하는 것이 가능했다.

KISTI-ML Platform: A Community-based Rapid AI Model Development Tool for Scientific Data (KISTI-ML 플랫폼: 과학기술 데이터를 위한 커뮤니티 기반 AI 모델 개발 도구)

  • Lee, Jeongcheol;Ahn, Sunil
    • Journal of Internet Computing and Services
    • /
    • v.20 no.6
    • /
    • pp.73-84
    • /
    • 2019
  • Machine learning as a service, the so-called MLaaS, has recently attracted much attention in almost all industries and research groups. The main reason for this is that you do not need network servers, storage, or even data scientists, except for the data itself, to build a productive service model. However, machine learning is often very difficult for most developers, especially in traditional science due to the lack of well-structured big data for scientific data. For experiment or application researchers, the results of an experiment are rarely shared with other researchers, so creating big data in specific research areas is also a big challenge. In this paper, we introduce the KISTI-ML platform, a community-based rapid AI model development for scientific data. It is a place where machine learning beginners use their own data to automatically generate code by providing a user-friendly online development environment. Users can share datasets and their Jupyter interactive notebooks among authorized community members, including know-how such as data preprocessing to extract features, hidden network design, and other engineering techniques.

Current Status and Proposal of University Library Research Data Management Service: Focused on Science and Technology Specialized Universities (대학도서관 연구데이터 관리 서비스 현황 및 제안 - 과학기술특성화 대학을 중심으로 -)

  • Juseop Kim;Suntae Kim
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.57 no.3
    • /
    • pp.279-301
    • /
    • 2023
  • The data-driven research environment is rapidly changing. Accordingly, domestic university libraries are also preparing to establish and operate research data management services to support university researchers. This study was designed to propose a research data management service to support researchers in science and technology specialized university libraries. In order to propose the service, 11 universities specializing in science and technology were selected from overseas and domestic universities and their research data management services were analyzed. Key categories were derived from analysis results, research data management, electronic research notebooks, and RDM training. In particular, the 'research data management' category included DMP, data collection, data management, data preservation, data sharing and publishing, data reuse, infrastructure and tools. And it consists of RDM guides and policies. The results of this study will be helpful in introducing and operating research data management services in science and technology specialized university libraries.

A Study to Improve the Trustworthiness of Data Repositories by Obtaining CoreTrustSeal Certification (CoreTrustSeal 인증 획득을 통한 데이터 리포지토리의 신뢰성 향상을 위한 연구)

  • Hea Lim Rhee;Jung-Ho Um;Youngho Shin;Hyung-jun Yim;Na-eun Han
    • Journal of the Korean Society for information Management
    • /
    • v.41 no.2
    • /
    • pp.245-268
    • /
    • 2024
  • As the recognition of data's value increases, the role of data repositories in managing, preserving, and utilizing data is becoming increasingly important. This study investigates ways to enhance the trustworthiness of data repositories through obtaining CoreTrustSeal (CTS) certification. Trust in data repositories is critical not only for data protection but also for building and maintaining trust between the repository and stakeholders, which in turn affects researchers' decisions on depositing and utilizing data. The study examines the CoreTrustSeal, an international certification for trustworthy data repositories, analyzing its impact on the trustworthiness and efficiency of repositories. Using the example of DataON, Korea's first CTS-certified repository operated by the Korea Institute of Science and Technology Information (KISTI), the study compares and analyzes four repositories that have obtained CTS certification. These include DataON, the Physical Oceanography Distributed Active Archive Center (PO.DAAC) from NASA, Yareta from the University of Geneva, and the DARIAH-DE repository from Germany. The research assesses how these repositories meet the mandatory requirements set by CTS and proposes strategies for improving the trustworthiness of data repositories. Key findings indicate that obtaining CTS certification involves rigorous evaluation of organizational infrastructure, digital object management, and technological aspects. The study highlights the importance of transparent data processes, robust data quality assurance, enhanced accessibility and usability, sustainability, security measures, and compliance with legal and ethical standards. By implementing these strategies, data repositories can enhance their reliability and efficiency, ultimately promoting wider data sharing and utilization in the scientific community.

A Study on the Research Trends of Library and Information Science in Korea using S&T Authority Data (과학기술 전거데이터를 이용한 국내 문헌정보학 분야 연구동향 분석)

  • Lee, Seok-Hyoung;You, Beom-Jong
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.48 no.4
    • /
    • pp.377-399
    • /
    • 2014
  • In this paper, we analyzed the research trend of Library and Information Science field in Korea using science and technology authority data which has been constructed by KISTI. The authority data is a set of data given a unique identifier to identify a unique object for the authors, affiliations and journals of domestic and international academic paper that published in Korea or written by Korean authors. We examined collaborating patterns, authors and institutional productivity through analyzing the 5 domestic LIS journals published from 1997 to 2013.

A Study on Policy Components of Data Access and Use Controls in Research Data Repositories (연구데이터 레포지터리의 데이터 접근 및 이용 통제 정책 요소에 관한 연구)

  • Kim, Jihyun
    • Journal of Korean Library and Information Science Society
    • /
    • v.47 no.3
    • /
    • pp.213-239
    • /
    • 2016
  • As Open Data has been emphasized globally, discussions on data policies have occurred for minimizing problems resulting from data sharing and reuse. This study aimed at investigating policy components for controlling access and use of data and examining similarities and differences of the policy components across disciplines. For the purpose, the study analyzed policy components for data access and use controls provided by 37 research data repositories overseas. These included twenty repositories in biological and health science, ten in chemistry, earth and environmental science and physics, as well as seven in social science and general science. The analysis showed that common policy components involve copyright/licenses, data citation, disclaimers and embargoes. However, there were differences in diversity of policy components among the disciplines and it indicated that the rationales of access and use controls emphasized would be different in the disciplines.

Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning (대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강)

  • Yechan Hwang;Jinsu Lim;Young-Jun Lee;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF