• 제목/요약/키워드: Public Dataset

검색결과 235건 처리시간 0.023초

기반시설 마스터데이터 표준요소 구축에 관한 연구 - 기반시설 표준데이터를 중심으로 - (A Study on the Establishment of Standard Elements of Infrastructure Master Data: Focused on Infrastructure Standard Dataset)

  • 손혜인;남영준
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.35-55
    • /
    • 2017
  • 마스터데이터는 기관 내부의 광범위한 이용을 목적으로 구축되며, 주로 기업에서 많이 활용되고 있는 분야이다. 이 연구는 국가의 공공기관에서 활용할 수 있는 기반시설에 관한 마스터데이터 구축을 목적으로 연구를 진행하였다. 이를 위해 공공데이터포털에서 제공하는 표준데이터세트에 기반을 두고 해당 데이터세트의 개별 속성을 분석하였다. 이 중 마스터데이터의 특성에 맞는 표준요소를 추출하였고, 최종적으로 종합한 표준요소를 국가에서 활용하고 있는 표준화 체계를 통하여 검증하였다.

딥러닝 기반의 새로운 마스크 얼굴 데이터 세트를 사용한 최신 얼굴 인식 (Modern Face Recognition using New Masked Face Dataset Generated by Deep Learning)

  • 판반뎃;이효종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.647-650
    • /
    • 2021
  • The most powerful and modern face recognition techniques are using deep learning methods that have provided impressive performance. The outbreak of COVID-19 pneumonia has spread worldwide, and people have begun to wear a face mask to prevent the spread of the virus, which has led existing face recognition methods to fail to identify people. Mainly, it pushes masked face recognition has become one of the most challenging problems in the face recognition domain. However, deep learning methods require numerous data samples, and it is challenging to find benchmarks of masked face datasets available to the public. In this work, we develop a new simulated masked face dataset that we can use for masked face recognition tasks. To evaluate the usability of the proposed dataset, we also retrained the dataset with ArcFace based system, which is one the most popular state-of-the-art face recognition methods.

LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구 (A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation)

  • 신승기
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.439-448
    • /
    • 2022
  • 본 연구에서는 공공데이터포털에서 제공하는 교육관련 데이터를 검색하고 토픽모델링 기법을 활용한 분류를 통해 어떠한 데이터의 종류가 구축되어 있으며 활용이 가능한지를 살펴보고자 하였다. 공공데이터포털의 데이터에 대하여 분류체계를 기준으로 교육분야의 파일데이터는 3,072건이 수집되었으며, 검색어를 활용하여 '교육'을 검색하여 나타난 파일데이터 2,361건으로 나타났다. 각각의 데이터셋에 대하여 불용어처리를 실시하고 데이터 전처리를 수행하여 LDA기반 토픽모델링을 활용하여 텍스트마이닝 분석을 실시하였다. 사전에 교육으로 분류된 데이터셋에서는 현재 재학중인 학교급별 학생을 대상으로 지원하는 프로그램과 정보에 대한 내용이 제공되고 있었다. 한편, 교육으로 검색하여 수집된 데이터셋에서는 장애인, 학부모, 노인, 아동 등 평생교육의 관점으로 제공되는 교육 프로그램 및 지원현황이라는 특징이 나타났다. 데이터과학기반의 의사결정 및 문제해결력을 기르기 위해 공공데이터포털이 제공하는 데이터에서 교육과정 및 내용이 충분히 제공되는 것도 좋은 기회가 될 것이다.

공공기관 데이터세트 식별과 평가 절차 연구 국가철도공단 전자조달시스템 사례를 중심으로 (Study on Public Institution Dataset Identification and Evaluation Process : Focusing on the Case of KR Electronic Procurement System)

  • 황진현;백영미;임진희
    • 기록학연구
    • /
    • 제70호
    • /
    • pp.41-83
    • /
    • 2021
  • 공공기록물법 시행령 개정 이후 기록관에서는 데이터세트 기록 관리를 위한 관리기준표를 작성하고 이에 대한 관리와 통제를 수행하게 되었다. 이에 본 연구에서는 기록관의 체계적 데이터세트 기록 관리를 위한 데이터세트 기록 식별 절차와 평가 지표를 개발하였다. 이를 적용하여 국가철도공단의 KR전자조달시스템의 8개 데이터세트 기록 식별 후 관리기준표를 작성하였고, 평가지표에 따라 평가를 진행, 보존기간과 이관 및 수집 여부를 책정하였다. 데이터세트 기록의 관리 절차에 대한 구체적 사례가 부족한 시점에, 이 사례연구가 기록관에 실무적 도움이 되기를 바란다.

행정정보 데이터세트 평가선별을 위한 평가지표 개선방안 연구 (A Study on Improvement of Evaluation Indicators for Archival Appraisal of Administrative Information Dataset)

  • 전한역;강변구;송채은;양동민
    • 한국기록관리학회지
    • /
    • 제23권2호
    • /
    • pp.27-48
    • /
    • 2023
  • 국내 공공기관에서 행정정보 데이터세트는 체계적인 관리가 필요한 전자기록물로 인식된다. 이와 관련해 최근 국가기록원과 학계를 중심으로 기록관리 실행을 위한 구체적인 방안이 논의되고 있다. 본 연구의 목적은 향후 공공기관의 기록관리 실무 현장에서 데이터세트 평가선별 시 고려할 사항과 행정정보 데이터세트의 가치를 효과적으로 파악할 수 있는 평가지표의 개선방안을 도출하는 것이다. 본 논문은 이론적 배경 및 데이터세트의 평가선별 현황을 분석하여 데이터세트 평가선별에 필요한 고려사항을 도출하고, 기존 연구에서 제시된 평가지표의 개선방안을 제안하였다. 본 연구의 결과가 향후 공공기관 데이터세트 관리체계 정비와 관리 프로세스 보완에 관한 논의 활성화로 이어지기를 기대한다.

Classification of Network Traffic using Machine Learning for Software Defined Networks

  • Muhammad Shahzad Haroon;Husnain Mansoor
    • International Journal of Computer Science & Network Security
    • /
    • 제23권12호
    • /
    • pp.91-100
    • /
    • 2023
  • As SDN devices and systems hit the market, security in SDN must be raised on the agenda. SDN has become an interesting area in both academics and industry. SDN promises many benefits which attract many IT managers and Leading IT companies which motivates them to switch to SDN. Over the last three decades, network attacks becoming more sophisticated and complex to detect. The goal is to study how traffic information can be extracted from an SDN controller and open virtual switches (OVS) using SDN mechanisms. The testbed environment is created using the RYU controller and Mininet. The extracted information is further used to detect these attacks efficiently using a machine learning approach. To use the Machine learning approach, a dataset is required. Currently, a public SDN based dataset is not available. In this paper, SDN based dataset is created which include legitimate and non-legitimate traffic. Classification is divided into two categories: binary and multiclass classification. Traffic has been classified with or without dimension reduction techniques like PCA and LDA. Our approach provides 98.58% of accuracy using a random forest algorithm.

딥 전이 학습을 이용한 인간 행동 분류 (Human Activity Classification Using Deep Transfer Learning)

  • 닌담 솜사우트;통운 문마이;숭타이리엥;오가화;이효종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.478-480
    • /
    • 2022
  • This paper studies human activity image classification using deep transfer learning techniques focused on the inception convolutional neural networks (InceptionV3) model. For this, we used UFC-101 public datasets containing a group of students' behaviors in mathematics classrooms at a school in Thailand. The video dataset contains Play Sitar, Tai Chi, Walking with Dog, and Student Study (our dataset) classes. The experiment was conducted in three phases. First, it extracts an image frame from the video, and a tag is labeled on the frame. Second, it loads the dataset into the inception V3 with transfer learning for image classification of four classes. Lastly, we evaluate the model's accuracy using precision, recall, F1-Score, and confusion matrix. The outcomes of the classifications for the public and our dataset are 1) Play Sitar (precision = 1.0, recall = 1.0, F1 = 1.0), 2), Tai Chi (precision = 1.0, recall = 1.0, F1 = 1.0), 3) Walking with Dog (precision = 1.0, recall = 1.0, F1 = 1.0), and 4) Student Study (precision = 1.0, recall = 1.0, F1 = 1.0), respectively. The results show that the overall accuracy of the classification rate is 100% which states the model is more powerful for learning UCF-101 and our dataset with higher accuracy.

A Novel Transfer Learning-Based Algorithm for Detecting Violence Images

  • Meng, Yuyan;Yuan, Deyu;Su, Shaofan;Ming, Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1818-1832
    • /
    • 2022
  • Violence in the Internet era poses a new challenge to the current counter-riot work, and according to research and analysis, most of the violent incidents occurring are related to the dissemination of violence images. The use of the popular deep learning neural network to automatically analyze the massive amount of images on the Internet has become one of the important tools in the current counter-violence work. This paper focuses on the use of transfer learning techniques and the introduction of an attention mechanism to the residual network (ResNet) model for the classification and identification of violence images. Firstly, the feature elements of the violence images are identified and a targeted dataset is constructed; secondly, due to the small number of positive samples of violence images, pre-training and attention mechanisms are introduced to suggest improvements to the traditional residual network; finally, the improved model is trained and tested on the constructed dedicated dataset. The research results show that the improved network model can quickly and accurately identify violence images with an average accuracy rate of 92.20%, thus effectively reducing the cost of manual identification and providing decision support for combating rebel organization activities.

국내 주행환경을 고려한 자율주행 라이다 데이터 셋 구축 및 효과적인 3D 객체 검출 모델 설계 (Construction of LiDAR Dataset for Autonomous Driving Considering Domestic Environments and Design of Effective 3D Object Detection Model)

  • 이진희;이재근;이주현;김제석;권순
    • 대한임베디드공학회논문지
    • /
    • 제18권5호
    • /
    • pp.203-208
    • /
    • 2023
  • Recently, with the growing interest in the field of autonomous driving, many researchers have been focusing on developing autonomous driving software platforms. In particular, we have concentrated on developing 3D object detection models that can improve real-time performance. In this paper, we introduce a self-constructed 3D LiDAR dataset specific to domestic environments and propose a VariFocal-based CenterPoint for the 3D object detection model, with improved performance over the previous models. Furthermore, we present experimental results comparing the performance of the 3D object detection modules using our self-built and public dataset. As the results show, our model, which was trained on a large amount of self-constructed dataset, successfully solves the issue of failing to detect large vehicles and small objects such as motorcycles and pedestrians, which the previous models had difficulty detecting. Consequently, the proposed model shows a performance improvement of about 1.0 mAP over the previous model.

블록체인을 활용한 내부자 유출위협 데이터 공유 연구 (A Study on Insider Threat Dataset Sharing Using Blockchain)

  • 윤원석;장항배
    • Journal of Platform Technology
    • /
    • 제11권2호
    • /
    • pp.15-25
    • /
    • 2023
  • 본 연구는 유출위협 탐지 연구에 활용되는 유출위협 데이터 셋의 한계점을 분석하고 현재의 문제를 극복하기 위해 보안솔루션을 활용하여 공개된 유출위협 데이터와 비교 분석한다. 이를 통해 유출위협 탐지에 적합한 데이터 포맷을 설계하고 블록체인 기술을 사용하여 서로 다른 기관 및 기업 간 유출위협 정보를 안전하게 공유할 수 있는 시스템을 구현한다. 현재 연구원들에게 공개된 유출위협 데이터 셋에서 실제 사건을 기반으로 수집한 데이터 셋은 없다. 공개된 데이터 셋은 연구를 위해 임의로 만들어진 가상의 합성데이터로 학습모델로 사용 시 실제 환경에서의 많은 한계점이 존재한다. 본 연구에서는 이러한 한계점들을 개선하기 위해서 프라이빗 블록체인 설계하여 소속이 다른 기관끼리 안전한 정보공유를 위해 참여자 간 합의와 검증을 통해 신뢰성을 높이고 정보의 무결성과 정합성을 유지하는 방안을 도출하였다. 제시한 방법은 유출위협 수집기를 통해 데이터를 수집하고 블록체인 기반 공유 시스템을 통해 합성데이터가 아닌 실제 위협을 가했던 양질의 데이터 셋을 수집하여 현재의 유출위협 데이터 셋 문제를 해결하고 향후 내부자 유출위협 탐지 모델에 기여할 것으로 사료된다.

  • PDF