• Title/Summary/Keyword: 데이터세트 평가

Search Result 150, Processing Time 0.028 seconds

Corpus Construction of National Assembly Minutes Summarization for Korean Abstractive Meeting Minutes Summarization (한국어 회의록 생성 요약을 위한 국회 회의록 요약 말뭉치 구축 연구)

  • Younggyun Hahm;Yejee Kang;Seoyoon Park;Yongbin Jeong;Hyunbin Seo;Yiseul Lee;Hyejin Seo;Saetbyol Seo;Hansam Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.192-197
    • /
    • 2022
  • 요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터세트를 구축하였다. 또한 생성 요약 모델을 통해 구축된 데이터세트에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터세트에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.

  • PDF

Accuracy Evaluation of Brain Parenchymal MRI Image Classification Using Inception V3 (Inception V3를 이용한 뇌 실질 MRI 영상 분류의 정확도 평가)

  • Kim, Ji-Yul;Ye, Soo-Young
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.20 no.3
    • /
    • pp.132-137
    • /
    • 2019
  • The amount of data generated from medical images is increasingly exceeding the limits of professional visual analysis, and the need for automated medical image analysis is increasing. For this reason, this study evaluated the classification and accuracy according to the presence or absence of tumor using Inception V3 deep learning model, using MRI medical images showing normal and tumor findings. As a result, the accuracy of the deep learning model was 90% for the training data set and 86% for the validation data set. The loss rate was 0.56 for the training data set and 1.28 for the validation data set. In future studies, it is necessary to secure the data of publicly available medical images to improve the performance of the deep learning model and to ensure the reliability of the evaluation, and to implement modeling by improving the accuracy of labeling through labeling classification.

Research Trends and Issues of Appraisal of Digital Records : Focused on Datasets and Websites (전자기록 평가의 동향과 과제 데이터세트와 웹사이트 평가를 중심으로)

  • Hyun, Moonsoo
    • The Korean Journal of Archival Studies
    • /
    • no.71
    • /
    • pp.5-48
    • /
    • 2022
  • This study explored recent discussions, experiments, and case studies related to the appraisal of digital records, which was focused on datasets and websites. Based on this, it proposed what issues should be addressed for developing appraisal policies. To this end, it categorized appraisal criteria that can be applied to digital records, examined the arguments that in the digital environment total retention is necessary in the era of big data, and that selective retention is still necessary, based on the literature review. Subsequently, after analyzing case studies conducted on datasets and websites, the study dealt with what discussions should be made in terms of targets, tools, objectives of appraisal, and roles/responsibilities which used to develop appraisal policy. This study addressed the following questions to reveal current debates and challenges; First, what appraisal criteria can be applied to digital records in general; second, is the appraisal activities still necessary in the era of digital environment and big data; third, what are the results that case studies produced for the appraisal of digital records; fourth, what changes are expected in the future regarding the appraisal. Based on these questions, it tried to reveal the main issues necessary to develop the appraisal policies that can be applied to various types of digital records created in the public domain.

Empirical Verification of Conversion and Restoration of Preservation Format for Dataset: Application of Dataset with Disaster Safety Information to SIARD (데이터세트 보존포맷 검증방안에 관한 연구: 재난안전정보 데이터세트의 SIARD 적용을 통해)

  • Han, Hui-Jeong;Yoon, Sung-Ho;Oh, Hyo-Jung;Yang, Dongmin
    • Journal of the Korean Society for information Management
    • /
    • v.37 no.2
    • /
    • pp.251-284
    • /
    • 2020
  • As the use of information has emerged as the core of national competitiveness, major developed countries and the Korean government have realized the importance of data. They have pursued technical research and standard establishment for long-term preservation and continuously strived for systematic management and preservation of data. However, although various types of data are specified for the purpose of record management in the law, there is no specific method on how to collect, manage and preserve them, except standard electronic documents. In particular, management and preservation of huge datasets from the administrative information system have been strongly demanded above all. Any guidelines for datasets do not have been properly provided. After the framework for selecting preservation format must be prepared, the system can be supplemented and built. The framework considering the characteristics of the dataset should be specified more concretely, and empirical verification of the conversion and restoration for the dataset preservation format derived according to the selection criteria is necessary. Therefore, this study intends to propose a method for long-term preservation through empirical verification of the preservation format after deriving an evaluation the framework for the preservation format selection criteria considering the characteristics of the dataset.

산업제어시스템에서의 AI IDS 성능 향상을 위한 데이터 품질 연구 동향 및 제언

  • Namhyuk Kwon;Yooshin Kim;Eungyu Woo;Dahoon Jeong;Chuck Chae;Donghoon Shin
    • Review of KIISC
    • /
    • v.33 no.6
    • /
    • pp.5-14
    • /
    • 2023
  • 최근 산업제어시스템을 대상으로 하는 보안 사고가 지속적으로 증가함에 따라서 이상탐지 시스템에 대한 다양한 연구가 진행되고 있다. 특히 AI 기술의 급속한 발달과 함께 수준 높은 AI기반 이상탐지시스템이 연구되고 있다. 이러한 AI 모델은 산업제어시스템 환경에서 적용할 수 있도록 실시간의 처리가 필요하며, 데이터 세트의 학습에는 산업제어시스템 특성을 고려하는 것이 요구된다. 따라서, 데이터 세트가 산업제어시스템에서 적합하게 활용될 수 있는지 판별할 수 있는 세부 기준을 마련하게 된다면, 우수한 데이터 세트의 활용을 통해 산업제어시스템을 위한 AI 모델의 성능이 향상될 것으로 보인다. 본 논문에서는 산업제어시스템의 AI 침입 탐지시스템의 성능 향상을 위한 데이터 품질 연구의 동향을 조사하고, 향후 발전을 위한 방향성을 구체적인 평가항목을 통해 제시하고자 한다.

A New Head Pose Estimation Method based on Boosted 3-D PCA (새로운 Boosted 3-D PCA 기반 Head Pose Estimation 방법)

  • Lee, Kyung-Min;Lin, Chi-Ho
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.21 no.6
    • /
    • pp.105-109
    • /
    • 2021
  • In this paper, we evaluate Boosted 3-D PCA as a Dataset and evaluate its performance. After that, we will analyze the network features and performance. In this paper, the learning was performed using the 300W-LP data set using the same learning method as Boosted 3-D PCA, and the evaluation was evaluated using the AFLW2000 data set. The results show that the performance is similar to that of the Boosted 3-D PCA paper. This performance result can be learned using the data set of face images freely than the existing Landmark-to-Pose method, so that the poses can be accurately predicted in real-world situations. Since the optimization of the set of key points is not independent, we confirmed the manual that can reduce the computation time. This analysis is expected to be a very important resource for improving the performance of network boosted 3-D PCA or applying it to various application domains.

A Study on the Preservation of Similarity of privated Data (비식별 데이터의 유사성 보존에 관한 연구)

  • Kang, Dong-Hyun;Oh, Hyun-Seok;Yong, Woo-Seok;Lee, Won-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.285-288
    • /
    • 2017
  • 비식별화 모델은 데이터 공유를 위한 모델로 원본데이터를 비식별화 변환 처리하여 개인정보를 보호함과 동시에 분석에 필요한 데이터를 외부에 제공하는 모델로 연구되어 왔다. 변환 방법으로는 삭제, 일반화, 범주화 기술 등이 주로 사용되며 변환 과정 중에는 재식별 가능성을 최소화하기 위해 k-익명성, l-다양성, t-근접성 혹은 differential privacy 등의 프라이버시 모델이 적용되고 있다. 하지만 변환된 비식별 데이터 세트는 필연적으로 원본 데이터 세트와 다른 값을 가지며 이는 결과적으로 최종 분석 결과에 영향을 주게 된다. 이를 위해 두 데이터 세트 간의 차이를 상이도(dissimilarity) 혹은 정보 손실율(information loss)이라는 지표로 측정 하고 있으며 본 지표는 비식별 데이터의 활용성을 평가 하는 데에 매우 중요한 역할을 한다. 본 연구에서는 비식별 데이터와 원본 데이터와 간의 차이를 도메인 기반의 절대적인 기준대비로 표현한 상이도 측정 방법을 제안하며, 그 유효성을 실데이터 기반의 실험을 통해 검증하였다.

Building of cyanobacteria forecasting model using transformer (Transformer를 이용한 유해남조 발생 예측 모델 구축)

  • Hankyu Lee;Jin Hwi Kim;Seohyun Byeon;Jae-Ki Shin;Yongeun Park
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.515-515
    • /
    • 2023
  • 팔당호는 북한강과 남한강이 합류하여 생성된 호소로 수도인 서울과 수도권인 경기도 동부지역의 물 공급을 담당하는 중요한 상수원이다. 이러한 팔당호에서 유해남조 발생은 상수원수 활용과 직접적으로 연관되어 있어 신속하고 정확한 관리 및 예측이 필요하다. 본 연구에서는 안전한 상수원 활용을 위해, 딥러닝 기법을 이용하여 유해남조 사전 예측 모델을 구축하고자 하였다. 모델 입력 변수는 2012년부터 2021년까지 10년 동안의 주간 팔당호 수질(수온, DO, BOD, COD, Chl-a, TN, TP, pH, 전기전도도, TDN, NH4N, NO3N, TDP, PO4P, 부유물질)과 수문(유입량, 총방류량), 기상 정보(평균기온, 최저기온, 최고기온, 일 강수량, 평균풍속, 평균 상대습도, 합계일조량), 그리고 북한강과 남한강 유입지점의 남조 세포 수를 사용하였다. 모델 출력 변수는 수질, 수문, 기상 요인으로 인한 남조의 성장 발현 시기를 고려하여 1주 후의 댐앞 남조 세포수를 사용하였다. 사용한 딥러닝 기법은 최근 주목받고 있는 Temporal Fusion Transformer (TFT)를 사용하였다. 모델 훈련용 데이터와 테스트용 데이터는 각각 8:2의 비율로 나누었으며, 검증용 데이터는 훈련용 데이터 내에서 훈련 데이터와 검증 데이터를 6:4 비율로 분배하였다. Lookback은 5로 설정하였고, 이는 주단위 데이터로 구성된 데이터세트의 특성을 반영한 것이다. 모델의 성능은 실측값과 예측값을 토대로 R-square와 Root Mean Squared Error (RMSE)를 계산하여 평가하였다. 모델학습은 총 154번 반복 진행되었으며, 이 중 성능이 가장 준수한 시점은 54번째 반복 시점으로 훈련손실 대비 검증손실이 가장 양호한 값을 나타냈다(훈련손실:0.443, 검증손실 0.380). R-square는 훈련단계에서 0.681, 검증단계에서 0.654였고, 테스트 단계에서 0.606으로 산출되었다. RMSE는 훈련단계에서 0.614(㎍/L), 검증단계에서 0.617(㎍/L), 테스트 단계에서 0.773(㎍/L)였다. 모델에 사용한 데이터세트가 주간 데이터라는 특성을 고려하면, 소규모 데이터를 사용하였음에도 본 연구에서 구축한 모델의 성능은 양호하다고 평가할 수 있다. 향후 연구에서 데이터세트를 보강하고 모델을 업데이트한다면, 모델의 성능을 더욱더 개선할 수 있을 것으로 기대된다.

  • PDF

A Host-based Intrusion Detection Data Analysis Comparison (호스트 기반 침입 탐지 데이터 분석 비교)

  • Park, DaeKyeong;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.490-493
    • /
    • 2020
  • 오늘날 정보통신 기술이 급격하게 발달하면서 IT 인프라에서 보안의 중요성이 높아졌고 동시에 APT(Advanced Persistent threat)처럼 고도화되고 다양한 형태의 공격이 증가하고 있다. 점점 더 고도화되는 공격을 조기에 방어하거나 예측하는 것은 매우 중요한 문제이며, NIDS(Network-based Intrusion Detection System) 관련 데이터 분석만으로는 빠르게 변형하는 공격을 방어하지 못하는 경우가 많이 보고되고 있다. 따라서 HIDS(Host-based Intrusion Detection System) 데이터 분석을 통해서 위와 같은 공격을 방어하는데 현재는 침입탐지 시스템에서 생성된 데이터가 주로 사용된다. 하지만 데이터가 많이 부족하여 과거에 생성된 DARPA(Defense Advanced Research Projects Agency) 침입 탐지 평가 데이터 세트인 KDD(Knowledge Discovery and Data Mining) 같은 데이터로 연구를 하고 있어 현대 컴퓨터 시스템 특정을 반영한 데이터의 비정상행위 탐지에 대한 연구가 많이 부족하다. 본 논문에서는 기존에 사용되었던 데이터 세트에서 결여된 스레드 정보, 메타 데이터 및 버퍼 데이터를 포함하고 있으면서 최근에 생성된 LID-DS(Leipzig Intrusion Detection-Data Set) 데이터를 이용한 분석 비교 연구를 통해 앞으로 호스트 기반 침입 탐지 데이터 시스템의 나아갈 새로운 연구 방향을 제시한다.

A Study on Database Design Model for Production System Record Management Module in DataSet Record Management (데이터세트 기록관리를 위한 생산시스템 기록관리 모듈의 DB 설계 모형연구)

  • Kim, Dongsu;Yim, Jinhee;Kang, Sung-hee
    • The Korean Journal of Archival Studies
    • /
    • no.78
    • /
    • pp.153-195
    • /
    • 2023
  • RDBMS is a widely used database system worldwide, and the term dataset refers to the vast amount of data produced in administrative information systems using RDBMS. Unlike business systems that mainly produce administrative documents, administrative information systems generate records centered around the unique tasks of organizations. These records differ from traditional approval documents and metadata, making it challenging to seamlessly transfer them to standard record management systems. With the 2022 revision of the 'Public Records Act Enforcement Decree,' dataset was included in the types of records for which only management authority is transferred. The core aspect of this revision is the need to manage the lifecycle of records within administrative information systems. However, there has been little exploration into how to manage dataset within administrative information systems. As a result, this research aims to design a database for a record management module that needs to be integrated into administrative information systems to manage the lifecycle of records. By modifying and supplementing ISO 16175-1:2020, we are designing an "human resource management system" and identifying and evaluating personnel management dataset. Through this, we aim to provide a concrete example of record management within administrative information systems. It's worth noting that the prototype system designed in this research has limitations in terms of data volume compared to systems currently in use within organizations, and it has not yet been validated by record researchers and IT developers in the field. However, this endeavor has allowed us to understand the nature of dataset and how they should be managed within administrative information systems. It has also affirmed the need for a record management module's database within administrative information systems. In the future, once a complete record management module is developed and standards are established by the National Archives, it is expected to become a necessary module for organizations to manage dataset effectively.