• 제목/요약/키워드: Dataset Archive

검색결과 12건 처리시간 0.029초

인공지능 교육을 위한 데이터셋 아카이브 설계 (Design of Dataset Archive for AI Education)

  • 이세훈;노예원;노연수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.233-234
    • /
    • 2022
  • 본 논문에서는 효율적인 AI 교육을 위한 데이터셋 아카이브와 데이터 활용을 위한 프로그래밍 플랫폼과의 연동 모듈을 제안한다. 데이터셋 아카이브는 공공데이터를 전처리하여 생성한 데이터를 모아 설계하며, 프로그래밍 플랫폼 코드비(CodeB)와 연동하여 데이터를 활용할 수 있도록 한다. 코드비(CodeB)는 파이썬 블록 프로그래밍 플랫폼으로 연동을 통해 데이터를 활용한 프로그래밍이 가능하다.

  • PDF

Developing and Pre-Processing a Dataset using a Rhetorical Relation to Build a Question-Answering System based on an Unsupervised Learning Approach

  • Dutta, Ashit Kumar;Wahab sait, Abdul Rahaman;Keshta, Ismail Mohamed;Elhalles, Abheer
    • International Journal of Computer Science & Network Security
    • /
    • 제21권11호
    • /
    • pp.199-206
    • /
    • 2021
  • Rhetorical relations between two text fragments are essential information and support natural language processing applications such as Question - Answering (QA) system and automatic text summarization to produce an effective outcome. Question - Answering (QA) system facilitates users to retrieve a meaningful response. There is a demand for rhetorical relation based datasets to develop such a system to interpret and respond to user requests. There are a limited number of datasets for developing an Arabic QA system. Thus, there is a lack of an effective QA system in the Arabic language. Recent research works reveal that unsupervised learning can support the QA system to reply to users queries. In this study, researchers intend to develop a rhetorical relation based dataset for implementing unsupervised learning applications. A web crawler is developed to crawl Arabic content from the web. A discourse-annotated corpus is generated using the rhetorical structural theory. A Naïve Bayes based QA system is developed to evaluate the performance of datasets. The outcome shows that the performance of the QA system is improved with proposed dataset and able to answer user queries with an appropriate response. In addition, the results on fine-grained and coarse-grained relations reveal that the dataset is highly reliable.

행정정보 데이터세트 기록의 선별 기준 및 절차 연구 (A Study on Record Selection Strategy and Procedure in Dataset for Administrative Information)

  • 조은희;임진희
    • 기록학연구
    • /
    • 제19호
    • /
    • pp.251-291
    • /
    • 2009
  • 행정정보시스템은 계속 숫자가 증가하고 있음에도 불구하고 기록관리의 사각지대에 있어서 시스템이 노후화되거나 새로 개발되는 경우 기록이 손실될 위험을 내포하고 있다. 또한 기록관리를 염두에 두지 않고 설계되었기 때문에 기록의 특성과 요건을 만족하지 않은 상태로 관리되고 있다. 기록관리 선진국에서는 정부차원에서 데이터세트 기록의 중요성을 인지하여 데이터세트 아카이브를 운영하는 사례도 있고, 보존을 위한 관리체계나 보존포맷에 대한 프로젝트를 수행한 사례도 있다. 우리나라도 데이터세트에 대한 기록관리 체제와 개별 행정정보시스템에 대한 연구가 조금씩 수행되고 있으나 공식적인 관리 체계가 수립되지는 않은 상태이다. 본 논문에서는 이러한 방향성에 기본 하여 전자정부 추진 전략의 틀에서 데이터세트 식별체계의 수립과 기록관리기준의 설정 전략을 제안하였다. 행정정보시스템 기록화를 위한 데이터세트 선별 절차를 (1)기록화 대상 데이터세트 결정, (2)데이터세트 기록 건 식별 단계, (3)데이터세트 기록의 관리계층 구성 단계로 나누어 정리해보았다. 이 논문은 데이터세트에 대한 보존포맷이나 데이터세트 아카이브 단계에서의 관리절차 등 아카이빙 단계의 문제는 연구내용에 포함하지 않았다.

한국 연안 퇴적물 내 중금속 원소의 자연적 배경농도 연구 (Natural Background Level Analysis of Heavy Metal Concentration in Korean Coastal Sediments)

  • 임동일;최진용;정회수;최현우;김영옥
    • Ocean and Polar Research
    • /
    • 제29권4호
    • /
    • pp.379-389
    • /
    • 2007
  • This paper presents an attempt to determine natural background levels of heavy metals which could be used for assessing heavy metal contamination. For this study, a large archive dataset of heavy metal concentration (Cu, Cr, Ni, Pb, Zn) for more than 900 surface sediment samples from various Korean coastal environments was newly compiled. These data were normalized for aluminum (grain-size normalizer) concentration to isolate natural factors from anthropogenic ones. The normalization was based on the hypothesis that heavy metal concentrations vary consistently with the concentration of aluminum, unless these metals are of anthropogenic origin. So, the samples (outliers) suspected of receivingany anthropogenic input were removed from regression to ascertain the "background" relationship between the metals and aluminum. Identification of these outliers was tested using a model of predicted limits at 95%. The process of testing for normality (Kolmogorov-Smirnov Test) and selection of outliers was iterated until a normal distribution was achieved. On the basis of the linear regression analysis of the large archive (please check) dataset, background levels, which are applicable to heavy metal assessment of Korean coastal sediments, were successfully developed for Cu, Cr, Ni, Zn. As an example, we tested the applicability of this baseline level for metal pollution assessment of Masan Bay sediments.

행정정보 데이터세트 기록 이관 시 데이터 보정 및 품질 개선 방법 연구 - 데이터웨어하우스 ETT 경험을 기반으로 (A Study on Data Adjustment and Quality Enhancement Method for Public Administrative Dataset Records in the Transfer Process-Based on the Experiences of Datawarehouses' ETT)

  • 임진희;조은희
    • 기록학연구
    • /
    • 제25호
    • /
    • pp.91-129
    • /
    • 2010
  • 공공 부문의 정보시스템 의존도가 점차 높아지면서 행정정보 시스템에 축적되는 데이터세트 기록의 관리와 활용에 관한 다양한 방안이 모색되고 있다. 행정정보 데이터세트를 아카이브 시스템이나 공유서버로 이관할 때 데이터 보정이나 품질 개선의 요구가 발생할 수 있다. 이 논문의 목적은 데이터웨어하우스 구축을 위해 데이터를 추출하여 변형 후 전송하는 절차와 방법을 참조하여 이관하는 행정정보 데이터세트 기록의 보정 및 품질 개선 방법을 제시하는 것이다. 이 논문에서는 데이터세트 기록 이관 시 검토할 필요가 있는 전형적인 데이터 보정 및 품질 개선 사례로 (1)추출 시 데이터세트 수량과 유효값 확인, (2)일관된 코드값의 부여를 위한 코드 변환, (3)복합정보의 컴포넌트화, (4)날짜데이터의 정밀도 결정, (5)데이터 표준화, (6)코드값의 설명정보 (7)메타데이터 확보 등 7가지를 제시하고 각각의 처리방법을 제안하고 있다. 데이터세트 기록 이관 시 적용하는 데이터 보정 및 품질 개선 기준은 데이터세트를 생산하는 행정정보시스템의 데이터 품질요건으로 활용할 수 있다.

AKARI Observation of the North Ecliptic Pole (NEP) Supercluster at z=0.087

  • 고종완;임명신
    • 천문학회보
    • /
    • 제35권1호
    • /
    • pp.74.2-74.2
    • /
    • 2010
  • We present a multi-wavelength study of a supercluster in the NEP region at z=0.087, using AKARI (Infrared space telescope) NEP-Wide (5.8 deg2) survey which has obtained an unique IR imaging dataset with contiguous wavelength coverage from 2 to $24{\mu}m$, overcoming the Spitzer limitation of imaging capability at $10-20{\mu}m$. The NEP-Wide survey is also covered in other wavelength such as X-ray, Radio, GALEX UV in the archive, optical (BRI from Maidanak 1.5m and CFHT's MegaPrime), and NIR imaging data (JH from KPNO 2.1m), with nearly 1900 optical spectra, mostly obtained by our group using MMT/Hectospec and WIYN/Hydra. Armed with the multiwavelength datasets, we investigate the connection between IR properties of galaxies and their environments as a tool to understand the evolution of galaxies in a supercluster environment. Specific attention will be given to MIR emission which can trace star formation activities and passive phases right after post-starbursts, and its relation to other wavelength data.

  • PDF

Analyzing performance of time series classification using STFT and time series imaging algorithms

  • Sung-Kyu Hong;Sang-Chul Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.1-11
    • /
    • 2023
  • 본 논문은 순환 신경망 대신 합성곱 신경망을 사용하여 시계열 데이터 분류 성능을 분석한다. TSC(Time Series Community)에는 GAF(Gramian Angular Field), MTF(Markov Transition Field), RP(Recurrence Plot)와 같은 전통적인 시계열 데이터 이미지화 알고리즘들이 있다. 실험은 이미지화 알고리즘들에 필요한 하이퍼 파라미터들을 조정하면서 합성곱 신경망의 성능을 평가하는 방식으로 진행된다. UCR 아카이브의 GunPoint 데이터셋을 기준으로 성능을 평가했을 때, 본 논문에서 제안하는 STFT(Short Time Fourier Transform) 알고리즘이 최적화된 하이퍼 파라미터를 찾은 경우, 기존의 알고리즘들 대비 정확도가 높고, 동적으로 feature map 이미지의 크기도 조절가능하다는 장점이 있다. GAF 또한 98~99%의 높은 정확도를 보이지만, feature map 이미지의 크기를 동적으로 조절할 수 없어 크다는 단점이 존재한다.

대통령 전자기록물의 이관방식 변천과 개선방안 연구 19대 문재인 정부 대통령 전자기록물을 중심으로 (A Study of the Transition Process in Presidential Electronic Records Transfer and Improvement Measures : Focused on the Electronic Records of the 19th President Moon Jae-in's Administration)

  • 윤정훈
    • 기록학연구
    • /
    • 제75호
    • /
    • pp.41-89
    • /
    • 2023
  • 2007년 「대통령기록물법」 제정 이후, 16대 노무현 정부의 대통령 전자기록물 이관 사례는 공공기록물 관리에 있어 첨병으로써의 역할과 새로운 전자기록물 관리의 테스트 베드로써의 역할을 수행했었다. 19대 문재인 정부의 대통령 전자기록물을 이관할 때에는 16대 때의 전자기록물 이관방식을 계승하되, 몇 가지 혁신적인 시도가 있었다. 대통령기록관은 처음으로 대통령자문기관의 전자문서를 장기보존패키지로 변환한 후 온라인으로 이관 받았고, 데이터의 특성을 고려하여 대통령 기록물생산기관의 행정정보 데이터세트를 SIARD 규격으로 이관을 받았다. 그리고 대통령기록관은 웹사이트를 OVF 형태로 시범적으로 이관 받았으며, 소셜미디어를 API를 통해 직접 수집하였다. 이와 같이 이 연구는 16대 노무현 정부 때부터 19대 문재인 정부 때까지 대통령 전자기록물 이관방식과 관련한 변천과정을 조사하였다. 그리고 19대 문재인 정부의 대통령 전자기록물 유형별 이관방식을 중심으로 주요성과 및 문제점을 분석하여 향후 개선방안을 제시하였다.

Development of SNP marker set for marker-assisted backcrossing (MABC) in cultivating tomato varieties

  • Park, GiRim;Jang, Hyun A;Jo, Sung-Hwan;Park, Younghoon;Oh, Sang-Keun;Nam, Moon
    • 농업과학연구
    • /
    • 제45권3호
    • /
    • pp.385-400
    • /
    • 2018
  • Marker-assisted backcrossing (MABC) is useful for selecting offspring with a highly recovered genetic background for a recurrent parent at early generation unlike rice and other field crops. Molecular marker sets applicable to practical MABC are scarce in vegetable crops including tomatoes. In this study, we used the National Center for Biotechnology Information- short read archive (NCBI-SRA) database that provided the whole genome sequences of 234 tomato accessions and selected 27,680 tag-single nucleotide polymorphisms (tag-SNPs) that can identify haplotypes in the tomato genome. From this SNP dataset, a total of 143 tag-SNPs that have a high polymorphism information content (PIC) value (> 0.3) and are physically evenly distributed on each chromosome were selected as a MABC marker set. This marker set was tested for its polymorphism in each pairwise cross combination constructed with 124 of the 234 tomato accessions, and a relatively high number of SNP markers polymorphic for the cross combination was observed. The reliability of the MABC SNP set was assessed by converting 18 SNPs into Luna probe-based high-resolution melting (HRM) markers and genotyping nine tomato accessions. The results show that the SNP information and HRM marker genotype matched in 98.6% of the experiment data points, indicating that our sequence analysis pipeline for SNP mining worked successfully. The tag-SNP set for the MABC developed in this study can be useful for not only a practical backcrossing program but also for cultivar identification and F1 seed purity test in tomatoes.

Low-dose CT Image Denoising Using Classification Densely Connected Residual Network

  • Ming, Jun;Yi, Benshun;Zhang, Yungang;Li, Huixin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권6호
    • /
    • pp.2480-2496
    • /
    • 2020
  • Considering that high-dose X-ray radiation during CT scans may bring potential risks to patients, in the medical imaging industry there has been increasing emphasis on low-dose CT. Due to complex statistical characteristics of noise found in low-dose CT images, many traditional methods are difficult to preserve structural details effectively while suppressing noise and artifacts. Inspired by the deep learning techniques, we propose a densely connected residual network (DCRN) for low-dose CT image noise cancelation, which combines the ideas of dense connection with residual learning. On one hand, dense connection maximizes information flow between layers in the network, which is beneficial to maintain structural details when denoising images. On the other hand, residual learning paired with batch normalization would allow for decreased training speed and better noise reduction performance in images. The experiments are performed on the 100 CT images selected from a public medical dataset-TCIA(The Cancer Imaging Archive). Compared with the other three competitive denoising algorithms, both subjective visual effect and objective evaluation indexes which include PSNR, RMSE, MAE and SSIM show that the proposed network can improve LDCT images quality more effectively while maintaining a low computational cost. In the objective evaluation indexes, the highest PSNR 33.67, RMSE 5.659, MAE 1.965 and SSIM 0.9434 are achieved by the proposed method. Especially for RMSE, compare with the best performing algorithm in the comparison algorithms, the proposed network increases it by 7 percentage points.