• Title/Summary/Keyword: Standard Dataset

검색결과 195건 처리시간 0.026초

DRAZ : 이기종 메타 데이터 소스를 위한 SPARQL 쿼리 엔진 (DRAZ: SPARQL Query Engine for heterogeneous metadata sources)

  • 우메이르 쿠두스;엠디 이브라힘 호세인;이창주;키파야트 울아 칸;원희선;이영구
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.69-85
    • /
    • 2018
  • 최근 DCAT, CKAN 같은 동종 데이터 집합에 대해 질의를 동시에 수행하여 쿼리 결과의 품질을 크게 향상하는 페더레이션 쿼리 엔진이 활발하게 연구되고 있다. 하지만 기존 연구는 비표준 쿼리를 사용하며 정적 바인딩을 적용한 몇 가지 이기종 데이터 집합 또는 동종 데이터 집합에 대해서만 질의 할 수 있다. 본 논문에서는 SPARQL을 사용하여 여러 데이터 소스에 질의하는 페더레이티드 엔진 (DRAZ)을 제안한다. 제안하는 시스템에서는 주어진 SPARQL 쿼리의 모든 트리플 패턴을 API 호출로 변환하여 해당 데이터셋에 접근한다. 마지막으로 모든 API 호출 결과를 N-트리플로 변환하고 모든 트리플 패턴을 고려한 최종 결과를 요약한다. 우리는 제안하는 DRAZ를 DCAT 및 DOI와 같은 이기종 메타 데이터 표준을 고려하여 수정된 Fedbench 벤치 마크 질의를 사용하여 평가하였다. 제안하는 시스템인 DRAZ가 JOIN 작업을 사용할 수 없음에도 불구하고 결과의 70-100 % 정확도를 달성 할 수 있음을 실험을 통해 확인하였다.

Malware Detection Using Deep Recurrent Neural Networks with no Random Initialization

  • Amir Namavar Jahromi;Sattar Hashemi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.177-189
    • /
    • 2023
  • Malware detection is an increasingly important operational focus in cyber security, particularly given the fast pace of such threats (e.g., new malware variants introduced every day). There has been great interest in exploring the use of machine learning techniques in automating and enhancing the effectiveness of malware detection and analysis. In this paper, we present a deep recurrent neural network solution as a stacked Long Short-Term Memory (LSTM) with a pre-training as a regularization method to avoid random network initialization. In our proposal, we use global and short dependencies of the inputs. With pre-training, we avoid random initialization and are able to improve the accuracy and robustness of malware threat hunting. The proposed method speeds up the convergence (in comparison to stacked LSTM) by reducing the length of malware OpCode or bytecode sequences. Hence, the complexity of our final method is reduced. This leads to better accuracy, higher Mattews Correlation Coefficients (MCC), and Area Under the Curve (AUC) in comparison to a standard LSTM with similar detection time. Our proposed method can be applied in real-time malware threat hunting, particularly for safety critical systems such as eHealth or Internet of Military of Things where poor convergence of the model could lead to catastrophic consequences. We evaluate the effectiveness of our proposed method on Windows, Ransomware, Internet of Things (IoT), and Android malware datasets using both static and dynamic analysis. For the IoT malware detection, we also present a comparative summary of the performance on an IoT-specific dataset of our proposed method and the standard stacked LSTM method. More specifically, of our proposed method achieves an accuracy of 99.1% in detecting IoT malware samples, with AUC of 0.985, and MCC of 0.95; thus, outperforming standard LSTM based methods in these key metrics.

축전지 사업장에서 공기 중 납 농도의 변화에 관한 연구 (A study on the change of air lead concentrations in lead-acid battery plants)

  • 최승현;김남수;김진호;조광성;함정오;안규동;이병국
    • 한국산업보건학회지
    • /
    • 제17권4호
    • /
    • pp.261-271
    • /
    • 2007
  • To provide necessary information for future environmental monitoring of storage batteries in Korea, authors analyzed environmental monitoring dataset of air lead concentration of 12 storage battery industries measured during 1989-2006. We calculated geometric mean and standard deviation with minimum and maximum value of each year dataset. Air lead concentration data were analyzed according to year of measurement, type of grid manufacturing method (grid casting type or expander type), size of industries and type of operation (casting, lead powder & pasting, assembly and others). The geometric mean and standard deviation of all lead industries for overall 18 years were $72{\mu}g/m^3$ and 3.65 with minimum of $6{\mu}g/m^3$ and maximum of $7,956{\mu}g/m^3$. The geometric mean air lead concentrations of years between 1989-1999 were above the Korean PEL($50{\mu}g/m^3$), whereas those of years after year 2000 were below the Korean PEL showing 50% of it. The geometric mean concentration of air lead was significantly lower in expander method battery industries than that of grid method battery industries and was lower in large sized battery industries than small & medium sized ones throughout the whole 18 years period. The distributions of over PEL($50{\mu}g/m^3$) were decreased by the years of environmental monitoring and those were lower in expander method battery industries than grid method battery industries. The significant reduction of mean air lead concentration during last 10 years may be induced partly due to more active environmental engineering control and new introduction of new operation in grid method battery industries, but may be also influenced by non-engineering method such as reduction of operation hours or reduction of exposure time during actual environmental measurement by industrial hygienist which is not concrete evidence, but just circumstantial evidence.

표적 SAR 시뮬레이션 영상을 이용한 식별 성능 분석 (Performance Analysis of Automatic Target Recognition Using Simulated SAR Image)

  • 이수미;이윤경;김상완
    • 대한원격탐사학회지
    • /
    • 제38권3호
    • /
    • pp.283-298
    • /
    • 2022
  • Synthetic Aperture Radar (SAR)영상은 날씨와 주야에 관계없이 취득될 수 있어 감시, 정찰 및 국토안보 등의 목적을 위한 자동표적인식(Automatic Target Recognition, ATR)에 활용 가능성이 높다. 그러나, 식별 시스템 개발을 위해 다양하고 방대한 양의 시험영상을 구축하는 것은 비용, 운용측면에서 한계가 있다. 최근 표적 모델을 이용하여 시뮬레이션된 SAR 영상에 기반한 표적 식별 시스템 개발에 대한 관심이 높아지고 있다. SAR-ATR 분야에서 대표적으로 이용되는 산란점 매칭과 템플릿 매칭 기반 알고리즘을 적용하여 표적식별을 수행하였다. 먼저 산란점 매칭 기반의 식별은 점을 World View Vector (WVV)로 재구성 후 Weighted Bipartite Graph Matching (WBGM)을 수행하였고, 템플릿 매칭을 통한 식별은 서로 인접한 산란점으로 재구성한 두 영상간의 상관계수를 사용하였다. 개발한 두 알고리즘의 식별성능시험을 위해 최근 미국 Defense Advanced Research Projects Agency (DARPA)에서 배포한 표적 시뮬레이션 영상인 Synthetic and Measured Paired Labeled Experiment (SAMPLE) 자료를 사용하였다. 표준 환경, 표적의 부분 폐색, 랜덤 폐색 정도에 따른 알고리즘 성능을 분석하였다. 산란점 매칭 알고리즘의 식별 성능이 템플릿 매칭보다 전반적으로 우수하였다. 10개 표적을 대상으로 표준환경에서의 산란점 매칭기반 평균 식별률은 85.1%, 템플릿 매칭기반은 74.4%이며, 표적별 식별성능 편차 또한 산란점 매칭기법이 템플릿 매칭기법보다 작았다. 표적의 부분 폐색정도에 따른 성능은 산란점 매칭기반 알고리즘이 템플릿 매칭보다 약 10% 높고, 표적의 랜덤 폐색 60% 발생에도 식별률이 73.4% 정도로 비교적 높은 식별성능을 보였다.

RNA 시퀀싱 기법으로 생성된 빅데이터 분석 (Big Data Analytics in RNA-sequencing)

  • 우성훈;정병출
    • 대한임상검사과학회지
    • /
    • 제55권4호
    • /
    • pp.235-243
    • /
    • 2023
  • 차세대 염기서열 분석이 개발되고 널리 사용됨에 따라 RNA-시퀀싱(RNA-sequencing, RNA-seq)이 글로벌 전사체 프로파일링을 검증하기 위한 도구의 첫번째 선택으로 급부상하게 되었다. RNA-seq의 상당한 발전으로 다양한 유형의 RNA-seq가 생물정보학(bioinformatics) 발전과 함께 진화했으나, 다양한 RNA-seq 기법 및 생물정보학에 대한 전반적인 이해 없이는 RNA-seq의 복잡한 데이터를 해석하여 생물학적 의미를 도출하기는 어렵다. 이와 관련하여 본 리뷰에서는 RNA-seq의 두 가지 주요 섹션을 논의하고 있다. 첫째, Standard RNA-seq과 주요하게 자주 사용되는 두 가지 RNA-seq variant method를 비교하였다. 이 비교는 어떤 RNA-seq 방법이 연구 목적에 가장 적절한지에 대한 시사점을 제공한다. 둘째, 가장 널리 사용되는 RNA-seq에서 생성된 데이터 분석; (1) 탐색적 자료 분석 및 (2) enriched pathway 분석에 대해 논의하였다. 데이터 세트의 전반적인 추세를 제공할 수 있는 주 성분 분석, Heatmap 및 Volcano plot과 같이 RNA-seq에 대해 가장 널리 사용되는 탐색적 자료 분석을 소개하였다. Enriched pathway 분석 섹션에서는 3가지 세대의 enriched pathway 분석에 대해 소개하고 각 세대가 어떤 식으로 RNA-seq 데이터 세트로부터 enriched pathway를 도출하는지를 소개하였다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

Accurate Measurement of Agatston Score Using kVp-Independent Reconstruction Algorithm for Ultra-High-Pitch Sn150 kVp CT

  • Xi Hu;Xinwei Tao;Yueqiao Zhang;Zhongfeng Niu;Yong Zhang;Thomas Allmendinger;Yu Kuang;Bin Chen
    • Korean Journal of Radiology
    • /
    • 제22권11호
    • /
    • pp.1777-1785
    • /
    • 2021
  • Objective: To investigate the accuracy of the Agatston score obtained with the ultra-high-pitch (UHP) acquisition mode using tin-filter spectral shaping (Sn150 kVp) and a kVp-independent reconstruction algorithm to reduce the radiation dose. Materials and Methods: This prospective study included 114 patients (mean ± standard deviation, 60.3 ± 9.8 years; 74 male) who underwent a standard 120 kVp scan and an additional UHP Sn150 kVp scan for coronary artery calcification scoring (CACS). These two datasets were reconstructed using a standard reconstruction algorithm (120 kVp + Qr36d, protocol A; Sn150 kVp + Qr36d, protocol B). In addition, the Sn150 kVp dataset was reconstructed using a kVp-independent reconstruction algorithm (Sn150 kVp + Sa36d, protocol C). The Agatston scores for protocols A and B, as well as protocols A and C, were compared. The agreement between the scores was assessed using the intraclass correlation coefficient (ICC) and the Bland-Altman plot. The radiation doses for the 120 kVp and UHP Sn150 kVp acquisition modes were also compared. Results: No significant difference was observed in the Agatston score for protocols A (median, 63.05; interquartile range [IQR], 0-232.28) and C (median, 60.25; IQR, 0-195.20) (p = 0.060). The mean difference in the Agatston score for protocols A and C was relatively small (-7.82) and with the limits of agreement from -65.20 to 49.56 (ICC = 0.997). The Agatston score for protocol B (median, 34.85; IQR, 0-120.73) was significantly underestimated compared with that for protocol A (p < 0.001). The UHP Sn150 kVp mode facilitated an effective radiation dose reduction by approximately 30% (0.58 vs. 0.82 mSv, p < 0.001) from that associated with the standard 120 kVp mode. Conclusion: The Agatston scores for CACS with the UHP Sn150 kVp mode with a kVp-independent reconstruction algorithm and the standard 120 kVp demonstrated excellent agreement with a small mean difference and narrow agreement limits. The UHP Sn150 kVp mode allowed a significant reduction in the radiation dose.

MODIS 에어러솔 광학두께와 지상에서 관측된 시정거리를 이용한 대기 에어러솔 연직분포 산출 (Estimation of Aerosol Vertical Profile from the MODIS Aerosol Optical Thickness and Surface Visibility Data)

  • 이권호
    • 한국지리정보학회지
    • /
    • 제16권2호
    • /
    • pp.141-151
    • /
    • 2013
  • 본 연구에서는 MODIS 인공위성으로 분석된 에어러솔 광학두께 자료와 지상에서 관측된 시정거리 자료를 이용하여 에어러솔 연직분포 모델링을 수행하였다. 위성과 지상관측자료로부터 에어러솔의 척도 고도를 구할 수 있었으며, 그 결과는 복사전달 모델에서 사용되고 있는 표준대기 모델과 비교에서 만족할 만한 수준의 근사치를 보였다. 그리고 실제 사례로서 대기가 청명한 경우(${\tau}_{MODIS}=0.12{\pm}0.07$, 시정거리=$21.13{\pm}3.31km$)와 혼탁한 경우(${\tau}_{MODIS}=1.71{\pm}0.85$, 시정거리 =$13.33{\pm}5.66km$)에 대해서 적용하여 척도 고도를 산정한 결과는 각각 전국 평균값으로서 $0.63{\pm}0.33km$$1.71{\pm}0.84km$로 나타났다. 그리고 이 결과를 바탕으로 대기 에어러솔 소산계수의 연직분포를 구할 수 있었으며, 최종적으로 KML 형식으로 코딩되어 관심 영역의 대기 환경 특성 변화를 감시하는데 도움이 될 것으로 기대된다.

MPEG CDVA 전역 특징 서술자 압축 방법 (Compression Method for MPEG CDVA Global Feature Descriptors)

  • 김준수;조원;임근택;윤정일;곽상운;정순흥;정원식;추현곤;서정일;최유경
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.295-307
    • /
    • 2022
  • 본 논문은 동영상의 시각적 특징을 추출하는 MPEG CDVA 표준 기술에서 개별 프레임의 전역적인 특징을 표현하는 scalable Fisher vector (SCFV)의 새로운 압축 방법을 제안한다. CDVA 표준은 전역 특징 서술자에 대한 시간적 중복성 제거 기법을 도입하였으며, 구체적으로 부호화 단위 세그먼트 내의 SCFV 들이 서로 유사할 가능성이 높다는 점을 활용하여 SCFV에 대한 차분을 부호화하는 방식을 사용하고 있다. 그러나 SCFV의 구조적 특징에 의해 SCFV의 차분을 부호화 한 결과물이 원본 데이터보다도 용량이 큰 경우가 발생하게 된다. 이와 같은 현상을 방지하기 위해 비대칭적 SCFV의 차분 계산 방법과 변경된 SCFV 차분을 활용하여 원본 SCFV를 복원하는 새로운 방법을 제안하였다. FIVR 데이터셋을 활용한 실험결과는 전역 특징 서술자의 압축 효율이 기존 CDVA Experimental Model에 대비하여 유의미하게 증가함을 보여준다.

Estimation of Noise Level and Edge Preservation for Computed Tomography Images: Comparisons in Iterative Reconstruction

  • Kim, Sihwan;Ahn, Chulkyun;Jeong, Woo Kyoung;Kim, Jong Hyo;Chun, Minsoo
    • 한국의학물리학회지:의학물리
    • /
    • 제32권4호
    • /
    • pp.92-98
    • /
    • 2021
  • Purpose: This study automatically discriminates homogeneous and structure edge regions on computed tomography (CT) images, and it evaluates the noise level and edge preservation ratio (EPR) according to the different types of iterative reconstruction (IR). Methods: The dataset consisted of CT scans of 10 patients reconstructed with filtered back projection (FBP), statistical IR (iDose4), and iterative model-based reconstruction (IMR). Using the 10th and 85th percentiles of the structure coherence feature, homogeneous and structure edge regions were localized. The noise level was estimated using the averages of the standard deviations for five regions of interests (ROIs), and the EPR was calculated as the ratio of standard deviations between homogeneous and structural edge regions on subtraction CT between the FBP and IR. Results: The noise levels were 20.86±1.77 Hounsfield unit (HU), 13.50±1.14 HU, and 7.70±0.46 HU for FBP, iDose4, and IMR, respectively, which indicates that iDose4 and IMR could achieve noise reductions of approximately 35.17% and 62.97%, respectively. The EPR had values of 1.14±0.48 and 1.22±0.51 for iDose4 and IMR, respectively. Conclusions: The iDose4 and IMR algorithms can effectively reduce noise levels while maintaining the anatomical structure. This study suggested automated evaluation measurements of noise levels and EPRs, which are important aspects in CT image quality with patients' cases of FBP, iDose4, and IMR. We expect that the inclusion of other important image quality indices with a greater number of patients' cases will enable the establishment of integrated platforms for monitoring both CT image quality and radiation dose.