• 제목/요약/키워드: large Dataset

검색결과 553건 처리시간 0.024초

Training Data Sets Construction from Large Data Set for PCB Character Recognition

  • NDAYISHIMIYE, Fabrice;Gang, Sumyung;Lee, Joon Jae
    • Journal of Multimedia Information System
    • /
    • 제6권4호
    • /
    • pp.225-234
    • /
    • 2019
  • Deep learning has become increasingly popular in both academic and industrial areas nowadays. Various domains including pattern recognition, Computer vision have witnessed the great power of deep neural networks. However, current studies on deep learning mainly focus on quality data sets with balanced class labels, while training on bad and imbalanced data set have been providing great challenges for classification tasks. We propose in this paper a method of data analysis-based data reduction techniques for selecting good and diversity data samples from a large dataset for a deep learning model. Furthermore, data sampling techniques could be applied to decrease the large size of raw data by retrieving its useful knowledge as representatives. Therefore, instead of dealing with large size of raw data, we can use some data reduction techniques to sample data without losing important information. We group PCB characters in classes and train deep learning on the ResNet56 v2 and SENet model in order to improve the classification performance of optical character recognition (OCR) character classifier.

Changed Relationship between Snowfall over the Yeongdong region of the Korean Peninsula and Large-scale Factors

  • Cho, Keon-Hee;Chang, Eun-Chul
    • 한국지구과학회지
    • /
    • 제38권3호
    • /
    • pp.182-193
    • /
    • 2017
  • A typical snowfall pattern occurs over the east coastal region of the Korean Peninsula, known as the Yeongdong region. The precipitation over the Yeongdong region is influenced by the cold and dry northeasterly wind which advects over warm and moist sea surface of the East Sea of Korea. This study reveals the influence of large-scale factors, affecting local to remote areas, on the mesoscale snowfall system over the Yeongdong region. The National Centers for Environmental Prediction-Department of Energy reanalysis dataset, Extended Reconstructed sea surface temperature, and observed snowfall data are analyzed to reveal the relationship between February snowfall and large-scale factors from 1981 to 2014. The Yeongdong snowfall is associated with the sea level pressure patterns over the Gaema Plateau and North Pacific near the Bering Sea, which is remotely associated to the sea surface temperature (SST) variability over the North Pacific. It is presented that the relationship between the Yeongdong snowfall and large-scale factors is strengthened after 1999 when the central north Pacific has warm anomalous SST. These enhanced relationships explain the atmospheric patterns of recent strong snowfall years (2010, 2011, and 2014). It is suggested that the newly defined index in this study based on related SST variability can be used for a seasonal predictor of the Yeongdong snowfall with 2-month leading.

COVID-19 recommender system based on an annotated multilingual corpus

  • Barros, Marcia;Ruas, Pedro;Sousa, Diana;Bangash, Ali Haider;Couto, Francisco M.
    • Genomics & Informatics
    • /
    • 제19권3호
    • /
    • pp.24.1-24.7
    • /
    • 2021
  • Tracking the most recent advances in Coronavirus disease 2019 (COVID-19)-related research is essential, given the disease's novelty and its impact on society. However, with the publication pace speeding up, researchers and clinicians require automatic approaches to keep up with the incoming information regarding this disease. A solution to this problem requires the development of text mining pipelines; the efficiency of which strongly depends on the availability of curated corpora. However, there is a lack of COVID-19-related corpora, even more, if considering other languages besides English. This project's main contribution was the annotation of a multilingual parallel corpus and the generation of a recommendation dataset (EN-PT and EN-ES) regarding relevant entities, their relations, and recommendation, providing this resource to the community to improve the text mining research on COVID-19-related literature. This work was developed during the 7th Biomedical Linked Annotation Hackathon (BLAH7).

대용량 데이터를 위한 전역적 범주화를 이용한 결정 트리의 순차적 생성 (Incremental Generation of A Decision Tree Using Global Discretization For Large Data)

  • 한경식;이수원
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.487-498
    • /
    • 2005
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 트리 생성 방법에 많은 관심이 집중되고 있다 그러나 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 데이터가 추가되면 이 데이터를 반영한 결정 트리를 생성하기 위해 처음부터 트리를 다시 생성해야 하다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있으며 이들 알고리즘은 수치형 데이터 처리를 위해 지역적 범주화를 이용한다. 그러나 범주화는 정렬된 형태의 수치형 데이터를 요구하기 때문에 대용량 데이터를 처리해야하는 상황에서 전체 데이터에 대해 한번만 정렬을 수행하는 전역적 범주화 기법이 모든 노드에서 매번 정렬을 수행하는 지역적 범주화보다 적합하다. 본 논문은 수치형 데이터 처리를 위해 전역적 범주화를 이용하여 생성된 트리를 효율적으로 재생성하는 순차적 트리 생성 방법을 제안한다. 새로운 데이터가 추가될 경우, 전역적 범주화에 기반 한 트리를 순차적으로 생성하기 위해서는 첫째, 이 새로운 데이터가 반영된 범주를 재생성해야 하며, 둘째, 범주 변화에 맞게 트리의 구조를 변화시켜야한다. 본 논문에서는 효율적인 범주 재생성을 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안하며 범주 변화에 맞는 트리 구조 변화를 위해 신뢰구간과 트리 재구조화기법을 이용한다. 본 논문에서 피플 데이터베이스를 이용하여 기존의 지역적 범주화를 이용한 경우와 비교 실험하였다.

MarSel : 대용량 SNP 일배체형 데이터에 대한 연관불균형기반의 tagSNP 선택 시스템 (MarSel : LD based tagSNP Selection System for Large-scale SNP Haplotype Dataset)

  • 김상준;여상수;김성권
    • 정보처리학회논문지A
    • /
    • 제13A권1호
    • /
    • pp.79-86
    • /
    • 2006
  • 최근 인간의 다양성과 SNP과의 연관연구에 드는 비용을 줄이기 위해서, 최소의 tagSNP을 선택하는 문제를 해결하기 위한 연구가 이루어지고 있다. 일반적으로 많은 수의 SNP들을 여러 블록으로 분할하여 각 블록 내에서 tagSNP을 선택하는 접근방법이 사용되고 있다. 본 논문에서 구현된 MarSel은 기존의 블록분할 접근 방법의 문제로 볼 수 있는 생물학적 의미의 부족을 해결하고자, 연관불균형(Linkage Disequilibrium, LD)의 개념을 도입한 시스템이다. 기존의 접근방법에서는 생물학적으로 재조합(recombination)이 일어나지 않는 연속된 구간에서도 여러 블록으로 나누어지는 문제가 생겼던 반면, MarSel에서는 연관불균형 계수 |D'|에 의해서 연속된 구간이 하나의 블록으로 유지된 상태에서 tagSNP을 선택하게 된다. 또한 MarSel에서는 각 블록 내에서 tagSNP을 선택 할 때에 엔트로피(entropy) 기반의 최적해 알고리즘을 이용함으로써 최소한의 tagSNP 선택을 보장하게 되며, 기존의 구현된 시스템들보다 더 많은 양의 데이터를 효율적으로 처리할 수 있도록 구현되었기 때문에 염색체 레벨의 연관 연구도 가능하게 해준다.

지상라이다를 이용한 암반사면 불연속면거칠기에 대한 확률특성 분석 (Analysis of Random Properties for JRC using Terrestrial LiDAR)

  • 박성욱;박혁진
    • 지질공학
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2011
  • 불연속면의 거칠기는 암반사변의 안정성 해석에서 고려되어야 하는 중요한 인자 중 하나로 특히 암반사변에 대한 확률론적 안정성 해석에서는 파괴확률의 결정에 지대한 영향을 미치는 확률변수이다. 확률변수로서의 거칠기의 특성을 파악하기 위해서는 다수의 거칠기 자료가 요구되나 기존의 육안조사는 조사위치나 시간적인 제약으로 인해 충분한 자료의 획득이 어려운 경우가 많다. 따라서 본 연구에서는 기존 육안조사가 가지는 조사위치 및 조사수량의 한계점을 극복하기 위하여 지상라이다를 활용하여 거칠기의 자료를 획득하고 분석을 수행하였다. 또한 절리면거칠기의 정량적인 산정을 위하여 지상라이다로부터 얻어진 수치자료에 대해 통계파라미터를 이용한 변환과정을 거쳐 절리면거칠기를 얻었다. 불연속면의 거칠기에 대한 확률특성인 평균, 표준편차, 분포함수에 대한 정보를 획득하였으며, 기존 육안검사방법에 비해 정량적인 많은 자료를 얻는데 있어 지상라이다가 유용한 것으로 판단되었다.

De novo 시퀀스 어셈블리의 overlap 단계의 최근 연구 실험 분석 (Experimental Analysis of Recent Works on the Overlap Phase of De Novo Sequence Assembly)

  • 임지혁;김선;박근수
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.200-210
    • /
    • 2018
  • 여러 DNA 리드 시퀀스가 주어졌을 때, de novo 시퀀스 어셈블리는 레퍼런스 시퀀스 없이 하나의 시퀀스를 재조립한다. 재조립을 위해 de novo 시퀀스 어셈블리는 리드 사이의 모든 겹침을 계산하는 overlap 단계가 필요하다. Overlap 단계는 전체 연산 중 비용이 가장 많이 들기 때문에 어셈블리의 계산 성능을 좌우한다. 여러 분야에서 overlap 단계를 위한 연구가 많이 발표되고 있는데, 그 중 가장 최신의 세 연구 결과는 Readjoiner, SOF, Lim-Park 알고리즘이다. 최근 염기 분석기술의 큰 발전으로 DNA 리드 데이터 셋을 기존보다 저비용으로 대량 생산하는 것이 가능해져 DNA 리드 데이터 셋을 생성하는 여러 플랫폼들이 개발되었다. 각 플랫폼마다 생성하는 데이터 셋의 통계적 특성이 다르기 때문에 overlap 단계의 성능 평가 시 다양한 통계적 특성의 데이터 셋이 반영되어야 한다. 본 논문은 여러 통계적 특성을 가진 DNA 리드 데이터 셋을 이용하여 위의 세 알고리즘의 성능을 비교 분석한다.

한국 연안 퇴적물 내 중금속 원소의 자연적 배경농도 연구 (Natural Background Level Analysis of Heavy Metal Concentration in Korean Coastal Sediments)

  • 임동일;최진용;정회수;최현우;김영옥
    • Ocean and Polar Research
    • /
    • 제29권4호
    • /
    • pp.379-389
    • /
    • 2007
  • This paper presents an attempt to determine natural background levels of heavy metals which could be used for assessing heavy metal contamination. For this study, a large archive dataset of heavy metal concentration (Cu, Cr, Ni, Pb, Zn) for more than 900 surface sediment samples from various Korean coastal environments was newly compiled. These data were normalized for aluminum (grain-size normalizer) concentration to isolate natural factors from anthropogenic ones. The normalization was based on the hypothesis that heavy metal concentrations vary consistently with the concentration of aluminum, unless these metals are of anthropogenic origin. So, the samples (outliers) suspected of receivingany anthropogenic input were removed from regression to ascertain the "background" relationship between the metals and aluminum. Identification of these outliers was tested using a model of predicted limits at 95%. The process of testing for normality (Kolmogorov-Smirnov Test) and selection of outliers was iterated until a normal distribution was achieved. On the basis of the linear regression analysis of the large archive (please check) dataset, background levels, which are applicable to heavy metal assessment of Korean coastal sediments, were successfully developed for Cu, Cr, Ni, Zn. As an example, we tested the applicability of this baseline level for metal pollution assessment of Masan Bay sediments.

External Validation of a Gastric Cancer Nomogram Derived from a Large-volume Center Using Dataset from a Medium-volume Center

  • Kim, Pyeong Su;Lee, Kyung-Muk;Han, Dong-Seok;Yoo, Moon-Won;Han, Hye Seung;Yang, Han-Kwang;Bang, Ho Yoon
    • Journal of Gastric Cancer
    • /
    • 제17권3호
    • /
    • pp.204-211
    • /
    • 2017
  • Purpose: Recently, a nomogram predicting overall survival after gastric resection was developed and externally validated in Korea and Japan. However, this gastric cancer nomogram is derived from large-volume centers, and the applicability of the nomogram in smaller centers must be proven. The purpose of this study is to externally validate the gastric cancer nomogram using a dataset from a medium-volume center in Korea. Materials and Methods: We retrospectively analyzed 610 patients who underwent radical gastrectomy for gastric cancer from August 1, 2005 to December 31, 2011. Age, sex, number of metastatic lymph nodes (LNs), number of examined LNs, depth of invasion, and location of the tumor were investigated as variables for validation of the nomogram. Both discrimination and calibration of the nomogram were evaluated. Results: The discrimination was evaluated using Harrell's C-index. The Harrell's C-index was 0.83 and the discrimination of the gastric cancer nomogram was appropriate. Regarding calibration, the 95% confidence interval of predicted survival appeared to be on the ideal reference line except in the poorest survival group. However, we observed a tendency for actual survival to be constantly higher than predicted survival in this cohort. Conclusions: Although the discrimination power was good, actual survival was slightly higher than that predicted by the nomogram. This phenomenon might be explained by elongated life span in the recent patient cohort due to advances in adjuvant chemotherapy and improved nutritional status. Future gastric cancer nomograms should consider elongated life span with the passage of time.

규칙기반 및 상관분석 방법을 이용한 시계열 계측 데이터의 이상치 판정 (Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method)

  • 전제성;구자갑;박창목
    • 한국지반환경공학회 논문집
    • /
    • 제16권5호
    • /
    • pp.43-53
    • /
    • 2015
  • 본 연구에서는 빅데이터 범주에 포함되는 각종 계측 데이터를 대상으로 각종 이상치를 판단하기 위한 기법을 고안하고, 인공 데이터 및 실 계측 데이터를 이용한 이상치 분석을 수행하였다. 계측결과에 대한 1차 차분 값 및 오차율을 적용한 규칙기반 방법은 큰 규모의 Short fault 분석 및 일정 기간 계측값에 변화가 발생하지 않는 경우의 Constant fault 분석에 효과적으로 적용될 수 있었으나, 독립적인 단일 데이터셋만을 이용하는 관계로 큰 변화폭을 보이는 실 계측 데이터의 정상 데이터를 이상치로 오판하는 문제점이 있었다. 규칙기반 방법을 이용한 Noise fault 분석은 적정 데이터 윈도우 사이즈의 선택 및 이상치 판정용 한계값 선정상의 문제로 인해 실 계측 데이터 적용에 한계가 있었다. 이종 데이터 간 상관분석 방법은 학습 데이터의 적정범위 선정이 선행된다면 장단기 계측 데이터의 이상 거동 및 국부적 이상치 판정에 매우 효과적으로 이용될 수 있음을 알 수 있었다.