• 제목/요약/키워드: data validation

검색결과 3,309건 처리시간 0.03초

한반도 연안에서의 12.5 km 해상도 QuikSCAT 해상풍 검증 (Validation of QuikSCAT Wind with Resolution of 12.5 km in the Vicinity of Korean Peninsula)

  • 정진용;심재설;이동규;민인기;권재일
    • Ocean and Polar Research
    • /
    • 제30권1호
    • /
    • pp.47-58
    • /
    • 2008
  • Several validation studies have been made for QuikSCAT(QSCAT) wind data around the world, mainly in the offshore. However, until now, there were no validation studies for QSCAT wind with resolution of 12.5 km ('QSCAT 12.5 km wind') in the vicinity of Korean Peninsula. To validate 'QSCAT 12.5 km wind' and to investigate its characteristics around Korean Peninsula, the wind data from Ieodo Ocean Research Station, KMA buoys, and KORDI Realtime Observation Stations have been compared. Validation results showed that 'QSCAT 12.5 km wind' RMSE of wind direction and speed were $25.85^{\circ}$ and 1.83 m/s, respectively, at Ieodo Station. The mean wind speed correlation coefficient of KMA buoys and KORDI Realtime Observation Station were 0.78 and 0.61, and the mean wind speed RMSE were 2.2 m/s and 3.2 m/s, respectively. This seems to be mainly because of the distance between QSCAT and in-situ observation stations. The RMSE of wind direction were bigger than $40^{\circ}$ at all in-situ observation stations located near the shore, within 20 km from coastlines. Geophysical features where in-situ observation stations are located seem to affect wind validation scores.

SEED 구현 적합성 검증 시스템에 관한 연구 (On the SEED Validation System)

  • 김역;정창호;장윤석;이상진;이성재
    • 정보보호학회논문지
    • /
    • 제13권1호
    • /
    • pp.69-85
    • /
    • 2003
  • 본 논문에서는 정보보호 제품의 주요한 역할을 담당하는 암호 알고리즘의 구현 적합성에 대해 논의한다. 암호 알고리즘 구현 적합성 평가는 지정된 표준에 맞게 정확하게 구현했는가에 대한 평가이다. 따라서 해당 암호 알고리즘 기능별 또는 절차에 따라 알고리즘 평가가 수행된다. 본 논문에서 제시한 암호 알고리즘 평가 검증은 국내 표준인SEED 알고리즘을 그 대상으로 하며, 알고리즘의 기능에 따라 평가를 수행한다. 제안한 검증 시스템은 SEED 알고리즘 구현물에 대해 충분히 테스트하기 위해 필요한 테스트 벡터를 생성하여 이용하는 테스트와 검증의 정확성을 높이기 위해 임의 데이터를 이용한 테스트를 제공한다. 제안한 검증 시스템은 SEED를 이용한 정보보호 제품에 모두 적용 가능하므로 각종 암호제품 평가 및 인증에 활용될 수 있다.

Automatic Creation of ShEx Schemas for RML-Based RDF Knowledge Graph Validation

  • Choi, Ji-Woong
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.67-80
    • /
    • 2022
  • 본 논문에서는 RML 매핑 방식으로 생성된 RDF 지식 그래프의 구조를 묘사하고 검증할 용도의 ShEx 스키마를 자동으로 생성하는 시스템을 제안한다. ShEx 스키마는 제약 조건들로 구성된다. 제안된 시스템은 대부분의 제약 조건을 RML 매핑 규칙을 변환하여 생성한다. 매핑 규칙에서 유도된 제약 조건만으로 구성한 스키마는 사용자가 RML 매핑으로 생성한 그래프의 구조를 파악하는 데 도움을 주는 용도로는 부족함이 없지만 정교한 검증 용도로 사용하기에는 충분치 않다. 검증 용도에 부합하는 스키마가 요구될 경우, 제안된 시스템은 RML 매핑의 입력 데이터 소스에서 추출한 메타데이터를 사용해 만든 제약 조건이 추가된 스키마를 생성할 수 있다. 제안된 시스템이 지원하는 입력 데이터 소스 유형은 CSV, XML, JSON, RDBMS다. 297개의 테스트 케이스로 구성된 실험에서 보인 결과는 제안된 시스템이 RML 매핑으로 생성된 RDF 그래프 검증을 위해 범용적으로 사용될 수 있음을 보여준다.

영상 데이터 특징 커버리지 기반 딥러닝 모델 검증 기법 (Deep Learning Model Validation Method Based on Image Data Feature Coverage)

  • 임창남;박예슬;이정원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.375-384
    • /
    • 2021
  • 딥러닝 기법은 영상 처리 분야에서 높은 성능을 입증 받아 다양한 분야에서 적용되고 있다. 이러한 딥러닝 모델의 검증에 가장 널리 사용되는 방법으로는 홀드아웃 검증 방법, k-겹 교차 검증 방법, 부트스트랩 방법 등이 있다. 이러한 기존의 기법들은 데이터 셋을 분할하는 과정에서 클래스 간의 비율에 대한 균형을 고려하지만, 같은 클래스 내에서도 존재하는 다양한 특징들의 비율은 고려하지 않고 있다. 이러한 특징들을 고려하지 않을 경우, 일부 특징에 편향된 검증 결과를 얻게 될 수 있다. 따라서 본 논문에서는 기존 검증 방법들을 개선하여 영상 분류를 위한 데이터 특징 커버리지 기반의 딥러닝 모델 검증 기법을 제안한다. 제안하는 기법은 딥러닝 모델의 학습과 검증을 위한 훈련 데이터 셋과 평가 데이터 셋이 전체 데이터 셋의 특징을 얼마나 반영하고 있는지 수치로 측정할 수 있는 데이터 특징 커버리지를 제안한다. 이러한 방식은 전체 데이터 셋의 특징을 모두 포함하도록 커버리지를 보장하여 데이터 셋을 분할할 수 있고, 모델의 평가 결과를 생성한 특징 군집 단위로 분석할 수 있다. 검증결과, 훈련 데이터 셋의 데이터 특징 커버리지가 낮아질 경우, 모델이 특정 특징에 편향되게 학습하여 모델의 성능이 낮아지며, Fashion-MNIST의 경우 정확도가 8.9%까지 차이나는 것을 확인하였다.

Censored varying coefficient regression model using Buckley-James method

  • Shim, Jooyong;Seok, Kyungha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1167-1177
    • /
    • 2017
  • The censored regression using the pseudo-response variable proposed by Buckley and James has been one of the most well-known models. Recently, the varying coefficient regression model has received a great deal of attention as an important tool for modeling. In this paper we propose a censored varying coefficient regression model using Buckley-James method to consider situations where the regression coefficients of the model are not constant but change as the smoothing variables change. By using the formulation of least squares support vector machine (LS-SVM), the coefficient estimators of the proposed model can be easily obtained from simple linear equations. Furthermore, a generalized cross validation function can be easily derived. In this paper, we evaluated the proposed method and demonstrated the adequacy through simulate data sets and real data sets.

Spatial-Temporal Modelling of Road Traffic Data in Seoul City

  • 이상열;안수한;박창이;전종우
    • Journal of the Korean Data and Information Science Society
    • /
    • 제13권2호
    • /
    • pp.261-270
    • /
    • 2002
  • Recently, the demand of the Intelligent Transportation System(ITS) has been increased to a large extent, and a real-time traffic information service based on the internet system became very important. When ITS companies carry out real-time traffic services, they find some traffic data missing, and use the conventional method of reconstructing missing values by calculating average time trend. However, the method is found unsatisfactory, so that we develop a new method based the spatial and spatial-temporal models. A cross-validation technique shows that the spatial-temporal model outperforms the others.

  • PDF

센서 네트워크를 위한 지능형 데이터 유효화 기법의 개발 (Development of Intelligent Data Validation Scheme for Sensor Network)

  • 육의수;김성호
    • 제어로봇시스템학회논문지
    • /
    • 제13권5호
    • /
    • pp.481-486
    • /
    • 2007
  • Wireless Sensor Network(WSNs) consists of small sensor nodes with sensing, computation, and wireless communication capabilities. The large number of sensor nodes in a WSN means that there will often be some nodes which give erroneous sensor data owing to several reasons such as power shortage and transmission error. Generally, these sensor data are gathered by a sink node to monitor and diagnose the current environment. Therefore, this can make it difficult to get an effective monitoring and diagnosis. In this paper, to overcome the aforementioned problems, intelligent sensor data validation method based on PCA(Principle Component Analysis) is utilized. Furthermore, a practical implementation using embedded system is given to show the feasibility of the proposed scheme.

GACV for partially linear support vector regression

  • Shim, Jooyong;Seok, Kyungha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권2호
    • /
    • pp.391-399
    • /
    • 2013
  • Partially linear regression is capable of providing more complete description of the linear and nonlinear relationships among random variables. In support vector regression (SVR) the hyper-parameters are known to affect the performance of regression. In this paper we propose an iterative reweighted least squares (IRWLS) procedure to solve the quadratic problem of partially linear support vector regression with a modified loss function, which enables us to use the generalized approximate cross validation function to select the hyper-parameters. Experimental results are then presented which illustrate the performance of the partially linear SVR using IRWLS procedure.

Fixed size LS-SVM for multiclassification problems of large data sets

  • Hwang, Hyung-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.561-567
    • /
    • 2010
  • Multiclassification is typically performed using voting scheme methods based on combining a set of binary classifications. In this paper we use multiclassification method with a hat matrix of least squares support vector machine (LS-SVM), which can be regarded as the revised one-against-all method. To tackle multiclass problems for large data, we use the $Nystr\ddot{o}m$ approximation and the quadratic Renyi entropy with estimation in the primal space such as used in xed size LS-SVM. For the selection of hyperparameters, generalized cross validation techniques are employed. Experimental results are then presented to indicate the performance of the proposed procedure.

A transductive least squares support vector machine with the difference convex algorithm

  • Shim, Jooyong;Seok, Kyungha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.455-464
    • /
    • 2014
  • Unlabeled examples are easier and less expensive to obtain than labeled examples. Semisupervised approaches are used to utilize such examples in an eort to boost the predictive performance. This paper proposes a novel semisupervised classication method named transductive least squares support vector machine (TLS-SVM), which is based on the least squares support vector machine. The proposed method utilizes the dierence convex algorithm to derive nonconvex minimization solutions for the TLS-SVM. A generalized cross validation method is also developed to choose the hyperparameters that aect the performance of the TLS-SVM. The experimental results conrm the successful performance of the proposed TLS-SVM.