• Title/Summary/Keyword: 교차검증방법

Search Result 272, Processing Time 0.026 seconds

Cross-Validated Ensemble Methods in Natural Language Inference (자연어 추론에서의 교차 검증 앙상블 기법)

  • Yang, Kisu;Whang, Taesun;Oh, Dongsuk;Park, Chanjun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.8-11
    • /
    • 2019
  • 앙상블 기법은 여러 모델을 종합하여 최종 판단을 산출하는 기계 학습 기법으로서 딥러닝 모델의 성능 향상을 보장한다. 하지만 대부분의 기법은 앙상블만을 위한 추가적인 모델 또는 별도의 연산을 요구한다. 이에 우리는 앙상블 기법을 교차 검증 방법과 결합하여 앙상블 연산을 위한 비용을 줄이며 일반화 성능을 높이는 교차 검증 앙상블 기법을 제안한다. 본 기법의 효과를 입증하기 위해 MRPC, RTE 데이터셋과 BiLSTM, CNN, BERT 모델을 이용하여 기존 앙상블 기법보다 향상된 성능을 보인다. 추가로 교차 검증에서 비롯한 일반화 원리와 교차 검증 변수에 따른 성능 변화에 대하여 논의한다.

  • PDF

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation (XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

Alignment Optimization Considering Characteristics of Intersections (교차로의 특성을 고려한 도로선형최적화)

  • KIM, Eungcheol;SON, Bongsoo;CHANG, Myungsoon
    • Journal of Korean Society of Transportation
    • /
    • v.20 no.4
    • /
    • pp.109-122
    • /
    • 2002
  • 본 연구에서는 교차로의 비용 및 특성을 고려한 도로선형최적화 모형을 유전자 알고리즘(Genetic Algorithms)을 이용하여 개발하였다. 기존의 도로선형최적화 모형은 교차로 특성을 고려하지 못해서 실제 적용에 심대한 문제점을 내재하고 있다. 본 논문에서는 특정 도로선형에 교차로 건설의 필요가 있을 경우, 민감(Sensitive)하고 지배적인(Dominating) 교차로 비용 항목들 즉, 토공비용, 보상비, 포장비, 사고비용, 지체 및 연료소모비용 등의 산정이 시도되었다. 또한 비교적 우수한 도로선형 대안을 유전자 알고리즘을 이용한 탐색과정 중에서 비효율적으로 강제 퇴화시키는 단점 보완을 위한 교차로 국소 최적화 방법(Local Optimization of Intersections)이 개발되어 기존 모형을 보완하였다. 공간상의 도로선형은 매개변수적 묘사(Parametric Representation)를 통하여 구현하였으며 벡터운영(Vector Manipulation)을 통해 교차로비용 산정의 근간인 교차점과 다른 중요점들의 좌표를 찾을 수 있었다. 개발된 교차로 비용산정 모형이 보다 정밀하게 교차로 비용을 산정함이 증명되었으며 궁극적으로는 기존의 최적화 모형의 단점을 보완할 수 있음이 제시되었다. 또한, 새로이 제시된 교차로 국소 최적화 방법이 최적대안 탐색과정의 유연성을 증대하였으며, 결과적으로 효율적인 교차로의 유지에 기여함을 알 수 있었다. 제시된 교차로 국소 최적화 방법은 추후 단일노선이 아닌 도로망 최적화시의 기초를 제시함은 주목할 만 하다. 두개의 예제에서 도출된 최적노선 및 교차로 비용 등의 검토 결과, 도로상의 교차로 건설비용은 도로선형 최적화에 큰 영향을 미치는 실질적이며 민감한 비용 항목임이 검증되었으며 이는 도로선형최적화 모형이 교차로 비용을 반드시 검토 및 평가할 수 있어야 함을 반증한다.

Sensitivity Analysis for Bivariate Spatial Data Using Principal Component Score (주성분점수를 이용한 이변량 공간자료에 대한 감도분석)

  • 최승배;강창완
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.415-427
    • /
    • 2001
  • 공간통계학에서는 다변량 공간자료에 대한 예측방법으로서 코크리깅 기법을 이용한다. 본 논문에서는 코크리깅을 위한 첫 번째 단계인 교차베리오그램의 추정에 대한 감도분석 대신에 일반통계학적 측면에서 주성분점수를 이용한 감도분석방법을 제안한다. 변수가 2개인 경우, 교차베리오그램에 대한 감조분석의 결과와 제안된 주성분점수를 이용한 감도분석의 결과를 비교해 본다. 모의실험을 통하여 제안한 방법의 타당을 검증하고, 실제 자료를 이용한 사례분석의 결과로써 재확인해 본다.

  • PDF

A Study on Random Selection of Pooling Operations for Regularization and Reduction of Cross Validation (정규화 및 교차검증 횟수 감소를 위한 무작위 풀링 연산 선택에 관한 연구)

  • Ryu, Seo-Hyeon
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.19 no.4
    • /
    • pp.161-166
    • /
    • 2018
  • In this paper, we propose a method for the random selection of pooling operations for the regularization and reduction of cross validation in convolutional neural networks. The pooling operation in convolutional neural networks is used to reduce the size of the feature map and for its shift invariant properties. In the existing pooling method, one pooling operation is applied in each pooling layer. Because this method fixes the convolution network, the network suffers from overfitting, which means that it excessively fits the models to the training samples. In addition, to find the best combination of pooling operations to maximize the performance, cross validation must be performed. To solve these problems, we introduce the probability concept into the pooling layers. The proposed method does not select one pooling operation in each pooling layer. Instead, we randomly select one pooling operation among multiple pooling operations in each pooling region during training, and for testing purposes, we use probabilistic weighting to produce the expected output. The proposed method can be seen as a technique in which many networks are approximately averaged using a different pooling operation in each pooling region. Therefore, this method avoids the overfitting problem, as well as reducing the amount of cross validation. The experimental results show that the proposed method can achieve better generalization performance and reduce the need for cross validation.

Application of Time-series Cross Validation in Hyperparameter Tuning of a Predictive Model for 2,3-BDO Distillation Process (시계열 교차검증을 적용한 2,3-BDO 분리공정 온도예측 모델의 초매개변수 최적화)

  • An, Nahyeon;Choi, Yeongryeol;Cho, Hyungtae;Kim, Junghwan
    • Korean Chemical Engineering Research
    • /
    • v.59 no.4
    • /
    • pp.532-541
    • /
    • 2021
  • Recently, research on the application of artificial intelligence in the chemical process has been increasing rapidly. However, overfitting is a significant problem that prevents the model from being generalized well to predict unseen data on test data, as well as observed training data. Cross validation is one of the ways to solve the overfitting problem. In this study, the time-series cross validation method was applied to optimize the number of batch and epoch in the hyperparameters of the prediction model for the 2,3-BDO distillation process, and it compared with K-fold cross validation generally used. As a result, the RMSE of the model with time-series cross validation was lower by 9.06%, and the MAPE was higher by 0.61% than the model with K-fold cross validation. Also, the calculation time was 198.29 sec less than the K-fold cross validation method.

Chinese and Korean Cross Lingual News Detection in Twitter (트위터에서 이슈가 되고 있는 중국어-한국어 교차언어 뉴스 탐지)

  • Zhao, Shengnan;Tsolmon, Bayar;Lee, Kyung-Soon;Lee, Yong-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.658-661
    • /
    • 2012
  • 국제적으로 이슈가 되고있는 사건들의 뉴스는 보도당국의 입장차이에 따라 동일 이슈에 대한 관점의 차이를 나타낸다. 교차언어 연구에서는 번역하는 과정이 중요하다. 본 논문에서는 중-한 어휘번역에서 발생하는 오류 및 모호성을 해결하기 위해 키워드를 중심으로 문맥 어휘를 이용해서 번역한 후 번역결과에서 빈도가 높은 한국어 어휘를 선택하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 소셜 이슈 3 개에 대한 트윗 데이터에서 실험하여 추출된 중-한 이슈 뉴스 결과에서의 정확도 85.8%의 성능을 보였다. 실험을 통해 제안 방법이 중-한 교차언어 트위터 데이터에서 동일한 이슈와 관련된 뉴스를 찾는데 효과적인 방법임을 알 수 있다.

A Brief Empirical Investigation of Seaport Clustering by Using Meta-Frontier and Cross-efficiency Models (메타프론티어와 교차효율성 모형을 통한 항만 클러스터링의 실증적 검증소고)

  • Park, Ro-Kyung
    • Korea Trade Review
    • /
    • v.41 no.3
    • /
    • pp.27-42
    • /
    • 2016
  • This study is to investigate seaport clustering by using meta-frontier and cross-efficiency models. Data covers the 13 Asian ports during 2009, 2010 and 2013 with 3 inputs(depth, total area, and number of cranes) and 1 output(TEU). Correlations coefficient from cross-efficiency matrix are used for measuring clustering dendrogram. After that, meta-frontier analysis for investigating whether the clustering using cross-efficiency method increases the meta-efficiency. Empirical main results are as follows: First, group efficiencies of Busan, Incheon, and Gwangyang ports are increased. Second, meta and group efficiencies of China ports are greater than those of Korean ports. Third, distortion of technology gap of Gwangyang is lower than that of Busan and Incheon. Fourth, Gwangyang, clustering with Ningbo, Chingtao, Tokyo and Caosung ports in 2009 and with Dubai port in 2013 can increase the efficiency. Fifth, to enhance the efficiency, Busan port should be clustered to group 2 in 2010 and group 1 in 2013, and Incheon port clustered to group 2 in 2010 and 2013. Fifth, it is empirically investigated that Busan, Incheon and Gwangyang ports can increase the efficiency by using Cross-efficiency and Meta-frontier models. Port policy planner should promote the clustering policy for Busan with Hong Kong, Shanghai, and Singapore, Incheon and Gwangyang with Chingtao, Nagoya, Ningbo, Tokyo, and Kaoshung ports.

  • PDF

Haptic texture modeling using neural network structure (뉴럴 네트워크 구조를 이용한 햅틱 질감 모델링)

  • Shin, Sung-Hwan;Choi, Seung-Moon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.382-384
    • /
    • 2012
  • 뉴럴 네트워크 구조를 이용하여 새로운 햅틱 질감 모델링 방법을 제시하고, 실제 측정한 데이터를 이용해 이 방법을 검증하였다. 제시된 방법은 높은 주파수의 가속도 성분까지 성공적으로 모델링 하기 위해서 여러 개의 뉴럴 네트워크를 병렬적으로 이용하여 구현되었으며, 기존 방법에 비해서 새로운 물체의 질감을 모델링 하기가 간편하였다. 실제로 측정한 데이터로 교차 검증을 실시한 결과 물체의 표면에서 생성되는 가속도를 약 75 %의 correlation으로 재생하는 결과를 얻을 수 있었다.

Routing Strategy on the XMESH Topology for the Massively Parallel Computer Architecture (대규모 병렬컴퓨터에 적합한 교차메쉬구조에서의 경로설정)

  • Kim, Jong-Jin;Yun, Seong-Dae
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.12
    • /
    • pp.3109-3116
    • /
    • 1998
  • 본 논문에서는 대규모 병렬컴퓨터의 구현에 적합한 위상구조인 교차메쉬구조에서, 균등한 메시지분포를 갖고 메시지의 경쟁이 있는 실제적 상황에서 상호접속망내의 메시지의 경로를 선정하기 위한 방법들을 제안하고, 이의 성능을 검증하기 위해 우회 경로설정 알고리즘을 이용하여 시뮬레이션을 하였다. 교차메쉬의 특성상 최적경로의 수가 다른 구조들에 비해 다양하다는 특징을 이용하여 최적경로의 수를 우선순위에 반영한 우회조건 및 대각방향의 링크를 효율적으로 활용하기 위한 링크선정방법에 따를 교차메쉬의 최대지연(maximum delay), 평균지연(average delay) 및 메시지처리율(throughput)을 구하고 이를 비교 고찰하였다. 메시지 전송시 최적인 경로상의 링크에 경합이 생길 경우 최적 경로의 수가 적은 메시지가 높은 우선순위를 가지며 만약 같은 조건이라면 우회한 횟수가 많은 메시지가 높은 우선순위를 갖는 우회조건 LD를 사용하며 이 우선순위에 따라 경로를 선정할 차례가 된 메시지가 선택할 수 있는 최적경로의 수가 많을 경우 대각방향의 링크로 우선적으로 전송할 경우, 오래된 메시지가 높은 우선순위를 갖는 우회조건 A에 의한 방법에 비해 최대지연, 평균지연 및 메시지처리율에 있어서 각각 이상값에 대한 개선목표치의 약58%, 70% 및 31%의 성능개선이 있었다.

  • PDF