• 제목/요약/키워드: Over-fitting

검색결과 350건 처리시간 0.02초

희소주성분분석을 이용한 텍스트데이터의 단어선택 (Feature selection for text data via sparse principal component analysis)

  • 손원
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.501-514
    • /
    • 2023
  • 텍스트데이터는 일반적으로 많은 단어로 이루어져 있다. 텍스트데이터와 같이 많은 변수로 구성된 데이터의 경우 과적합 등의 문제로 분석에 있어서의 정확성이 떨어지고, 계산과정에서의 효율성에도 문제가 발생하는 경우를 흔히 볼 수 있다. 이렇게 변수가 많은 데이터를 분석하기 위해 특징선택, 특징추출 등의 차원 축소 기법이 자주 사용되고 있다. 희소주성분분석은 벌점이 부여된 최소제곱법 중 하나로 엘라스틱넷 형태의 목적함수를 사용하여 유용하지 않은 주성분을 제거하고 각 주성분에서도 중요도가 큰 변수만 식별해내기 위해 활용되고 있다. 이 연구에서는 희소주성분분석을 이용하여 많은 변수를 가진 텍스트데이터를 소수의 변수만으로 요약하는 절차를 제안한다. 이러한 절차를 실제 데이터에 적용한 결과, 희소주성분분석을 이용하여 단어를 선택하는 과정을 통해 목표변수에 대한 정보를 이용하지 않고도 유용성이 낮은 단어를 제거하여 텍스트데이터의 분류 정확성은 유지하면서 데이터의 차원을 축소할 수 있음을 확인하였다. 특히 차원축소를 통해 고차원 데이터 분석에서 분류 정확도가 저하되는 KNN 분류기 등의 분류 성능을 개선할 수 있음을 알 수 있었다.

통합적인 인공 신경망 모델을 이용한 발틱운임지수 예측 (Predicting the Baltic Dry Bulk Freight Index Using an Ensemble Neural Network Model)

  • 소막
    • 무역학회지
    • /
    • 제48권2호
    • /
    • pp.27-43
    • /
    • 2023
  • 해양 산업은 글로벌 경제 성장에 매우 중요한 역할을 하고 있다. 특히 벌크운임지수인 BDI는 글로벌 상품 가격과 매우 밀접한 상관 관계를 지니고 있기 때문에 BDI 예측 연구의 중요성이 증가하고 있다. 본연구에서는 글로벌 시장 상황 불안정성으로 인한 정확한 BDI 예측 어려움을 해결하고자 머신러닝 전략을 도입하였다. CNN과 LSTM의 이점을 결합한 예측 모델을 설정하였고, 모델 적합도를 위해 27년간의 일일 BDI 데이터를 수집하였다. 연구 결과, CNN을 통해 추출된 BDI 특징을 기반으로 LSTM이 BDI를 R2 값 94.7%로 정확하게 예측할 수 있었다. 본 연구는 해운 경제지표 연구 분야에서 새로운 머신 러닝 통합 접근법을 적용했을 뿐만 아니라 해운 관련기관과 금융 투자 분야의 위험 관리 의사결정에 대한 시사점을 제공한다는 점에서 그 의의가 있다.

A compensation method for the scaling effects in the simulation of a downburst-generated wind-wave field

  • Haiwei Xu;Tong Zheng;Yong Chen;Wenjuan Lou;Guohui Shen
    • Wind and Structures
    • /
    • 제38권4호
    • /
    • pp.261-275
    • /
    • 2024
  • Before performing an experimental study on the downburst-generated wave, it is necessary to examine the scale effects and corresponding corrections or compensations. Analysis of similarity is conducted to conclude the non-dimensional force ratios that account for the dynamic similarity in the interaction of downburst with wave between the prototype and the scale model, along with the corresponding scale factors. The fractional volume of fluid (VOF) method in association with the impinging jet model is employed to explore the characteristics of the downburst-generated wave numerically, and the validity of the proposed scaling method is verified. The study shows that the location of the maximum radial wind velocity in a downburst-wave field is a little higher than that identified in a downburst over the land, which might be attributed to the presence of the wave which changes the roughness of the underlying surface of the downburst. The impinging airflow would generate a concavity in the free surface of the water around the stagnation point of the downburst, with a diameter of about two times the jet diameter (Djet). The maximum wave height appears at the location of 1.5Djet from the stagnation point. Reynolds number has an insignificant influence on the scale effects, in accordance with the numerical investigation of the 30 scale models with the Reynolds number varying from 3.85 × 104 to 7.30 × 109. The ratio of the inertial force of air to the gravitational force of water, which is denoted by G, is found to be the most significant factor that would affect the interaction of downburst with wave. For the correction or compensation of the scale effects, fitting curves for the measures of the downburst-wave field (e.g., wind profile, significant wave height), along with the corresponding equations, are presented as a function of the parameter G.

근거리 지진관측자료의 S파를 이용한 지진규모 평가 연구 (A Study on Estimating Earthquake Magnitudes Based on the Observed S-Wave Seismograms at the Near-Source Region)

  • 연관희;최신규;이강렬
    • 한국지진공학회논문집
    • /
    • 제28권3호
    • /
    • pp.121-128
    • /
    • 2024
  • There are growing concerns that the recently implemented Earthquake Early Warning service is overestimating the rapidly provided earthquake magnitudes (M). As a result, the predicted damages unnecessarily activate earthquake protection systems for critical facilities and lifeline infrastructures that are far away. This study is conducted to improve the estimation accuracy of M by incorporating the observed S-wave seismograms in the near source region after removing the site effects of the seismograms in real time by filtering in the time domain. The ensemble of horizontal S-wave spectra from at least five seismograms without site effects is calculated and normalized to a hypocentric target distance (21.54 km) by using the distance attenuation model of Q(f)=348f0.52 and a cross-over distance of 50 km. The natural logarithmic mean of the S-wave ensemble spectra is then fitted to Brune's source spectrum to obtain the best estimates for M and stress drop (SD) with the fitting weight of 1/standard deviation. The proposed methodology was tested on the 18 recent inland earthquakes in South Korea, and the condition of at least five records for the near-source region is sufficiently fulfilled at an epicentral distance of 30 km. The natural logarithmic standard deviation of the observed S-wave spectra of the ensemble was calculated to be 0.53 using records near the source for 1~10 Hz, compared to 0.42 using whole records. The result shows that the root-mean-square error of M and ln(SD) is approximately 0.17 and 0.6, respectively. This accuracy can provide a confidence interval of 0.4~2.3 of Peak Ground Acceleration values in the distant range.

정점간거리 변화에 따른 교정상태의 임상 평가 (Clinical Estimation of Corrected State with Change in Vertex Distance)

  • 김정희;이학준
    • 한국안광학회지
    • /
    • 제15권1호
    • /
    • pp.25-30
    • /
    • 2010
  • 목적: 본 연구는 정점간거리 변화에 따른 교정굴절력과 교정시력의 변화량을 추적하고 분석하여 굴절검사의 기초 자료를 채용하고자 실시되었다. 방법: 시험렌즈를 이용하여 양안균형검사 종료 후 교정굴절력과 교정시력, 정점간거리를 변화했을 때의 교정굴절력 변화량과 교정시력 변화량을 측정하고, 정점간거리와 교정굴절력, 정점간거리와 교정시력과의 상관성과 통계학적 유의성을 분석하였다. 경과 정점간거리에 따른 교정굴절력의 변화량은 -1.00D까지는 정점간거리 변화에 따라 굴절력의 변화가 없으나. -1.25D 이상부터는 정점간거리가 길어질 때 교정굴절력이 증가하는 것으로 나타났으며, 특히 정점간거리가 15 mm 길어졌을 때 굴절력 변화가 크게 나타났고. 11.00D 이상에서는 정점간거리가 5mm, 10mm, 15mm 변화할 때 모두 교정굴절력의 변화가 크게 나타났다. 정점간거리와 교정굴절력과의 상관성 분석 결과 정점간거리가 5 mm 증가시 r=0.999, 10 mm 증가 시 r=0.982, 15 mm 증가 시 r=0.957로 높은 상관성을 나타냈으며, 정점간거리와 교정굴절력은 통계학적으로 유의한 차이가 있었다(p<0.01). 정점간거리 증가에 따른 시력변화는 정점간거리가 길어질수록 시력감소폭이 크게 나타났으며, 정점간거리와 교정시력과의 상관성 분석 결과 정점간거리가 5 mm 증가 시 r=0.969, 10 mm 증가 시 r=0.985, 15 mm 증가 시 r=0.994로 높은 상관성을 나타냈으며, 정점간거리와 교정시력용 통계학적으로 유의한 차이가 있었다(p<0.01). 결론: 정점간거리는 굴절검사와 안경착용 시 중요한 의미를 갖는다. 정점간거리와 교정굴절력, 교정시력 간에는 높은 상관성이 있었으며, 또한 통계학적으로도 유의한 차이가 있었다. 그러므로 시험렌즈를 이용하여 굴절검사를 할 때 정확한 정점간거리가 유지되어야 하며, 안경이 흘러내리지 않도록 최적의 조정(fitting)이 이루어져야 하고, 안경 착용자에게 정기적인 재조정(refitting)의 필요성과 안경 관리방법 등에 관한 교육이 필요하다고 사료된다.

타각적 굴절검사를 이용한 토릭 소프트 렌즈 회전 평가의 유용성 (Usefulness of Rotation for Toric Soft Lenses Using Objective Refraction)

  • 유동식;문병연;손정식
    • 한국안광학회지
    • /
    • 제16권3호
    • /
    • pp.265-272
    • /
    • 2011
  • 목적: 토릭 소프트 렌즈 피팅에서 타각적 굴절검사를 이용하여 회전 평가의 임상적 유용성을 알아보고자 하였다. 방법: 난시가 있는 32명(64안, 평균 24.69${\pm}$1.65세)을 대상으로 토릭 소프트렌즈를 피팅하였다. 타각적 굴절검사와 덧댐굴절검사로부터 계산에 의해 렌즈 회전을 평가하여 세극등현미경으로 직접 측정한 값과 비교하였다. 결과: 토릭 소프트 렌즈 회전의 방향은 0점(수직선 ${\pm}$5$^{\circ}$이내) 기준으로 계산과 측정에서 각각 코 방향으로 69.78%와 63.64%로 서로 유사하였다. 계산과 측정에 따른 렌즈 회전 크기에 대한 일치 빈도는 두 방법 간의 차이 기준이 10$^{\circ}$이하에서 54.69%, 20$^{\circ}$이하에서 82.82%를 보였다. 두 방법의 95% 일치도 범위는 ${\pm}$10$^{\circ}$이하에서 -10.08$^{\circ}$~12.65$^{\circ}$(p = 0.1984)이며, 평균차이가 1.29$^{\circ}$로 두 값 사이의 일치성이 있는 것으로 평가되었고, 상관성(r = 0.56, p=0.0004)이 있는 것으로 나타났다. 하지만 ${\pm}$20$^{\circ}$이하에서 두 방법 간의 일치성의 범위가 더 넓게 나타났으며 상관관계가 없는 것으로 나타났다. 피팅 상태에서 두 방법 간의 렌즈 회전 크기 차이는 정상(normal) 피팅에서 9.66${\pm}$6.16$^{\circ}$, 느슨한(loose) 피팅에서 16.17${\pm}$12.38$^{\circ}$ 그리고 타이트(tight) 피팅에서 10.58${\pm}$12.02$^{\circ}$로 나타났다. 결론: 타각적 굴절검사를 기준으로 한 회전 평가와 직접 측정에 의한 회전 평가의 차이가 작을수록 타각적 덧댐굴절검사 값을 자각적 굴절검사를 위한 보조수단으로서 이용 가능성이 더 크며, 또한 정상적 피팅의 가능성이 더 높은 것으로 평가된다. 따라서 직접 측정하는 방법과 이 방법을 병행 적용함으로써 토릭 소프트렌즈의 처방 성공률을 더 높일 수 있을 것으로 본다.

3상 전동기 결상에 의한 전기화재 보호를 위한 장치 개발 연구 (A Study on Device Development for Electrical Fire Protection on Open Phase of Three-Phase Motor)

  • 최신형;곽동걸;김진환
    • 한국화재소방학회논문지
    • /
    • 제26권1호
    • /
    • pp.61-67
    • /
    • 2012
  • 3상 전동기를 이용하는 3상 전력계통에서 1상이 결상되면 계통에는 불평형 전류가 흐르거나 단상전력이 공급되어 전동기 코일의 과전류로 인한 화재발생은 물론 전력계통에 큰 피해를 주게 된다. 최근 3상 전동기 결상검출 방식으로는 열동 과전류계전기와 전자식 모터 보호계전기가 대다수 이용되고 있으며, 이들은 선로의 과열이나 과전류가 발생되면 검출하고 차단기를 동작시키는 방식으로 감지속도가 느리고 오동작과 정밀도가 떨어지는 문제점이 있다. 이들을 개선하기위하여 본 논문에서는 반도체 소자를 이용한 새로운 결상보호용 제어회로 토폴로지를 설계하여 감지속도와 정밀도를 향상시키고, 소형 경량으로 제작되어 현장의 3상 전동기 제어반에 용이하게 장착시킬 수 있는 장점이 있다. 그 결과 제안한 결상 보호장치는 3상 전동기를 보호하고 결상으로 발생하는 전기화재를 최소화시키고 그리고 전력계통의 안정적인 운전에 기여할 수 있을 것이다. 제안한 결상 보호장치는 다양한 동작특성 실험을 통하여 그 성능과 신뢰성이 입증된다.

Nanomaterials Research Using Quantum Beam Technology

  • Kishimoto, Naoki;Kitazawa, Hideaki;Takeda, Yoshihiko
    • 한국재료학회:학술대회논문집
    • /
    • 한국재료학회 2011년도 추계학술발표대회
    • /
    • pp.7-7
    • /
    • 2011
  • Quantum beam technology has been expected to develop breakthroughs for nanotechnology during the third basic plan of science and technology (2006~2010). Recently, Green- or Life Innovations has taken over the national interests in the fourth basic science and technology plan (2011~2015). The NIMS (National Institute for Materials Science) has been conducting the corresponding mid-term research plans, as well as other national projects, such as nano-Green project (Global Research for Environment and Energy based on Nanomaterials science). In this lecture, the research trends in Japan and NIMS are firstly reviewed, and the typical achievements are highlighted over key nanotechnology fields. As one of the key nanotechnologies, the quantum beam research in NIMS focused on synchrotron radiation, neutron beams and ion/atom beams, having complementary attributes. The facilities used are SPring-8, nuclear reactor JRR-3, pulsed neutron source J-PARC and ion-laser-combined beams as well as excited atomic beams. Materials studied are typically fuel cell materials, superconducting/magnetic/multi-ferroic materials, quasicrystals, thermoelectric materials, precipitation-hardened steels, nanoparticle-dispersed materials. Here, we introduce a few topics of neutron scattering and ion beam nanofabrication. For neutron powder diffraction, the NIMS has developed multi-purpose pattern fitting software, post RIETAN2000. An ionic conductor, doped Pr2NiO4, which is a candidate for fuel-cell material, was analyzed by neutron powder diffraction with the software developed. The nuclear-density distribution derived revealed the two-dimensional network of the diffusion paths of oxygen ions at high temperatures. Using the high sensitivity of neutron beams for light elements, hydrogen states in a precipitation-strengthened steel were successfully evaluated. The small-angle neutron scattering (SANS) demonstrated the sensitive detection of hydrogen atoms trapped at the interfaces of nano-sized NbC. This result provides evidence for hydrogen embrittlement due to trapped hydrogen at precipitates. The ion beam technology can give novel functionality on a nano-scale and is targeting applications in plasmonics, ultra-fast optical communications, high-density recording and bio-patterning. The technologies developed are an ion-and-laser combined irradiation method for spatial control of nanoparticles, and a nano-masked ion irradiation method for patterning. Furthermore, we succeeded in implanting a wide-area nanopattern using nano-masks of anodic porous alumina. The patterning of ion implantation will be further applied for controlling protein adhesivity of biopolymers. It has thus been demonstrated that the quantum beam-based nanotechnology will lead the innovations both for nano-characterization and nano-fabrication.

  • PDF

Watersheds 기반 계층적 이진화를 이용한 단백질 반점 분할 알고리즘 (The Algorithm of Protein Spots Segmentation using Watersheds-based Hierarchical Threshold)

  • 김영호;김정자;김대현;원용관
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.239-246
    • /
    • 2005
  • 생물학자가 단백질을 검색하고 분석하기 위해서는 2차원 젤 전기영동(2DGE : Two Dimensional Gel Electrophoresis) 실험을 해야 한다. 실험 결과는 2차원 영상이 생성된다. 2차원 영상에서 단백질 반점의 패턴 분석을 위해 2차원 젤 영상에 펼쳐진 단백질 반점들을 영상처리를 통해 분할하고, 대조 그룹의 단백질 패턴과 비교분석을 통해 밝히고자하는 단백질 반점을 찾아내야 한다. 단백질 반점을 분할하는 알고리즘에 있어서 기존에는 가우시안 함수를 적용하였지만, 최근 들어 형태학 분리개념에 의한 Watersheds 영역기반 분할(Watersheds region-based segmentation) 알고리즘을 활용하고 있다. 그러나 Watersheds 영역기반 분할 알고리즘은 크기가 큰 영상에서 원하는 영역을 신속하게 분할한다는 장점이 있지만, 영상 화소의 그레이 값이 연속적인 경우 실제 반점의 개수 에 비해 과다분할(over-segmentation)되거나 과소분할(under-segmentation)의 문제점을 안고 있다. 이는 마커(marker) 포인트의 설정에 의해 어느 정도 해결할 수 있지만 병합(merge)과 분할(split) 과정을 반복해야 한다. 본 논문은 Watersheds 기반 계층적 이진화 기법을 적용하여 마커 드리븐 Watersheds 영상분할의 문제점을 해결하고자 한다.

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.