• 제목/요약/키워드: model ensemble

검색결과 647건 처리시간 0.029초

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

Diffusion Behavior of n-Alkanes by Molecular Dynamics Simulations

  • Goo, Geun-Hoi;Sung, Gi-Hong;Lee, Song-Hi;Chang, Tai-Hyun
    • Bulletin of the Korean Chemical Society
    • /
    • 제23권11호
    • /
    • pp.1595-1603
    • /
    • 2002
  • In this paper we have presented the results of diffusion behavior of model systems for eight liquid n-alkanes ($C_{12}$-$C_{44}$) in a canonical (NVT) ensemble at several temperatures using molecular dynamics simulations. For these n-alkanes of small chain length n, the chains are clearly <$R_{ee}^2$>/6<$R_g^2$>>1 and non-Gaussian. This result implies that the liquid n-alkanes over the whole temperatures considered are far away from the Rouse regime, though the ratio becomes close to the unity as n increases. Calculated self-diffusion constants $D_{self}$ are comparable with experimental results and the Arrhenius plot of self-diffusion constants versus inverse temperature shows a different temperature dependence of diffusion on the chain length. The global rotational motion of n-alkanes is examined by characterizing the orientation relaxation of the end-to-end vector and it is found that the ratio ${\tau}1/{\tau}2$ is less than 3, the value expected for a isotropically diffusive rotational process. The friction constants ${\xi}$of the whole molecules of n-alkanes are calculated directly from the force auto-correlation (FAC) functions and compared with the monomeric friction constants ${\xi}_D$ extracted from $D_{self}$. Both the friction constants give a correct qualitative trends: decrease with increasing temperature and increase with increasing chain length. The friction constant calculated from the FAC's decreases very slowly with increasing temperature, while the monomeric friction constant varies rapidly with temperature. By considering the orientation relaxation of local vectors and diffusion of each site, it is found that rotational and translational diffusions of the ends are faster than those of the center.

직사각형 프리즘 상면에서 발생되는 원추형 와의 유동구조 (Flow Structure of Conical Vortices Generated on the Roof of a Rectangular Prism)

  • 김경천;지호성;성승학
    • 대한기계학회논문집B
    • /
    • 제25권5호
    • /
    • pp.713-721
    • /
    • 2001
  • Characteristics of the conical vortices on the roof corner of a rectangular prism have been investigated by using a PIV(Particle Image Velocimetry) technique. The Reynolds number based on the free stream velocity and the height of the model was 5.3$\times$10$^3$. The mean, instantaneous velocity vector fields, vorticity fields, and turbulent kinetic energy distribution were measured for two different angles of attack, 30$^{\circ}$and 45$^{\circ}$. The PIV measurements clearly observed not only the conical main vortex and the secondary vortex but also the tertiary vortex which is firstly reported in this paper. Asymmetric formation of the corner vortex for the case of 30$^{\circ}$angle of attack produces relatively the high magnitude of vorticity and turbulent kinetic energy around the bigger vortex which generates the peak suction pressure on the roof. Fairly symmetric features of the roof vortex are observed in the case of 45$^{\circ}$angle of attack, however, the dynamic characteristics are proved to be asymmetric due to the rectangular shape of the roof.

기상청 기후예측시스템(GloSea5)의 여름철 동아시아 몬순 지수 예측 성능 평가 (Prediction Skill for East Asian Summer Monsoon Indices in a KMA Global Seasonal Forecasting System (GloSea5))

  • 이소정;현유경;이상민;황승언;이조한;부경온
    • 대기
    • /
    • 제30권3호
    • /
    • pp.293-309
    • /
    • 2020
  • There are lots of indices that define the intensity of East Asian summer monsoon (EASM) in climate systems. This paper assesses the prediction skill for EASM indices in a Global Seasonal Forecasting System (GloSea5) that is currently operating at KMA. Total 5 different types of EASM indices (WNPMI, EAMI, WYI, GUOI, and SAHI) are selected to investigate how well GloSea5 reproduces them using hindcasts with 12 ensemble members with 1~3 lead months. Each index from GloSea5 is compared to that from ERA-Interim. Hindcast results for the period 1991~2010 show the highest prediction skill for WNPMI which is defined as the difference between the zonal winds at 850 hPa over East China Sea and South China Sea. WYI, defined as the difference between the zonal winds of upper and lower level over the Indian Ocean far from East Asia, is comparatively well captured by GloSea5. Though the prediction skill for EAMI which is defined by using meridional winds over areas of East Asia and Korea directly affected by EASM is comparatively low, it seems that EAMI is useful for predicting the variability of precipitation by EASM over East Asia. The regressed atmospheric fields with EASM index and the correlation with precipitation also show that GloSea5 best predicts the synoptic environment of East Asia for WNPMI among 5 EASM indices. Note that the result in this study is limited to interpret only for GloSea5 since the prediction skill for EASM index depends greatly on climate forecast model systems.

데이터 마이닝에서 패턴 분류를 위한 다중 SVM 분류기 (Multiple SVM Classifier for Pattern Classification in Data Mining)

  • 김만선;이상용
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.289-293
    • /
    • 2005
  • 패턴 분류는 실세계의 객체를 표현한 다양한 형태의 패턴 정보를 추출하여, 이것이 어떤 부류(클래스)인가를 결정하는 것이다. 패턴 분류 기술은 데이터 마이닝, 산업 자동화나 업무자동화를 위한 컴퓨터 응용 소프트웨어 기술로서 현재 다양한 분야에서 활용되고 있다. 패턴 분류 기술의 최대 목표는 분류 성능 향상이며 이것을 위해 지난 40년간 많은 연구자들이 다양한 접근 방법들을 시도해 왔다. 주로 이용되는 단일 분류 방법들로는 패턴들의 확률적 추론에 기반한 베이즈 분류기, 결정 트리, 거리함수를 이용하는 방법, 신경망, 군집화 등이 있으나 대용량 다차원 데이터를 분석하기에는 효율적이지 못하다. 따라서 상호 보완적인 여러 분류기들을 사용해 결합을 통하여 성능 향상에 도움을 주고 있는 다중 분류기 시스템에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 다중 SVM(Support Vector Machine) 분류기에 관한 기존 연구의 문제점을 지적하고 새로운 모델을 제안한다. SVM을 다중 클래스 분류기로 확장하기 위해 일대다 정책을 기반으로 하여 각각의 SVM 출력값을 비선형 패턴을 갖는 신호로 간주하고 이를 신경망에 학습하여 최종 분류 성능 결과를 결합하는 모델인 BORSE(Bootstrap Resampling SVM by Ensemble)를 제안한다.

공간의존 파론도 게임의 재분배 모형 (A redistribution model for spatially dependent Parrondo games)

  • 이지연
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.121-130
    • /
    • 2016
  • N명의 게임자들이 둥글게 둘러앉아 공간의존 파론도 게임 B를 실시한다. 게임 B는 여러 명의 게임자들 중에서 한 명을 임의로 선택하고, 선택된 게임자는 양 옆에 있는 두 명의 게임자들의 상태에 따라 앞면이 나올 확률이 달라지는 동전을 던져서 앞면이 나오면 1원을 얻고 뒷면이 나오면 1원을 잃는다. 게임 A'은 임의로 선택된 게임자가 나머지 N - 1명의 게임자들 중에서 한 명을 임의로 선택하여 본인의 상금 1원을 전달하는 게임으로 전체 게임자들의 총 상금에는 변함이 없으므로 전체 게임자들에게는 항상 공정한 게임이다. 만약 게임 B가 지는 게임인 반면에 두 게임 A'와 B를 결합한 혼합게임 C는 이기는 게임이 되면 파론도 효과가 존재하고, 게임 B가 이기는 게임이고 혼합게임 C는 지는 게임이면 역파론도 효과가 존재한다고 한다. 먼저 마코프 체인의 상태공간의 축소를 위한 lumpability 조건이 게임 A', B 그리고 혼합게임 C에 대해 만족함을 보이고, 축소된 상태공간에서 게임 B와 C의 기대상금을 계산한다. 이를 이용하여 파론도 효과와 역파론도 효과의 존재를 확인하고, 특별히 $3{\leq}N{\leq}6$의 경우에는 파론도 효과와 역파론도 효과가 존재하는 확률 모수의 영역을 도식화 한다.

Assessment of modal parameters considering measurement and modeling errors

  • Huang, Qindan;Gardoni, Paolo;Hurlebaus, Stefan
    • Smart Structures and Systems
    • /
    • 제15권3호
    • /
    • pp.717-733
    • /
    • 2015
  • Modal parameters of a structure are commonly used quantities for system identification and damage detection. With a limited number of studies on the statistics assessment of modal parameters, this paper presents procedures to properly account for the uncertainties present in the process of extracting modal parameters. Particularly, this paper focuses on how to deal with the measurement error in an ambient vibration test and the modeling error resulting from a modal parameter extraction process. A bootstrap approach is adopted, when an ensemble of a limited number of noised time-history response recordings is available. To estimate the modeling error associated with the extraction process, a model prediction expansion approach is adopted where the modeling error is considered as an "adjustment" to the prediction obtained from the extraction process. The proposed procedures can be further incorporated into the probabilistic analysis of applications where the modal parameters are used. This study considers the effects of the measurement and modeling errors and can provide guidance in allocating resources to improve the estimation accuracy of the modal data. As an illustration, the proposed procedures are applied to extract the modal data of a damaged beam, and the extracted modal data are used to detect potential damage locations using a damage detection method. It is shown that the variability in the modal parameters can be considered to be quite low due to the measurement and modeling errors; however, this low variability has a significant impact on the damage detection results for the studied beam.

촉매 변환기의 내부 유동장 측정-CFD 해석과 비교 (Flow Field Measurement in Catalytic Converter-Comparison with Computational Fluid Dynamics Analyses)

  • 유성출;장성국
    • 대한기계학회논문집B
    • /
    • 제38권3호
    • /
    • pp.197-202
    • /
    • 2014
  • 촉매 변환기의 효율은 촉매 물질이 포함되어 있는 하니콤 브릭 입구의 유동장 분포와 밀접한 관계가 있다. 하니콤 브릭 표면의 유동장 분포가 균일하지 않으면 시스템의 전환 효율이 감소하고 균일한 유동장 분포를 갖는 촉매 변환기에 비해 크기가 커져 제작비용도 증가한다. 따라서 촉매 변환기의 내부유동 해석은 매우 중요하다. 본 연구에서는 변환기 내부 하니콤 브릭 사이부분과 2번째 하니콤 브릭 출구부분의 유동분포를 단축을 따라 37.8 l/s와 94.4 l/s 유동영역에서 측정하였다. 또한, 자동차 제작사에서 이루어진 전산해석 결과를 측정 결과와 비교하여 실험적으로 검증하였다. 하니콤 브릭 사이부분의 ${\upsilon}$-속도분포 측정은 다소 변화하는 유동패턴이 형성되는 것을 보여주지만 입구 반대쪽 벽 부근영역에서 음의 유동장이 형성되고 음의 속도는 감소하여 중심 부근에서는 정체현상을 보이고 계속 입구 쪽까지 지속되는 것을 보여준다. 대부분의 속도 값에서 전산해석 결과는 측정치에 비하여 크게 나타났다.

APCC MME 계절예측정보를 이용한 가뭄전망 (Drought Outlook using APCC MME Seasonal Prediction Information)

  • 강부식;문수진;손수진;이우진
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1784-1788
    • /
    • 2010
  • APEC 기후센터(APEC Climate Center, APCC)에서 제공하는 다중모형앙상블(Multi-model Ensemble, MME) 형태의 계절예측정보를 이용하여 3개월 가뭄전망을 수행하였다. APCC MME는 기후예측모형이 가지는 불확실성을 최소화하기 위한 방법으로, 아시아 태평양 지역 내 9개 회원국 16개 기관 21개 기후모형의 계절예측정보를 활용하여, 개별 모형이 가지는 계통오차(Systematic error)를 앙상블 기법을 통하여 상쇄함으로써 최적의 예측자료를 도출한다. 또한, 기후예측 모형이 예측한 대기순환장은 관측 지점변수와 경험적 통계적 관련성을 가지므로, 이를 바탕으로 상세지역의 이상기후에 대한 정보를 도출할 수 있다. 본 연구에서는 가뭄 관리 및 전망을 위한 입력 자료로서, 기상전문 기관인 APEC 기후센터 (APEC Climate Center, APCC)에서 제공하는 전구 규모의 기온 및 강수 전망자료를 기상청 산하 59개 지점의 전망자료로 통계적 규모 축소화 기법을 통해 3개월 예보를 실시하였다. APCC 계절예측자료를 가뭄모니터링시스템의 자료입력 포맷에 따라 적절히 가공한 뒤, 가뭄 관리 및 전망을 위하여 SPI(Standard Precipitation Index) 및 PDSI(Palmer Drought Severity Index)지수의 입력자료로 사용하여 SPI 및 PDSI 지수를 산정하였다. 또한 분위사상법(Quantile Mapping)을 이용하여 총 59개 지점의 과거 월평균 관측값과 최근 2009년에 대한 모의값의 누적확률분포값을 계산하고 모의값의 확률분포를 관측값의 확률분포에 사상시켜 가뭄 전망을 위한 기상변수의 오차를 보정하고자 하였다. 이러한 계절예측정보를 이용하여 가뭄 전망에 대한 신뢰도가 높아진다면, 사전예방 및 피해완화로 가뭄상황에 대한 신속한 대처 및 피해의 경감이 이루어질 수 있을 것이다.

  • PDF

Analyzing Machine Learning Techniques for Fault Prediction Using Web Applications

  • Malhotra, Ruchika;Sharma, Anjali
    • Journal of Information Processing Systems
    • /
    • 제14권3호
    • /
    • pp.751-770
    • /
    • 2018
  • Web applications are indispensable in the software industry and continuously evolve either meeting a newer criteria and/or including new functionalities. However, despite assuring quality via testing, what hinders a straightforward development is the presence of defects. Several factors contribute to defects and are often minimized at high expense in terms of man-hours. Thus, detection of fault proneness in early phases of software development is important. Therefore, a fault prediction model for identifying fault-prone classes in a web application is highly desired. In this work, we compare 14 machine learning techniques to analyse the relationship between object oriented metrics and fault prediction in web applications. The study is carried out using various releases of Apache Click and Apache Rave datasets. En-route to the predictive analysis, the input basis set for each release is first optimized using filter based correlation feature selection (CFS) method. It is found that the LCOM3, WMC, NPM and DAM metrics are the most significant predictors. The statistical analysis of these metrics also finds good conformity with the CFS evaluation and affirms the role of these metrics in the defect prediction of web applications. The overall predictive ability of different fault prediction models is first ranked using Friedman technique and then statistically compared using Nemenyi post-hoc analysis. The results not only upholds the predictive capability of machine learning models for faulty classes using web applications, but also finds that ensemble algorithms are most appropriate for defect prediction in Apache datasets. Further, we also derive a consensus between the metrics selected by the CFS technique and the statistical analysis of the datasets.