• 제목/요약/키워드: Statistical Learning Model

검색결과 545건 처리시간 0.028초

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

치기공과 학생의 수업 방해 요인과 수업 만족도와의 관계 (Relations between class distracting factors and class satisfaction of dental technology students)

  • 권순석;이혜은
    • 대한치과기공학회지
    • /
    • 제39권4호
    • /
    • pp.263-273
    • /
    • 2017
  • Purpose: This study aimed to explore the relations between class distracting factors and class satisfaction of the dental technology students and then provide a primary data to help further related studies and develop educational programs with which instructors can efficiently manage their classroom. Methods: For this study we have conducted a survey started from the beginning of May 2017 to the end of June. The subjects of the survey were Dental Technology students of D-city, K-city, W-city, selected by random sampling method. The questionnaire was self-administrated and 437 valid results were chosen for our analysis among 450 distributed questionnaires. Results: The results of the research was as follows. Firstly, The overall average point of class distracting factors was 2.5 point. The environmental factors were the highest point as 2.59 and as for the subcategories tiredness and drowsiness was the highest point as 2.76. Secondly, The overall average point of class satisfaction turned out 3,88 point and compliance with class and attitude factors gained the highest point as 4.06. Of the subcategories strict roll checking was the highest point as 4.17. Thirdly, As for class distracting factors from general characteristics a statistical significance was shown as follows; 'instructor factor'(p<.01), 'learner factor'(p<.05), 'total class distracting factor'(p<.05) in the area of gender, 'environmental factor'(p<.001), 'total class distracting factor'(p<.01), 'learner factor'(p<.05), 'instructor factor'(p<.05) in the area of gender 'learner factor'(p<.001), 'instructor factor'(p<.001), 'environmental factor'(p<.001), 'total class distracting factor'(p<.01) in the area of class grade, 'environmental factor'(p<.05) in GPA. Fourthly, A statistical significance, a negative correlation (p<.01) were shown between class distracting factors and class satisfaction. Class distracting factor that especially affects the class satisfaction was instructor factor(p<.001) and the explanatory power of the model turned out 14.7%, which was statistically meaningful (p<.001). Conclusion : Results of this study reveal that instructor factor is the key to class satisfaction of the students. So it is crucial that the instructor faithfully prepare for the class to reinforce the students' learning. Additionally further studies should be followed with more subjects and newer perspectives to develop innovative teaching methodology.

다목적 다변량 자료분석을 위한 변수선택 (Variable Selection for Multi-Purpose Multivariate Data Analysis)

  • 허명회;임용빈;이용구
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.141-149
    • /
    • 2008
  • 다변량 자료분석에서 최근의 추세는 관측개체의 수 n이 커지는 외에 변수의 수 p가 큰사례들이 많아지고 있다는 것이다. n개 개체 각각에서 획득된 p개 변수들 $X_1$, $X_2$, $\ldots$, $X_p$ 가운데는 이름이나 개념적으로는 구분이 가능하지 만 실제로 거의 중복이 되는 변수들이 있을 수 있는데, 이들 변수들이 모두 분석에 포함되면 여러 문제가 유발될 수 있다. 예컨대 주성분 분석이나 인자분석에서는 중복 변수들이 주축(主軸, principal axis) 결정에, 관측개체 군집 화에서는 개체간 거리 산출에 왜곡된 영향을 줄 수 있다. 또한 목적변수가 지정된 지도학습(supervised learning)에서 설명변수들의 중복성은 추정모형의 안정성을 해치는 결과를 초래한다. 실제 자료 분석에서는 한 자료 세트가 여러 기법으로 탐색되고 다수의 모형이 추출되므로 변수세트를 최대한 절약적(parsimonious)으로 구성할 필요가 있다. 본 연구의 목적은 $X_1$, $X_2$, $\ldots$, $X_p$ 중에서 필요한 변수들은 선적하고 불필요한 변수들은 제거함으로써 주어진 변수세트를 보다 적은 크기의 변수세트로 대치하는 방법을 제시하는 데 있다. 제안 방법을 몇 개의 수치적 사례에 적용해 봄으로써 선적 변수와 제거변수간 관계의 시각화, 회귀모형에서의 유용성, 범주형 자료분석에서의 활용 등에 대해 논의 하고자 한다.

창업기업 QFD 교육 훈련 프로그램의 학습 전이의도에 관한 연구 (Impact Factors of KS-QFD Training Participants of 3 years over Startups on Transfer Intension)

  • 황보윤;양영석;김명숙
    • 벤처창업연구
    • /
    • 제12권6호
    • /
    • pp.1-12
    • /
    • 2017
  • 본 연구는 창업기업을 대상으로 QFD(Quality Function Deployment) 교육 훈련 프로그램의 훈련 성과에 관하여 연구하였다. 창업기업은 3년 이상의 기업을 대상으로 하여 QFD 교육 훈련 프로그램을 통해 창업기업들의 훈련 참가자들이 학습 전이 의도 즉 학습후 적용하고자하는 동기 부여 효과에 대해 연구하고자 하였다. 본 프로그램의 의도는 3년 이상 창업 기업들이 본 훈련 과정을 통해 현재의 매출액을 5배 이상의 성과를 달성할 수 있도록 훈련하고자 하였다. 이를 통해 기업들에게 실질적으로 사업성과에 도움이 되는 교육 훈련 프로그램을 기획 및 보급하는 것을 목적으로 하였다. 본 연구를 위해 독립변수로는 학습자 준비상태, 훈련내용 타당성인지로 하였고, 매개변수로 학습자의 자기효능감, 종속변수로는 학습 전이의도를 설정하였다. 실증분석 결과 학습자 준비상태는 학습 전이 의도에 직접적으로는 영향을 미치지 않는 것으로 통계적으로 유의하게 나타났으나, 자기효능감을 매개변수로 하여 완전한 매개 효과가 발생하는 것으로 나타났다. 훈련내용 타당성 인지는 학습 전이 의도에 직접효과와 함께 자기효능감을 매개변수로 부분 매개 효과가 발생하는 것으로 검증되었다. 본 연구의 시사점은 현실에 접목하기 쉽게 실천중심으로 설계된 훈련 프로그램은 학습자의 준비 상태에 관계없이 학습자에게 자기효능감을 높이고 이를 통해 학습 전이 의도를 높이는 것으로 나타났다. 아울러 본 연구의 실험 대상 프로그램이 KS-QFD 프로그램이 창업기업들에게 매우 실용적이고도 도움이 되는 프로그램임을 입증한다고 볼 수 있다.

  • PDF

Netflow를 활용한 대규모 서비스망 불법 접속 추적 모델 연구 (A Study on the Detection Model of Illegal Access to Large-scale Service Networks using Netflow)

  • 이택현;박원형;국광호
    • 융합보안논문지
    • /
    • 제21권2호
    • /
    • pp.11-18
    • /
    • 2021
  • 대다수의 기업은 유무형의 자산을 보호하기 위한 방안으로, IT서비스망에 다양한 보안 장비를 구축하여 정보보호 모니터링을 수행하고 있다. 그러나 서비스 망 고도화 및 확장 과정에서 보안 장비 투자와 보호해야 할 자산이 증가하면서 전체 서비스망에 대한 공격 노출 모니터링이 어려워지는 한계가 발생하고 있다. 이에 대응하기 위한 방안으로 외부자의 공격과 장비 불법통신을 탐지할 수 있는 다양한 연구가 진행되었으나, 대규모 서비스망에 대한 효과적인 서비스 포트 오픈 감시 및 불법 통신 모니터링 체계 구축에 대한 연구는 미진한 편이다. 본 연구에서는 IT서비스망 전체 데이터 흐름의 관문이 되는 네트워크 백본장비의 'Netflow 통계 정보'를 분석하여, 대규모 투자 없이 광범위한 서비스망의 정보 유출 및 불법 통신 시도를 감시할 수 있는 프레임워크를 제안한다. 주요 연구 성과로는 Netflow 데이터에서 운영 장비의 텔넷 서비스 오픈 여부를 6개의 ML 머신러닝 알고리즘으로 판별하여 분류 정확도 F1-Score 94%의 높은 성능을 검증하였으며, 피해 장비의 불법 통신 이력을 연관하여 추적할 수 있는 모형을 제안하였다.

특성화 고등학교 '건축모형제작' 단원에서 프로젝트법을 적용한 수업이 직업기초능력 향상에 미치는 효과 (The Effect of Project Method on the Key Competencies on the unit of "Making Model by Architecture" in the Vocational High Schools)

  • 황동운;최지연
    • 대한공업교육학회지
    • /
    • 제37권1호
    • /
    • pp.125-143
    • /
    • 2012
  • 이 연구는 특성화고등학교 '건축모형제작' 단원에서 프로젝트법을 적용한 수업이 직업기초능력 향상에 미치는 효과를 규명하는 것을 목적으로 하였다. 연구 목적을 달성하기 위하여 경기도 고양시 G특성화고등학교 3학년 2개반을 실험집단, 통제집단으로 선정하였다. 선정된 실험집단과 통제집단의 학생들을 대상으로 직업기초능력에 대한 사전검사를 실시하여 통계적으로 유의미한 차이가 없음을 확인하고 실험집단에는 프로젝트법을 적용한 수업을 실시하였고, 통제집단에는 전통적 수업을 실시한 후 사후검사를 통해 그 효과를 검증하였다. 결과를 검증하기 위하여 SPSSWIN 12.0 통계프로그램을 이용하여 t-검증을 실시하였고, 유의수준은 ${\alpha}$=.05로 하였다. 이 연구를 실시한 결과 얻어진 결론은 다음과 같다. 직업기초능력의 하위영역 중 이 연구에 적합하다고 판단되어 선정한 6개 영역, 즉 '문제해결능력', '의사소통능력', '자원활용능력', '수리능력', '대인관리능력', '자기관리능력' 모두 실험집단과 통제집단의 사후검사를 통해 프로젝트법을 실시한 실험집단과 통제집단 간의 유의미한 차이가 있는 것으로 나타났다. 종합하면 '건축모형제작' 단원에서 프로젝트법에 의한 수업은 직업기초능력을 향상시키는데 효과적이며 특히 직업기초능력의 다양한 하위영역 중 프로젝트법과 많은 관련이 있는 6개 영역을 향상시키는데 효과적인 학습방법이다.

진동 데이터의 시간영역 특징 추출에 기반한 고장 분류 모델 (Fault Classification Model Based on Time Domain Feature Extraction of Vibration Data)

  • 김승일;노유정;강영진;박선화;안병하
    • 한국전산구조공학회논문집
    • /
    • 제34권1호
    • /
    • pp.25-33
    • /
    • 2021
  • 머신러닝 기법의 발달과 함께 기계에서 발생하는 다양한 종류(진동, 온도, 유량 등)의 데이터를 활용하여 기계의 상태를 진단하고 이상 탐지 및 비정상 분류 연구도 활발히 진행되고 있다. 특히 진동 데이터를 활용한 회전 기계의 상태 진단은 전통적인 기계 상태 모니터링 분야로 오랜 기간 동안 연구가 진행되었고, 연구 방법 또한 매우 다양하다. 본 연구에서는 가정용 에어컨에 사용되는 로터리 압축기에 가속도계를 직접 설치하여 진동 데이터를 수집하는 실험을 진행하였다. 데이터 부족 문제를 해결하기 위해 데이터 분할을 수행하였으며, 시간 영역에서의 진동 데이터로부터 통계적, 물리적 특징들을 추출한 후, Chi-square 검증을 통해 고장 분류 모델의 주요 특징을 추출하였다. SVM(Support Vector Machine) 모델은 압축기의 정상 혹은 이상 유무를 분류하기 위해 개발되었으며, 파라미터 최적화를 통해 분류 정확도를 개선하였다.

CAE 알고리즘을 이용한 레이더 강우 보정 평가 (Application of convolutional autoencoder for spatiotemporal bias-correction of radar precipitation)

  • 정성호;오성렬;이대업;레수안히엔;이기하
    • 한국수자원학회논문집
    • /
    • 제54권7호
    • /
    • pp.453-462
    • /
    • 2021
  • 최근 몇 년 동안 국지성 집중호우의 빈도가 증가함에 따라 고해상도 레이더 자료의 중요성 및 활용성이 증가하고 있다. 하지만 여전히 레이더 자료의 경우 시·공간적 편의가 존재하고 이를 보정하는 것이 매우 중요하며 많은 연구에서 레이더 강우의 편의 보정을 위해 다양한 통계적 기법이 시도되었다. 본 연구에서는 시·공간적으로 강우를 추정할 수 있는 이중편파레이더의 편의를 지점 강우와 비교하여 보정하는 것을 목표로 한다. 환경부의 수자원관리 및 홍수 예측에 사용되는 S-밴드 이중편파레이더의 편의 보정을 위하여 합성곱신경망(Convolutional Neural Network, CNN)기반의 Convolutional Autoencoder (CAE) 알고리즘을 구축하여 편의 보정을 수행하였다. CAE 모델의 입력자료는 환경부의 10분 단위 레이더 합성 강우자료와 같은 공간해상도로 보간된 지점 관측 강우자료를 사용하였으며, 자료의 기간은 미호천 유역에 홍수 경보가 발령된 2017년 7월 16일 00시부터 13시까지의 10분 단위 자료를 사용하였다. 그 결과로 지점 강우 대비 원시 레이더 강우의 편의가 줄어듦을 확인할 수 있으며 시·공간적으로 개선된 결과를 보여주고 있다. 따라서 각 인접한 격자 간의 공간 관계를 학습하는 CAE 모델은 레이더 및 위성에서 추정되는 격자형 기후 자료의 실시간 편의 보정에 사용할 수 있을 것으로 분석되었다.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

시멘트풀의 공극분포특성에 기반한 인장강도 예측 CNN 모델 (CNN Model for Prediction of Tensile Strength based on Pore Distribution Characteristics in Cement Paste)

  • 홍성욱;한동석
    • 한국전산구조공학회논문집
    • /
    • 제36권5호
    • /
    • pp.339-346
    • /
    • 2023
  • 미세구조 특성의 불확실성은 재료 특성에 많은 영향을 준다. 시멘트 기반 재료의 공극 분포 특성은 재료의 역학적 특성에 큰 영향을 미치며, 재료에 랜덤하게 분포되어 있는 많은 공극은 재료의 물성 예측을 어렵게 한다. 공극의 특성 분석과 재료 응답 간의 상관관계 규명에 대한 기존 연구는 통계적 관계 분석에 국한되어 있으며, 그 상관관계가 아직 명확히 규명되어 있지 않다. 본 연구에서는 합성곱 신경망(CNN, convolutional neural network)을 활용한 이미지 기반 데이터 접근법을 통해 시멘트 기반 재료의 역학적 응답을 예측하고, 공극분포와 재료 응답의 상관관계를 분석하였다. 머신러닝을 위한 데이터는 고해상도 마이크로-CT 이미지와 시멘트 기반 재료의 물성(인장강도)로 구성하였다. 재료의 메시 구조 특성을 분석하였으며, 재료의 응답은 상장균열모델(phase-field fracture model)에 기반을 둔 2D 직접 인장(direct tension) 유한요소해석 시뮬레이션을 활용하여 평가하였다. 입력 이미지 영역의 기여도를 분석하여 시편에서 재료 응답 예측에 가장 큰 영향을 미치는 영역을 CNN을 통하여 식별하였다. CNN 과정 중 활성 영역과 공극분포를 비교 분석하여 공극분포특성과 재료 응답의 상관관계를 분석하여 제시하였다.