• 제목/요약/키워드: 통계학습시스템

검색결과 249건 처리시간 0.029초

랜섬웨어 공격탐지를 위한 신뢰성 있는 동적 허니팟 파일 생성 시스템 구현 (Implementation of reliable dynamic honeypot file creation system for ransomware attack detection)

  • 국경완;류연승;신삼범
    • 융합보안논문지
    • /
    • 제23권2호
    • /
    • pp.27-36
    • /
    • 2023
  • 최근 몇 년 동안 랜섬웨어 공격이 사회 공학, 스피어피싱, 심지어 기계 학습과 같은 전술을 사용하여 특정 개인이나 조직을 대상으로 하는 공격의 정교함과 더불어 더욱 조직화 되고 전문화되고 있으며 일부는 비즈니스 모델로 운영되고 있다. 이를 효과적으로 대응하기 위해 심각한 피해를 입히기 전에 공격을 감지하고 예방할 수 있는 다양한 연구와 솔루션들이 개발되어 운영되고 있다. 특히, 허니팟은 조기 경고 및 고급 보안 감시 도구 역할 뿐만 아니라, IT 시스템 및 네트워크에 대한 공격 위험을 최소화하는 데 사용할 수 있으나, 랜섬웨어가 미끼파일에 우선적으로 접근하지 않은 경우나, 완전히 우회한 경우에는 효과적인 랜섬웨어 대응이 제한되는 단점이 있다. 본 논문에서는 이러한 허니팟을 사용자 환경에 최적화하여 신뢰성 있는 실시간 동적 허니팟 파일을 생성, 공격자가 허니팟을 우회할 가능성을 최소화함으로써 공격자가 허니팟 파일이라는 것을 인지하지 못하도록 하여 탐지율을 높일 수 있도록 하였다. 이를 위해 동적 허니팟 생성을 위한 기본 데이터수집 모델 등 4개의 모델을 설계하고 (기본 데이터 수집 모델 / 사용자 정의 모델 / 표본 통계모델 / 경험치 축적 모델) 구현하여 유효성을 검증하였다.

종합 평점과 다기준 평점을 선택적으로 활용하는 협업필터링 기반 하이브리드 추천 시스템 (A Hybrid Recommender System based on Collaborative Filtering with Selective Use of Overall and Multicriteria Ratings)

  • 구민정;안현철
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.85-109
    • /
    • 2018
  • 추천시스템은 사용자의 과거 구매행동을 통해 향후 구매할 것이라고 예상되는 제품을 자동으로 검색하여 추천해준다. 특히 전자상거래 기업의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로 가치가 있다. 하지만, 전통적인 추천시스템, 특히 학계 및 산업계에서 가장 널리 사용되고 있는 전통적인 협업필터링 기법은 단일차원의 '종합 평점'만을 고려하여 추천결과를 생성하도록 설계되어 있어, 사용자들의 정확한 니즈를 이해하고 대응하는데 근본적인 한계가 있다. 최근에는 전자 상거래 기업들도 고객들로부터 보다 다각화된, 다기준 방식으로 피드백을 받고 있다. 특히 다기준 평점은 정량적으로 입력되는 정보이므로 상대적으로 분석 및 처리가 용이하다는 장점이 있다. 그러나 다기준 평점 역시 사전에 정해진 기준에 대해서만 사용자의 피드백이 이루어지기 때문에, 보다 상세하게 사용자의 의견을 이해하여 추천에 반영하는 데에는 한계가 있다. 이에 본 연구는 다기준 평점 정보와 선택적 협업필터링의 서로 다른 접근방법을 통해 도출된 추천결과를 종합하여, 최종적으로 추천 대상리스트를 산출할 수 있는 하이브리드 기술을 제안한다. 본 연구에서 제안한 연구모형의 유용성을 검증하기 위해, 식음료점(식당, 카페 등)에 대한 실제 이용자를 대상으로 온라인 설문을 통해 종합 평점과 다기준 평점을 수집하였으며, 데이터를 학습용과 검증용으로 구분하여 학습시키고 성과를 평가하였다. 이 기법은 결합 함수 기반 접근법과 사용자마다 구매의사결정의 체계가 다르다는 전제하에, 사용자들을 유형화하고, 유형에 따라 정보원을 선택적으로 활용하는 협업필터링 알고리즘을 활용했다. 실험결과, 제안 알고리즘을 통한 추천 방법이 단일 차원을 고려하는 전통적인 협업필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인했다. 아울러, 본 연구가 제안하는 다기준 평점과 선택적 협업필터링 알고리즘을 종합하여 추천하는 방법이, 단순히 다기준 평점을 고려했을 때 보다 통계적으로 유의한 수준의 정확도의 개선이 이루어짐을 확인할 수 있었다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

ICT 의료시설 기반에서 종사자의 소방안전 지식과 대처방법 인식수준 (ICT Medical Service Provider's Knowledge and level of recognizing how to cope with fire fighting safety)

  • 김자숙;김자옥;안영준
    • 한국전자통신학회논문지
    • /
    • 제9권1호
    • /
    • pp.51-60
    • /
    • 2014
  • 본 연구는 광주 전남지역 ICT 의료시설 기반에서 종사자를 대상으로 소방안전 지식과 대처방법 인식수준의 정도를 파악하고 차이를 조사하여 ICT 의료시설 기반에서 소방안전 대처방법 교육 매뉴얼의 기초자료를 제공하기 위하여 수행 되었다. 자료는 SPSS Win 14.0을 사용하여 분석하였다. 연구결과 ICT 의료시설 기반에서 종사자의 소방안전 지식은 10점 만점에 7.06점, 소방 대처방법 인식수준은 11점 만점에 6.61점이었다. ICT 의료시설 기반에서 종사자의 일반적 특성과 소방안전 대처방법 인식수준을 분석한 결과 성별(t=4.12, p<.001, 연령(${\chi}^2$=17.24, p<.001), 근무경력(${\chi}^2$=22.76, p<.001), 소방안전교육 경험 유무(t=6.10, p<.001), 소방안전에 대한 본인의 주관적 지식정도(${\chi}^2$=53.83, p<.001)에서 통계적으로 유의한 차이가 있었다. 따라서 ICT 의료시설 기반에서 종사자의 소방안전 대처를 증진하기 위해서는 강의 중심의 지식 전달 교육을 지양하고, 자기 주도적 학습, 개인별 맞춤학습, 협동 학습을 강조하는 다양한 콘텐츠 개발을 통한 실무 체험 중심의 소방안전 교육, 시뮬레이션을 이용한 환자분류체계별 배치와 광역 화재감지를 위한 적외선 레이저 연기검출, 다중포인트 통신 프로토콜에 의한 디지털 화재 방지 모니터링 시스템, 영상기반 화재검출, 화재감지를 위한 로봇 설계 및 테이터 처리등의 다학문적인 접근을 통한 ICT 의료시설 기반에서 소방안전 대처에 관한 교육 매뉴얼의 개발이 필요하다고 사료된다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

혁신클러스터 내에서의 혁신주체들 간 상호작용의 변화: 대덕연구개발특구를 중심으로 (Interaction between Innovation Actors in Innovation Cluster: A Case of Daedeok Innopolis)

  • 이선제;정선양
    • 기술혁신학회지
    • /
    • 제17권4호
    • /
    • pp.820-844
    • /
    • 2014
  • 혁신체제론, 혁신클러스터론, 트리플 힐릭스 모형 등 이론의 차별성에도 불구하고 혁신주체들의 상호작용과 지식관련 학습이 기술혁신의 중요한 요소로 강조하는 점에서는 차이가 없다. 본 연구는 연구개발특구 지정 등 혁신클러스터 정책으로의 전환 이후에 대덕연구개발특구 내 혁신주체 간 상호작용이 어떻게 변화하고 있는지 분석하였다. 입주기관 수의 변화, 연구개발특구 통계 및 특허 공동출원 데이터 등을 활용하여 분석한 결과, 대덕연구개발특구는 혁신시스템 상에서 혁신클러스터, 지역혁신체제와 국가혁신체제가 직접적이고 중첩적으로 작동하는 다층적 거버넌스 구조의 특징을 가지고 있으며, 연구개발견인형 혁신클러스터로써 발전단계상 성장기에 완전히 진입하고 있음을 확인하였다. 또한, 트리플힐릭스 모형 측면에서는 각 주체간 상호작용의 영역(중첩영역; tri-lateral network)이 지속적으로 증가하고 있어 방임주의 모형(laissez-faire model)에서 새로운 네트워크와 조직을 창출하는 규범적 모형(normative model)으로 진화 중에 있는 것으로 나타났다. 본 연구에서는 대덕연구개발특구가 세계적 혁신클러스터로 성장하기 위해 필요한 혁신주체 간의 상호작용 강화 방안으로 지리적 접근성을 탈피한 네트워크 활성화, 민간 중간조직의 육성, 기업가적 대학의 육성과 특구내 대학의 역할 강화, 그리고 지역혁신의 역설을 극복할 수 있는 정책적 차원의 관심과 지원 등을 제시하였다.

디지털 영상 세포 측정법에 기반한 세포핵의 3차원 정량적 분석 (3D Quantitative Analysis of Cell Nuclei Based on Digital Image Cytometry)

  • 김태윤;최현주;최흥국
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.846-855
    • /
    • 2007
  • 암세포 조직 영상 분석에서 유효한 특성값 추출은 암세포 등급별 분류를 위한 중요한 과정이다. 본 논문에서는 디지털 영상 세포 측정법 기반 세포핵의 3차원 정량적 분석 방법을 제안한다. 먼저 공초점 현미경을 사용하여 신세포암의 각 등급별 3차원 볼륨 데이터를 획득하고, 지도학습 방법을 기반으로 슬라이스 영상의 화소의 컬러 특성값을 이용하여 세포핵을 분할했다. 세포핵의 3차원 가시화를 위해, 윤곽선 기반 표면 렌더링과 3차원 텍스쳐 사상 방법을 이용한 볼륨 렌더링을 수행했다. 이후 세포핵의 3차원 형태학적 특성값을 정의하고 추출했다. 어떠한 3차원 특성값이 진단 정보로 유용할 것인가를 평가하기 위해, 분산 분석을 이용하여 각 등급 간 3차원 특성값의 통계적 유효성을 분석했다. 마지막으로 추출한 특성값을 2차원 특성값과 비교하고 상관관계를 분석했다. 그 결과, 세포핵 등급과 3차원 형태학적 특성값 간의 유효한 통계학적인 차이를 확인했다. 제안한 방법은 정확한 진단과 예후 추정을 위한 새로운 등급 결정 시스템 개발을 위한 기반 연구로 활용될 수 있는 가능성을 보여주었다.

  • PDF

인공지능(Artificial Intelligence)과 대학수학교육 (Artificial Intelligence and College Mathematics Education)

  • 이상구;이재화;함윤미
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제34권1호
    • /
    • pp.1-15
    • /
    • 2020
  • 첨단 정보통신기술(ICT)인 인공지능(AI), 사물인터넷(IoT), 빅데이터(Big Data) 등이 사회와 경제 전반에 융합돼 혁신적인 변화가 일어나는 요즘, 헬스케어, 지능형 로봇, 가정용 인공지능 시스템(스마트홈), 공유자동차 등은 이미 우리 생활에 깊이 영향을 미치고 있다. 이미 오래전부터 공장에서는 로봇이 사람 대신 일을 하고 있으며(FA, OA), 인공지능 의사도 병원에서 활동을 하고 있고(Dr. Watson), 인공지능 스피커(기가지니)와 인공지능 비서인 구글 어시스턴트가 자연어생성을 하며 우리를 돕고 있다. 이제 인공지능을 이해하는 것은 필수가 되었으며, 인공지능을 이해하기 위해서 수학의 지식은 선택이 아니라 필수가 되었다. 따라서 이런 일들을 가능하게 해주는 수학지식을 설명하는 역할이 수학자들에게 주어졌다. 이에 본 연구진은 인공지능과 머신러닝(Machine Learning, 기계학습)을 이해하기 위해 필요한 수학 개념을 우리의 실정에 맞게 한 학기(또는 두 학기) 분량으로 정리하여, 무료 전자교과서 "인공지능을 위한 기초수학"을 집필하고, 인공지능 분야에 관심이 있는 다양한 전공의 대학생과 대학원생을 대상으로 하는 강좌를 개설하였다. 본 논문에서는 그 개발과정과 운영사례를 공유한다. http://matrix.skku.ac.kr/math4ai/

학술 소셜 네트워킹 서비스에서의 학문 분야별 연구자의 셀프 아카이빙 동기 분석 (Self-archiving Motivations across Academic Disciplines on an Academic Social Networking Service)

  • 이종욱;오상희
    • 한국도서관정보학회지
    • /
    • 제51권4호
    • /
    • pp.313-332
    • /
    • 2020
  • 본 연구에서는 학술 소셜 네트워킹 서비스에서의 연구자 셀프 아카이빙 동기를 학문 분야별로 비교하였다. 대표적인 학술 소셜 네트워킹 서비스인 ResearchGate 이용자를 대상으로 선행연구에서는 온라인 설문조사 결과를 실시하여 연구자의 18가지 셀프 아카이빙 동기 요인(흥미, 개인적/직업적 이익, 평판, 학습, 자기효능감, 이타심, 호혜성, 신용, 공동체 이익, 사회 참여, 홍보, 접근성, 문화, 외부적 요인, 신뢰, 시스템 안정성, 저작권 문제, 부가적인 시간 및 노력)을 도출하였다. 후속 연구인 본 연구에서는 Biglan의 학문 분류 기준을 적용하여 연구자의 학문 분야를 구분하고, 이들 분야별 셀프 아카이빙 동기를 비교하였다. 먼저 연구자들의 학문 분야를 경성-순수, 경성-응용, 연성-순수, 연성-응용으로 구분하여 동기를 분석하였으며, 그 다음 단계에서는 경성-연성과 순수-응용으로 구분하여 비교하였다. 나아가 연구자의 인구통계학적 특성과 ResearchGate 이용 현황에 따른 동기의 차이도 살펴보았다. 연구 결과, 학문 분야에 따라 흥미, 접근성, 외부적 요인, 부가적인 시간 및 노력에 대한 동기에 차이가 있는 것으로 밝혀졌다. 예를 들어 경성-순수 분야의 이용자들은 다른 분야의 이용자들에 비해 흥미에 대한 높은 동기를 가지고 있었으며, 연성-순수 분야의 이용자들은 다른 분야 이용자들과 비교하여 개인적/직업적 이익에 대해 높은 동기를 가지고 있었다. 이러한 다양한 학문분야의 연구자들의 동기에 대해 살펴본 연구 결과는 학술 소셜 네트워킹 서비스에서의 연구 데이터와 결과물 공유 활성화를 위한 전략 개발에 도움이 될 것으로 기대한다.