• 제목/요약/키워드: accuracy of classification

검색결과 3,113건 처리시간 0.032초

사용자 행동을 이용한 쓰레기편지 여과의 성능 개선 (Performance Improvement of Spam Filtering Using User Actions)

  • 김재훈;김강민
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.163-170
    • /
    • 2006
  • 인터넷의 급속한 성장으로 전자편지는 정보 전달의 중요한 수단으로 사용되고 있다. 그러나 수신자가 원하지 않는 전자편지(쓰레기 편지)들이 무분별하게 배달될 수 있으며, 이로 인해 사회적으로는 물론이고 경제적으로도 큰 문제가 되고 있다. 이와 같이 쓰레기 편지를 차단하거나 여과하기 위해서 많은 연구자와 회사에서 꾸준히 연구를 진행하고 있다. 일반적으로 쓰레기 편지를 결정하는 기준은 수신자에 따라서 조금씩 차이가 있다. 또한 쓰레기 편지와 정보성 편지에 따라서 수신자가 취하는 행동이 다르다. 이 논문은 이런 사용자 행동을 쓰레기 편지 여과 시스템에 반영하여 그 시스템의 성능을 개선한다. 제안된 시스템은 크게 두 단계로 구성된다. 첫 번째 단계는 사용자 행동을 추론하는 단계이고 두 번째 단계는 추론된 사용자 행동을 이용해서 쓰레기 편지를 여과하는 단계이다. 두 단계 모두에서 점진적인 기계학습 방법(TiMBL - IB2)을 이용한다. 제안된 시스템을 평가하기 위해 12명의 사용자로부터 12,000통으로 이루어진 전자편지 말뭉치를 구축하였다. 실험 결과는 사용자에 따라 $81%{\sim}93%$의 분류 정확도를 보였다. 사용자의 행동 정보를 포함하는 편지 분류 결과는 그렇지 않은 결과에 비해 평균 14%의 분류 정확도가 향상되었다.

관성 측정 센서를 활용한 이진 신경망 기반 걸음걸이 패턴 분석 시스템 설계 및 구현 (Design and Implementation of BNN-based Gait Pattern Analysis System Using IMU Sensor)

  • 나진호;지기산;정윤호
    • 한국항행학회논문지
    • /
    • 제26권5호
    • /
    • pp.365-372
    • /
    • 2022
  • 관성 측정 센서는 사람 행동 인식 시스템에 주로 사용되는 센서들에 비해 크기가 작고 가벼우며 낮은 비용으로 시스템의 경량화를 달성할 수 있다. 따라서, 본 논문에서는 관성 측정 센서를 이용한 이진 신경망 기반 걸음걸이 패턴 분석 시스템을 제안하고, 연산 가속을 위한 FPGA 기반 가속기 설계 및 구현 결과를 제시한다. 관성 측정 센서를 통해 걸음걸이에 대한 6가지 신호를 측정하고, 단시간 푸리에 변환을 이용하여 스펙트로그램을 추출한다. 높은 정확도를 가지는 경량화 시스템을 갖추기 위해 걸음걸이 패턴 분류에 BNN (binarized neural network) 기반 구조를 사용하였고, 검증 결과 97.5%의 높은 정확도와 메모리 사용량이 합성곱 신경망에 비해 96.7% 감소한 것을 확인하였다. 이진 신경망의 연산 가속을 위해 FPGA를 이용한 하드웨어 가속기 구조로 설계하였다. 제안된 걸음걸이 패턴 분석 시스템은 24,158개의 logic, 14,669개의 register, 13.687 KB의 block memory를 사용하여 구현되어 62.35 MHz의 최대 동작 주파수에서 1.5ms 내에 연산이 완료되어 실시간 동작이 가능함을 확인하였다.

온라인 게임 로그 데이터 클러스터링 기반 일일 단위 게임봇 판별 (Detecting Daily-Driven Game-Bot Based on Online Game Play Log Clustering)

  • 김주환;최진영
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1097-1104
    • /
    • 2021
  • 온라인 게임 봇은 이미 수 많은 방식을 통해 사람들에게 알려져 왔으며, 사용자의 게임 흥미 저하, 게임 내 경제 순환 파괴, 게임 컨텐츠 및 수명 단축 등 많은 문제점을 야기한다. 정상적이지 않은 게임 봇 운영을 방치하는 것은 장기적으로 게임 제작사와 게임 플레이어에게 모두 악영향을 미치게 되므로 이에 대한 탐지 및 제재는 필수가 되었다. 하지만 제재 단계에서 생기는 오인 제재의 딜레마를 피하기 쉽지 않다. 게임사 측에서 유저를 제재하기 위해서는 객관적인 분석 지표인 로그를 가지고 제재 여부를 판단해야 하며, 로그에서 추출한 정보를 근거로 확보해야 한다. 본 연구에서는 탐지 대상 기간의 로그에 대하여 이를 일일 단위로 나누어서 게임봇 유저 판별을 수행할 것이다. 일일 단위 탐지를 위해 탐지 기간을 하루 단위로 나누어 해당 일자에 대한 게임봇 여부를 우선 판별하고, 이후 최종 결과를 판단하였다. 제안한 방법론을 통해 일반 유저 스타일과 게임봇 유저 스타일이 섞여 있는 경우를 쉽게 탐지해 낼 수 있을 것이다. 본 논문에서 제안한 방법론으로 테스트한 결과, 분류 정확도를 확인할 수 있는 지표 중 하나인 F1-score가 0.898에서 0.945로 향상되었다.

MLOps를 위한 효율적인 AI 모델 드리프트 탐지방안 연구 (A Study on Efficient AI Model Drift Detection Methods for MLOps)

  • 이예은;이태진
    • 인터넷정보학회논문지
    • /
    • 제24권5호
    • /
    • pp.17-27
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술이 발전하면서 실용성이 증가함에 따라 실생활 속 다양한 응용 분야에서 널리 활용되고 있다. 이때 AI Model은 기본적으로 학습 데이터의 다양한 통계적 속성을 기반으로 학습된 후 시스템에 배포되지만, 급변하는 데이터의 상황 속 예상치 못한 데이터의 변화는 모델의 성능저하를 유발한다. 특히 보안 분야에서 끊임없이 생성되는 새로운 공격과 알려지지 않은 공격에 대응하기 위해서는 배포된 모델의 Drift Signal을 찾는 것이 중요해짐에 따라 모델 전체의 Lifecycle 관리 필요성이 점차 대두되고 있다. 일반적으로 모델의 정확도 및 오류율(Loss)의 성능변화를 통해 탐지할 수 있지만, 모델 예측 결과에 대한 실제 라벨이 필요한 점에서 사용 환경의 제약이 존재하며, 실제 드리프트가 발생한 지점의 탐지가 불확실한 단점이 있다. 그 이유는 모델의 오류율의 경우 다양한 외부 환경적 요인, 모델의 선택과 그에 따른 파라미터 설정, 그리고 새로운 입력데이터에 따라 크게 영향을 받기에 해당 값만을 기반으로 데이터의 실질적인 드리프트 발생 시점을 정밀하게 판단하는 것은 한계가 존재하게 된다. 따라서 본 논문에서는 XAI(eXplainable Artificial Intelligence) 기반 Anomaly 분석기법을 통해 실질적인 드리프트가 발생한 시점을 탐지하는 방안을 제안한다. DGA(Domain Generation Algorithm)를 탐지하는 분류모델을 대상으로 시험한 결과, 배포된 이후 데이터의 SHAP(Shapley Additive exPlanations) Value를 통해 Anomaly score를 추출하였고, 그 결과 효율적인 드리프트 시점탐지가 가능함을 확인하였다.

중고령 노인의 개인적 가치에 따른 라이프스타일 분류: 머신러닝을 활용한 상대적 중요도 분석 (Identifying Personal Values Influencing the Lifestyle of Older Adults: Insights From Relative Importance Analysis Using Machine Learning)

  • 임승주;박지혁
    • 재활치료과학
    • /
    • 제13권2호
    • /
    • pp.69-84
    • /
    • 2024
  • 목적 : 노인의 건강한 삶의 방식으로서 라이프스타일에 대한 연구가 증가하고 있다. 라이프스타일이 개개인의 가치와 삶의 태도를 반영하는 개념임에도 불구하고, 아직까지 개인의 어떠한 가치가 라이프스타일을 건강하게 유도하는지 파악한 연구는 부족한 실정이다. 이에 본 연구는 노인의 라이프스타일 유형을 두 가지로 분류하고, 머신러닝을 활용하여 어떠한 개인적 가치가 건강한 라이프스타일에 우선적으로 작용하는지 파악하고자 한다. 연구방법 : 본 연구는 지역사회에 거주하는 55세 이상 중고령 노인 300명을 대상으로 횡단 연구를 수행하였다. 라이프스타일은 Yonsei Lifestyle Profile-Active, Balanced, Connected, Diverse (YLP-ABCD) 응답을 사용하여 잠재프로파일 분석을 통해 유형화하였다. 라이프스타일 유형을 예측하는 개인적 가치는 YLP-V (Values) 응답을 수집하여, 예측성능이 가장 높은 머신러닝 알고리즘을 선정한 후 상대적 중요도를 파악하였다. 결과 : 잠재프로파일 분석 결과, 라이프스타일은 건강한 라이프스타일 실천형(48.87%), 비실천형(51.13%)으로 분류되었다. 실천형에 속한 중고령 노인은 비실천형에 비해 사회관계가 활발한 특성을 나타내었다. 본 연구에 포함된 머신러닝 알고리즘 중 가장 우수한 성능을 보인 모델은 서포트 벡터 머신으로, 정확도 96%, Receiver Operating Characteristic (ROC) 영역 95%로 나타났다. 본 알고리즘을 바탕으로 개인적 가치의 상대적 중요도를 분석한 결과, 건강한 식단, 건강 매체, 여가활동, 건강 제품 및 머신러닝에 주의를 기울일수록, 해당 가치에 따라 중고령 노인은 건강한 라이프스타일을 실천하는 그룹에 속할 가능성이 큰 것으로 나타났다. 결론 : 본 연구는 중고령 노인의 사회적 관계망을 포함한 건강한 라이프스타일을 유도하기 위해, 건강 식단, 매체, 여가, 제품 및 습관에 대한 가치 향상을 중점적으로 다루는 종합적인 프로그램 및 서비스의 필요성을 시사한다.

데이터마이닝을 이용한 허위거래 예측 모형: 농산물 도매시장 사례 (Detection of Phantom Transaction using Data Mining: The Case of Agricultural Product Wholesale Market)

  • 이선아;장남식
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.161-177
    • /
    • 2015
  • 정보기술의 빠른 진화, 빅데이터의 등장, 분석기법의 고도화 등으로 인해 다량의 데이터로부터 의미있는 정보를 추출하는 데이터마이닝을 다양한 영역에 활용하고자 하는 시도들이 활발히 진행되고 있다. 그 중의 한 분야가 농산물 유통영역인데, 농산물에 대한 지속적인 수요 증가와 전자경매의 활성화 등으로 수도권 농산물 도매시장에서만도 연간 수천만건 이상의 거래가 이루어 진다. 그러나 급속한 거래량 증가와 더불어 과거로부터 관행적으로 이루어지고 있는 부정거래도 함께 증가하고 있는데 거래참가자들 사이의 결탁에 의해 발생하는 농산물 도매시장의 부정거래는 점차 지능화되는 추세이며, 이들을 감지하고 적발하기가 매우 어려운 실정이다. 이로 인해 농산물 유통환경의 공정거래 질서는 침해되고 시장에 대한 신뢰는 훼손되곤 한다. 따라서 거래투명성을 제고하고 유통비리를 구조적으로 개선하기 위한 과학적이고 자동화된 부정탐지시스템의 필요성이 어느 때보다도 절실히 요구되는 상황이다. 본 연구에서는 데이터마이닝의 의사결정나무를 이용하여 실제 발생하지 않은 거래를 실물 없이 거래한 것처럼 조작하여 대금을 정산하는 행위인 허위거래를 탐지하는 모형을 제시하였다. 이를 위해 실제 농산물 도매시장의 데이터를 수집하였고, 데이터의 정제 및 표준화 등의 선행작업을 수행하였다. 또한 변수 간의 상관관계 및 분포도 분석 등을 통해 데이터의 특성을 파악한 후 예측모형을 구축하여 허위거래와 정상거래를 분류하는 패턴을 도출하였으며, 최종적으로 시험용 데이터를 이용하여 모형을 평가하는 단계를 거쳐 결과의 적합성을 확인하였다. 향후 데이터마이닝을 이용한 부정탐지 모형을 허위거래뿐만 아니라 낙찰부정, 경매조작 등과 같이 다양화되는 부정거래에 적용하게 되면 보다 지대한 효과를 거둘 수 있으리라 사료된다.

강수계열의 상태분류에 의한 Markov 연쇄 모의발생 모형 (Markov Chain Model for Synthetic Generation by Classification of Daily Precipitation Amount into Multi-State)

  • 김주환;박찬영;강관원
    • 물과 미래
    • /
    • 제29권6호
    • /
    • pp.179-188
    • /
    • 1996
  • 수자원의 주공급원인 강수는 현상의 발생여부에 따라 건조일과 습윤일이 교대로 반복되는 과정으로 구성되어 있으며, 특히, 일강수계열의 습윤일에 발생되는 강수량의 크기는 매우 다양한 형태를 지니고 있어 이 과정을 모형화 하는데는 복잡한 확률과정이 수반된다. 본 연구에서는 일강수계열의 발생과정을 건조일, 습윤일로 구분하고 습윤일의 강수량을 상태별로 분류하여 각 상태별 천이확률을 계산함으로써 이를 장래에 발생 가능한 강수사상의 모의발생에 이용하였다. 본 모형은 수문사상의 발생과 비발생만을 구분하던 2-state Markov 연쇄모형에 강수의 발생시 강수량의 크기에 따라 상태를 여러 개로 구분하여 강수량을 추정할 수 있도록 수정한 것으로 간헐 수문사상인 일강수계열의 구성성분인 건조일과 습윤일, 건조, 습윤 지속기간 및 습윤일의 강수량을 Markov 연쇄에 의해 동시에 발생있도록 한 것이며 다른 모형에 비해 사용이 비교적 용이하다. 본 연구에서 제안한 multi-state Markov 연쇄모형의 적용 가능성을 검토하기 위하여 비교적 장기간의 자료를 보유하고 있는 관측소의 강수자료를 이용하였으며 그 결과를 강수량, 건조, 습윤일수 및 건조, 습윤계속기간의 분포를 실제자료와 비교하여 모형의 적합도를 평가하였다. 이를 토대로 홍수 및 한발기간의 추정과 모의발생에 의한 자료 확장으로 중장기 수자원 계획 및 운영에 효율적으로 이용될 수 있을 것으로 판단된다.

  • PDF

변화지역 탐지를 위한 시계열 KOMPSAT-2 다중분광 영상의 MAD 기반 상대복사 보정에 관한 연구 (A Study on Object Based Image Analysis Methods for Land Use and Land Cover Classification in Agricultural Areas)

  • 염종민;김현옥;윤보열
    • 한국지리정보학회지
    • /
    • 제15권3호
    • /
    • pp.66-80
    • /
    • 2012
  • 원격탐사 방법을 활용한 변화지역 탐지, 재난재해 지도 작성, 작황 모니터링 등 다중시기의 위성영상을 활용한 결과를 도출하기 위해서는 시계열 영상 정보를 서로 비교할 수 있는 공통의 스케일로 정규화 하는 것이 필요하다. 다중시기 영상에 대한 정규화 방법은 절대복사보정과 상대복사 보정으로 나눌 수 있으며, 본 연구에서는 상대복사 보정을 통한 시계열 위성영상처리 기법을 다루고자 한다. 2011년 3월 해일 피해가 발생했던 일본 센다이 지역을 연구대상지로 선정하였고, KOMPSAT-2 다중분광영상을 이용한 사고 전, 후의 피해지역 탐지에 있어 상대복사 보정의 실효성을 분석하였다. 다양한 상대복사 보정 기법 중에서 정준상관분석을 통해 PIFs(Pseudo Invariant Features) 지역을 자동으로 추출하는 MAD(Multivariate Alteration Detection) 기법을 적용하였다. 본 사례연구 분석결과 MAD 방식에 의한 자동 PIFs 지역의 추출은 비교적 높은 정확도 수준에서 이루어짐을 확인할 수 있었으며, 상대복사 보정된 시계열 위성영상을 사용함으로써 변화지역 자동탐지의 신뢰수준을 높일 수 있는 것으로 나타났다.

지역난방 열배관망 운영데이터 기반의 파손확률 모델 개발 (Development of a Failure Probability Model based on Operation Data of Thermal Piping Network in District Heating System)

  • 김형석;김계범;김래현
    • Korean Chemical Engineering Research
    • /
    • 제55권3호
    • /
    • pp.322-331
    • /
    • 2017
  • 지역난방은 국내에 1985년 처음 도입되었다. 지하 열배관망의 사용연한이 30년 이상 증가함에 따라, 지하에 매설된 열수송 배관 특성상 유지관리가 중요한 문제로 대두되고 있다. 노후화가 진행된 열배관망 유지보수를 위한 정기적인 점검, 운영관리 시 다양한 복합 기술이 필요하다. 특히 현장에서 경제적 관점에서 최적 유지보수 및 교체시점을 도출하기 위하여 의사결정에 활용될 수 있는 모형개발이 요구되고 있다. 본 연구에서는 한국지역난방공사 수도권 5개 지사열 배관망 운영 시 보수이력과 사고성 데이터를 바탕으로 분석하였다. 정성적 분석과 이항 로지스틱 회귀분석의 통계적 기법을 도입하여 파손확률 모델을 개발하였다. 보수이력 및 사고성 자료의 정성적 분석 결과, 파이프라인 손상의 가장 중요한 원인으로 건설 시공불량, 배관의 부식과 자재 불량이 전체의 약 82%를 차지했다. 통계 모델 분석에서는 분류의 분리 점을 0.25로 설정함으로써 열배관 파손 및 비 파손 분류의 정확도가 73.5%로 향상 되었다. 파손확률 모델 수립을 위해 Hosmer와 Lemeshow 검정과 독립변수의 유의성 검정, 모델의 Chi-Square 검정을 통해 모델의 적합성을 검증 하였다. 열배관망 파손의 위험순위 분석결과에 따르면 파손확률을 가장 높이는 경우는 겨울철 서울지역 자동차 도로에 있는 10년 이상 된 250mm이하 배관 Reducer에서 F 건설회사가 시공했던 열배관망으로 분석되었다. 본 연구결과는 열배관망 시스템의 유지관리 및 예방점검, 교체 사업 우선순위를 정할 때 활용 가능하다. 또한 이를 통하여 점검 유지보수 등 사전에 사고예방 계획을 수립하여 대처함으로써 열배관 파손의 빈도를 감소시키고 보다 적극적인 열배관망 관리에 이용할 수 있을 것으로 사료된다.

CNN 모델을 이용한 프로그램 코드 변경 예측 (Predicting Program Code Changes Using a CNN Model)

  • 김동관
    • 한국융합학회논문지
    • /
    • 제12권9호
    • /
    • pp.11-19
    • /
    • 2021
  • 소프트웨어 시스템은 생명주기동안 기능 추가, 버그 수정, 새로운 컴퓨팅 환경 수용 등의 다양한 이유로 프로그램 코드 변경이 요구된다. 이러한 코드 수정 과정에서 새로운 오류 발생을 가져올 수 있으므로 프로그램 코드 수정 과정은 새로운 시스템 개발 못지 않게 신중하게 처리되야 한다. 또한, 오픈 소스 프로그램에 대한 재사용이 일반화된 소프트웨어 개발환경에서 오픈 소스 프로그램의 코드 변경 가능성을 예측할 수 있다면, 보다 양질의 프로그램 개발 효과를 기대할 수 있을 것이다. 본 논문은 소스 코드 변경을 예측하는 Convolutional Neural Network (CNN) 기반의 딥러닝 모델을 제안한다. 소스 코드 변경을 예측하는 문제는 딥러닝의 이진 분류 문제이며 레이블된 데이터가 요구되는 지도학습을 사용한다. 코드 예측 모델의 학습 및 시험을 위해 깃허브에서 수집한 Java 소스 코드와 코드 변경 로그를 데이터로 사용한다. 수집된 Java 소스 코드에서 소프트웨어 메트릭스를 계산한 후 제안된 코드 변경 예측 모델의 입력 데이터로 사용한다. 제안된 모델의 성능 평가를 위해 정밀도, 재현율, F1점수, 정확도가 측정되었으며 각각의 평가 지표에 있이서 CNN 모델은 95%, 다층 퍼셉트 기반의 DNN 모델은 92%를 달성했다.