• 제목/요약/키워드: 레이블링 데이터

검색결과 96건 처리시간 0.028초

비지도학습 오토 엔코더를 활용한 네트워크 이상 검출 기술 (Network Anomaly Detection Technologies Using Unsupervised Learning AutoEncoders)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.617-629
    • /
    • 2020
  • 인터넷 컴퓨팅 환경의 변화, 새로운 서비스 출현, 그리고 지능화되어 가는 해커들의 다양한 공격으로 인한 규칙 기반 침입탐지시스템의 한계점을 극복하기 위해 기계학습 및 딥러닝 기술을 활용한 네트워크 이상 검출(NAD: Network Anomaly Detection)에 대한 관심이 집중되고 있다. NAD를 위한 대부분의 기존 기계학습 및 딥러닝 기술은 '정상'과 '공격'으로 레이블링된 훈련용 데이터 셋을 학습하는 지도학습 방법을 사용한다. 본 논문에서는 공격의 징후가 없는 일상의 네트워크에서 수집할 수 있는 레이블링이 필요 없는 데이터 셋을 이용하는 비지도학습 오토 엔코더(AE: AutoEncoder)를 활용한 NAD 적용 가능성을 제시한다. AE 성능을 검증하기 위해 NSL-KDD 훈련 및 시험 데이터 셋을 사용해 정확도, 정밀도, 재현율, f1-점수, 그리고 ROC AUC (Receiver Operating Characteristic Area Under Curve) 값을 보인다. 특히 이들 성능지표를 대상으로 AE의 층수, 규제 강도, 그리고 디노이징 효과 등을 분석하여 레퍼런스 모델을 제시하였다. AE의 훈련 데이터 셋에 대한 재생오류 82-th 백분위수를 기준 값으로 KDDTest+와 KDDTest-21 시험 데이터 셋에 대해 90.4%와 89% f1-점수를 각각 보였다.

동적 XML 조각 스트림에 대한 메모리 효율적 질의 처리 (Memory Efficient Query Processing over Dynamic XML Fragment Stream)

  • 이상욱;김진;강현철
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.1-14
    • /
    • 2008
  • 본 논문은 메모리 용량이 제약되어 있는 이동 단말기에서의 XML 데이터에 대한 질의 처리 기술에 관한 것이다. 대량의 XML 데이터에 대한 질의를 메모리 용량이 크지 않은 단말기에서 처리하는 경우 XML 데이터를 XML 조각(fragment)으로 분할하여 스트림으로 전송하고 처리하는 기술이 필요하다. 이는 전체 XML 문서를 재구성하지 않고 XML 데이터에 대한 질의 처리를 가능하게 한다. XFrag[4], XFPro[5], XFLab[6] 등 기존에 제시된 기법들은 질의 처리를 위해 조각에 대한 정보를 저장하고 사용한 후 더 이상 불필요해진 것들을 식별하여 삭제하지 못하기 때문에 조각 정보가 메모리에 계속 누적되어 대용량의 XML 데이터에 대해 질의 처리를 수행하기에는 문서 크기에 따른 확장성(scalability)이 떨어진다. 특히, XML 조각이 동적으로 생성되어 무한정 스트리밍되는 경우에 한정된 메모리로는 질의 처리를 보장할 수 없다. 본 논문에서는 동적 XML 조각 스트림에 대한 질의 처리에 있어 문서 크기에 따른 확장성 있는 질의 처리를 수행하기 위하여 누적된 조각 정보 삭제 기법들을 제시하고 이들을 바탕으로 기존 기법의 확장을 제시한다. 구현 및 성능 실험 결과 본 논문에서 확장된 기법이 기존의 기법보다 메모리 효율성이 현저히 높고 문서 크기에 따른 확장성이 월등히 우수한 것으로 나타났다.

열화상 카메라를 활용한 딥러닝 기반의 1·3종 차량 분류 (Class 1·3 Vehicle Classification Using Deep Learning and Thermal Image)

  • 정유석;정도영
    • 한국ITS학회 논문지
    • /
    • 제19권6호
    • /
    • pp.96-106
    • /
    • 2020
  • 본 연구에서는 루프 센서를 통한 교통량 수집방식의 오류를 해결하기 위해 1종(승용차)과 3종(일반 트럭)의 구분이 어려운 부분 및 영상 이미지의 단점을 보완하기 위해 도로변에 열화상 카메라를 설치하여 영상 이미지를 수집하였다. 수집된 영상 이미지를 레이블링 단계를 거쳐 1종(승용차)과 3종(일반 트럭)의 학습데이터를 구성하였다. 정지영상을 대상으로 labeling을 진행하였으며, 총 17,536대의 차량 이미지(640x480 pixel)에 대해 시행하였다. 열화상 영상 기반의 차종 분류를 달성하기 위해 CNN(Convolutional Neural Network)을 이용하였으며, 제한적인 데이터량과 품질에도 불구하고 97.7%의 분류정확도를 나타내었다. 이는 AI 영상인식 기반의 도로 교통량 데이터 수집 가능성을 보여주는 것이라 판단되며, 향후 더욱더 많은 학습데이터를 축적한다면 12종 차종 분류가 가능할 것이다. 또한, AI 기반 영상인식으로 도로 교통량의 12종 차종뿐만 아니라 다양한(친환경 차량, 도로 법규 위반차량, 이륜자동차 등) 차종 분류를 할 수 있을 것이며, 이는 국가정책, 연구, 산업 등의 통계 데이터로 활용도가 높을 것으로 판단된다.

머신 러닝을 활용한 회사 SNS 메시지에 내포된 심리적 거리 추출 연구 (A Study on the Extraction of Psychological Distance Embedded in Company's SNS Messages Using Machine Learning)

  • 이성원;김진혁
    • 경영정보학연구
    • /
    • 제21권1호
    • /
    • pp.23-38
    • /
    • 2019
  • 소셜 네트워크 서비스(이하 SNS)는 회사의 마케팅 채널로 적극 활용되고 있으며, 회사들의 고객층에 적합한 내용과 어조를 활용하여 주기적으로 SNS 메시지를 작성하는 등 활발한 마케팅을 펼치고 있다. 본 논문에서는 이제까지 간과되었던 SNS 메시지에 내포된 심리적 거리에 초점을 맞춰 전통적인 코더를 활용한 내용 분석(content analysis)과 자연어 처리 기법 및 머신 러닝 방법을 혼합하여 심리적 거리를 측정하는 분석 방법을 연구하였다. SNS 메시지의 심리적 거리 분석을 위해 코더들을 활용하여 내용분석을 수행하였으며, 이와 같은 방법으로 레이블링된 데이터를 자연어 처리 방법을 이용하여 워드 임베딩을 수행함으로써 머신 러닝 수행을 위한 입력 데이터를 마련하였다. 머신 러닝 분석법 중 Support Vector Machine(SVM)을 이용하여 SNS 메시지와 심리적 거리 간의 관계를 학습시켰으며, 마지막으로 테스트 데이터를 이용하여 심리적 거리를 예측함으로써 머신 러닝 분석의 성과를 검증하였다. 심리적 거리측정 방법론 수행 결과, 코더들의 내용분석 결과가 특정 값으로 편향되어 SVM 예측의 민감도와 정밀도가 낮은 결과가 도출되었다. 심리적 거리 응답 비율을 보정하고 코더들의 1차 내용분석 결과 중 답변이 일치한 데이터로 한정지어 머신 러닝을 실행한 결과 심리적 거리 예측의 정확도, 민감도, 특이도, 정밀도 모두 향상되어 심리적 거리가 70% 이상 예측되는 성과를 보였다. 본 연구는 SNS 메시지의 심리적 거리를 측정하는 방법을 제시함으로써 독자와의 심리적 거리를 제어 가능한 전략 요소로 활용 가능하게 할 것이라 기대된다.

소셜미디어 어낼리틱스 기반 서비스품질 평가: 항공산업을 중심으로 (Service Quality Evaluation based on Social Media Analytics: Focused on Airline Industry)

  • 한명기;최병구
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.157-181
    • /
    • 2022
  • 항공산업의 경쟁이 치열해짐에 따라 효과적인 항공사 서비스 품질 측정은 주요 과제 중 하나가 되었다. 특히 빅데이터 어낼리틱스가 새로운 연구 패러다임으로 각광받게 됨에 따라 소비자가 직접 작성한 온라인 리뷰 분석을 통한 항공사 서비스 품질 측정 연구들이 새롭게 시도되고 있다. 그러나 이러한 연구들은 리뷰 제목을 분석에 활용하지 않았다는 점, 학습 데이터 셋 구축을 위한 레이블링(labeling)에 있어 사람의 개입이 많이 요구되는 지도 학습(supervised learning)에 의존한다는 점, 서비스 품질 차원 분류에 있어 항공사 특성을 고려하지 못한다는 점 등이 문제로 지적되고 있다. 기존 연구의 한계를 극복하기 위해 본 연구에서는 제목과 본문을 포함한 온라인 리뷰 전체를 자가학습(self-training)과 감성 분석을 활용해 AIRQUAL 서비스 품질 차원으로 분류함으로써 객관적이고 정교한 서비스 품질측정을 시도하였으며 이를 기반으로 서비스 품질 차원이 서비스 만족도에 미치는 영향을 파악하였다. 분석 결과 온라인 리뷰로부터 AIRQUAL의 다섯 가지 서비스 품질 차원을 효과적으로 추출할 수 있었으며 각 서비스 품질 차원은 모두 서비스 만족도에 유의한 영향을 미치는 것으로 나타났다. 나아가 리뷰 제목이 서비스 만족도에 미치는 영향 또한 유의한 것으로 파악되었다. 본 연구는 항공산업의 특성을 반영한 서비스 품질 차원 측정 및 이의 효과에 대한 분석이라는 측면에서 학문 및 실무적 의의가 있다.

효과적인 다중 차량 추적을 위한 객체 특징 추출 및 매칭 (Object Feature Extraction and Matching for Effective Multiple Vehicles Tracking)

  • 조두형;이석룡
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권11호
    • /
    • pp.789-794
    • /
    • 2013
  • 차량 추적 시스템(vehicle tracking system)은 교통 흐름 파악, 차량 감시, 사고 감지 등을 통하여 교통 정체에 따른 차량의 이동 경로를 유도할 수 있고, 교통사고를 사전에 방지할 수 있게 하는 시스템이다. 효과적인 차량 추적을 위해서는 먼저 연속된 영상 내의 각 객체의 특징 값을 추출하여 영상 내에 존재하는 차량 객체를 인지할 수 있어야 한다. 다음으로, 검출된 다중 객체에 대하여 영상 간 객체 매칭을 통해 연속된 프레임에 걸쳐 출현하는 동일한 차량을 인식함으로써 각 차량의 움직임을 추적할 수 있다. 본 논문에서는 차 영상의 이진화 및 레이블링(labeling)을 통하여 객체를 검출하고, 검출한 객체의 최소 외접 직사각형(minimum bounding rectangle: MBR)의 중심 좌표와 이 MBR의 가로, 세로 방향에 대한 라인(line)별 1D FFT(fast Fourier transform) 변환 결과의 평균 계수 값을 계산하여 객체의 특징 값을 구한다. 다음으로, 연속된 프레임에 걸쳐 출현하는 객체들 중 유사도가 가장 높은 객체 쌍을 동일한 객체로 인식하여 객체를 추적하는 방법을 제안한다. 실험 결과, 제안한 방법은 객체의 기하학적 특성에 기초한 기존 방법들에 비하여 정확한 추적이 가능함을 보여주었다.

효율적인 순로코드 발생을 위한 고속 한글 주소검색 시스템 개발 (High-Speed Korean Address Searching System for Efficient Delivery Point Code Generation)

  • 김경환;이석구;신미영;남윤석
    • 정보처리학회논문지D
    • /
    • 제8D권3호
    • /
    • pp.273-284
    • /
    • 2001
  • 실제로 사용되는 주소의 분석을 통해 한글주소의 해석방법을 제안하고, 제안한 주소해석 방법을 이용한 주소 검색시스템의 구현에 대하여 서술한다. 주소 상위 및 하위영역의 일치검증을 각각 순차적으로 수행하는 2단계 과정을 통해 최종 배달점에 대한 순로코드를 발생한다. 우편 번호와 주소 상위영역 일치검증 단계에서는 우편버호를 이용하여 주소사전에서 검색된 주소단어와 인식된 문자 후보들과의 비교를 통해 우편 번호를 검증하게 되며, 주소 상위영역과 주소 하위영역이 분리된다. 주소 상위영역 일치검증 과정의 성능향상을 위해 혼동행렬을 제안하고, 주소 인식결과에 혼동행렬을 적용하여 검증 성공률의 향상을 통해 혼동행렬의 유용성을 확인하였다. 주소 하위영역 검증은 번지정보와 건물명 정보를 이용하여 순로코드를 발생하였다. 부분적으로 완성된 광주와 부산지역의 DPF(Delivery Point File)와 레이블링된 데이터를 이용해 분석 가능한 주소에 대해 높은 정확도를 가지고 순로코드를 발생함을 확인할 수 있었다.

  • PDF

포함관계 추론에서 접근 권한에 대한 효율적 RDF 질의 유효성 검증 (An Efficient RDF Query Validation for Access Authorization in Subsumption Inference)

  • 김재훈;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.422-433
    • /
    • 2009
  • 시맨틱 웹을 위한 하나의 보안연구로, 본 논문에서는, 온톨로지 계층 구조와 RDF 트리플 패턴에 기반한 RDF 접근 권한 명세 모델을 소개한다. 또한 권한 명세 모델을 승인된 접근 권한들에 대한 RDF 질의 유효성 검증 과정에 적용한다. RDF 트리플 패턴을 가지는 대표적 RDF 질의 언어인 SPARQL 또는 RQL 질의는 RDF 트리플 패턴 형식으로 명세된 접근 권한에 따라 실행 거부되거나 인가될 수 있다. 이러한 질의 유효성 검증 과정을 효율적으로 수행하기 위하여 RDF 포함 관계 추론에서의 주요한 권한 충돌 조건들을 분석한다. 다음으로 분석된 충돌조건과 Dewey 그래프 레이블링 기술을 활용하는 효율적 질의 유효성 검증 알고리즘을 제시한다. 실험을 통하여 제시된 검증 알고리즘이 합리적인 유효성 검증 시간과, 데이터와 접근권한들이 증가할 때 확장성을 가짐을 보인다.

인공지능 기반 플랜트 도면 내 심볼 객체 자동화 검출 (Automatic Recognition of Symbol Objects in P&IDs using Artificial Intelligence)

  • 신호진;전은미;권도경;권준석;이철진
    • 플랜트 저널
    • /
    • 제17권3호
    • /
    • pp.37-41
    • /
    • 2021
  • P&ID(Piping and Instrument Diagram)는 플랜트의 장치 및 계장 정보를 집약적으로 담고 있는, 엔지니어링 핵심도면이다. 한 장의 P&ID에는 심볼로 표현된 수백 여개의 정보들이 존재하며, 이에 대한 디지털 전산화 작업이 수작업으로 진행되고 있어 많은 인력과 시간이 소요된다. 기존 연구들은 CNN 모델을 이용하여 도면 객체 검출에 성공하였으나, 도면 한 장당 약 30분, 인식률은 90% 정도로 현장에서 구현하기에는 부족한 성능이다. 따라서 본 연구에서는 영역 검출과 객체 인식을 동시에 처리하는 1-stage 객체 검출 알고리즘을 제안하였다. 이미지 레이블링 오픈소스 툴을 이용하여 학습 데이터를 구축하고 딥러닝 모델 학습을 통해 도면 내 심볼 이미지 인식 방법을 제안한다.

대조학습 방법을 이용한 주행패턴 분석 기법 연구 (Research on Driving Pattern Analysis Techniques Using Contrastive Learning Methods)

  • 정회준;김승하;김준희;권장우
    • 한국ITS학회 논문지
    • /
    • 제23권1호
    • /
    • pp.182-196
    • /
    • 2024
  • 자동차 보급과 교통 시설 발달로 인한 문제에 대응하여, ADAS와 같은 운전 보조 기술이 주목받고 있다. 최근에는 스마트폰 내장 센서를 사용한 운전패턴 분석 방법론이 개발되었다. 이 연구에서는 레이블 없이 대조학습을 통해 운전패턴의 특징을 학습하고 변화점을 감지하는 새로운 방법을 제안한다. 이 방법은 운전패턴 분류에도 확장 가능하여, 매우 적은 레이블링 데이터만으로 높은 분류 성능을 달성할 수 있음은 물론 적용 차량이 달라지는 도메인 변화 문제에 민감하게 반응하지 않아 일반화된 성능을 달성할 수 있다는 장점을 가지고 있다. 또한 본 연구에서는 추후 스마트폰 적용성을 고려하여 6가지 대표적인 경량화 딥러닝 모델에 대해 제안하는 방법을 적용하고 비교분석하여 추후 스마트폰 기반의 시스템 개발에 활용할 수 있도록 하였다.