• 제목/요약/키워드: 학습데이터 구성기법

검색결과 289건 처리시간 0.027초

문장 벡터와 전방향 신경망을 이용한 스팸 문자 필터링 (Spam Text Filtering by Using Sen2Vec and Feedforward Neural Network)

  • 이현영;강승식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.255-259
    • /
    • 2017
  • 스팸 문자 메시지를 표현하는 한국어의 단어 구성이나 패턴은 점점 더 지능화되고 다양해지고 있다. 본 논문에서는 이러한 한국어 문자 메시지에 대해 단어 임베딩 기법으로 문장 벡터를 구성하여 인공신경망의 일종인 전방향 신경망(Feedforward Neural Network)을 이용한 스팸 문자 메시지 필터링 방법을 제안한다. 전방향 신경망을 이용한 방법의 성능을 평가하기 위하여 기존의 스팸 문자 메시지 필터링에 보편적으로 사용되고 있는 SVM light를 이용한 스팸 문자 메시지 필터링의 정확도를 비교하였다. 학습 및 성능 평가를 위하여 약 10만 개의 SMS 문자 데이터로 학습을 진행하였고, 약 1만 개의 실험 데이터에 대하여 스팸 문자 필터링의 정확도를 평가하였다.

  • PDF

Efficient Training Data Construction Scheme for Prediction of Transferring Students

  • Lee, Ji-Young;Song, Gyu-Moon;Kim, Tae-Yoon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.481-488
    • /
    • 2003
  • Kim et al.(2003) studied a prediction model for students likely to transfer. In their study they claim that a training data construction scheme is better than other schemes, which trains neural network on the data from the year right before prediction year. One problem with their claim is that it is based on rather high prediction error rate. In this paper we establish a more sound comparison for various training data construction schemes and check validity of their claim. It turns out that the favored scheme has sufficient advantages over other schemes.

  • PDF

얼굴패턴 검출 문제에서 WFMM 신경망 기반의 피부색 검출 기법 (WFMM Neural Networks Based Skin Color Filter for Face Detection)

  • 조일국;김호준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.299-302
    • /
    • 2006
  • 본 논문에서는 다중필터와 복합형 신경망으로 구성된 얼굴 검출 시스템과 WFMM 신경망을 이용한 피부색 검출기법을 소개한다. 전처리 단계에 해당하는 다중필터는 대상 영역의 수를 감소 시켜 시스템의 속도를 개선한다. 다중필터에 속한 색상필터는 총 11 가지의 색상 공간에서 피부색의 특징 값을 추출하여 학습 데이터로 사용하며, 이 학습 데이터에 의해 생성된 하이퍼 박스를 통해 피부색을 분류한다. 또한 WFMM 신경망의 연관도 요소 특성을 이용하여 각 색상 공간의 상대적 중요도를 분석하여 피부색 검출에 유용한 색상 공간을 분석하고 추출 한다. 얼굴패턴 검출을 위한 복합형 신경망은 첫 단계에서 가보 변환을 사용하는 CNN 을 통해 특징 지도를 생성하고, WFMM 신경망으로 최종 얼굴패턴을 검증한다.

  • PDF

Q-learning을 이용한 신뢰성 있는 패킷 스케줄링 (Reliable packet scheduling using Q-learning)

  • 김동현;유승언;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.13-16
    • /
    • 2018
  • 본 논문에서는 무선 센서 네트워크 환경에서 신뢰성 있는 데이터 패킷 전송을 위한 효율적인 스케줄링 기법을 제안한다. 무선 네트워크는 수천 개의 센서노드, 게이트웨이, 그리고 소프트웨어로 구성된다. 큐러닝(Q-learning)을 기반으로 한 스케줄링 기법은 동적인 무선센서 네트워크 환경의 실시간 및 비실시간적인 데이터에 대한 사전 지식을 필요로 하지 않는다. 따라서 최종 결과 값을 도출하기 전에 스케줄링 정책을 구할 수 있다. 제안하는 기법은 데이터 패킷의 종류, 처리시간, 그리고 대기시간을 고려한 기법으로 신뢰성 있는 데이터 패킷의 전송을 보장하고, 전체 데이터 패킷에 공정성을 부여한다. 본 논문에서는 시뮬레이션을 통해 기존의 FIFO 알고리즘과 비교하여 제안하는 스케줄링 기법이 전체 데이터 패킷에 대한 공정성 및 신뢰성 측면에서 우수함을 증명하였다.

  • PDF

저장탄약 신뢰성분류 인공신경망모델의 학습속도 향상에 관한 연구 (Study on Improving Learning Speed of Artificial Neural Network Model for Ammunition Stockpile Reliability Classification)

  • 이동녁;윤근식;노유찬
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.374-382
    • /
    • 2020
  • 본 연구에서 저장탄약 신뢰성평가(ASRP: Ammunition Stockpile Reliability Program)의 데이터 특성을 고려하여 입력변수를 줄이는 정규화기법을 제안함으로써 분류성능의 저하 없이 저장탄약 신뢰성분류 인경신경망모델의 학습 속도향상을 목표로 하였다. 탄약의 성능에 대한 기준은 국방규격(KDS: Korea Defense Specification)과 저장탄약 시험절차서(ASTP: Ammunition Stockpile reliability Test Procedure)에 규정되어 있으며, 평가결과 데이터는 이산형과 연속형 데이터가 복합적으로 구성되어 있다. 이러한 저장탄약 신뢰성평가의 데이터 특성을 고려하여 입력변수는 로트 추정 불량률(estimated lot percent nonconforming) 또는 고장률로 정규화 하였다. 또한 입력변수의 unitary hypercube를 유지하기 위하여 최소-최대 정규화를 2차로 수행하는 2단계 정규화 기법을 제안하였다. 제안된 2단계 정규화 기법은 저장탄약 신뢰성평가 데이터를 이용하여 비교한 결과 최소-최대 정규화와 유사하게 AUC(Area Under the ROC Curve)는 0.95 이상이었으며 학습속도는 학습 데이터 수와 은닉 계층의 노드 수에 따라 1.74 ~ 1.99 배 향상되었다.

딥러닝기법 이용한 하천수위 예측시 학습자료 구축에 대한 연구 (A study on the construction of learning data when predicting river water level using deep learning)

  • 육지문;김장경;박찬호;김태정;문영일
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.357-357
    • /
    • 2022
  • 도심지 하천의 수위예측을 위해서는 일반적으로 수리-수문모형을 기반으로한 홍수위 모형을 사용하고 있다. 하지만 이러한 모형들은 매개변수 추정방법 및 모형구축을 행한 사용자의 숙련도에 따라 불확실성이 매우 크다 이러한 문제점을 개선하기 위해 데이터 기반의 딥러닝기법을 이용한 하천수위 예측이 많이 연구되고 있으나 수문기상자료와 같이 이전 시간 값과의 상관성이 큰 자료를 활용하면서 발생하는 자기 예측(self Prediction) 현상이 발생한다. 또한 도심지 하천의 데이터 품질관리의 문제로 입력자료 구축에 어려움이 있다. 본 연구는 중랑천 유역을 중심으로 2015년 ~ 2020년 사이의 강우 및 수위자료를 이용하여 학습을 진행하였으며 하천의 수위 예측을 수행함에 있어 학습입력자료 구축시 강우사상의 구분 방법에 따른 예측결과 비교 및 지연시간 및 Embedding Dimension을 이용한 전처리를 통해 자기 예측 현상을 비교해 보았다. 본 연구를 통해 도심지 하천 수위예측의 학습입력자료 구성을 위한 방안을 제시하였다.

  • PDF

전이 학습과 데이터 증강을 이용한 너구리와 라쿤 분류 (Classification of Raccoon dog and Raccoon with Transfer Learning and Data Augmentation)

  • 박동민;조영석;염석원
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.34-41
    • /
    • 2023
  • 최근 인간의 활동 범위가 증가함에 따라 외래종의 유입이 잦아지고 있고 환경에 적응하지 못해 유기된 외래종 중 2020년부터 유해 지정 동물로 지정된 라쿤이 문제가 되고 있다. 라쿤은 국내 토종 너구리와 크기나 생김새가 유사하여 일반적으로 포획하는데 있어서 구분이 필요하다. 이를 해결하기 위해서 이미지 분류에 특화된 CNN 딥러닝 모델인 VGG19, ResNet152V2, InceptionV3, InceptionResNet, NASNet을 사용한다. 학습에 사용할 파라미터는 많은 양의 데이터인 ImageNet으로 미리 학습된 파라미터를 전이 학습하여 이용한다. 너구리와 라쿤 데이터셋에서 동물의 외형적인 특징으로 분류하기 위해서 이미지를 회색조로 변환한 후 밝기를 정규화하였으며, 조정된 데이터셋에 충분한 학습을 위한 데이터를 만들기 위해 좌우 반전, 회전, 확대/축소, 이동을 이용하여 증강 기법을 적용하였다. 증강하지 않은 데이터셋은 FCL을 1층으로, 증강된 데이터셋은 4층으로 구성하여 진행하였다. 여러 가지 증강된 데이터셋의 정확도를 비교한 결과, 증강을 많이 할수록 성능이 증가함을 확인하였다.

3차원 환경 복원을 위한 다수 카메라 최적 배치 학습 기법 (Optimal Camera Placement Leaning of Multiple Cameras for 3D Environment Reconstruction)

  • 김주환;조동식
    • 스마트미디어저널
    • /
    • 제11권9호
    • /
    • pp.75-80
    • /
    • 2022
  • 최근 현실감 있는 경험을 제공하기 위한 몰입형 가상현실(VR) 기술에 대한 연구 개발이 활발하게 진행되고 있다. 가상현실 참여자에게 실제와 유사한 실감적인 가상현실 체험을 제공하기 위해서는 실제 현실 공간에 존재하는 환경 및 객체의 정보를 정밀하게 캡처 및 복원하여 가상 환경 시스템의 모델 데이터로 적용한 시스템 구성이 필요하다. 이러한 가상 환경 구성에 필요한 실 데이터를 획득하기 위해서는 다수의 비정형 카메라를 활용한 셋업으로 이루어진다. 하지만, 다수의 비정형 위치의 카메라를 활용해 실제 공간에서의 3차원으로 구성된 정보를 획득할 경우 카메라의 개수 및 위치가 최적화되지 않아 복원의 오류가 발생할 수 있다. 또한, 정밀한 객체 복원을 위해 과도한 양의 비정형 카메라가 배치될 경우 비정형 카메라 배치에 따른 자원의 낭비 또한 발생할 수 있어 적절한 개수의 비정형 카메라가 배치되어야 한다. 본 논문에서는 3차원 공간 데이터를 복원 시 필요한 정보를 얻기 위해 배치되는 다수의 비정형 카메라를 최적화할 수 있는 최적 카메라 배치(Optimal Camera Placement) 학습 기법을 제안한다. 본 논문에서 제안한 방법을 통해 실제 환경 정보 획득 시 정확한 형태의 복원 데이터를 이용하여 가상 환경을 생성하고, 더욱 몰입도 높은 실감형 콘텐츠 시스템을 사용자에게 제공할 수 있다.

정규화 흐름 기반 시계열 이상 탐지 시스템 연구 (Research on Normalizing Flow-Based Time Series Anomaly Detection System)

  • 전영훈;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.283-285
    • /
    • 2023
  • 이상 탐지는 데이터에서 일반적인 범주에서 크게 벗어나는 인스턴스 또는 패턴을 식별하는 중요한 작업이다. 본 연구에서는 시계열 데이터의 특징 추출을 위한 비지도 학습 기반 방법과 정규화 흐름의 결합을 통한 이상 탐지 프레임워크를 제안한다. 특징 추출기는 1차원 합성곱 신경망 기반의 오토인코더로 구성되며, 정상적인 시퀀스로만 구성된 훈련 데이터를 압축하고 복원하는 과정을 통해 최적화된다. 추출된 시계열 데이터의 특징 맵은 가능도를 최대화하도록 훈련된 정규화 흐름의 입력으로 사용된다. 이와 같은 방식으로 훈련된 이상 탐지 시스템은 테스트 샘플에 대한 이상치를 계산하며, 최종적으로 임계값과의 비교를 통해 이상 여부를 예측한다. 성능 평가를 위해 시계열 이상 탐지를 위한 공개 데이터셋을 이용하여 공정하게 이상 탐지 성능을 비교하였으며, 실험 결과는 제안하는 정규화 흐름 기법이 시계열 이상 탐지 시스템에 활용될수 있는 잠재성을 시사한다.

  • PDF

자기-구성 클러스터링의 모델링 및 성능평가 (Modeling of Self-Constructed Clustering and Performance Evaluation)

  • 유정웅;김승석;송창규;김성수
    • 한국통신학회논문지
    • /
    • 제30권6C호
    • /
    • pp.490-496
    • /
    • 2005
  • 본 논문에서는 퍼지 추론 시스템의 추론 정보를 이용하여 자율적으로 구조를 결정하는 클러스터링 기법을 제안한다. 제안된 기법은 주어진 입출력 데이터를 이용하여 자율적으로 클러스터의 수를 추정하고 동시에 이들 파라미터를 최적화한다. 일반적인 클러스터링 기법에서 볼 수 있었던 비교사학습을 교사학습으로 확장하여 클러스터 추정에 입출력 인과 관계를 고려한 학습을 실시하게 하여 전체 모델의 성능을 개선하고자 하였다. 출력 정보가 입력공간에서 클러스터링 학습에 적용됨으로써 클러스터링에서의 각 클래스의 구분 작업이 더 원활하게 이루어 질 수 있다. 모의실험을 통하여 기존의 연구 결과와 비교하여 제안된 기법의 유용성을 보인다.