• 제목/요약/키워드: 학습데이터 구성기법

검색결과 289건 처리시간 0.032초

모수 추정을 위한 베이시안 기법과 바타차랴 알고리즘을 융합한 어휘 인식 성능 향상 (Vocabulary Recognition Performance Improvement using a convergence of Bayesian Method for Parameter Estimation and Bhattacharyya Algorithm Model)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.353-358
    • /
    • 2015
  • 어휘 인식 시스템은 학습 모델을 구성하여 인식하므로 구성되어진 모델에서 벗어난 어휘의 입력과 유사한 어휘의 입력은 인식하지 못하거나 유사한 어휘로 인식되어 인식률 저하가 나타난다. 이런 경우 인식 모델을 확장할 수 있도록 재구성하거나 인식 모델 구성 시 확장성을 반영하므로 해결할 수 있다. 본 논문에서는 모델 구성 시 확장성을 반영할 수 있는 모수 추정을 위한 베이시안 기법을 사용하여 바타차랴 알고리즘 음성 인식 학습 모델 구성 방법을 융합하여 제안하였다. 음소가 갖는 특징을 기반으로 학습 데이터의 음소에 모수 추정을 위한 베이시안 기법을 이용하였고 유사한 학습 모델은 바타챠랴 알고리즘을 이용하여 정확한 학습 모델로 인식하도록 하였다. 바타챠랴 알고리즘 인식 모델을 구성하여 인식 성능을 평가하였다. 본 논문에서 제안한 시스템을 적용한 결과 어휘 인식률에서 97.5%의 인식률과 1.2초의 학습 시간을 나타내었다.

패턴인식 기반 침입탐지를 위한 데이터셋 구성 기법에 대한 연구 (A Study on Dataset Construction Technique for Intrusion Detection based on Pattern Recognition)

  • 공성현;조민정;조재익;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.343-345
    • /
    • 2017
  • 통신 기술이 발달하고, 네트워크 환경 또한 다양해짐에 따라 통신 사용자들에 대한 사이버 위협 또한 다양해졌다. 패턴인식 기술과 기계학습에 기반한 침입탐지 기술은 새롭게 보고되는 수많은 사이버 공격들에 대응하기 위해 등장하였다. 기계학습 기반의 IDS는 낮은 오탐률과 높은 효율성을 요구하며, 이러한 특징은 데이터셋을 구성하는 방법론에 큰 영향을 받는다. 본 논문에서는 패턴인식 기반 트래픽 분석을 수행하기 위한 데이터셋을 구성할 때 고려해야할 주안점에 대해 논하며, 현실의 사이버 위협 상황을 잘 반영할 수 있는 데이터셋을 도출하는 방법을 모색한다.

초음파 영상의 통계적 특징 벡터를 활용한 지방간 분석 알고리즘 (Novel Analysis Algorithm of Fatty Liver using statistical feature vector from Ultrasound image)

  • 하수희;유재천
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.556-558
    • /
    • 2019
  • 기존 초음파 지방간 분석은 Hepatorenal sonographic index(HI)를 사용하여 지방간을 진단하여 왔다. 이러한 HI 기법에서는 Hepato(간)과 Renal(신장), 두 부분의 영상데이터를 비교 활용하였다면, 본 논문에서는 신장의 영상데이터만을 이용하여, 이의 통계적 특징 벡터만을 활용하여 지방간을 진단을 함으로서 기존의 HI기반 분석대비 편리성과 정확도를 개선코자 Kidney Index(KI) 기반의 분석 기법을 제안한다. 본 논문에서 제안된 KI는 정상간과 지방간을 가진 실제 환자의 초음파 사진(정상간, 지방간 각 30명)을 학습 데이터를 구성하고, 이들 데이터군으로부터 특징 벡터들을 선별하여 머신러닝 기법 중 서포트 벡터 머신(Support Vector Machine)을 통해 학습시켜, 제안된 알고리즘의 유효성을 입증하였다.

객체 탐지 성능 향상을 위한 생성형 인공지능 기반 데이터 증강 기법 연구 (A Study on Generative Artificial Intelligence-Based Data Augmentation Techniques for Enhancing Object Detection Performance)

  • 김도희;김명호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.51-54
    • /
    • 2023
  • 최근 딥러닝 기술의 발달로 물체 탐지를 위한 객체 인식 분야가 기계학습을 접목한 연구가 급격히 증가하고 있다. 하지만, 탐지하려는 물체가 다른 객체에 가려진 경우와 같이 특수한 상황에 대한 데이터의 수량이 부족하여 성능 저하를 야기한다는 점과, 객체 탐지 수행 과정에서 작은 객체의 탐지가 어렵다는 한계점이 있다. 본 연구는 전술한 문제점을 보완할 방법을 제안한다. 데이터 증강 기법을 이용하여 클래스가 부족한 데이터의 양을 늘려 학습 데이터를 증강시켰다. 한편, SRGAN을 사용하여 작은 객체를 확대시킨 뒤 이미지를 합성시켜 데이터를 구성하였다. 제안된 방법은 PyTorch 환경에서 YOLOv5를 수행한 결과, 객체 탐지 성능이 향상되는 것을 확인할 수 있었다.

  • PDF

스마트팜 빅데이터 분석을 위한 이기종간 심층학습 기법 연구 (A Study on Deep Learning Methodology for Bigdata Mining from Smart Farm using Heterogeneous Computing)

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.162-162
    • /
    • 2017
  • 구글에서 공개한 Tensorflow를 이용한 여러 학문 분야의 연구가 활발하다. 농업 시설환경을 대상으로 한 빅데이터의 축적이 증가함과 아울러 실효적인 정보 획득을 위한 각종 데이터 분석 및 마이닝 기법에 대한 연구 또한 활발한 상황이다. 한편, 타 분야의 성공적인 심층학습기법 응용사례에 비하여 농업 분야에서의 응용은 초기 성장 단계라 할 수 있다. 이는 농업 현장에서 취득한 정보의 난해성 및 완성도 높은 생육/환경 모델링 정보의 부재로 실효적인 전과정 처리 기술 도출에 소요되는 시간, 비용, 연구 환경이 상대적으로 부족하기 때문일 것이다. 특히, 센서 기반 데이터 취득 기술 증가에 따라 비약적으로 방대해진 수집 데이터를 시간 복잡도가 높은 심층 학습 모델링 연산에 기계적으로 단순 적용할 경우 시간 효율적인 측면에서 성공적인 결과 도출에 애로가 있을 것이다. 매우 높은 시간 복잡도를 해결하기 위하여 제시된 하드웨어 가속 기능의 경우 일부 개발환경에 국한이 되어 있다. 일례로, 구글의 Tensorflow는 오픈소스 기반 병렬 클러스터링 기술인 MPICH를 지원하는 알고리즘을 공개하지 않고 있다. 따라서, 본 연구에서는 심층학습 기법 연구에 있어서, 예상 가능한 다양한 자원을 활용하여 최대한 연산의 결과를 빨리 도출할 수 있는 하드웨어적인 접근 방법을 모색하였다. 호스트에서 수행하는 일방적인 학습 알고리즘과 달리 이기종간 심층 학습이 가능하기 위해선 우선, NFS(Network File System)를 이용하여 데이터 계층이 상호 연결이 되어야 한다. 이를 위해서 고속 네트워크를 기반으로 한 NFS의 이용이 필수적이다. 둘째로 제한된 자원의 한계를 극복하기 위한 메모 공유 라이브러리가 필요하다. 셋째로 이기종간 프로세서에 최적화된 병렬 처리용 컴파일러를 이용해야 한다. 가장 중요한 부분은 이기종간의 처리 능력에 따른 작업을 고르게 분배할 수 있는 작업 스케쥴링이 수행되어야 하며, 이는 처리하고자 하는 데이터의 형태에 따라 매우 가변적이므로 해당 데이터 도메인에 대한 엄밀한 사전 벤치마킹이 수행되어야 한다. 이러한 요구조건을 대부분 충족하는 Open-CL ver1.2(https://www.khronos.org/opencl/)를 이용하였다. 최신의 Open-CL 버전은 2.2이나 본 연구를 위하여 준비한 4가지 이기종 시스템에서 모두 공통적으로 지원하는 버전은 1.2이다. 실험적으로 선정된 4가지 이기종 시스템은 1) Windows 10 Pro, 2) Linux-Ubuntu 16.04.4 LTS-x86_64, 3) MAC OS X 10.11 4) Linux-Ubuntu 16.04.4 LTS-ARM Cortext-A15 이다. 비교 분석을 위하여 NVIDIA 사에서 제공하는 Pascal Titan X 2식을 SLI로 구성한 시스템을 준비하였다. 개별 시스템에서 별도로 컴파일 된 바이너리의 이름을 통일하고, 개별 시스템의 코어수를 동일하게 균등 배분하여 100 Hz의 데이터로 입력이 되는 온도 정보와 조도 정보를 입력으로 하고 이를 습도정보에 Linear Gradient Descent Optimizer를 이용하여 Epoch 10,000회의 학습을 수행하였다. 4종의 이기종에서 총 32개의 코어를 이용한 학습에서 17초 내외로 연산 수행을 마쳤으나, 비교 시스템에서는 11초 내외로 연산을 마치는 결과가 나왔다. 기보유 하드웨어의 적절한 활용이 가능한 심층학습 기법에 대한 연구를 지속할 것이다

  • PDF

Lasso Regression을 이용한 지역 경제 성장과 비만율의 상관관계 분석 (Analysis of the relationship between regional economic growth and obesity by using Lasso Regression)

  • 길은규;오수진;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.565-568
    • /
    • 2018
  • 본 연구에서는 Lasso Regression을 기반으로 하여 지역 경제 성장과 비만율을 예측한다. 연구는 3단계로 나누어 진행된다. 우선 지역성장을 대변할 수 있는 가상의 GDP 수치를 구한다. 그 다음 가상의 GDP 수치와 비만율 데이터를 이용하여 학습모델을 만든다. 마지막으로 이전의 데이터를 이용하여 앞으로의 성장을 예측하고 학습모델에 적용하여 비만율을 예측한다. 본 연구의 데이터는 학습데이터와 실험데이터를 구성된다. 학습데이터로는 국내의 8도 중 하나인 강원도의 데이터를 이용하며 실험데이터로는 강릉과 원주의 데이터를 이용한다. 평가 비교 대상으로는 과거의 흐름을 반영하는 최소자승법 예측기법을 선정하여 비교한다. 연구 결과 강릉의 경우 비교 데이터와의 오차율 평균은 1.22%로 큰 차이가 없음을 알 수 있다. 따라서 본 연구에서 제안하는 방법이 과거의 흐름을 기반으로 작성됨을 알 수 있다. 하지만 단순히 과거의 흐름만을 통해 예측하는 것은 여러 요소가 복합적으로 작용하는 비만율 예측에 알맞지 않기 때문에 본 연구 방법이 유의미하다고 여겨진다.

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법 (Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning)

  • 한명수 ;정유현 ;채동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.618-620
    • /
    • 2023
  • 최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

배전선로의 고장유형 판별을 위한 적응형 퍼지추론 시스템 (An Adaptive Network Fuzzy Inference System for the Fault Types Classification in the Distribution Lines)

  • 정호성;신명철
    • 한국지능시스템학회논문지
    • /
    • 제11권2호
    • /
    • pp.101-108
    • /
    • 2001
  • 본 논문에서는 배전선로에서 발생하는 여러 고장유형을 판별하기 위해서 적응형 퍼지추론 시스템을 적용하는 새로운 기법을 제시하였다. 배전선로의 고장과 고장유사현상 데이터를 추출하기 위해서 EMTP를 이용하여 RL부하, 아크로부하, 컨버터부하가 있는 배전계통을 구성하고 여러 형태의 고장과 고장유사현상에 대해 시뮬레이션을 하였다. 이를 통해 얻은 전류 파형으로부터 기본파성분, 영상분전류, 짝수 고조파성분의 합, 홍수 고조파성분의 합, 그리고 비정규 고조파성분의 합의 5개의 입력변수를 추출하고 학습을 통해서 각 입력변수의 소속함수의 소속도를 자동으로 결정하였다. 이 적응형 퍼지추론 시스템을 이용한 기법을 평가하기 위해서 학습시와 다른 고장상황을 모의하여 얻은 데이터와 실증시험 데이터를 이용하였다. 결과적으로 제안한 기법은 배전선로에서 발생하는 고장유형을 빠르고 정확하게 판별할 수 있었다.

  • PDF

Wi-Fi 전파 지문 기반 다차원 학습 데이터 구성에 관한 연구 (A Study on Multi-Dimensional learning data composition based on Wi-Fi radio fingerprint)

  • 윤창표;황치곤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.639-640
    • /
    • 2018
  • 현재 실내 측위 분야에서 전파 지문을 이용하여 위치를 확인하는 기술이 광범위하게 사용하고 있다. 이때 성공적인 위치 확인을 위해서는 학습과 테스트에 필요한 데이터의 구성 및 다차원 데이터 구성이 필요하다. 즉 무선 AP, BLE iBeacon, Mobile 단말 등의 다양한 주변 전파 지문의 변화로 발생할 수 있는 환경 변화에 대응할 수 있는 위치 데이터 수집 및 데이터 관리 기술이 요구된다. 따라서 본 논문에서는 측위에 필요한 전파 지문의 환경 변화에 덜 민감한 다차원 데이터를 구성하고 관리하는 기법을 제안한다.

  • PDF

점증적 학습 퍼지 신경망을 이용한 적응 분류 모델 (An Adaptive Classification Model Using Incremental Training Fuzzy Neural Networks)

  • 이현숙
    • 한국지능시스템학회논문지
    • /
    • 제16권6호
    • /
    • pp.736-741
    • /
    • 2006
  • 분류 시스템은 데이터 전처리 모듈, 학습모듈, 의사결정모듈로 구성되어 있으며 지능형시스템의 중요한 구성요소로 활용되어왔다. 특히 학습모듈은 사전정보를 제공하므로 분류를 위한 핵심 역할을 수행하여 왔다. 기존의 학습을 위한 기법은 주로 승자독점방식으로 데이터를 처리하므로 경계가 불명확한 대부분의 실세계 응용에 적합하지 못하다. 또한 학습 알고리즘에 필요한 데이터를 한꺼번에 준비해야 하지만 이는 일반적으로 가능하지 않은 경우가 많다. 이를 위하여 본 논문에서는 점증적 학습 퍼지신경망, FNN-I,를 이용한 적응 분류모델을 설계한다. 이 모델에서는 유용하게 정보를 표현하기 위하여 퍼지이론을 도입하고 계속적으로 모여지는 데이터를 가지고 점증적으로 학습할 수 있는 알고리즘을 제시한다. 제안된 모델을 컴퓨터 바이러스 분류를 위한 실제 데이터에 적용하여 점증적으로 학습할 수 있고 효과적으로, 새로운 바이러스 데이터를 분류할 수 있음을 보인다.