• 제목/요약/키워드: 기계학습 모델

검색결과 1,136건 처리시간 0.029초

영상인식을 위한 화질의 데이터 분류성 (Data Classification of Visual Quality for Image Recognition)

  • 조재현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.279-280
    • /
    • 2021
  • 패턴 또는 영상을 인식하기 위하여 먼저 기계 학습 모델을 선택하고, 선택된 모델은 여러 단계의 처리 단계 과정으로써, 학습 데이터 구성과 특징 추출 그리고 분류기 등으로 크게 나눌 수 있다. 기존의 학습 모델의 처리 단계 중 학습 데이터 구성은 첫 번째 중요한 단계이다. 본 논문에서는 학습 데이터들의 특징을 분석하여 데이터 분류성의 척도로 사용될 수 있는지를 검토하여 차후 기계 학습 및 딥 러닝의 인식을 높이고자 한다.

  • PDF

전이학습 기반 기계번역 사후교정 모델 검증 (The Verification of the Transfer Learning-based Automatic Post Editing Model)

  • 문현석;박찬준;어수경;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.27-35
    • /
    • 2021
  • 기계번역 사후교정 (Automatic Post Editing, APE)이란 번역 시스템을 통해 생성한 번역문을 교정하는 연구 분야로, 영어-독일어와 같이 학습데이터가 풍부한 언어쌍을 중심으로 연구가 진행되고 있다. 최근 APE 연구는 전이학습 기반 연구가 주로 이루어지는데, 일반적으로 self supervised learning을 통해 생성된 사전학습 언어모델 혹은 번역모델이 주로 활용된다. 기존 연구에서는 번역모델에 전이학습 시킨 APE모델이 뛰어난 성과를 보였으나, 대용량 언어쌍에 대해서만 이루어진 해당 연구를 저 자원 언어쌍에 곧바로 적용하기는 어렵다. 이에 본 연구에서는 언어 혹은 번역모델의 두 가지 전이학습 전략을 대표적인 저 자원 언어쌍인 한국어-영어 APE 연구에 적용하여 심층적인 모델 검증을 진행하였다. 실험결과 저 자원 언어쌍에서도 APE 학습 이전에 번역을 한차례 학습시키는 것이 유의미하게 APE 성능을 향상시킨다는 것을 확인할 수 있었다.

이산화 과정을 배제한 실수 값 인자 데이터의 고차 패턴 분석을 위한 진화연산 기반 하이퍼네트워크 모델 (Evolutionary Hypernetwork Model for Higher Order Pattern Recognition on Real-valued Feature Data without Discretization)

  • 하정우;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권2호
    • /
    • pp.120-128
    • /
    • 2010
  • 하이퍼네트워크는 하이퍼그래프의 일반화된 모델로 학습과정에 있어 진화적 개념을 도입한 확률 그래프 기반의 기계학습 알고리즘으로서 최근 들어 여러 다양한 분야에 응용되고 있다. 그러나 하이퍼네트워크 모델은 데이터와 모델을 구성하는 하이퍼에지 간의 동등비교를 기반으로 하는 학습과정의 특성상 데이터를 구성하는 인자들이 범주형인 경우에만 학습 및 모델링이 가능하고 실수 값으로 표현된 데이터를 학습하기 위해서는 이산화 등의 전처리가 선행되어야 한다는 한계점이 있다. 하지만 데이터 전처리에 있어 이산화 하는 과정은 필연적으로 정보손실이 발생할 수밖에 없기 때문에 이는 분류 예측 모델의 성능 저하를 유발하는 원인이 될 수 있다. 이러한 기존 하이퍼네트워크 모델의 한계점을 극복하기 위해 본 연구에서는 별도의 데이터 전처리 과정을 거치지 않고 실수 인자로 구성된 데이터의 패턴 학습이 가능한 개선된 하이퍼네트워크 모델을 제안한다. 여러 실험 결과를 통해 제안한 하이퍼네트워크 모델은 기존 하이퍼네트워크 모델에 비해 실수형 데이터에 대한 학습 및 분류 결과 성능이 향상되었을 뿐 아니라, 다른 여러기계학습 방법들에 비해서도 경쟁력 있는 성능이 나타남을 확인하였다.

TAPAS를 이용한 사전학습 언어 모델 기반의 표 질의응답 (Table Question Answering based on Pre-trained Language Model using TAPAS)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-90
    • /
    • 2020
  • 표 질의응답은 반-정형화된 표 데이터에서 질문에 대한 답을 찾는 문제이다. 본 연구에서는 한국어 표 질의응답을 위한 표 데이터에 적합한 TAPAS를 이용한 언어모델 사전학습 방법과 표에서 정답이 있는 셀을 예측하고 선택된 셀에서 정확한 정답의 경계를 예측하기 위한 표 질의응답 모형을 제안한다. 표 사전학습을 위해서 약 10만 개의 표 데이터를 활용했으며, 텍스트 데이터에 사전학습된 BERT 모델을 이용하여 TAPAS를 사전학습한 모델이 가장 좋은 성능을 보였다. 기계독해 모델을 적용했을 때 EM 46.8%, F1 63.8%로 텍스트 텍스트에 사전학습된 모델로 파인튜닝한 것과 비교하여 EM 6.7%, F1 12.9% 향상된 것을 보였다. 표 질의응답 모델의 경우 TAPAS를 통해 생성된 임베딩을 이용하여 행과 열의 임베딩을 추출하고 TAPAS 임베딩, 행과 열의 임베딩을 결합하여 기계독해 모델을 적용했을 때 EM 63.6%, F1 76.0%의 성능을 보였다.

  • PDF

Hybrid Feature Selection과 Data Balancing을 통한 효율적인 네트워크 침입 탐지 모델 (Improved Network Intrusion Detection Model through Hybrid Feature Selection and Data Balancing)

  • 민병준;유지훈;신동규;신동일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.65-72
    • /
    • 2021
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며, 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델인 HFS-DNN을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 기존 분류 모델들과 성능 비교를 수행한다. 본 연구에서 제안된 Hybrid Feature Selection 알고리즘이 학습 모델의 성능을 왜곡 시키지 않는 것을 확인하였으며, 불균형을 해소한 학습 모델들간 실험에서 본 논문에서 제안한 학습 모델이 가장 좋은 성능을 보였다.

원격지도학습데이터의 오류를 처리하는 강화학습기반 관계추출 모델 (Relation Extraction Model for Noisy Data Handling on Distant Supervision Data based on Reinforcement Learning)

  • 윤수지;남상하;김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2018
  • 기계학습 기반인 관계추출 모델을 설계할 때 다량의 학습데이터를 빠르게 얻기 위해 원격지도학습 방식으로 데이터를 수집한다. 이러한 데이터는 잘못 분류되어 학습데이터로 사용되기 때문에 모델의 성능에 부정적인 영향을 끼칠 수 있다. 본 논문에서는 이러한 문제를 강화학습 접근법을 사용해 해결하고자 한다. 본 논문에서 제안하는 모델은 오 분류된 데이터로부터 좋은 품질의 데이터를 찾는 문장선택기와 선택된 문장들을 가지고 학습이 되어 관계를 추출하는 관계추출기로 구성된다. 문장선택기는 지도학습데이터 없이 관계추출기로부터 피드백을 받아 학습이 진행된다. 이러한 방식은 기존의 관계추출 모델보다 좋은 성능을 보여주었고 결과적으로 원격지도학습데이터의 단점을 해결한 방법임을 보였다.

  • PDF

오픈신경망 포맷을 이용한 기계학습 모델 변환 및 추론 (Model Transformation and Inference of Machine Learning using Open Neural Network Format)

  • 김선민;한병현;허준영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.107-114
    • /
    • 2021
  • 최근 다양한 분야에 인공지능 기술이 도입되고, 학계 관심이 늘어남에 따라 다양한 기계학습 모델들이 여러 프레임워크에서 운용되고 있다. 하지만 이러한 프레임워크들은 서로 다른 데이터 포맷을 가지고 있어, 상호운용성이 부족하며 이를 극복하기 위해 오픈 신경망 교환 포맷인 ONNX가 제안되었다. 본 논문에서는 여러 기계학습 모델을 ONNX로 변환하는 방법을 설명하고, 통합된 ONNX 포맷에서 기계학습 기법을 판별할 수 있는 알고리즘 및 추론 시스템을 제안한다. 또한, ONNX 변환 전·후 모델의 추론 성능을 비교하여 ONNX 변환 간 학습 결과의 손실이나 성능 저하가 없음을 보인다.

기계학습 기반의 낙상 검출 (Machine Learning based Fall Detection)

  • 김인경;김대희;허성실;이재구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.547-550
    • /
    • 2020
  • 노인인구의 급증에 따라 노인 건강에 대한 관심이 증가하였고 노인 낙상을 발견하는 방법에 대한 관심도 함께 대두되기 시작하였다. 낙상 사고의 경우 낙상을 일으킨 원인보다 낙상이 제때 감지되지 않아 발생하는 이후의 상황이 더욱 심각한 결과를 초래한다. 따라서 낙상이 발생했을 때, 바로 낙상을 감지할 수 있는 시스템 구축이 필요하다. 다양한 낙상 검출을 위한 방법이 존재하지만 그 중 착용이 쉽고 원격지에서 관찰 및 관리가 가능한 웨어러블(Wearable) 기기의 센서 데이터를 사용한 낙상 검출을 진행하였다. 본 논문에서는 머신 러닝 모델들을 사용해서 낙상 검출 성능 비교 및 적절한 모델을 제안한다. 기계 학습 기반의 모델인 결정 트리(Decision Tree), 랜덤 포래스트(Random Forest), SVM(Support Vector Machine)을 사용하여 실제 측정된 데이터에 낙상 검출 학습 능력을 정량화하였다. 또한, 모델의 입력 값에 적용한 데이터 분할, 전처리 및 특징 추출 방법을 통해서 효율적인 낙상 검출을 위한 기계학습 관점에서의 타당성을 판단하고자 한다.

템플릿 기반 미세조정을 통한 토익 모델 훈련 (TOEIC Model Training Through Template-Based Fine-Tuning)

  • 이정우;문현석;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.324-328
    • /
    • 2022
  • 기계 독해란 주어진 문서를 이해하고 문서 내의 내용에 대한 질문에 답을 추론하는 연구 분야이며, 기계 독해 문제의 종류 중에는 여러 개의 선택지에서 질문에 대한 답을 선택하는 객관식 형태의 문제가 존재한다. 이러한 자연어 처리 문제를 해결하기 위해 기존 연구에서는 사전학습된 언어 모델을 미세조정하여 사용하는 방법이 널리 활용되고 있으나, 학습 데이터가 부족한 환경에서는 기존의 일반적인 미세조정 방법으로 모델의 성능을 높이는 것이 제한적이며 사전학습된 의미론적인 정보를 충분히 활용하지 못하여 성능 향상에 한계가 있다. 이에 본 연구에서는 기존의 일반적인 미세조정 방법에 템플릿을 적용한 템플릿 기반 미세조정 방법을 통해 사전학습된 의미론적인 정보를 더욱 활용할 수 있도록 한다. 객관식 형태의 기계 독해 문제 중 하나인 토익 문제에 대해 모델을 템플릿 기반 미세조정 방법으로 실험을 진행하여 템플릿이 모델 학습에 어떠한 영향을 주는지 확인하였다.

  • PDF

투표 기반 서술형 주관식 답안 자동 채점 모델의 설계 및 구현 (Design and Implementation of an Automatic Scoring Model Using a Voting Method for Descriptive Answers)

  • 허정만;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권8호
    • /
    • pp.17-25
    • /
    • 2013
  • 본 논문에서는 투표기법을 이용하여 서술형 주관식 문제에 대한 학습자 답안을 자동으로 채점하는 모델을 제안한다. 제안하는 방법은 모델 구축 비용을 줄이기 위해서, 문제 유형별로 세분화하여 서술형 주관식 답안 자동 채점 모델을 따로 구축하지 않는다. 제안하는 방법은 서술형 주관식 답안 자동 채점에 유용한 자질을 추출하기 위해서, 모범 답안과 학습자 답안을 비교한 결과를 바탕으로 다양한 자질을 추출한다. 제안하는 방법은 답안 채점 결과의 신뢰성을 높이기 위해서, 각 학습자 답안을 여러 기계학습 기반 분류기를 이용하여 채점하고, 각 채점 결과를 투표하여 만장일치로 선택한 채점 결과를 최종 채점 결과로 결정한다. 실험결과 기계학습 기반 분류기 C4.5만 사용한 채점 결과는 정확률이 83.00%인데 반해, 기계학습 기반 분류기 C4.5, ME, SVM에서 만장일치로 선택한 채점 결과는 정확률이 90.57%까지 개선되었다.