• 제목/요약/키워드: 학습데이터 구성기법

검색결과 289건 처리시간 0.03초

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

GAN을 이용한 실내 위치 데이터 구성 기법 (Indoor Location Data Construction Technique using GAN)

  • 윤창표;황치곤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.490-491
    • /
    • 2021
  • 최근 실내 환경에서 정확한 위치 기반 서비스의 제공을 위해 Wi-Fi 핑거프린트와 딥러닝을 이용한 기술이 연구되고 있다. 이때 학습 데이터의 구성은 매우 중요하며 학습에 필요한 충분한 데이터의 수집은 필수적이다. 그러나 측위가 필요한 영역 내에서 무선 신호 데이터의 수집을 위한 특정 지점의 수는 무한하며 이러한 데이터를 모두 수집하는 것은 불가능하다. 따라서 부족한 학습 데이터를 보충할 수 있는 방법이 필요하다. 본 연구에서는 부족하게 수집된 위치 데이터를 기반으로 학습에 필요한 충분한 수의 위치 데이터의 구성 방법을 제안한다.

  • PDF

WSN 환경에서의 데이터 마이닝 기법 연구 (A Study on Data Mining Techniques in WSN Environment)

  • 김동현;김민우;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.37-38
    • /
    • 2018
  • 최근 인터넷 기술의 발달로 다수의 센서 노드로 구성된 Wireless Sensor Network (WSN) 환경이 증가하고 있으며, 이에 따라 무선으로 연결된 수많은 노드에 의해 생성되는 데이터의 양이 방대해지고 있지만, 데이터의 특성 및 패턴이 불규칙하여 기존 정적 분류 기법으로는 한계가 있다. 따라서 본 논문에서는 이러한 WSN 환경에서 생성되는 방대한 양의 데이터를 효율적으로 처리하기 위해 기계학습을 이용한 데이터 마이닝(Data mining) 기법에 대해 서술한다. 데이터 마이닝이란 데이터의 패턴 및 데이터 간의 관계를 이용하여 의사결정에 필요한 정보를 추출하는 것으로 다양한 기계 학습 알고리즘이 존재한다.

  • PDF

Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 (Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents)

  • 장정호;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

Intensity Distortion을 이용한 Partially Occluded 얼굴인식 (Partially Occluded Face Recognition in Video using Intensity Distortion)

  • 주명호;강행봉
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.683-684
    • /
    • 2006
  • 본 논문은 비디오기반의 얼굴인식에 있어서 환경의 변화나 왜곡, 노이즈 등으로 발생할 수 있는 부분적인 가림현상(Partial Occlusion)에 대한 처리기법을 제시한다. 인증되는 각 사람은 하나의 Manifold 를 구성하며 각 Manifold 는 m 개의 pose-Manifold 로 구성된다. Pose-Manifold 를 구성하기 위한 학습데이터는 매우 유사한 포즈들로 구성되기 때문에 얼굴을 이루는 영역의 픽셀에 대한 Intensity 의 변화는 크지 않다. 입력되는 이미지의 Intensity 를 학습데이터의 Intensity 의 변화량을 고려한 Intensity Distortion 을 이용하면 Occlusion 이 발생한 영역을 찾을 수 있고, Occlusion 이 발생한 정도에 따라 가중치를 부여할 수 있다. 이렇게 Occlusion 에 따라 영역에 중요도를 다르게 하여 얼굴인식률을 높이고자 한다. 실험에서는 제시하는 Mask 를 사용하지 않았을 경우와 기존에 제시된 알고리즘과의 성능을 비교한다.

  • PDF

고차 데이터 분류를 위한 순차적 베이지안 샘플링을 기반으로 한 하이퍼네트워크 모델의 진화적 학습 기법 (Evolutionary Learning of Hypernetwork Classifiers Based on Sequential Bayesian Sampling for High-dimensional Data)

  • 하정우;김수진;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.336-338
    • /
    • 2012
  • 본 연구에서는 고차 데이터 분류를 위해 순차적 베이지만 샘플링 기반의 진화연산 기법을 이용한 하이퍼네트워크 모델의 학습 알고리즘을 제시한다. 제시하는 방법에서는 모델의 조건부 확률의 사후(posterior) 분포를 최대화하도록 학습이 진행된다. 이를 위해 사전(prior) 분포를 문제와 관련된 사전지식(prior knowledge) 및 모델 복잡도(model complexity)로 정의하고, 측정된 모델의 분류성능을 우도(likelihood)로 사 용하며, 측정된 사전분포와 우도를 이용하여 모델의 적합도(fitness)를 정의한다. 이를 통해 하이퍼네트워크 모델은 고차원 데이터를 효율적으로 학습 가능할 뿐이 아니라 모델의 학습시간 및 분류성능이 개선될 수 있다. 또한 학습 시에 파라미터로 주어지던 하이퍼에지의 구성 및 모델의 크기가 학습과정 중에 적응적으로 결정될 수 있다. 제안하는 학습방법의 검증을 위해 본 논문에서는 약 25,000개의 유전자 발현정보 데이터셋에 대한 분류문제에 모델을 적용한다. 실험 결과를 통해 제시하는 방법이 기존 하이퍼네트워크 학습 방법 뿐 아니라 다른 모델들에 비해 우수한 분류 성능을 보여주는 것을 확인할 수 있다. 또한 다양한 실험을 통해 사전분포로 사용된 사전지식이 모델 학습에 끼치는 영향을 분석한다.

다중 스태킹을 가진 새로운 앙상블 학습 기법 (A New Ensemble Machine Learning Technique with Multiple Stacking)

  • 이수은;김한준
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.1-13
    • /
    • 2020
  • 기계학습(machine learning)이란 주어진 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델(model) 생성 기술을 의미한다. 우수한 성능의 모델을 생성하기 위해서는 양질의 학습데이터와 일반화 과정을 위한 학습 알고리즘이 준비되어야 한다. 성능 개선을 위한 한 가지 방법으로서 앙상블(Ensemble) 기법은 단일 모델(single model)을 생성하기보다 다중 모델을 생성하며, 이는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 학습 기법을 포함한다. 본 논문은 기존 스태킹 기법을 개선한 다중 스태킹 앙상블(Multiple Stacking Ensemble) 학습 기법을 제안한다. 다중 스태킹 앙상블 기법의 학습 구조는 딥러닝 구조와 유사하고 각 레이어가 스태킹 모델의 조합으로 구성되며 계층의 수를 증가시켜 각 계층의 오분류율을 최소화하여 성능을 개선한다. 4가지 유형의 데이터셋을 이용한 실험을 통해 제안 기법이 기존 기법에 비해 분류 성능이 우수함을 보인다.

SWaT 테스트베드 데이터 셋 및 비정상행위 탐지 동향

  • 권성문;손태식
    • 정보보호학회지
    • /
    • 제29권2호
    • /
    • pp.29-35
    • /
    • 2019
  • CPS(Cyber Physical System)에 대한 사이버 공격이 다양해지고 고도화됨에 따라 시그니쳐에 기반한 악성행위 탐지는 한계가 있어 기계학습 기반의 정상행위 학습을 통한 비정상행위 탐지 기법이 많이 연구되고 있다. 그러나 CPS 보안 연구는 보안상의 이유로 CPS 데이터가 주로 외부에 공개되지 않으며 또한 실제 비정상행위를 가동 중인 CPS에 실험하는 것이 불가능하여 개발 기법의 검증이 어려운 문제가 있다. 이를 해결하기 위해 2015년 SUTD(Singapore University of Technology and Design)의 iTrust 연구소에서 SWaT(Secure Water Treatment) 테스트베드를 구성하고 36가지의 공격을 수행한 데이터셋을 공개하였다. 이후 국 내외에서 SWaT 테스트베드 데이터를 사용하여 다양한 보안 기법을 검증한 연구결과가 발표되고 있으며 CPS 보안에 기여하고 있다. 따라서 본 논문에서는 SWaT 테스트베드 데이터 및 SWaT 테스트베드 데이터에 기반한 비정상행위 탐지 연구를 분석한 내용을 설명하고, 이를 통해 CPS 비정상행위 탐지 설계의 주요 요소를 분석하여 제시하고자 한다.

단안 이미지로부터 3D 사람 자세 추정을 위한 순서 깊이 기반 연역적 약지도 학습 기법 (Ordinal Depth Based Deductive Weakly Supervised Learning for Monocular 3D Human Pose Estimation)

  • 이영찬;이규빈;유원상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.826-829
    • /
    • 2024
  • 3D 사람 자세 추정 기술은 다양한 응용 분야에서의 높은 활용성으로 인해 대량의 학습 데이터가 수집되어 딥러닝 모델 연구가 진행되어 온 반면, 동물 자세 추정의 경우 3D 동물 데이터의 부족으로 인해 관련 연구는 극히 미진하다. 본 연구는 동물 자세 추정을 위한 예비연구로서, 3D 학습 데이터가 없는 상황에서 단일 이미지로부터 3D 사람 자세를 추정하는 딥러닝 기법을 제안한다. 이를 위하여 사전 훈련된 다중 시점 학습모델을 사용하여 2D 자세 데이터로부터 가상의 다중 시점 데이터를 생성하여 훈련하는 연역적 학습 기반 교사-학생 모델을 구성하였다. 또한, 키포인트 깊이 정보 대신 2D 이미지로부터 레이블링 된 순서 깊이 정보에 기반한 손실함수를 적용하였다. 제안된 모델이 동물데이터에서 적용 가능한지 평가하기 위해 실험은 사람 데이터를 사용하여 이루어졌다. 실험 결과는 제안된 방법이 기존 단안 이미지 기반 모델보다 3D 자세 추정의 성능을 개선함을 보여준다.

학습 성능 향상을 위한 차원 축소 기법 기반 재난 시뮬레이션 강화학습 환경 구성 및 활용 (The Design and Practice of Disaster Response RL Environment Using Dimension Reduction Method for Training Performance Enhancement)

  • 여상호;이승준;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권7호
    • /
    • pp.263-270
    • /
    • 2021
  • 강화학습은 학습을 통해 최적의 행동정책을 탐색하는 기법으로써, 재난 상황에서 효과적인 인명 구조 및 재난 대응 문제 해결을 위해 많이 활용되고 있다. 그러나, 기존 재난 대응을 위한 강화학습 기법은 상대적으로 단순한 그리드, 그래프와 같은 환경 혹은 자체 개발한 강화학습 환경을 통해 평가를 수행함에 따라 그 실용성이 충분히 검증되지 않았다. 본 논문에서는 강화학습 기법을 실세계 환경에서 사용하기 위해 기존 개발된 재난 시뮬레이션 환경의 복잡한 프로퍼티를 활용하는 강화학습 환경 구성과 활용 결과를 제시하고자 한다. 본 제안 강화학습 환경의 구성을 위하여 재난 시뮬레이션과 강화학습 에이전트 간 강화학습 커뮤니케이션 채널 및 인터페이스를 구축하였으며, 시뮬레이션 환경이 제공하는 고차원의 프로퍼티 정보의 활용을 위해 비-이미지 피쳐 벡터(non-image feature vector)에 이미지 변환방식을 적용하였다. 실험을 통해 본 제안 방식이 건물 화재 피해도를 기준으로 한 평가에서 기존 방식 대비 가장 낮은 건물 화재 피해를 기록한 것을 확인하였다.