• 제목/요약/키워드: 원본 학습 데이터

검색결과 79건 처리시간 0.024초

언어 정보를 반영한 문장 점수 측정 기반의 문장 압축 (Sentence Compression based on Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.389-392
    • /
    • 2021
  • 문장 압축은 원본 문장의 중요한 의미를 보존하는 짧은 길이의 압축 문장을 생성하는 자연어처리 태스크이다. 문장 압축은 사용자가 텍스트로부터 필요한 정보를 빠르게 획득할 수 있도록 도울 수 있어 활발히 연구되고 있지만, 기존 연구들은 사람이 직접 정의한 압축 규칙이 필요하거나, 모델 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 사전 학습된 언어 모델을 통한 perplexity 기반의 문장 점수 측정을 통해 문장을 압축하여 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않은 연구 또한 존재하지만, 문장 점수 측정에 문장에 속한 단어들의 의미적 중요도를 반영하지 못하여 중요한 단어가 삭제되는 문제점이 존재한다. 본 논문은 언어 정보 중 품사 정보, 의존관계 정보, 개체명 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 측정에 반영하는 방법을 제안한다. 또한 제안한 문장 점수 측정 방법을 활용하였을 때 문장 점수 측정 기반 문장 압축 모델의 문장 압축 성능이 향상됨을 확인하였으며, 이를 통해 문장에 속한 단어의 언어 정보를 문장 점수 측정에 반영하는 것이 의미적으로 적절한 압축 문장을 생성하는 데 도움이 될 수 있음을 보였다.

CCTV 환경 저조도 영상의 GAN 기반 가시광선-적외선 영상 분리 및 복원 (Low Illumination CCTV Color Image Reconstruction Using VIS-NIR Image Separation Based on GAN)

  • 오교혁;이재린;전병우
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.175-176
    • /
    • 2019
  • 보안 시스템의 중요성이 늘어남에 따라 열악한 CCTV 영상 환경에서의 범죄 예방 및 검거의 중요성이 늘어나고 있다. 본 논문은 CCTV의 제약 환경에 맞는 데이터 취득, 근적외선 및 가시영역 혼합 영상의 분리 및 복원 방법을 제안한다. 데이터 취득 및 학습시킨 데이터의 성능은 PSNR 방법을 이용해 비교하였고, 저조도 영역의 근적외선과 가시영역의 분리 성능은 34dB 이상이 나왔다. 색 복원은 PSNR 측면에서는 22.5dB가 나왔고, 저조도 영역의 분리 성능과 비교하여 낮은 성능을 기록하다. 색복원의 평가 정도는 원본 영상과 주관적 평가방법을 사용하여 비교하였다.

  • PDF

YOLO v3 라이브러리를 이용한 CCTV 저장공간 확보 모델 제안 (Proposal of CCTV Storage Space Securing Model using YOLO v3 Library)

  • 김성익;김황래
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.105-106
    • /
    • 2022
  • 본 논문에서는 YOLO v3 라이브러리를 이용하여 CCTV 저장 공간을 확보하는 모델을 제안한다. 사회안전망을 구축하기 위해 CCTV 설치가 확대되고, 그에 따라 많은 CCTV가 운영됨에 있어 저장 공간이 부족한 현상이 늘고 있다. 이에 본 논문에서는 학습된 데이터 셋을 활용하여 CCTV 영상파일의 프레임을 확인하여 움직임이 있는 객체가 있는지 판단하고, 움직임이 감지되는 프레임 영상을 저장한다. 제안 모델을 적용하여 테스트 한 결과 원본 데이터 크기보다 결과 데이터 크기가 85% 감소됨을 확인하였다. 인적이 드문 곳에 설치된 CCTV의 경우 제안 모델을 적용할 경우, 저장 공간의 관리 및 운영이 용이해질 것으로 기대할 수 있다.

  • PDF

깊은 합성곱 신경망을 이용한 Synthetic Aperture Radar 영상 내 반전 잡음 성분 제거 기법 (A Despeckling Method Using Deep Convolutional Neural Network in Synthetic Aperture Radar Image)

  • 김문흠;이정현;정제창
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 추계학술대회
    • /
    • pp.66-69
    • /
    • 2017
  • 본 논문에서는 깊은 합성 곱 신경망 (Deep Convolutional Neural Network) 를 이용해서 SAR (Synthetic Aperture Radar) 영상의 반전 잡음 (speckle noise) 성분을 제거하는 기법을 제안하고자 한다. Deep Convolutional Neural Network는 이미지의 데이터 특성에 적합한 딥 러닝 방법이고, 이는 SAR 위성영상의 반전 잡음 제거에 사용해도 효과적이다. 반전 잡음 필터 모델 추정을 위한 학습은 임의로 반전 잡음을 합성한 트레이닝 이미지들과 원본 트레이닝 이미지들을 이용한 회귀모델을 통해 진행된다. 학습을 통해 얻은 반전 잡음 필터는 기존 알고리즘에 비해 우수한 외곽선 보존 성능을 나타냄을 확인하였다.

  • PDF

인공지능 학습을 위한 탑 모델링 제작에 대한 연구 (A Study on Top Modeling for Artificial Intelligence Training)

  • 박영채;이상화;이병권
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.521-524
    • /
    • 2023
  • 본 연구에서는 AI 인공지능을 활용한 통일신라 석탑 '경주 불국사 삼층석탑' 복원을 위해 석탑 3D모델링 과정에 대한 연구를 수행하였다. 산성비로 부식되어 갈라진 더 이상 원본의 형태를 알아 볼 수 없는 현재 통일신라 석탑 형태를 3D모델링 작업을 통하여 AI로 하여금 원활한 교육이 실시 되도록 하는 것을 목표로한다. 본래 제작 되어있는 3D 모델링은 많은 버텍스와 페이스로 학습 데이터가 많아 실제 활용하기에 어려움을 가지고 있다. 때문에 적은 양의 버텍스와 페이스로 새로운 3D 모델링 제작에 대한 필요성에 대해 확인하였다. 본 연구는 그에 필요한 석탑 모델링 과정에 대해 서술한다. 이를 위해 본 논문은 석탑에 대한 구조를 살피고 모델링에 활용된 프로그램의 장단점과 분석을 도출하였다. 본 연구를 통해 석탑 복원에 필요한 3D모델링 프로그램 활용의 전망과 더불어 인공지능 AI의 한계점을 3D 모델링의 정확도와 세밀함을 통하여 타파하고자 하였다.

  • PDF

SVD에 기반한 모델 경량화를 통한 문서 그라운딩된 응답 생성 (Lightweight Language Models based on SVD for Document-Grounded Response Generation)

  • 이검;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.638-643
    • /
    • 2023
  • 문서 기반 대화 시스템은 크게 질문으로부터 문서를 검색하는 과정과 응답 텍스트를 생성하는 과정으로 나뉜다. 이러한 대화 시스템의 응답 생성 과정에 디코더 기반 LLM을 사용하기 위해서 사전 학습된 LLM을 미세 조정한다면 많은 메모리, 연산 자원이 소모된다. 본 연구에서는 SVD에 기반한 LLM의 경량화를 시도한다. 사전 학습된 polyglot-ko 모델의 행렬을 SVD로 분해한 뒤, full-fine-tuning 해보고, LoRA를 붙여서 미세 조정 해본 뒤, 원본 모델을 미세 조정한 것과 점수를 비교하고, 정성평가를 수행하여 경량화된 모델의 응답 생성 성능을 평가한다. 문서 기반 대화를 위한 한국어 대화 데이터셋인 KoDoc2Dial에 대하여 평가한다.

  • PDF

기계학습 분석을 위한 차원 확장과 차원 축소가 적용된 지진 카탈로그 (Application of Dimensional Expansion and Reduction to Earthquake Catalog for Machine Learning Analysis)

  • 장진수;소병달
    • 지질공학
    • /
    • 제32권3호
    • /
    • pp.377-388
    • /
    • 2022
  • 최근, 다수의 연구가 지수적으로 증가하는 지진 자료를 효율적이고 정확하게 처리하기 위해 기계학습을 활용하고 있다. 본 연구는 지진의 발생 시간, 위치, 규모의 정보를 확장하여 기계학습에 적용 가능한 자료를 제작한 후, 주성분 분석을 통해 추출한 자료의 주요 성분으로 자료의 차원을 축소하였다. 차원이 확장된 자료는 36,699개의 지진 사건을 포함하는 Global Centroid Moment Tensor 카탈로그로부터 얻은 지진 정보의 통계량으로 구성되었다. 표준화와 최대-최소화 스케일링을 활용하여 자료 전처리를 수행하였으며, 스케일링이 완료된 자료에 주성분 분석을 적용하여 자료의 주요 특징을 추출하였다. 스케일링은 상이한 단위로 인한 특징 값의 차이를 현저히 감소시켰으며, 그 중 표준화는 다른 전처리에 비해서 각 특징의 중앙값을 더 균등하게 변환하였다. 주성분 분석이 스케일링이 적용되지 않은 자료로부터 추출한 여섯 개의 주성분은 원본 자료의 정보를 99% 설명하였다. 표준화와 최대-최소 스케일링이 적용된 자료로부터 추출한 열여섯 개의 주성분은 원본 자료의 정보의 98%를 재구성하였다. 이는 특징 값의 분포가 균등한 자료의 정보를 보존하기 위해서는 더 많은 주성분이 필요함을 지시한다. 본 연구는 지진 데이터와 지진 거동과의 관계를 분석하는 효율적이고 정확한 기계 학습 모형을 훈련시키기 위한 데이터 처리 방법을 제안하였다.

Performance Comparison of Neural Network and Gradient Boosting Machine for Dropout Prediction of University Students

  • Hyeon Gyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.49-58
    • /
    • 2023
  • 학생들의 중도 탈락은 대학의 재정적 손실 뿐 아니라, 학생 개개인 및 사회적으로도 부정적인 영향을 끼친다. 이러한 문제를 해결하기 위해 기계 학습을 이용하여 대학생들의 중도 탈락 여부를 예측하고자 하는 다양한 시도가 이루어지고 있다. 본 논문에서는 대학생들의 중도 탈락 여부를 예측하기 위해 DNN(Deep Neural Network)과 LGBM(Light Gradient Boosting Machine)을 이용한 모델을 구현하고 성능을 비교하였다. 학습 데이터로는 서울 소재 중소규모 4년제 대학인 A 대학의 20,050명의 학생을 대상으로 수집된 학적 및 성적 데이터를 학습에 이용하였다. 원본 데이터의 140여개의 속성 중 중도 탈락 여부를 나타내는 속성과의 상관계수가 0.1 이상인 속성들만 추출하여 학습하였다. 두 모델의 성능 실험 결과, DNN과 LGBM의 F1-스코어는 0.798과 0.826이었으며, LGBM이 DNN에 비해 2.5% 나은 예측 성능을 보였다.

Reference 기반 AI 모델의 효과적인 해석에 관한 연구 (A Study on Effective Interpretation of AI Model based on Reference)

  • 이현우;한태현;박영지;이태진
    • 정보보호학회논문지
    • /
    • 제33권3호
    • /
    • pp.411-425
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술은 다양한 분야에서 활용 목적에 맞게 분류, 회기 작업을 수행하며 광범위하게 활용되고 있으며, 연구 또한 활발하게 진행 중인 분야이다. 특히 보안 분야에서는 예기치 않는 위협을 탐지해야 하며, 모델 훈련과정에 알려진 위협 정보를 추가하지 않아도 위협을 탐지할 수 있는 비 지도학습 기반의 이상 탐지 기법이 유망한 방법이다. 하지만 AI 판단에 대한 해석 가능성을 제공하는 선행 연구 대부분은 지도학습을 대상으로 설계되었기에 학습 방법이 근본적으로 다른 비 지도학습 모델에 적용하기는 어려우며, Vision 중심의 AI 매커니즘 해석연구들은 이미지로 표현되지 않는 보안 분야에 적용하기에 적합하지 않다. 따라서 본 논문에서는 침해공격의 원본인 최적화 Reference를 탐색하고 이와 비교함으로써 탐지된 이상에 대한 해석 가능성을 제공하는 기법을 활용한다. 본 논문에서는 산출된 Reference를 기반으로 실존 데이터에서 가장 가까운 데이터를 탐색하는 로직을 추가 제안함으로써 실존 데이터를 기반으로 이상 징후에 대한 더욱 직관적인 해석을 제공하고 보안 분야에서의 효과적인 이상 탐지모델 활용을 도모하고자 한다.

심층 생성모델 기반 합성인구 생성 성능 향상을 위한 개체 임베딩 분석연구 (Entity Embeddings for Enhancing Feasible and Diverse Population Synthesis in a Deep Generative Models)

  • 권동현;오태호;유승모;강희찬
    • 한국ITS학회 논문지
    • /
    • 제22권6호
    • /
    • pp.17-31
    • /
    • 2023
  • 활동기반 모델은 현대의 복잡한 개인의 통행행태를 반영한 정교한 기반의 수요예측이 가능하지만, 분석 대상지의 상세한 인구정보가 필수적으로 요구된다. 최근 다양한 심층생성 모델을 활용한 합성인구 생성 기법이 개발되었고, 설문조사를 통해 수집된 샘플 데이터에 존재하지 않는 실제 인구와 유사한 인구 특성을 모사한 데이터를 생성해내는 방법론이 제시되었다. 이는 이산형으로 이루어진 샘플 데이터를 연속형 데이터로 변환하여 분포 영역을 정의한 뒤 생성된 표본 데이터의 거리를 정교하게 계산하여, 불가능한 인구 특성 조합을 억제하는 방식으로 데이터의 확률 분포를 학습한다. 하지만 데이터 변환 과정에 활용되는 개체 임베딩이 잘 학습되지 않으면 의도와 다르게 왜곡된 연속형 분포 영역이 정의될 수 있고, 원본 데이터 표현의 오류로 인한 잘못된 합성인구를 생성할 가능성이 존재한다. 따라서 본 연구에서는 정확도 높은 임베딩을 추출하여 간접적으로 합성인구 생성 성능을 증가시키고자 한다. 결과적으로 합성인구의 다양성과 정확성 측면에서 기존 대비 약 28.87% 성능이 향상하였다.