• 제목/요약/키워드: 표 형식의 데이터 학습

검색결과 3건 처리시간 0.018초

Tabular Data 학습을 위한 강화형 생성자 GAN Mode (Reinforced Generator GAN Model for Tabular Data Learning)

  • 성찬식;임준식
    • 인터넷정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.121-130
    • /
    • 2024
  • Tabular Data는 수치형과 범주형 데이터의 혼합 데이터로, 이러한 Tabular Data를 이용한 학습을 수행함에 있어, 주로 머신러닝 모델이 생성형 모델보다 그 동안 적합하다고 평가되어 왔다. 이러한 평가는 생성형 모델이 Tabular Data의 특성인 수치형의 다봉분포와 범주형의 빈도 불균형 때문에 과도하게 매개변수가 많아지거나 학습의 방향을 찾지 못하는 문제가 있었기 때문이다. 그러나 데이터가 점차 빅데이터화 되고 실시간으로 이루어 지면서 기존의 머신러닝 모델들은 그 적용에 한계를 보여 왔다. 본 논문에서는 Tabular Data에 생성형 모델을 적용하기 위한 방법론으로, 켤레사전분포를 이용한 군집화 샘플링과 가워계수와 상호 정보량으로 손실함수를 개선한 생성자 강화형 적대적 신경망인 RGGAN(Reinforced Generator GAN)을 제안한다. 본 논문이 제안한 RGGAN으로 학습한 판별자들로 이상 탐지기를 구성하여, IEEE-CIS Fraud Detection Dataset에서의 사기거래를 탐지하여 AUC를 측정해본 결과, 기존 생성형 모델들 보다 1~7%의 성능 개선 효과를 보임으써, 제안된 모델이 Tabular Data 학습에 유효하고 또한 사기거래 탐지에 효과적인 모델임을 증명하였다.

문서 이미지 데이터 활용을 위한 지능형 OCR 기술 개발 (Development of Intelligent OCR Technology to Utilize Document Image Data)

  • 김상준;유동희;황소영;김민호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.212-215
    • /
    • 2022
  • 오늘날 소위 디지털 전환시대를 맞아, 많은 부분에서 빅데이터의 구축과 활용에 대한 필요성이 높아졌다. 오늘날에 많은 데이터가 디지털기기, 미디어 친화적으로 생산 및 보관되는 것과 달리, 과거 오랜 기간 데이터의 생산 및 보관은 활자 인쇄도서가 주를 이루었다. 따라서 오랜 기간 축적되어온 방대한 활자 인쇄도서를 빅데이터로써 활용하기 위한 광학 문자 판독(OCR: Optical Character Recognition) 기술의 필요성 역시 빅데이터의 필요성에 맞추어 함께 요구되었다. 본 연구에서는 도서 스캔 이미지의 정보를 각 문서 객체별로 세분화하여 그 구조와 내용을 디지털화하는 시스템을 제안한다. 제안 시스템은 크게 1) 문서객체(표, 수식, 그림, 본문)의 영역정보를 인식. 2)인식된 객체의 영역정보를 각각 표 처리, 수식 처리, 텍스트 처리 모듈로 OCR. 3) OCR로 처리된 문서 정보를 JSON형식으로 종합하여 반환하는 세 단계로 구성된다. 본 연구에서 제안하는 모델은 이러한 단계를 수행함에 있어 오픈소스로 공개된 프로젝트를 활용하되, 본 시스템의 목표에 맞추어 추가적인 학습과 개량을 거쳤다. 본 연구에서 제안한 지능형 OCR 시스템은 문서 이미지 내 4종(표, 수식, 이미지, 텍스트)의 객체인식과 처리에 있어 상용 소프트웨어 수준의 성능을 확인할 수 있었다.

  • PDF

수학적 모델링 관점에 따른 한국과 싱가포르의 통계영역 과제 분석: 중학교 1학년 교과서를 중심으로 (Analyzing Tasks in the Statistics Area of Korean and Singaporean Textbooks from the Perspective of Mathematical Modeling: Focusing on 7th Grade)

  • 김소민
    • 한국학교수학회논문집
    • /
    • 제24권3호
    • /
    • pp.283-308
    • /
    • 2021
  • 본 연구는 한국과 싱가포르의 중학교 1학년 교과서의 통계영역에 제시된 과제를 수학적 모델링 관점에서 비교·분석함으로써 두 나라의 학생들이 각각 접할 학습 내용과 학습 경험의 기회를 확인하고자 하였다. 또한 이를 바탕으로 통계영역의 교과서 개발 및 보완 측면에서 시사점을 찾아보고자 하였다. 교과서 과제는 수학적 모델링 과정 반영, 데이터 제공 유형, 표현 형식, 문제 상황 맥락, 수학적 활동의 5가지 측면으로 분석하였다. 분석 결과, 한국과 싱가포르 교과서 모두 수학적 결론을 구하는 과제와 과제 해결에 필요한 데이터만 제공되는 과제, 표나 그림으로 표현되는 과제의 비중이 가장 높았다. 한국과 싱가포르 교과서에 반영된 실세계 맥락과 수학적 활동의 경우는 서로 비중에 차이가 있었다. 이를 바탕으로 향후 수학적 모델링 활동을 지원하기 위한 교과서 과제 개발에 대한 다음과 같은 시사점을 도출하였다. 수학적 모델링 과정의 균형 있는 경험 제공과 다양한 표현 형식의 과제를 제시함으로써 학생들의 인지적 수준을 높이며, 의미 있는 수학화 과정을 경험할 수 있는 기회의 확대가 필요하다. 또한, 수학적 모델링 활동에 대한 학생들의 흥미 또는 학습동기를 위해 맥락적 현실성이 높은 과제를 제시할 필요가 있다.