Spark-Based Big Data Preprocessing for Text Summarization

Ji, Dong-Jun;Jun, Hee-Gook;Im, Dong-Hyuk;

doi:10.3745/PKIPS.y2022m11a.383

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2022.11a
/
Pages.383-385
/
2022
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Spark-Based Big Data Preprocessing for Text Summarization

텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리

Ji, Dong-Jun (Dept. of Artificial Intelligence Applications, Kwangwoon University) ;
Jun, Hee-Gook (Finda) ;
Im, Dong-Hyuk (School of Information Convergence, Kwangwoon University)

지동준 (광운대학교 인공지능응용학과) ;
전희국 ((주)핀다) ;
임동혁 (광운대학교 정보융합학부)

Published : 2022.11.21

https://doi.org/10.3745/PKIPS.y2022m11a.383 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

텍스트 요약(Text Summarization)은 자연어 처리(NLP) 분야의 주요 작업 중 하나이다. 높은 정확성을 보이는 문서 요약 딥 러닝 모델을 만들기 위해서 대용량 학습 데이터가 필요한데, 대용량 데이터 전처리 과정에서 처리 시간, 메모리 관리 등과 같은 문제가 발생한다. 본 논문에서는 대규모 병렬처리 플랫폼 Apache Spark 를 사용해 추상 요약 딥 러닝 모델의 데이터 전처리 과정을 개선하는 방법을 제안한다. 실험 결과 제안한 방법이 기존 방법보다 데이터 전처리 시간이 개선된 결과를 보이고 있다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.NRF2021R1F1A1054739). 또한, 본 연구는 과학기술정보통신부 및 정보통신기술진흥센터의 대학 ICT 연구센터지원사업의 연구결과로 수행되었음(IITP-2022-2018-0-01417).

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Spark-Based Big Data Preprocessing for Text Summarization

텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)