초록
최근 기하급수적인 인터넷 데이터의 증가로 딥러닝 등의 많은 분야가 발전하였지만 바이럴 마케팅(viral marketing)과 같은 상업적 목적의 광고가 발견되면서 정보증가의 부작용이 발생하고 있다. 이는 양질의 정보를 공유하고자 하는 인터넷의 본질을 훼손하고 있을 뿐만 아니라 사용자는 양질의 정보를 습득하기 위해 검색시간이 증가하는 문제가 야기된다. 이에 본 연구에서는 광고(Ad: Advertisement, 이하 Ad) 글을 정보 전달의 본질을 흐리는 내용의 글이라 정의하였으며 본 정의에 부합하는 정보로 필터링하는 모델을 제안하였다. 제안하는 모델은 광고 필터링 경로와 광고 필터링 성능 개선경로로 구성되었으며 지속적으로 성능이 개선되도록 설계하였다. 광고 글 필터링을 위해 데이터를 수집하고 KorBERT를 사용하여 문서분류를 학습하였다. 본 모델의 성능을 검증하기 위해 실험을 진행하였으며 5개의 주제를 통합한 데이터에 대한 정확도(Accuracy), 정밀도(Precision)는 각각 89.2%, 84.3%의 결과를 나타냈고 광고의 비정형적 특성을 고려하더라도 높은 성능이 보임을 확인하였다. 본 모델을 통해 바이럴 마케팅으로 구성된 문서에서 광고 문단을 판단하고 필터링하여 사용자에게 양질의 정보를 효과적으로 전달하며 검색하는 과정에서 낭비되는 시간과 피로가 감소할 것으로 기대된다.
In recent years, due to the exponential increase in internet data, many fields such as deep learning have developed, but side effects generated as commercial advertisements, such as viral marketing, have been discovered. This not only damages the essence of the internet for sharing high-quality information, but also causes problems that increase users' search times to acquire high-quality information. In this study, we define advertisement as "a text that obscures the essence of information transmission" and we propose a model for filtering information according to that definition. The proposed model consists of advertisement filtering and advertisement filtering performance improvement and is designed to continuously improve performance. We collected data for filtering advertisements and learned document classification using KorBERT. Experiments were conducted to verify the performance of this model. For data combining five topics, accuracy and precision were 89.2% and 84.3%, respectively. High performance was confirmed, even if atypical characteristics of advertisements are considered. This approach is expected to reduce wasted time and fatigue in searching for information, because our model effectively delivers high-quality information to users through a process of determining and filtering advertisement paragraphs.