• 제목/요약/키워드: Variational Keywords

검색결과 2건 처리시간 0.021초

소셜 미디어 상의 마약 범죄 추적을 위한 키워드 수집체계 연구 (A Study on the Keyword Collection System for Tracking Drug Crimes on Social Media)

  • 최민재;이호동;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.209-212
    • /
    • 2023
  • 소셜미디어를 통한 마약 유통이 증가하면서 젊은 연령층의 마약 문제가 사회 문제로 대두되고 있다. 소셜미디어 상의 마약 유통을 차단하고자 유해 키워드 차단 정책이 마련되고 있지만, 사용자들은 차단 정책을 우회할 수 있는 마약 관련 은어 및 변형어를 사용하여 검색을 시도하기 때문에 다양한 은어 및 변형어를 수집하여 차단 정책에 반영하는 것이 필요하다. 본 논문에서는 마약 유통 및 구매에 빈번하게 사용되는 일반어, 은어, 그리고 일반어와 은어의 각 변형어를 수집하고, 이를 페이스북, 인스타그램, 카카오톡, 트위터, 텔레그램을 통해 검색하여 소셜미디어 유형별로 수집되는 마약 관련 게시글을 정량적으로 분석하였다. 분석 결과, 5종의 소셜미디어 중, 트위터에서 마약 관련 은어 및 변형어를 포함하는 게시글이 가장 많이 검색되는 것을 확인하였다.

  • PDF

Case-Related News Filtering via Topic-Enhanced Positive-Unlabeled Learning

  • Wang, Guanwen;Yu, Zhengtao;Xian, Yantuan;Zhang, Yu
    • Journal of Information Processing Systems
    • /
    • 제17권6호
    • /
    • pp.1057-1070
    • /
    • 2021
  • Case-related news filtering is crucial in legal text mining and divides news into case-related and case-unrelated categories. Because case-related news originates from various fields and has different writing styles, it is difficult to establish complete filtering rules or keywords for data collection. In addition, the labeled corpus for case-related news is sparse; therefore, to train a high-performance classification model, it is necessary to annotate the corpus. To address this challenge, we propose topic-enhanced positive-unlabeled learning, which selects positive and negative samples guided by topics. Specifically, a topic model based on a variational autoencoder (VAE) is trained to extract topics from unlabeled samples. By using these topics in the iterative process of positive-unlabeled (PU) learning, the accuracy of identifying case-related news can be improved. From the experimental results, it can be observed that the F1 value of our method on the test set is 1.8% higher than that of the PU learning baseline model. In addition, our method is more robust with low initial samples and high iterations, and compared with advanced PU learning baselines such as nnPU and I-PU, we obtain a 1.1% higher F1 value, which indicates that our method can effectively identify case-related news.