• Title/Summary/Keyword: 언어필터링

Search Result 86, Processing Time 0.025 seconds

Similar Contents Recommendation Model Based On Contents Meta Data Using Language Model (언어모델을 활용한 콘텐츠 메타 데이터 기반 유사 콘텐츠 추천 모델)

  • Donghwan Kim
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.1
    • /
    • pp.27-40
    • /
    • 2023
  • With the increase in the spread of smart devices and the impact of COVID-19, the consumption of media contents through smart devices has significantly increased. Along with this trend, the amount of media contents viewed through OTT platforms is increasing, that makes contents recommendations on these platforms more important. Previous contents-based recommendation researches have mostly utilized metadata that describes the characteristics of the contents, with a shortage of researches that utilize the contents' own descriptive metadata. In this paper, various text data including titles and synopses that describe the contents were used to recommend similar contents. KLUE-RoBERTa-large, a Korean language model with excellent performance, was used to train the model on the text data. A dataset of over 20,000 contents metadata including titles, synopses, composite genres, directors, actors, and hash tags information was used as training data. To enter the various text features into the language model, the features were concatenated using special tokens that indicate each feature. The test set was designed to promote the relative and objective nature of the model's similarity classification ability by using the three contents comparison method and applying multiple inspections to label the test set. Genres classification and hash tag classification prediction tasks were used to fine-tune the embeddings for the contents meta text data. As a result, the hash tag classification model showed an accuracy of over 90% based on the similarity test set, which was more than 9% better than the baseline language model. Through hash tag classification training, it was found that the language model's ability to classify similar contents was improved, which demonstrated the value of using a language model for the contents-based filtering.

Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning (대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강)

  • Yechan Hwang;Jinsu Lim;Young-Jun Lee;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

A Filtering System for Messenger and Communication Mobile Application (메신저 및 커뮤니케이션 모바일 앱을 위한 필터링 시스템)

  • Myung, Roh-young;Jung, Dae-yong;Yu, Heon-chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1169-1172
    • /
    • 2013
  • 모바일 단말기들이 기술적으로 발달하면서 모바일 앱 시장도 급속도로 성장하고 있다. 모바일 앱중에서도 메신저, 커뮤니케이션 앱들의 시장 점유율이 현저하게 높은 실정인데 반해 해당 앱들에 서 사용되는 비속어, 은어에 대한 제제는 전무하다. 현재 정부차원에서도 모바일 앱에서 행해지는 무분별한 언어폭력에 대한 조치를 취하려는 모습을 보인다는 것을 볼 때 메신저, 커뮤니케이션 모바일 앱에서 사용될 필터링 시스템은 선택이 아닌 필수라고 볼 수 있다. 따라서 이 논문에서는 안드로이드 플랫폼 기반 모바일 앱에서 SQLite를 활용한 앱의 내부 DB를 분석하여 비속어와 같은 특정 카테고리의 단어 사용빈도가 일정횟수 이상이 되면 사용자에게 경고 메시지를 보내주는 시스템을 제안한다.

Taboo Word Matching System Using a Common Multilingual Phoneme System (다국어 공통 음소 체계를 이용한 금기어 매칭 시스템)

  • Kim, Da-Hee;Shin, Sa-Im;Jang, Dal-Won;Lee, Jong-Seol;Jang, Sei-Jin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.155-158
    • /
    • 2015
  • 단어의 유사도 측정 알고리즘은 DB 인덱싱, 필터링, 소스코드 분석 소프트웨어, 음성 인식 등 다양한 분야에서 활용되고 있다. 하지만 기존의 단어의 유사도만 비교하는 시스템에는 발음이 비슷한 유사단어나 오타가 있는 유사단어들은 측정을 못하는 단점이 있다. 언어의 유사도 측정에서는 알파벳만으로 볼게 아니라 언어 발음의 발화적 특성 또한 고려되어야 한다. 본 논문에서는 글로벌 시장에서의 다국적 기업들의 제품이나 문화 수출 등의 도움이 되는 각 나라의 금기어와의 발화적 특성까지 고려한 단어 유사도를 측정 할 수 있는 시스템을 제안한다. 11개국의 4개 언어 총 21487개의 금기어 단어를 금기어 데이터로 사용하였다. 제안하는 방법의 성능을 평가하기 위하여 타 알고리즘과의 성능비교와 여러 나라의 다양한 언어의 사용자들로부터 사용자 평가를 수행하였고 제안하는 방법이 발음 유사도를 측정하지 않는 알고리즘보다 우수한 성능을 보임을 확인하였다.

  • PDF

Malicious Cross Site Script Filtering Using ACL (접근 제어를 이용한 교차 사이트 스크립트 필터링)

  • 김형주;예홍진;조은선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04a
    • /
    • pp.799-801
    • /
    • 2002
  • 최근 웹 메일은 사용과 관리의 편리함 등으로 그 사용이 점점 더 늘어나고 있다. 그러나 웹 메일은 본래 보안 기능을 중시해서 만들지 않았다는 보안 취약점으로 인해 탈법적인 해킹이나 토정 같은 악의적인 공격의 대상이 되고 있다. 특히 e-메일과 HTML, 스크립트 언어들을 함께 사용할 수 있게 된 이후로 스크립트를 이용만 인터넷 범죄가 증가하고 있다. 본 논문은 스크립트 공격 중 상호 교차된 사이트 스크립트 공격에 대해서 기술하고 이 공격의 실행을 성공적으로 막을 수 있는 대응 방안을 제시한다.

  • PDF

Design of Module for Assembling DSM-CC PS Packet from MPEG-2 TS (MPEG-2 TS로부터 DSM-CC PS 패킷을 추출하여 재구성하는 모듈 설계)

  • Lee, hyung
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2010.05a
    • /
    • pp.393-395
    • /
    • 2010
  • 본 논문은 PID 필터링된 MPEG-2 TS 데이터로부터 DSM-CC PS 패킷을 추출하여 원래의 섹션으로 구성한 후 이더넷 프레임으로 재구성하는 모듈에 전송하는 패킷변환모듈을 위한 하드웨어 모듈 설계를 제안한다. 제안된 모듈은 ALTERA 사의 IP를 토대로 수정하고 보완한 것으로써 하드웨어 기술언어인 Verilog를 이용하여 설계하였으며 모의실험을 통해 결과를 검증하였다.

  • PDF

Design and Implementation of Notification Service Based on the uniORB (uniORB 상에서의 Notification Service 설계 및 구현)

  • 윤교철;박성우;황선태;김영만;이동길;백의현;장종현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.229-231
    • /
    • 2002
  • 본 논문에서는 실시간 시스템인 전화 교환기에서 운영되는 C언어 기반 분산 처리시스템인 uniORB 상에서 이벤트 전송을 담당하는 서비스인 Event Service의 기능을 보완하고 다양한 이벤트의 타입과 필터링 기능, QoS를 제공하는 Notification Service에 대한 실시간 버전의 설계 및 구현을 하였다.

  • PDF

Design and Implementation of a Comparative Price Search Engine Using MySQL and PHP (MySQL과 PHP를 이용한 Internet 가격 비교 검색 엔진의 설계 및 구현)

  • Ha, Eun-Yong;Jung, Myung-Gyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.1493-1496
    • /
    • 2000
  • 인터넷 사용의 급격한 증가와 방대한 자료로 인하여 검색엔진에 대한 요구가 높아지고 있으며, 인터넷을 통한 쇼핑이 확대됨에 따라 가격에 대한 정확한 검색과 필터링이 불가피하게 되었다. 현재 정보를 찾기 위한 많은 검색엔진이 존재하지만 실제로 사용자가 필요로 하는 정확한 정보를 찾아주지는 못하고 있다. 따라서 특화된 검색엔진이 필요하게되고, 이로 인해 가격비교 검색엔진이라는 특화된 비교 검색엔진을 제안한다. 구현에 사용된 데이터베이스는 MySQL이며 스크립트 언어는 PHP이다.

  • PDF

A Design and Implementation of WAP Filtering System (WAP 필터링 시스템의 설계 및 구현)

  • Park, Young-Choong;Shin, Dong-Il;Shin, Dong-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.1055-1058
    • /
    • 2000
  • 본 논문은 기존의 HTML로 기술된 웹 페이지를 그대로 유지하면서 휴대 단말기를 이용하여 웹 페이지에 접근하려고 할 때, 휴대 단말기에서 웹 페이지를 기술하는 언어인 WML로 변환하여 사용자에게 서비스하는 Converting System을 설계 그리고 구현한다.

  • PDF

An Android App Development - 'Noonchi Coaching' Which has function of recommendation based on machine learning (기계 학습형 사용자 맞춤 추천 앱 '눈치 코칭_문화' 개발)

  • Jeon, Jae Hwan;Lee, dae young;Kang, Hyun-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.242-247
    • /
    • 2017
  • 논문은 공공 데이터 Open API와 사용자의 과거 행동과 주변 상황정보를 토대로 사용자가 선호하는 문화를 맞춤 추천하는 어플리케이션인 '눈치 코칭_문화'의 설계 및 구현에 대하여 서술한다. '눈치 코칭_문화'는 사용자가 쉽게 문화를 추천 받을 수 있도록 만들어진 어플리케이션으로 기존의 필터링 방식으로 사용자가 검색하는 방식의 어플리케이션들과 달리 사용자의 주변 상황과 사용자의 취향 분석을 통해 최적의 문화 Contents를 어플리케이션을 통해 제공한다. 사용자의 별도의 상세검색이나 검색, 좋아요 기능, 주변 위치와 같은 상황 정보를 어플리케이션 사용 로그를 저장 후 데이터 전처리를 하여 사용자에게 다시금 피드백 되는 어플리케이션이다. 지속적인 알림을 통해 사용자에게 문화를 추천하도록 만들었다. 또한, 사용자에게 문화의 날 정보와 사용자 주변 위치의 문화센터를 추천하여 사용자의 문화 활동을 지향한다.

  • PDF