• 제목/요약/키워드: 단어 필터링

검색결과 96건 처리시간 0.027초

어휘정보와 시소러스에 기반한 스팸메일 필터링 (Spam-mail Filtering based on Lexical Information and Thesaurus)

  • 강신재;김종완
    • 한국산업정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.13-20
    • /
    • 2006
  • 본 연구에서는 어휘정보와 개념정보를 기반으로 스팸메일 필터링 시스템을 구축하였다. 스팸메일을 판별할 수 있는 정보를 두 가지로 구분하였는데, 확실한 정보군은 송신자 정보, URL, 그리고 최근 스팸 키워드 리스트이며, 덜 확실한 정보군은 메일 본문에서 추출한 단어목록과 개념코드이다. 먼저 확실한 정보군을 이용하여 스팸메일을 분류하고 그다음 덜 확실한 정보군을 이용하였다. 메일 본문에 포함된 어휘정보와 개념코드는 SVM 기계학습을 한 후 사용된다. 본 연구의 결과, 더 많은 어휘정보를 특징벡터로 사용하였을 때 스팸 정확률이 상승하였으며 추가로 개념코드를 특징벡터에 포함시켰을 때 스팸 재현율이 상승하였다.

  • PDF

특허 정보 검색 품질 향상을 위한 대체어 후보 자동 생성 방법 (Automatic Construction of Alternative Word Candidates to Improve Patent Information Search Quality)

  • 백종범;김성민;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권10호
    • /
    • pp.861-873
    • /
    • 2009
  • 정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서도 표기의 다양성은 검색 시 불일치로 인한 정보 누락을 발생시키는 원인이 된다. 본 논문은 이러한 불일치에 의한 정보 누락을 최소화하기 위하여 검색 대체어 후보를 자동 생성하는 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 자동 생성 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 기반으로 하여 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어 뭉치, 연관단어 뭉치 간 코사인 유사도 및 신뢰도를 이용한 필터링 기법 등을 이용한 대체어 후보 자동 생성 방법을 제안한다. 본 연구에서 제안한 대체어 후보 자동 생성 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 정확도 및 재현율을 측정함으로써 평가되었으며, 제안 방법이 context window overlapping을 이용한 대체어 추출 방법보다 더 우수한 것으로 나타났다.

반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템 (The Online Game Coined Profanity Filtering System by using Semi-Global Alignment)

  • 윤태진;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.113-120
    • /
    • 2009
  • 온라인 게임에서의 언어폭력 문제는 매우 심각하지만 그에 대한 효과적인 정책이나 기술적인 방법은 부족한 상황이다. 온라인 게임 서비스 업체에서는 금칙어 리스트를 작성하여 Swear Filter를 이용한 고정된 형식의 문자열 검색 방식을 통해 문제를 해결하려고 하고 있으나 사용자들은 다양한 방법으로 욕설을 조합 또는 변형시켜 기존의 필터링을 회피하고 있다. 특히 한글은 욕설의 변형이 매우 쉬운 특성을 가지고 있다. 본 논문에는 한글에 기초한 변형 욕설을 효율적으로 탐색하여 걸러내는 알고리즘을 제시한다. 이 알고리즘의 주된 특징은 변형 욕설의 표준형 변환과 자소단위의 반 전체 정렬(semi-global alignment), 이다. 실험 결과 저자들이 다양한 인터넷 게임 환경에서 직접 수집한 다종의 욕설 단어들에 대하여 약 90%의 우수한 필터링 성능을 보였다.

사용자 리뷰 마이닝을 결합한 협업 필터링 시스템: 스마트폰 앱 추천에의 응용 (A Collaborative Filtering System Combined with Users' Review Mining : Application to the Recommendation of Smartphone Apps)

  • 전병국;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.1-18
    • /
    • 2015
  • 협업 필터링은 학계나 산업계에서 우수한 성능으로 인해 많이 사용되는 추천기법이지만, 정량적 정보인 사용자들의 평가점수에만 국한하여 추천결과를 생성하므로 간혹 정확도가 떨어지는 문제가 발생한다. 이에 새로운 정보를 추가로 고려하여, 협업 필터링의 성능을 개선하려는 연구들이 지금까지 다양하게 시도되어 왔다. 본 연구는 최근 Web 2.0 시대의 도래로 인해 사용자들이 구입한 상품에 대한 솔직한 의견을 인터넷 상에 자유롭게 표현한다는 점에 착안하여, 사용자가 직접 작성한 리뷰를 참고하여 협업 필터링의 성능을 개선하는 새로운 추천 알고리즘을 제안하고, 이를 스마트폰 앱 추천 시스템에 적용하였다. 정성 정보인 사용자 리뷰를 정량화하기 위해 본 연구에서는 텍스트 마이닝을 활용하였다. 구체적으로 본 연구의 추천시스템은 사용자간 유사도를 산출할 때, 사용자 리뷰의 유사도를 추가로 반영하여 보다 정밀하게 사용자간 유사도를 산출할 수 있도록 하였다. 이 때, 사용자 리뷰의 유사도를 산출하는 접근법으로 중복 사용된 색인어의 빈도로 산출하는 방안과 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치 합으로 산출하는 2가지 방안을 제시한 뒤 그 성능을 비교해 보았다. 실험결과, 제안 알고리즘을 통한 추천, 즉 사용자 리뷰의 유사도를 추가로 반영하는 알고리즘이 평점만을 고려하는 전통적인 협업 필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인할 수 있었다. 아울러, 중복 사용 단어의 TF-IDF 가중치의 합을 고려했을 때, 단순히 중복 사용 단어의 빈도만을 고려했을 때 보다 조금 더 나은 예측정확도를 얻을 수 있음도 함께 확인할 수 있었다.

모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석 (A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets)

  • 최예림;박규연;김소이;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.65-77
    • /
    • 2016
  • 모바일 기기 데이터를 활용한 분석에서 사용자의 프라이버시를 보호하는 것이 주요한 이슈로 대두됨에 따라 데이터를 외부로 전송하지 않고 모바일 기기 안에서 분석을 수행하는 기기내 분석이 주목 받고 있다. 기기 내 분석을 활용하면 문자 메시지, 검색 단어, 북마크, 연락처등 매우 개인적이지만 성별 구분에 효과적이라고 알려진 모바일 텍스트를 이용한 성별 예측이 가능하며, 사전에 선정된 단어들의 집합을 모바일 기기로 전송하여 이 단어들과 모바일 텍스트를 비교를 통해 성별을 예측하는 단어 비교 방식을 이용하면 모바일 기기의 제한된 자원 문제를 극복할 수 있다. 특히, 확실한 근거를 이용하여 필터링 한 후 예측을 수행하면 정확도를 극대화하고 복잡도를 낮출 수 있다. 따라서 본 논문에서는 단어의 식별력과 인기도를 순차적으로 고려하는 2단계의 기기 내 성별 예측 방법을 제안한다. 구체적으로, 제안하는 방법론은 소수의 높은 식별력을 가지는 단어를 이용하여 전체 사용자의 성별을 예측하고 이어서 인기도가 높은 단어를 활용하여 앞서 예측이 되지 않은 사용자의 성별을 예측한다. 실제 데이터를 이용한 실험에서 제안하는 방법론은 비교 방법론보다 우수한 성능을 나타내었다.

재난 전조 정보 추출 알고리즘 연구 (A Study of the extraction algorithm of the disaster sign data from web)

  • 이창열;김태환;차상열
    • 한국재난정보학회 논문집
    • /
    • 제7권2호
    • /
    • pp.140-150
    • /
    • 2011
  • 지구 온난화로 생활 환경이 급격히 변화하고 있으며, 대형 재난이 증가하고 있다. 이러한 재난 발생시 복구에 많은 자원을 투입하고 있지만, 재난의 예방 만큼 효과적인 대책은 없을 것이다. 재난전조 정보란 하인리히 법칙에 따라 예고되는 재난에 대한 전조이며, 이에 대한 정보를 자동으로 추출하여 대비할 수 있게 하는 것이 본 논문의 초점이다. 웹에 산재된 정보로부터 전조 정보를 정확히 추출하기 위한 기반이 되는 단어(명사)를 구축하고 이를 기반으로 정확한 데이터를 추출할 수 있는 알고리즘을 연구하였다. 본 연구의 결과물로 도출된 단어는 분석적인 연구결과이기 때문에 장기적으로 실제 데이터를 적용하면서 지속적으로 보완되어야 할 것이다.

의미적 시각미디어 웹 서비스를 위한 온톨로지 반자동 생성 (Semiautomatic Ontology Construction for Semantic Visual Media Web Service)

  • 김하영;이충우;황재일;서보원;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.12-16
    • /
    • 2007
  • 웹 서비스는 사용자의 요청에 적합한 서비스 제공자의 정보를 제공하여 주는 시스템으로 사용자는 원하는 서비스를 웹 서비스에서 검색, 통합하는 등으로 새로운 서비스를 조합할 수 있다. 이러한 웹 서비스는 다양한 형태의 검색자원을 가질 수 있는데 HERMES는 웹 서비스 시각미디어 검색 시스템의 일종이다. 오늘날의 웹 서비스는 시맨틱 개념을 접목시켜 검색 성능을 향상시키고 정확성을 증대시키기 위해 온톨로지를 주로 활용한다. 시맨틱 개념의 핵심기술인 온톨로지는 단어와 관계들로 구성된 사전으로서 어느 특정분야에 관련된 단어들을 계층적 구조로 표현한 것이다. 본 논문은 온톨로지의 반자동 생성을 위해 Mining Extractor를 구축하여 HERMES를 개선하는 방법을 제안한다. Mining Extractor는 대상 도메인을 필터링하고 도메인간의 계층구조를 파악하여 온톨로지를 구축하는 것을 목적으로 한다. 이를 위해 워드넷(WordNet)과 데이터 마이닝 기법의 연관규칙을 적용하였다.

  • PDF

멀티프로세서 구조를 이용한 Wave Digital Filter의 구현 (Implementation of Wave Digital Filters Based on Multiprocessor Architecture)

  • 김형교
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2303-2307
    • /
    • 2006
  • Wave Digital Filter(WDF)는 그 구조상 반올림 오차에 의한 잡음에 아주 강하기 때문에 필터로 구현되는 DSP 알고리듬에 있어 그 필터의 계수의 단어길이가 짧을 경우 아주 유용하게 이용될 수 있다. 본 논문에서는 멀티프로세서 구조를 채택하여 입력의 샘플링 속도, 프로세서의 수, 그리고 주어진 입력에 대한출력의 지연에 있어 최적인 WDF를 구현하고자 한다. 이 구현은 제어신호를 포함한 완전한 회로도로 주어지며, 이 화로도는 기존의 실리콘 컴 파일러를 이용하여 VLSI 레이아웃으로 용이하게 변환 될 수 있다.

HTML문서 생성기의 설계 및 구현 (Design and Implementation of HTML Document Generator using Dictionary based Pre-processor)

  • 최지연;민수홍;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1055-1058
    • /
    • 2003
  • E-Mail 서비스는 WWW시스템의 가장 기본적인 기능으로, 인터넷 기술이 발전하고 사용자가 기하급수적으로 증가함에 비례하여 e-Mail 사용자도 늘고있다. 그러나 기존의 e-Mail 은 HTML의 텍스트 기반 구조를 통한 비동기적인 형태의 서비스를 계속 유지하고 있어, 이에 대해 좀더 동기적인 표현방법이 요구되고 있다. 따라서 본 논문에서는 동기적인 E-Mail 서비스에 초점을 맞추어, 단순히 정보를 제공받는 서비스가 아니라 사용자 위주로서의 E-Mail 서비스를 제안하고자 한다 메일 내용에 대해 자동으로 필터링하여 단어마다의 색깔 지정과 하이퍼링크의 자동 생성으로 e-Mail을 재편집할 수 있는 편리함을 제공하며, e-Mail 수신자가 원하는 정보를 쉽게 효율적으로 접근할 수 있도록 한다.

  • PDF

Pointer-Generator Networks를 이용한 cQA 시스템 질문 요약 (Pointer-Generator Networks for Community Question Answering Summarization)

  • 김원우;김선훈;장헌석;강인호;박광현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.126-131
    • /
    • 2018
  • cQA(Community-based Question Answering) 시스템은 사용자들이 질문을 남기고 답변을 작성하는 시스템이다. cQA는 사용자의 편의를 위해 기존의 축적된 질문을 검색하거나 카테고리로 분류하는 기능을 제공한다. 질문의 길이가 길 경우 검색이나 카테고리 분류의 정확도가 떨어지는 한계가 있는데, 이를 극복하기 위해 cQA 질문을 요약하는 모델을 구축할 필요가 있다. 하지만 이러한 모델을 구축하려면 대량의 요약 데이터를 확보해야 하는 어려움이 존재한다. 본 논문에서는 이러한 어려움을 극복하기 위해 cQA의 질문 제목, 본문으로 데이터를 확보하고 필터링을 통해 요약 데이터 셋을 만들었다. 또한 본문의 대표 단어를 이용하여 추상 요약을 하기 위해 딥러닝 기반의 Pointer-generator model을 사용하였다. 실험 결과, 기존의 추출 요약 방식보다 딥러닝 기반의 추상 요약 방식의 성능이 더 좋았으며 Pointer-generator model이 보다 좋은 성능을 보였다.

  • PDF