• 제목/요약/키워드: Document filtering

검색결과 96건 처리시간 0.022초

웹에서 동물영역 관련문서 필터링 (A Web Document Filtering System for Animals)

  • 김상모;김원우;변영태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.57-59
    • /
    • 2000
  • 인터넷에 돌아다니는 정보의 양은 무한정에 가까워지고 있고 이용자는 필요한 정보들을 얻을 수 있게 되었으나 검색 가능한 정보의 양이 폭발적으로 증가함에 따라 이용자는 정보검색을 하는데 있어 어려움이 따랐고, 이는 원하는 정보만을 필터링하여 보여주는 정보검색방법이 필요하게 되었다. 본 연구에서는 웹 사용자들이 정보검색을 하는데 원하는 정보를 정확하게 찾아주기 위해 웹 문서에 대한 TAG 가중치와 관련용어 영역지식의 구축 및 웹 문서 평가작업을 통한 Term의 웹 문서 DF테이블의 구축을 이용한 필터링 방법을 제안하고 그 유효성을 확인하였다.

  • PDF

사용자 프로파일에 기반한 전자 메일의 중요도 결정 (Decision Method of Importance of E-Mail based on User Profiles)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제15B권5호
    • /
    • pp.493-500
    • /
    • 2008
  • 개인 통신 방법의 수단으로 전자 메일이 널리 사용되고 있으나, 업무에 직접 관련이 없는 쓸모없는 상업용 메일도 대량으로 유포되고 있다. 본 연구에서는 사용자가 작성한 프로파일을 이용하여 메일을 자동으로 그룹핑(grouping) 하는 방법을 제안하고자 한다. 기존의 연구 방법은 단어의 빈도수만을 이용하는 단일 속성을 이용하므로 높은 정확률을 얻을 수 없었다. 그러나 본 논문에서 제안하는 방법은 기존 사용자의 폴더에 수신된 메일의 분류 체계에서 추출된 사용자 프로파일을 이용하여 그룹핑 되는 메일의 정확률을 높이고자 한다. 본 논문에서 적극적으로 이용하는 정보는 다중 속성(송신처, 문서의 주제, 문서의 유형 정보, 시간제한 표현의 어구 등) 값이다. 사용자의 프로파일을 이용함으로써 새로 도착한 메일이 사용자에게 중요한가 혹은 중요하지 않은가의 자동 판단이 가능하도록 시스템을 설계하였다. 학습 데이터를 네 가지 형태로 나누어 실험한 결과 Rocchio와 Widrow-Hoff의 상관계수가 각각 0.40과 0.43인 것 보다 본 논문의 방법이 0.52로 보다 높은 상관계수를 나타내 빈도수만을 이용하는 기존의 연구보다 정확한 방법임을 알 수 있었다.

개인화된 웹 검색을 위한 선호 기준 분석 (Analysis of Preference Criteria for Personalized Web Search)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제13권1호
    • /
    • pp.45-52
    • /
    • 2010
  • 웹 문서 수의 급증으로 인해 인터넷을 검색할 때마다 발생하는 정보의 과부하 문제가 심각하게 부각되었다. 웹 검색 결과를 개선하기 위하여 개발된 기존의 알고리즘들은 주로 사용자의 질의어 및 선호어와 문서의 링크수를 이용하였다. 본 연구에서는 실험을 통하여 이 두가지 요소들을 이용한 검색 결과의 성능을 알아보고 이들 요소들 외에 선호하는 웹문서의 선택 기준을 조사 분석하였다. 실험 결과 질의어 및 선호어를 이용한 개인화된 검색 결과는 현 검색 엔진에 비해 최대 약 1.7배의 성능 향상을 가져 왔으며, 링크수를 이용한 검색 결과는 최대 약 1.3배의 향상을 보였다. 사용자가 웹문서를 선호하는 기준은 문서 내용이 최우선이었으나, 가독성과 문서가 포함한 이미지도 큰 비중을 차지하였다. 따라서 질의어 및 선호어 개수 이외에 각 사용자의 성향에 부합하는 객관적 데이터를 추가적으로 활용한다면 웹 검색 개인화 알고리즘의 성능이 크게 향상될 수 있을 것이다.

  • PDF

문서분류에서 가상문서기법을 이용한 성능 향상 (Performance Improvement by a Virtual Documents Technique in Text Categorization)

  • 이경순;안동언
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.501-508
    • /
    • 2004
  • 본 논문에서는 문서분류의 학습단계에 가상적합문서기법을 적용하여 성능을 향상시킬 수 있는 방법을 제안한다. 어떤 범주에 대해 적합하다고 판단된 두 개의 적합문서를 결합해서 생성된 문서 또한 적합문서가 된다는 관찰을 통해서, 문서분류기가 학습할 수 있는 새로운 정보를 추가함으로써 분류기의 학습을 돕는다. 제안하는 방법은 학습문서집합에 있는 적합문서들의 쌍을 조합해서 단순히 변환함으로써 가상의 문서를 생성한다. 이 방법에 의해서 생성된 가상 문서는 두 개의 적합문서에 같이 발생하는 어휘들에 대해서는 높은 가중치를 갖고, 문서 내의 어휘 공간이 확장되는 특성을 갖는다. 대량의 문서를 포함하는 TREC-11 필터링 태스크 참여에서 제안한 방법은 제공되는 학습문서를 이용한 기본 성능에 비해 71%의 성능 향상을 보였다. 또한 문서분류 연구에서 일반적으로 비교를 위해 이용하는 실험집합인 Routers-21578에서 학습집합의 적합문서 개수가 100개 이하인 범주에 대해서 기본 학습문서를 이용한 분류기에 비해 11%의 성능향상을 보였다. 가상문서를 계속 추가해 나가면서 성능의 변화를 분석한 결과, 가상문서의 추가는 문서분류기의 학습능력을 도와 성능이 꾸준히 향상되고 있음을 보였다.

임펄스 잡음에 의해 훼손된 이진 디지탈 서류 영상의 복구 방법들의 비교 평가 (Evaluation of Restoration Schemes for Bi-Level Digital Image Degraded by Impulse Noise)

  • 신현경;신중상
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.369-376
    • /
    • 2006
  • 디지탈 변환과 기기간의 전송 영향으로 화질이 떨어진 디지탈 영상의 복구는 잡음 발생 및 그 역 과정의 모형화를 통해 이루어낼 수 있다. 스캐너로 읽혀진 서류 영상이나 위성 사진에서 잡음 및 반점을 제거하는 과정이 좋은 예이다. 그러나 잡음 발생의 비선형성은 그 역 과정의 이론적 이해를 어렵게한다. 본 논문에서는 충격 잡음에의해 화질이 떨어진 이진 서류 영상의 복구 방법들을 심층 분석하는 것에 촛점을 맞추었다. 본 연구 결과에 의하면 이진 서류 영상의 잡음 제거 방식으로 '가중 중앙값' 여과기와 '리' 여과기가 다른 여과기에 비해 효과적임을 보여준다. 반면 '웨이브렛' 여과 방식은 타 방식보다 100여배의 시간이 소요되어 비효율적이다. 본 논문에서는 가중 중앙값 여과기에 쓰이는 가중치에 대한 연구 결과를 제시하였다.

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

광고 글 필터링 모델 적용 및 성능 향상 방안 (Application of Advertisement Filtering Model and Method for its Performance Improvement)

  • 박래근;윤혁진;신의철;안영진;정승도
    • 한국산학기술학회논문지
    • /
    • 제21권11호
    • /
    • pp.1-8
    • /
    • 2020
  • 최근 기하급수적인 인터넷 데이터의 증가로 딥러닝 등의 많은 분야가 발전하였지만 바이럴 마케팅(viral marketing)과 같은 상업적 목적의 광고가 발견되면서 정보증가의 부작용이 발생하고 있다. 이는 양질의 정보를 공유하고자 하는 인터넷의 본질을 훼손하고 있을 뿐만 아니라 사용자는 양질의 정보를 습득하기 위해 검색시간이 증가하는 문제가 야기된다. 이에 본 연구에서는 광고(Ad: Advertisement, 이하 Ad) 글을 정보 전달의 본질을 흐리는 내용의 글이라 정의하였으며 본 정의에 부합하는 정보로 필터링하는 모델을 제안하였다. 제안하는 모델은 광고 필터링 경로와 광고 필터링 성능 개선경로로 구성되었으며 지속적으로 성능이 개선되도록 설계하였다. 광고 글 필터링을 위해 데이터를 수집하고 KorBERT를 사용하여 문서분류를 학습하였다. 본 모델의 성능을 검증하기 위해 실험을 진행하였으며 5개의 주제를 통합한 데이터에 대한 정확도(Accuracy), 정밀도(Precision)는 각각 89.2%, 84.3%의 결과를 나타냈고 광고의 비정형적 특성을 고려하더라도 높은 성능이 보임을 확인하였다. 본 모델을 통해 바이럴 마케팅으로 구성된 문서에서 광고 문단을 판단하고 필터링하여 사용자에게 양질의 정보를 효과적으로 전달하며 검색하는 과정에서 낭비되는 시간과 피로가 감소할 것으로 기대된다.

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구 (A Study on Focused Crawling of Web Document for Building of Ontology Instances)

  • 장문수
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.86-93
    • /
    • 2008
  • 복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

페이지 그룹 검색 그룹 모델 : 음란성 유해 정보 색출 시스템을 위한 인터넷 정보 검색 모델 (Page Group Search Model : A New Internet Search Model for Illegal and Harmful Content)

  • 육현규;유병전;박명순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권12호
    • /
    • pp.1516-1528
    • /
    • 1999
  • 월드 와이드 웹(World Wide Web)에 존재하는 음란성 유해 정보는 많은 국가에서 사회적인 문제를 일으키고 있다. 그러나 현재 음란성 유해 정보로부터 미성년자를 보호하는 실효성 있는 방법은 유해 정보 접근 차단 프로그램을 사용하는 방법뿐이다. 유해 정보 접근 차단 프로그램은 기본적으로 음란성 유해 정보를 포함한 유해 정보 주소 목록을 기반으로 사용자의 유해 정보에 대한 접근을 차단하는 방식으로 동작한다.그런데 대규모 유해 정보 주소 목록의 확보를 위해서는 월드 와이드 웹으로부터 음란성 유해 정보를 자동 색출하는 인터넷 정보 검색 시스템의 일종인 음란성 유해 정보 색출 시스템이 필요하다. 그런데 음란성 유해 정보 색출 시스템은 그 대상이 사람이 아닌 유해 정보 접근 차단 프로그램이기 때문에 일반 인터넷 정보 검색 시스템과는 달리, 대단히 높은 검색 정확성을 유지해야 하고, 유해 정보 접근 차단 프로그램에서 관리가 용이한 검색 목록을 생성해야 하는 요구 사항을 가진다.본 논문에서는 기존 인터넷 정보 검색 모델이 "문헌"에 대한 잘못된 가정 때문에 위 요구사항을 만족시키지 못하고 있음을 지적하고, 월드 와이드 웹 상의 문헌에 대한 새로운 정의와 이를 기반으로 위의 요구사항을 만족하는 검색 모델인 페이지 그룹 검색 모델을 제안한다. 또한 다양한 실험과 분석을 통해 제안하는 모델이 기존 인터넷 정보 검색 모델보다 높은 정확성과 빠른 검색 속도, 그리고 유해 정보 접근 차단 프로그램에서의 관리가 용이한 검색 목록을 생성함을 보인다.Abstract Illegal and Harmful Content on the Internet, especially content for adults causes a social problem in many countries. To protect children from harmful content, A filtering software, which blocks user's access to harmful content based on a blocking list, and harmful content search system, which is a special purpose internet search system to generate the blocking list, are necessary. We found that current internet search models do not satisfy the requirements of the harmful content search system: high accuracy in document analysis, fast search time, and low overhead in the filtering software.In this paper we point out these problems are caused by a mistake in a document definition of the current internet models and propose a new internet search model, Page Group Search Model. This model considers a document as a set of pages that are made for one subject. We suggest a Group Construction algorithm and a Group Evaluation algorithm. And we perform experiments to prove that Page Group Search Model satisfies the requirements.uirements.