• Title/Summary/Keyword: 문서 보유 알고리즘

Search Result 7, Processing Time 0.025 seconds

Improved Concept-base Search System Using HITS algorithm on Conceptual Graph (HITS알고리즘을 적용한 개념그래프 기반검색시스템의 성능개선)

  • 배환국;박호성;이상준;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.470-472
    • /
    • 2003
  • 본 논문에서는 개념 그래프 기반 검색 시스템의 검색의 성능을 개선시키고자 Hits 알고리즘을 적용하였다. 기존 개념 그래프 기반 검색 시스템의 anchor text분석을 통하여 개념을 추출하고 있는 시스템에서 더 나아가 하이퍼 링크의 선호도의 특성을 살려 하이퍼링크에 문서가 얼마나 연결되어 있는지, 참조하고 있는지에 따라 해당 검색된 문서들의 중요도를 찾아서 순위를 매기는 실험을 하였다. 종래에는 해당 검색어의 빈도순으로 개념의 결과를 나타내 주었는데, 본 시스템 구현 후에 랭킹알고리즘을 적용하여 해당검색에 유용한 정보를 가지고 있는 페이지들(authorities)과 유용한 정보를 보유하고 있는 페이지의 링크를 보유하고 있는 페이지들(hubs)를 각각 순위 순으로 보여주게 되었다. 그리하여 사용자는 실제 검색시에 개념상으로 분류된 문서 중에 중요도가 높은 문서를 사용자에게 우선으로 접하게 되었으며, hub어 의해서 중요도가 높은 문서를 한눈에 볼 수도 있을 뿐 아니라, anchor text 어서 나타나지 않은 중요한 정보를 가진 문서도 검색할 수 있었다.

  • PDF

Text Filtering by Boosting Linear Perceptrons (선형 퍼셉트론의 부스팅 학습에 의한 텍스트 여과)

  • 오장민;장병탁
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.05a
    • /
    • pp.73-76
    • /
    • 2000
  • 문서 분류나 여과 문제에서 양의 학습 데이터의 부족은 성능 저하의 주요 원인이 된다. 이런 경우 여러 학습 알고리즘이 문제의 특성을 제대로 파악하지 못한다. 본 논문에서는 부스팅 기법을 도입하여 이 문제를 접근해 보았다. 부스팅 기법은 약한 능력을 보유한 학습 알고리즘을 부스팅 과정을 통해 궁극적으로 강력한 성능을 얻을 수 있게 해준다. 간단한 선형 퍼셉트론에 부스팅 기법을 도입하여 문서 여과에 적용하였다. 제안된 알고리즘을 Reuters-21578 문서 집합에 적용한 결과, 재현률 측면에서 다층 신경망보다 우수한 성능을 보였고 특히 양의 학습 데이터가 부족한 문제의 경우 탁월한 결과를 얻을 수 있었다.

  • PDF

Fingerprint Information Masking Algorithm By Using Multiple LBP Features (다중 LBP 피처를 이용한 지문 정보 마스킹 알고리즘)

  • Kim, Jin-Ho
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.12
    • /
    • pp.281-288
    • /
    • 2017
  • Financial service commission notified that fingerprint information of their documents should be deleted till 2019 to the financial industry and the public institution. Business solutions for fingerprint detection and masking in document images are introduced. In this paper, a fingerprint information masking algorithm is proposed by using the multiple LBP features to extract fingerprint's intrinsic characteristics for artificial neural network decision whether the candidate is a true fingerprint or not after segmentation of versatile fingerprint candidates from a document image. The experimental results of the proposed fingerprint masking algorithm for 3,497 document images that are saved in a financial industry show that 96.4% of fingerprint information is masked, hence this fingerprint masking algorithm can be used efficiently in real fingerprint masking tasks.

Automatic Classification of Web Documents Using Concept-Based Keyword Information (개념 기반 키워드 정보를 이용한 웹 문서의 자동 분류)

  • 박사준;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.151-153
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해서 분류하고자 하는 영역(category)에 대한 개념 지식을 이용한다. 먼저, 영역별 개념 지식을 기구축된 웹 문서의 집합으로부터 제목과 하이퍼링크에 기반한 앵커 텍스트를 이용하여 개념을 보유한 키워드를 추출한다. 추출된 키워드를 형태소 분석을 통해 색인어로 추출한다. 추출된 색인어에 대해 TFIDF를 확장한 영역 적용 색인 가중치 TFIDFc를 적용하여 영역별 개념 기반 색인어와 색인를 구축한다. 색인은 TFIDF를 영역별로 확장하여 구축한다. 구축된 영역별 개념 기반 색인을 이용하여 새로운 웹 문서에 대해서 어떤 영역에 해당하는 가를 결정하는 자동 분류 알고리즘을 수행한다. 자동 분류 알고리즘에 의해 수행된 문서는 영역별로 정리되며, 또한, 분류된 웹 문서의 색인어는 새로운 개념 기반 키워드로 추출되어 개념 기반 영역 지식을 구축한다.

  • PDF

An Automatic Text Classification Model using Association Rules (데이타마이닝 기법을 이용한 문서 자동 분류 모델)

  • 김영인;이진용;문현정;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

Korean Document Classification using Characteristics of Word Information

  • Kim, Seok-Ki;Han, Kyung-Soo;Ahn, Jeong-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • v.14 no.2
    • /
    • pp.167-175
    • /
    • 2003
  • In document classification, target of analysis is not document itself but words appeared in the document. Word information, therefore, is a significant factor in document classification. In this study, we are dealing with the classification of Korean document based on words and feature vectors. First, we present the performance of document classification using nouns and keywords. Second, we compare to the results for the size of feature vectors.

  • PDF

TEM 도파관을 이용한 전자파 장해 측정 연구 및 표준화 동향

  • 권종화
    • The Proceeding of the Korean Institute of Electromagnetic Engineering and Science
    • /
    • v.13 no.1
    • /
    • pp.51-62
    • /
    • 2002
  • EMI/EMS 측정을 위해서는 주변 전자파 잡음(background noise)이 낮은 야외시험장(Open Area Test Site)이 가장 바람직하나, 근래 전자(전기 기기 사용의 증가와 방송.무선통신 시스템의 다양화로 인한 인공잡음(artificial noise)의 증대로 조건에 부합된 부지 선정이 어렵고, 설치 비용이 매우 크며 날씨 변화에 따라 시험 계획이 변경 될 수도 있는 단점이 있다. 전자파 분-무반사실(Semi Anechoic Chamber)은 대부분의 환경 잡음을 감쇠시키므로 야외시험장처럼 장소의 구애를 받지 않아 도시나 혹은 제품 생산지 가까이에 설치 운용이 가능하다. 그러나 큰 설치 공간과 많은 시설 유지 비용을 필요로 하며, 저주파 대역에서는 반사에 의한 공진을 완전히 제거할 수 없어 성능이 떨어진다. 또한, 최근 컴퓨터 CPU의 동작주파수가 급속하게 높아지고 PCS, IMT-2000 등과 같은 이동전화의 사용주파수도 계속해서 높아짐에 다라 미연방통신위원회(Federal Communication Commission)에서는 5㎓까지의 복사 방출 시험을 요구하고 있다. IEC 61000-4-3 복사 내성 시험규격도 휴대폰 주파수인 2㎓까지 확장되었으며 IMT-2000, Bluetooth 등 새로운 이동통신서비스가 속속 개발됨에 따라 18㎓ 까지 시험 주파수가 확장되는 추세이다. 그러나, 현재 국내 각 연구실에서 보유하고 있는 야외시험장이나 전자파 반-무반사실의 경우 1㎓이상에서의 시험이 곤란하여 수 ㎓주파수대역에서 시험이 가능한 복사 및 내성시험 시설이 필요하게 되었다. 이러한 문제점들을 해결하기 위해 고안된 대용 측정 시설 중 대표적인 것이 TEM 셀이나 GTEM셀과 같은 TEM 도파관(waveguide) 형태의 장비들이다. 이들은 본래 EMS 측정을 위한 장비이지만 협소한 공간이나 외부와의 전자파 간섭의 우려가 없고, 설치가 비교적 자유로워 여러 연구기관에서 도파관 원리를 이용한 측정 방식을 연구(개발하여 범용적인 전자파 적합성 측정 장비로서 활용하고 있다. 야외시험장과 무반사실 등이 안테나에 의한 피시험기기 주변 공간에서의 1점 측정으로 인해 시험 시간이 많아 소요되는 공통적인 단점이 있는 반면, TEM 도파관에 의한 측정은 일단 피시험기기의 모델링 정보만 얻어지면 계산에 의해 EMI 측정을 바로 할 수 있다. <표 1>에서 현재 상용화되어 사용되고 있는 TEM/GTEM 셀, 야외 시험장 및 전자파 무반사실에 대해 EMI 측정과 관련된 몇 가지 사안에 대해 비교하였다. 본 문서에서는 야외시험장이나 전자파 반-무반사실 등과 같은 기존 EMI/EMS 측정 시설의 단점을 보완하고, 광대역 특성을 갖는 대용 측정 시설로서의 TEM 도파관에 대해 소개하고 야외시험장 결과와의 상관관계 알고리즘 및 표준화 동향에 대해 기술하였다. 2절에서는 대표적인 TEM 도파관 구조의 측정 시설인 TEM 셀과 GTEM 셀의 전기적.구조적 특징에 대해 간단히 기술하고, 3절에서는 TEM 셀과 GTEM 셀에서이 측정결과를 이용하여 야외 시험장 결과를 얻어내는 상관관계 알고리즘에 대해 기술하였다. 4절에서는 IEC/CISPR와 TC77에서의 표준화 활동을 중심으로 현재 진행중인 TEM 도파관 관련 표준화 동향과 내용에 대해 기술하고자 한다.