• 제목/요약/키워드: Document

검색결과 4,925건 처리시간 0.028초

AN EFFICIENT DENSITY BASED ANT COLONY APPROACH ON WEB DOCUMENT CLUSTERING

  • M. REKA
    • Journal of applied mathematics & informatics
    • /
    • 제41권6호
    • /
    • pp.1327-1339
    • /
    • 2023
  • World Wide Web (WWW) use has been increasing recently due to users needing more information. Lately, there has been a growing trend in the document information available to end users through the internet. The web's document search process is essential to find relevant documents for user queries.As the number of general web pages increases, it becomes increasingly challenging for users to find records that are appropriate to their interests. However, using existing Document Information Retrieval (DIR) approaches is time-consuming for large document collections. To alleviate the problem, this novel presents Spatial Clustering Ranking Pattern (SCRP) based Density Ant Colony Information Retrieval (DACIR) for user queries based DIR. The proposed first stage is the Term Frequency Weight (TFW) technique to identify the query weightage-based frequency. Based on the weight score, they are grouped and ranked using the proposed Spatial Clustering Ranking Pattern (SCRP) technique. Finally, based on ranking, select the most relevant information retrieves the document using DACIR algorithm.The proposed method outperforms traditional information retrieval methods regarding the quality of returned objects while performing significantly better in run time.

XML 기술과 지식정보화 -인천국제공항 지식정보화 실 사례를 중심으로 - (XML Technology for Digitalizing Knowledgeware)

  • 이민남
    • 기술사
    • /
    • 제34권4호
    • /
    • pp.48-54
    • /
    • 2001
  • XML technology is the study of the next-generation markup languages(eXtensible Markup Language), EDI document format, document management and electronic settlement Using XML. Since 1998 XML shows rapid growth for the method of implementing the Instance of actual document An actual case at this report of digitalizing knowledgeware which was accumulated for Inchon Airport construction Project is expected to be helped to document management and electronic settlement using XML document.

  • PDF

SGML 을 기반으로 하는 문서관리시스템 개발 (Document Management System based on SGML)

  • 박남규;신동수
    • 산업공학
    • /
    • 제10권3호
    • /
    • pp.109-116
    • /
    • 1997
  • Document management system is a tool, based on the document life cycle concept, for structured management of various documents within an organization. In this paper, we address a development process of document management system based on SGML. We have developed a document management system which can support a variety of types in documents such as informal data, HTML, CGI and so on. Using the developed system, users can access documents in the system through an internet browser, and also add or modify existing documents.

  • PDF

Modified ECCD 및 문서별 범주 가중치를 이용한 문서 분류 시스템 (A Document Classification System Using Modified ECCD and Category Weight for each Document)

  • 한정석;박상용;이수원
    • 정보처리학회논문지B
    • /
    • 제19B권4호
    • /
    • pp.237-242
    • /
    • 2012
  • 웹 문서 정보 서비스는 관리자의 효율적 문서관리와 사용자의 문서검색 편의성을 위해 문서 분류 시스템을 필요로 한다. 기존의 문서 분류 시스템은 분류하고자 하는 문서 내 선택된 자질어의 개수가 적거나, 특정 범주의 문서 비율이 높아 그 범주에서 대부분의 자질어가 선택되어 모델이 생성된 경우 분류 정확도가 저하되는 문제점을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 'Modified ECCD' 기법 및 '문서별 범주 가중치' 특징 변수를 사용한 문서 분류 시스템을 제안한다. 실험 결과, 제안 방법인 'Modified ECCD' 기법이 ${\chi}^2$ 및 ECCD 기법에 비해 높은 분류 성능을 보였으며, '문서별 범주 가중치' 특징 변수를 'Modified ECCD' 기법으로 선택된 자질어 변수에 추가하여 학습하였을 경우에 더 높은 분류 성능을 보였다.

지식정보 공유를 위한 전자원문서비스의 주요 이슈와 사례 분석 (Analysis on Current Issues and Cases of Electronic Document Delivery Service for Sharing of Knowledge Information)

  • 유수현;최희윤
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.81-96
    • /
    • 2006
  • 웹기반 학술정보 커뮤니케이션이 보편화되고 정보공급자 및 이용자와의 직접적인 커뮤니케이션이 확산되는 등 원문서비스 환경의 변화는 원문서비스 기관에 적지 많은 영향을 미치고 있다. 특히 웹을 통하여 이용자에게 원문을 제공하는 전자원문서비스의 등장은 전자형태 정보의 신속하고 용이한 복제 및 배포로 인하여 그 운영에 있어서 저작권과의 마찰을 피할 수 없다. 이 연구에서는 원문서비스 환경의 주요 변화와 동향을 검토하고, 해외 전자원문서비스 사례를 파악함으로써 국내 웹기반 원문서비스인 e-DDS가 국내 저작권법에서 이슈가 되는 부분 및 향후 해결해 나가야 할 부분들을 검토하고자 한다.

효율적인 kNN 알고리즘 (An Efficient kNN Algorithm)

  • 이재문
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.849-854
    • /
    • 2004
  • 본 논문은 문서분류 방법인 kNN의 실행속도를 개선하는 알고리즘을 제안한다. 제안된 알고리즘은 기존의 kNN이 사용하는 <용어, 가중치>쌍의 목록 대신, <문서, 가중치>쌍의 목록을 사용하여 유사성 계산을 빠르게 함으로써 실행속도를 개선하는 것이다. <문서, 가중치>의 목록은 문서분류의 학습단계에서 <용어, 가중치>의 목록을 행렬 전치함으로써 구한다. 본 논문에서는 제안된 알고리즘을 시간복잡도 측면에서 분석하고 기존의 kNN과 비교 하였으며, 로이터-21578 데이터를 사용하여 실험적으로 성능을 비교 하였다. 실험결과, 본 논문에서 제안한 알고리즘이 기존의 kNN보다 실행속도측면에서 약 $90{\%}$정도의 우수함을 알 수 있었다.

문장 사이의 공백 기울기를 이용한 문서 이미지 기울기 보정 (Deskewing Document Image using the Gradient of the Spaces Between Sentences.)

  • 허우형;구은진;김철기;차의영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.379-381
    • /
    • 2013
  • 본 논문에서는 문서 이미지에서 문장 사이에 공백영역의 기울기를 검출하고 보정하는 방법을 제안한다. 제안하는 방법은 문서 이미지에서 에지를 추출한 문장 사이에 가지는 공백들의 기울기 값을 통해 문서 이미지의 기울기를 보정한다. 문서 이미지를 일부의 영역으로 나누어서 처리함으로써 문서 내 외곽의 여백영역, 그림, 다단형식 등에 대해서 강건한 처리 결과를 보여준다. 제안하는 방법은 문자 영역의 픽셀을 이용하는 것이 아닌, 공백영역을 이용함으로써 기존의 방법보다 선명한 화질은 물론 저화질 문서 이미지에서도 효과적으로 보정된다.

  • PDF

Shannon의 정보이론과 문헌정보 (Shannon's Information Theory and Document Indexing)

  • 정영미
    • 한국문헌정보학회지
    • /
    • 제6권
    • /
    • pp.87-103
    • /
    • 1979
  • Information storage and retrieval is a part of general communication process. In the Shannon's information theory, information contained in a message is a measure of -uncertainty about information source and the amount of information is measured by entropy. Indexing is a process of reducing entropy of information source since document collection is divided into many smaller groups according to the subjects documents deal with. Significant concepts contained in every document are mapped into the set of all sets of index terms. Thus index itself is formed by paired sets of index terms and documents. Without indexing the entropy of document collection consisting of N documents is $log_2\;N$, whereas the average entropy of smaller groups $(W_1,\;W_2,...W_m)$ is as small $(as\;(\sum\limits^m_{i=1}\;H(W_i))/m$. Retrieval efficiency is a measure of information system's performance, which is largely affected by goodness of index. If all and only documents evaluated relevant to user's query can be retrieved, the information system is said $100\%$ efficient. Document file W may be potentially classified into two sets of relevant documents and non-relevant documents to a specific query. After retrieval, the document file W' is reclassified into four sets of relevant-retrieved, relevant-not retrieved, non-relevant-retrieved and non-relevant-not retrieved. It is shown in the paper that the difference in two entropies of document file Wand document file W' is a proper measure of retrieval efficiency.

  • PDF

Separation of Text and Non-text in Document Layout Analysis using a Recursive Filter

  • Tran, Tuan-Anh;Na, In-Seop;Kim, Soo-Hyung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권10호
    • /
    • pp.4072-4091
    • /
    • 2015
  • A separation of text and non-text elements plays an important role in document layout analysis. A number of approaches have been proposed but the quality of separation result is still limited due to the complex of the document layout. In this paper, we present an efficient method for the classification of text and non-text components in document image. It is the combination of whitespace analysis with multi-layer homogeneous regions which called recursive filter. Firstly, the input binary document is analyzed by connected components analysis and whitespace extraction. Secondly, a heuristic filter is applied to identify non-text components. After that, using statistical method, we implement the recursive filter on multi-layer homogeneous regions to identify all text and non-text elements of the binary image. Finally, all regions will be reshaped and remove noise to get the text document and non-text document. Experimental results on the ICDAR2009 page segmentation competition dataset and other datasets prove the effectiveness and superiority of proposed method.

Latent Semantic Analysis Approach for Document Summarization Based on Word Embeddings

  • Al-Sabahi, Kamal;Zuping, Zhang;Kang, Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권1호
    • /
    • pp.254-276
    • /
    • 2019
  • Since the amount of information on the internet is growing rapidly, it is not easy for a user to find relevant information for his/her query. To tackle this issue, the researchers are paying much attention to Document Summarization. The key point in any successful document summarizer is a good document representation. The traditional approaches based on word overlapping mostly fail to produce that kind of representation. Word embedding has shown good performance allowing words to match on a semantic level. Naively concatenating word embeddings makes common words dominant which in turn diminish the representation quality. In this paper, we employ word embeddings to improve the weighting schemes for calculating the Latent Semantic Analysis input matrix. Two embedding-based weighting schemes are proposed and then combined to calculate the values of this matrix. They are modified versions of the augment weight and the entropy frequency that combine the strength of traditional weighting schemes and word embedding. The proposed approach is evaluated on three English datasets, DUC 2002, DUC 2004 and Multilingual 2015 Single-document Summarization. Experimental results on the three datasets show that the proposed model achieved competitive performance compared to the state-of-the-art leading to a conclusion that it provides a better document representation and a better document summary as a result.