• 제목/요약/키워드: Web document

검색결과 757건 처리시간 0.034초

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology

  • Selvalakshmi, B;Subramaniam, M;Sathiyasekar, K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3102-3119
    • /
    • 2021
  • In the modern rapid growing web era, the scope of web publication is about accessing the web resources. Due to the increased size of web, the search engines face many challenges, in indexing the web pages as well as producing result to the user query. Methodologies discussed in literatures towards clustering web documents suffer in producing higher clustering accuracy. Problem is mitigated using, the proposed scheme, Semantic Conceptual Relational Similarity (SCRS) based clustering algorithm which, considers the relationship of any document in two ways, to measure the similarity. One is with the number of semantic relations of any document class covered by the input document and the second is the number of conceptual relation the input document covers towards any document class. With a given data set Ds, the method estimates the SCRS measure for each document Di towards available class of documents. As a result, a class with maximum SCRS is identified and the document is indexed on the selected class. The SCRS measure is measured according to the semantic relevancy of input document towards each document of any class. Similarly, the input query has been measured for Query Relational Semantic Score (QRSS) towards each class of documents. Based on the value of QRSS measure, the document class is identified, retrieved and ranked based on the QRSS measure to produce final population. In both the way, the semantic measures are estimated based on the concepts available in semantic ontology. The proposed method had risen efficient result in indexing as well as search efficiency also has been improved.

웹 문서 분석에 근거한 유해 웹 문서 검출 (Detecting Harmful Web Documents Based on Web Document Analyses)

  • 김광현;최정미;이준호
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.683-688
    • /
    • 2005
  • 인터넷에 공개된 수 많은 웹 문서들에는 유익한 정보를 제공하는 웹 문서들뿐만 아니라, 음란 정보와 관련된 불건전한 유해 웹 문서들이 다수 포함되어 있으며, 본 연구에서는 이러한 유해 웹 문서들을 효과적으로 검출할 수 있는 방법을 제안한다. 즉, 유해 웹 문서들의 분석을 통하여 유해 웹 문서 선정을 위한 평가 항목들을 도출하고, 각 평가 항목별 유해 점수 부여를 위한 평가 기준을 제시한다. 그리고, 유해 점수들의 총합이 임계값 이상인 웹 문서를 유해 웹 문서로 검출한다. 본 연구의 결과는 유해 웹 문서들로부터 이용자를 보호하고 인터넷 사용의 안전성을 향상시키는데 기여할 것으로 기대된다.

웹 캐시에서 사이트의 인기도에 의한 도큐먼트 교체정책 (Document Replacement Policy by Site Popularity in Web Cache)

  • 유행석;장태무
    • 한국게임학회 논문지
    • /
    • 제3권1호
    • /
    • pp.67-73
    • /
    • 2003
  • 대부분의 웹 캐시는 도큐먼트를 기반으로 하여 캐시 내에 임시적으로 도큐먼트를 저장하고 사용자의 요청이 있을 때 그에 해당된 도큐먼트가 캐시 내에 존재하면 그 도큐먼트를 사용자에게 전송해 주고, 캐시 내에 존재하지 않을 때에는 새로운 도큐먼트를 서버에게 요청하여 캐시 내에 복사를 하고 사용자에게 되돌려 준다. 이때 캐시의 용량 초과로 인해 새로운 도큐먼트를 기존의 도큐먼트와 교체하기 위해 도큐먼트 교체정책(replacement policy)을 사용한다. 일반적인 교체정책에는 도큐먼트를 기반으로 한 LRU기법이나 UFU기법 등이 있고, 그 밖의 여러 가지 교체정책을 사용하여 캐시내의 도큐먼트를 효과적으로 교체한다. 하지만, 위의 교체정책은 사이트의 인기도를 고려하지 않고 도큐먼트 요청 시간과 빈도수 만을 고려하여 교체정책을 수행한다. 따라서 본 논문에서는 요청이 빈번한 도큐먼트와 사이트의 인기도를 고려한 교체정책을 사용하여 요청이 빈번하지 않은 도큐먼트를 효과적으로 교체함으로써 캐시의 적중률(hit-ratio)을 높이고, 캐시의 내용을 효과적으로 관리할 수 있는 현대적인 네트워크 환경에 적합한 도큐먼트 교체정책인 사이트의 인기도를 고려한 도큐먼트 교체 정책을 제시한다.

  • PDF

웹 사이트의 인기도에 의한 도큐먼트 교체정책 (Document Replacement Policy by Web Site Popularity)

  • 유행석;장태무
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.227-232
    • /
    • 2008
  • 일반적으로 웹 캐시는 도큐먼트를 기반으로 하여 캐시 내에 임시적으로 도큐먼트를 저장하고 사용자의 요청이 있을 때 그에 해당된 도큐먼트가 캐시 내에 존재하면 그 도큐먼트를 사용자에게 전송해 주고, 캐시 내에 존재하지 않을 때에는 새로운 도큐먼트를 서버에게 요청하여 캐시 내에 복사를 하고 사용자에게 되돌려 준다. 이때 캐시의 용량 초과로 인해 새로운 도큐먼트를 기존의 도큐먼트와 교체하기 위해 도큐먼트 교체정책(replacement policy)을 사용한다. 일반적인 교체정책에는 도큐먼트를 기반으로 한 LRU기법이나 LFU기법 등이 있고, 그 밖의 여러 가지 교체정책을 사용하여 캐시내의 도큐먼트를 효과적으로 교체한다. 하지만. 위의 교체정책은 사이트의 인기도를 고려하지 않고 도큐먼트 요청 시간과 빈도수 만을 고려하여 교체정책을 수행한다. 따라서 본 논문에서는 요청이 빈번한 도큐먼트와 사이트의 인기도를 고려한 교체정책을 사용하여 요청이 빈번하지 않은 도큐먼트를 효과적으로 교체함으로써 캐시의 적중률(hit-ratio)을 높이고, 캐시의 내용을 효과적으로 관리할 수 있는 현대적인 네트워크 환경에 적합한 도큐먼트 교체정책인 웹사이트의 인기도를 고려한 도큐먼트 교체 정책을 제시한다.

  • PDF

AN EFFICIENT DENSITY BASED ANT COLONY APPROACH ON WEB DOCUMENT CLUSTERING

  • M. REKA
    • Journal of applied mathematics & informatics
    • /
    • 제41권6호
    • /
    • pp.1327-1339
    • /
    • 2023
  • World Wide Web (WWW) use has been increasing recently due to users needing more information. Lately, there has been a growing trend in the document information available to end users through the internet. The web's document search process is essential to find relevant documents for user queries.As the number of general web pages increases, it becomes increasingly challenging for users to find records that are appropriate to their interests. However, using existing Document Information Retrieval (DIR) approaches is time-consuming for large document collections. To alleviate the problem, this novel presents Spatial Clustering Ranking Pattern (SCRP) based Density Ant Colony Information Retrieval (DACIR) for user queries based DIR. The proposed first stage is the Term Frequency Weight (TFW) technique to identify the query weightage-based frequency. Based on the weight score, they are grouped and ranked using the proposed Spatial Clustering Ranking Pattern (SCRP) technique. Finally, based on ranking, select the most relevant information retrieves the document using DACIR algorithm.The proposed method outperforms traditional information retrieval methods regarding the quality of returned objects while performing significantly better in run time.

문서중심 및 웹기반 노심설계 자동화 시스템 개발 (Development of a Document-Oriented and Web-Based Nuclear Design Automation System)

  • 박용수;김종경
    • Journal of Information Technology Applications and Management
    • /
    • 제11권4호
    • /
    • pp.35-47
    • /
    • 2004
  • The nuclear design analysis requires time-consuming and erroneous model-input preparation. code run. output analysis and quality assurance process. To reduce human effort and improve design quality and productivity. Innovative Design Processor (IDP) is being developed. Two basic principles of IDP are the document-oriented desigll and the web-based design. The document-oriented design is that. if the designer writes a design document called active document and feeds it to a special program. the final document with complete analysis. table and plots is made automatically. The active documents can be written with Microsoft Word or created automatically on the web. which is another framework of IDP. Using the proper mix-up of server side and client side programming under the LAMP (Linux/Apache/MySQL/PHP) environment. it e design process on the web is modeled as a design wizard style so that even a novice designer makes the design document easily. This automation using the IDP is now being implemented for all the reload design of Korea Standard Nuclear Power Plant (KSNP) type PWRs. The introduction of this process will allow large reduction in all reload design efforts of KSNP and provide a platform for design and R&D tasks of KNFC.

  • PDF

초고속정보통신망상에서 웹 기반의 전자문서교환(EDI) 시스템 구현 (The Development of Web Browsed Electronic Document Interchanges System)

  • 김낙현;노명호
    • 산업공학
    • /
    • 제13권2호
    • /
    • pp.258-265
    • /
    • 2000
  • EDI(Electronic Data Interchange) allows the exchange of business information and computer-processable data in a standard, structured format electronically between organizational entities. EDI handles the restructuring of a business document into the standard format so that it can be transmitted from one computer to another. This paper identifies features and technologies of web browsed electronic document exchange system as follows 1) the fundamental technologies that consists of the EDI technologies, the Internet/Web technologies, the security/authentication techniques, and the XML implementation technologies. 2) the functions that consists of the document standards, transfer technology of the document, encryption and authentication 3) the implemented Web-EDI systems that consists of document generation module, encryption and authentication module, transfer module, acknowledgement module, administration module. In this paper, the Web-based EDI system implemented from the researched technologies will be installed on the EDI servers owned by corporate customers and enable the exchange of documents between each installed companies.

  • PDF

엔트로피를 기반으로한 Web 문서들의 복잡도 척도 (A Complexity Metric for Web Documentation Based on Entropy)

  • 김갑수
    • 정보교육학회논문지
    • /
    • 제2권2호
    • /
    • pp.260-268
    • /
    • 1998
  • 본 연구에서는 HTML이나 XML로 작성한 Web 문서들의 복잡도를 측정하는 모델을 제안한다, 문서들의 복잡도는 문서들을 이해하는 데 밀접한 영향을 미치고, 이 이해도가 높은 Web 문서들은 결국 WEI에 좋은 효과를 거둘 수 있다. 본 연구에서 제안한 복잡도는 Web 문서들 간의 주고받는 정보의 흐름의 정도를 표현하기 위하여 엔트로피의 함수를 이용한다. 제안한 문서 복잡도는 문서들간의 정보 이동 관계에 의해서 문서들 내의 정보 흐름을 측정한다. 논 연구에서 제안한 문서 복잡도의 타당도는 Weyuker가 제안한 프로그램의 복잡도 평가 방법을 이용하여 평가하였고, 실제 문서들의 복잡도를 측정하였다. 또한 문서화일의 수와 문서 복잡도간의 상관관계를 분석하여 본 연구에서 제안한 문서 복잡도의 효율성을 제시하였다.

  • PDF

Efficient Document Replacement Policy by Web Site Popularity

  • Han, Jun-Tak
    • International Journal of Contents
    • /
    • 제3권1호
    • /
    • pp.14-18
    • /
    • 2007
  • General replacement policy includes document-based LRU or LFU technique and other various replacement policies are used to replace the documents within cache effectively. But, these replacement policies function only with regard to the time and frequency of document request, not considering the popularity of each web site. In this paper, we present the document replacement policies with regard to the popularity of each web site, which are suitable for modern network environments to enhance the hit-ratio and efficiently manage the contents of cache by effectively replacing documents on intermittent requests by new ones.