• 제목/요약/키워드: Web Document

검색결과 757건 처리시간 0.029초

유해어 필터링과 SVM을 이용한 유해 문서 분류 시스템 (Harmful Document Classification Using the Harmful Word Filtering and SVM)

  • 이원휘;정성종;안동언
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.85-92
    • /
    • 2009
  • 오늘날 웹이 일반화되면서 사람들은 원하는 정보를 웹을 통해 얻고, 또한 제공하고 있다. 웹이 다양한 정보의 제공과 습득의 장이라는 편의성을 제공하고 있지만, 반면에 너무 많은 정보, 무분별한 유해 정보의 범람 등 여러 가지 문제를 내포하고 있다. 현재 유해 웹 문서를 분류하기 위한 다양한 방법이 연구되고 사용되고 있다. 그러나 각각의 방법들이 갖는 단점들로 인해 획기적인 성과를 내지 못하고 있다. 본 논문에서는 유해 정보로부터 사회적으로 보호를 받아야 할 사용자들을 보호하기 위한 수단으로 유해 웹 문서 차단 방법에 대해 제안하고자 한다. 본 논문에서는 키워드 필터링과 SVM 알고리즘을 이용한 2단계 분류 과정을 통해 분류의 정확률을 높이고자 하였다.

Xpath에 의한 인터넷 문서의 레이아웃 추출 방법에 관한 연구 (A Study on Layout Extraction from Internet Documents Through Xpath)

  • 한광록;선복근
    • 한국콘텐츠학회논문지
    • /
    • 제5권4호
    • /
    • pp.237-244
    • /
    • 2005
  • 현재 뉴스 데이터 등 대부분의 인터넷 문서는 일정한 템플릿을 기반으로 작성되고 있으며 템플릿은 메인 데이터 이외에 인덱스, 광고, 헤더데이터 등 정보검색에 도움이 되지 않는 형태로 구성되어 있다. 이는 인터넷 문서를 정보검색의 데이터로서 사용하려고 할 때 적합한 형태가 아니다. 그러므로 다양한 정보검색 분야에서 인터넷 문서를 처리하기 위해선 광고, 페이지 인덱스 등의 부가정보를 분별해야 한다. 따라서 본 논문에서는 웹페이지의 레이아웃에 영향을 미치는 블럭 태그의 특징과 구조를 파악하고 웹페이지간의 거리를 계산하여, 웹페이지의 레이아웃을 검출하는 방법을 제안한다. 실험결과 1000개의 문서 중 640개를 분류했으며, 평균 64%의 recall 수치를 얻을 수 있었다. 이 방법을 데이터 추출, 문서요약 등의 정보검색 분야의 전처리 과정에 적용할 경우 문서의 자동화 처리 시간을 감소시키고 처리의 효율성을 높일 수 있을 것으로 기대된다.

  • PDF

XML 기반의 대용량 유사 문서 편집기/변환기 구현 (Implementation of an XML-Based Editor/Transformer for Large Volume of Similar Documents)

  • 황인준
    • 한국전자거래학회지
    • /
    • 제9권1호
    • /
    • pp.21-38
    • /
    • 2004
  • 최근 웹이 보편화되면서 웹은 이제 거대한 정보의 보고로서 중요한 의미를 가지게 되었다. 현재 웹 상에 존재하는 많은 문서들은 HTML로 작성되어 있다. HTML은 간단하고 배우기가 쉬운 반면, 고정된 태그 등으로 정보 검색에 있어서 비효율적이다. 이러한 단점을 보완하기 위해 XML이 제안되어 현재 다양한 응용에 활용되고 있다. XML은 HTML에 비해 구조적이고 또한 정보의 의미를 적절하게 표현할 수 있어 정보 검색에 있어서 훨씬 효과적이다. 이러한 추세에 맞추어 본 논문에서는 XML 문서를 다양하고 효과적으로 생성하고 관리하는 XML 문서 관리기를 제안한다. 시스템의 특징으로는 첫째, 문서의 양식을 반영하는 폼을 제공하여 XML을 잘 모르는 일반 사용자도 쉽게 새로운 문서를 작성할 수 있게 하였으며 둘째, 이미 존재하는 비슷한 구조를 가지는 HTML문서에 대해서는 자동적인 XML문서로의 변환을 제공하여 기존의 HTML문서도 XML를 통해 관리와 검색을 가능하게 한다. 마지막으로 GUI상에서 문서의 DTD를 편집할 수 있게 하여 DTD 작성을 용이하게 하였다.

  • PDF

단어 빈도와 α-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템 (Recommendation System using Associative Web Document Classification by Word Frequency and α-Cut)

  • 정경용;하원식
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.282-289
    • /
    • 2008
  • 협력적 필터링을 개선하기 위하여 많은 기술들이 개발되고 실용화되었으나 아이템의 연관 관계를 정확하게 반영하지는 못한다. 본 논문에서는 협력적 필터링의 문제점을 보완하기 위하여 단어 빈도와 ${\alpha}$-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템을 제안한다. 제안된 방법은 형태소 분석을 통한 웹문서에서 단어를 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘을 이용해서 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 적용한다. 그리고 연관 규칙 하이퍼그래프 분할을 이용하여 연관 단어간의 유사도를 계산한다. 마지막으로 유사 클래스를 기반으로 연관 웹문서를 ${\alpha}$-cut을 이용하여 분류하고 개선된 코사인 유사도를 이용하여 유사도를 계산한다. 실험 결과 제안한 방법이 기존의 방법들보다 우수함을 확인하였다.

An Improved Combined Content-similarity Approach for Optimizing Web Query Disambiguation

  • Kamal, Shahid;Ibrahim, Roliana;Ghani, Imran
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.79-88
    • /
    • 2015
  • The web search engines are exposed to the issue of uncertainty because of ambiguous queries, being input for retrieving the accurate results. Ambiguous queries constitute a significant fraction of such instances and pose real challenges to web search engines. Moreover, web search has created an interest for the researchers to deal with search by considering context in terms of location perspective. Our proposed disambiguation approach is designed to improve user experience by using context in terms of location relevance with the document relevance. The aim is that providing the user a comprehensive location perspective of a topic is informative than retrieving a result that only contains temporal or context information. The capacity to use this information in a location manner can be, from a user perspective, potentially useful for several tasks, including user query understanding or clustering based on location. In order to carry out the approach, we developed a Java based prototype to derive the contextual information from the web results based on the queries from the well-known datasets. Among those results, queries are further classified in order to perform search in a broad way. After the result provision to users and the selection made by them, feedback is recorded implicitly to improve the web search based on contextual information. The experiment results demonstrate the outstanding performance of our approach in terms of precision 75%, accuracy 73%; recall 81% and f-measure 78% when compared with generic temporal evaluation approach and furthermore achieved precision 86%, accuracy 71%; recall 67% and f-measure 75% when compared with web document clustering approach.

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

문서 내용의 계층화를 이용한 문서 비교 방법 (Document Clustering Methods using Hierarchy of Document Contents)

  • 황명권;배용근;김판구
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2335-2342
    • /
    • 2006
  • 웹의 비약적인 성장으로 웹에는 무수한 정보를 축적하고 있으며, 특히 텍스트 문서는 인간에 의해 가장 쉽게 그리고 많이 이용되는 형식이라 하겠다. 텍스트 문서의 효율적 검색을 위해 많은 연구가 이루어졌으며, 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 유사한 문서를 의미적으로 찾아내기 위한 새로운 문서 분류의 척도를 제안하며 이를 적용하는 방법을 제시한다. 본 방법은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두며, 문서들간의 도메인 가중치와 도메인 내의 개념 일치도를 이용하여 유사도를 구한다.

XML 기반 교수-학생 학습지도 시스템의 설계 및 구현 (Design and Implementation of Lesson Plan System for teacher-student based on XML)

  • 최문경;김행곤
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1055-1062
    • /
    • 2002
  • 현재 교육현장에서 사용되고 있는 학습지도안 문서는 교육 정보의 체계적인 제공이 미흡하고 교수 개인이 모든 교수 활동에 필요한 지도안을 작성하는데는 어려움이 있으므로 많은 추가적인 시간과 노력이 필요하다. 네트워크가 확산되어 사용되고 있는 현 시점에서는 웹을 기반으로 한 학습지도안 작성이 더욱 요구되어 진다. 따라서, 웹에서 표준화된 XML을 이용하여 문서의 생성과 검색, 그리고 재사용이 가능하도록 제공함으로써, 교수자의 다양한 요구사항을 융통성 있게 수용할 수 있다. 본 논문에서는 학습지도안을 분석하여 공통 DTD(Document Type Definition)를 생성하고 공통 DTD를 통해 표준화된 XML(eXtensible markup Language) 문서를 제공한다. 시스템에서는 학습지도안을 쉽게 작성할 수 있는 에디터를 제공하고. 이미 작성된 학습지도안의 재사용성을 높이기 위해 검색 기능을 제공하고 있다. 검색으로는 구조기반, 패싯, 키워드 검색 방법을 제시하고 있으며, 작성된 학습지도안은 데이타베이스와 연동되어 구현되어진다. 따라서, XML을 이용하여 학습지도안을 작성함으로써 웹 상에서의 정보를 공유할 수 있고, 웹에서 학습지도안을 바로 작성함으로써 시간과 비용이 절약될 수 있으며. 또한 보다 향상된 학습 환경을 제공할 수 있다

WYSIWYG 환경에서 XML 문서 변환을 위한 XSLT 문서편집 시스템 (XSLT document editing for XML document conversion in WYSIWYG environment)

  • 차원준;박주상;이용준;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.500-503
    • /
    • 2003
  • 인터넷 상에서 데이터 교환의 표준으로 광범위하게 사용되고 있는 XML(extensible Markup Language)은 HTML(HyperText Markup Language) 등의 기존의 문서 작성 언어를 대치할 기술로 주목받고 있다. 이러한 XML의 가장 큰 특징은 문서의 구조적인 내용을 표함하는 논리정보와 문서의 스타일을 표현하는 물리적인 정보가 분리되었다는 점이다. 이에 W3C(World Wide Web Consortium)에서는 XML의 스타일과 데이터 변환을 위하여 HTML과 유사한 형식의 스타일 기능을 제공하는 XSL(eXtensible Stylesheet Language)을 권고하였다. 또한 XSL의 변환(XSLT : XSL Transformation)기능은 XML 문서를 다른 데이터 형식으로 변환해주는 기능을 제공하며, 다양한 문서 형식으로의 변환을 통해 스타일 정보를 기술할 수 있다. 그러나 국내에는 XSLT 기술을 이용한 XML 문서 변환 기술이 미비한 실정이며, XSLT 문서를 효율적으로 편집할 수 있는 솔루션에 대한 필요성이 대두되고 있다. 이에 본 논문은 XML 문서를 다양한 문서 형식으로 변환 및 출력이 가능하고, WYSIWYG 환경하에서 XSLT문서를 효율적으로 편집하고 저작할 수 있는 XSLT 문서편집 시스템을 설계 및 구현하였다.

  • PDF

INTEGRATION OF SSM AND IDEF TECHNIQUES FOR ANALYZING DOCUMENT MANAGEMENT PROCESSES

  • Vachara Peansupap;Udtaporn Theingkuen
    • 국제학술발표논문집
    • /
    • The 3th International Conference on Construction Engineering and Project Management
    • /
    • pp.725-731
    • /
    • 2009
  • Construction documents are recognized as an essential component for making a decision and supporting on construction processes. In construction, the management of project document is a complex process due to different factors such as document types, stakeholder involvement, document flow, and document flow processes. Therefore, inappropriate management of project documents can cause several impacts on construction work processes such as delay or poor quality of work. Several information and communication technologies (ICT) were proposed to overcome problems concerning document management practice in construction projects. However, the adoption of ICT may have some limitation on the compatibility of specific document workflow. Lack of understanding on designing document system may cause many problems during the use and implementation phase. Thus, this paper proposes the framework that integrates Soft System Methodology (SSM) concept and Integrated Definition Modeling Technique (IDEF) for analyzing document management system in construction project. Research methodology is classified as the case study. Five main construction building projects are selected as case studies. The qualitative data related to problems and processes are collected by interviewing construction project participants such as main contractors, owners, consultants, and designers. The findings from case study show the benefits of using SSM and IDEF. The use of SSM can help identify the problems in managing construction document in rich picture view whereas IDEF can illustrate the document flow in construction project in details. In addition, the idea of integrating these two concepts can be used to identify the root causes of process problems at the information level. As the results, this idea can be applied to analyze and design web-based document management system in the future.

  • PDF