• 제목/요약/키워드: Web document

검색결과 759건 처리시간 0.023초

웹 문서상의 공간 텍스트 위치 맵핑과 질의 기법 (Techniques for Location Mapping and Querying of Geo-Texts in Web Documents)

  • 하태석;남광우
    • 한국산업정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.1-10
    • /
    • 2022
  • 웹 기술의 발전과 함께 대량의 웹 문서들이 생산되고 있다. 이 웹 문서에는 다양한 공간적 텍스트들을 포함하고 있으며, 이 텍스트들을 공간정보로 변환함으로서 공간질의로 텍스트 문서를 검색할 수 있는 기반이 된다. 이러한 공간 텍스트들에는 행정지명이나 관심 지역(POI)이름 뿐만이 아니라 우편번호나 지역 전화번호 등까지 폭넓은 영역으로 구성되어 있다. 이 논문은 웹 문서내 내에 존재하는 공간 텍스트 정보를 기반으로 위치를 맵핑 할 수 있는 알고리즘들을 제시하고 있다. 이 알고리즘들을 통해 웹 문서들을 일반 웹 단어 기반 문서 검색 뿐만 아니라, 지도상에서 공간 영역과 텍스트의 복합형태로 해당 지역을 설명하는 문서들을 검색할 수 있게 된다. 마지막으로 이 논문에서는 제안된 알고리즘들을 이용하여 웹 공간 텍스트 질의 시스템을 구현함으로써 유용함을 보였다.

강화학습을 사용한 개인화된 웹 검색 (Personalized web searching with Reinforcement Learning)

  • 이승준;장병탁
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.259-262
    • /
    • 2001
  • 본 논문에서는 사용자의 취향에 맞춰 특정 웹 문서를 탐색하는 개인화된 웹 검색기의 구현을 다룬다. 사용자의 취향은 사용자의 직접적인 평가와 사용자의 검색 과정을 통해 얻어지는 간접적인 평가를 사용한 강화 학습을 사용하여 학습된다. 웹 문서의 검색은 사용자의 취향과 현재 문서와의 관련 도를 보상으로 사용한 강화 학습을 통하여 이루어진다.

  • PDF

시공 PM 시스템(Construction PM 시스템)

  • 최성운
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2005년도 춘계학술대회
    • /
    • pp.137-146
    • /
    • 2005
  • This paper describes web-based construction project management and project document information flows within the construction industry. This study is to consider the practice for process improvement including reengineering and the engineering project practice. CCPM based on TOC is introduced.

  • PDF

인터넷 원거리출판의 응용과 PDF의 인쇄활용에 관한 연구 (A Study on the online of PDF Electronic Documents System)

  • 유영수;강영립;김병현;이광수
    • 한국인쇄학회:학술대회논문집
    • /
    • 한국인쇄학회 2001년도 국제학술발표회
    • /
    • pp.63-77
    • /
    • 2001
  • PDF(Portable Document Format) is a file format that Adobe advances postscritp technique and use in managing document information or electric publishing(internet, CD-ROM, DVD). PDF is a devised document type for being able to read and print anywhere, independent of OS, printer type, resolution, and the kind of computer etc. Because this includes a compressing function, it transfers document through a small size of file in internet or intranet. In addition, that is a file format has various advantages-sharing of information and transfering documents in on line or off line environment. In this paper, we developed electronic document system using PDF format. Electronic document system consists of filter, automatic indexing, special searching system and web server. The information used in this paper is database made using Zwon\`s DocuCom. The filter recognizes various kinds of document structure. And according to property of document, it produces ASCII output. In addition to processing various formats of document, the filter can extract keywords in documents of MS WORD, Excel, Powerpoint, PDF, CAD etc. This filter uses the structure of window printer drive and can extract the information for text, page, font type and size from relevant document. The automatic indexing recognizes the formatted tag of document form ASCII text produced by filter and extracts adequate keyword to structure and property of document. PDF electronic document systems proposed in this paper can be used in Internet, PC communication. Users can choose and read electronic documents by two ways. First, users can choose and read relevant books using PDF electronic document homepage. Second, users can use PDF integrated-search system. User can search after inputing keyword and choose reference field and type of data. But, now, PDF products of Adobe can\`t support the Korean character. If this problem is resolved, we thick that PDF applications system looks active. Although there is limited function in case of using Zwon DocuCom used in this study, we think that there isn\`t a great deal of difficulty in electronic document and building digital database.

  • PDF

XML-GDM을 기반으로 한 UML 클래스 다이어그램으로 사상을 위한 XML문서와 질의의 객체 모델링 (Object Modeling for Mapping from XML Document and Query to UML Class Diagram based on XML-GDM)

  • 박대현;김용성
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.129-146
    • /
    • 2010
  • 최근 다양한 분야에서 폭넓게 활용되고 있는 XML 문서는 유연하고도 개방적인 특성으로 인해 정보교환이나 전송을 위한 수단으로 널리 이용되고 있다. 한편 XML 문서를 위한 시각적, 직관적 질의 언어인 XML-GL은 질의에 대한 의미와 결과 문서의 구조를 시각적으로 표현할 수 있기 때문에 XML 문서에 대한 구조 검색과 정보의 공유가 용이하다. 그리고 UML은 정해진 표기법과 다양한 다이어그램을 이용하여 객체지향 분석과 설계를 위한 도구로 사용되고 있다. 따라서 본 논문은 XML-GL의 데이터 모델인 XML-GDM을 기반으로 표현된 XML 문서를 UML 클래스 다이어그램으로 사상하기 위한 새로운 객체 모델링 방안을 제안한다. 이를 통해서 XML 문서를 직관적인 방법으로 객체지향데이터로 변환하고 저장/관리할 수 있다. 또한 객체지향 검색방법을 적용하면 보다 효율적으로 XML 문서를 검색할 수가 있다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

네이버와 구글의 모바일 통합 검색 컨텐츠 평가 (Evaluation of Mobile Unified Search Contents of Naver and Google Korea)

  • 박소연
    • 한국도서관정보학회지
    • /
    • 제42권4호
    • /
    • pp.263-280
    • /
    • 2011
  • 본 연구에서는 국내 주요 검색 포털들의 전반적인 모바일 통합 검색 현황을 조사하고, 네이버와 구글의 모바일 통합 검색 컨텐츠를 분석, 평가하였다. 즉 이 연구에서는 네이버와 구글을 대상으로 검색 결과에 노출되는 문서 수, 검색 결과 문서들의 컬렉션별 분포, 작성 연도별 분포와 같은 특징을 조사하고, 문서의 적합도, 최신성, 신뢰도 등을 평가하였다. 또한 네이버의 통합웹 베스트와 통합웹, 구글의 베스트 웹문서와 웹문서의 품질을 비교하였으며, 문서의 순위와 문서의 적합도 간의 상관관계를 분석하였다. 본 연구의 결과는 향후 포털의 효과적인 모바일 통합 검색 서비스의 개발에 활용될 수 있을 것으로 기대된다.

단어빈도와 동시링크의 결합을 통한 웹 문서 클러스터링 성능 향상에 관한 연구 (Clustering of Web Document Exploiting with the Union of Term frequency and Co-link in Hypertext)

  • 이교운;이원희;박흠;김영기;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권3호
    • /
    • pp.211-229
    • /
    • 2003
  • 이 연구에서는 웹 문서가 갖고 있는 특성, 특히 웹 문서에 포함된 단어 수가 클러스터링 성능에 결정적인 영향을 미친다는 전제 하에, 웹 문서에 포함된 단어 수와 클러스터링 성능과의 관계를 밝힌 다음, 이 부분을 웹 문서의 동시인용 빈도를 이용해 보완할 수 있는 알고리즘을 제시한다. 이 연구에서는 네이버 디렉터리 중 '자연과학' 법주에 포함된 1,449개의 웹 문서를 대상으로 단어기반 클러스터링과 링크기반 클러스터링, 그리고 단어-링크 혼합 클러스터링 기법으로 클러스터링 해 보았으며, 그 결과를 네이버 디렉터리에 초기 할당된 법주와 비교해 보았다.

  • PDF

비즈니스 서비스 상호운용을 위한 WSDL의 확장 체계에 관한 연구 (The WSDL Framework Extension for Business Service Inter-Operation)

  • 이종옥;정민호
    • 한국전자거래학회지
    • /
    • 제13권4호
    • /
    • pp.17-32
    • /
    • 2008
  • 비즈니스 서비스 상호운용성을 지원하기 위해 W3C의 웹 서비스 명세인 WSDL을 확장한 비즈니스 서비스 문서(BSD, Business Service Document)를 설계하였다. WSDL이 소프트 웨어 컴포넌트의 상호운용성에 대한 포괄적인 표준을 제시하고, 용도와 목적에 따른 확장은 개별 사안으로 위임하고 있다. 이에 본 연구는 기존의 WSDL 대신 확장된 BSD를 활용하는 프레임워크를 비즈니스 웹 서비스 프레임워크(BWSF, Business Web Service Framework) 라 명명하고, BWSF의 핵심인 정확하고 유효하며 잘 짜여진 BSD 문서를 생성할 수 있는 BSD 생성기(BSD Creator)를 구축, 제시하였다. 본 논문의 결과물은 향후 산업별, 그룹별로 비즈니스 서비스 상호운용 체제를 구축하는데 기초가 될 것이며, 이를 활성화하는데 기여할 것으로 기대된다.

  • PDF

인터넷 정보 추출을 이용한 웹문서 구조화 (Web Site Construction Using Internet Information Extraction)