• 제목/요약/키워드: document search

검색결과 382건 처리시간 0.025초

블로그 서비스 시스템을 위한 효과적인 중복문서의 검출 기법 (An Efficient Method for Detecting Duplicated Documents in a Blog Service System)

  • 이상철;이순행;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.50-55
    • /
    • 2010
  • 블로그 서비스 시스템에 존재하는 중복문서는 블로그 검색의 서비스 질과 성능을 저하시키는 요인 중 하나이다. 기존의 웹 페이지 환경에서와는 달리, 블로그 서비스 시스템에서는 각 문서의 생성이 매번 보고되기 때문에 문서 생성 시점에 중복 판정이 가능하다. 본 논문에서는 이 점에 착안하여 문서를 저장하는 시점에 해당 문서의 중복 여부를 판정하는 새로운 중복문서 검출 기법을 제안한다. 제안된 기법을 통하여 검출된 중복문서는 검색 엔진을 위한 인덱싱에 반영시키지 않음으로써 중복문서가 검색 결과에 반영되는 문제를 원천적으로 방지할 수 있다. 또한, 효과적인 중복문서 검출을 위하여 3가지 인덱싱 기법을 제안하며, 실제 블로그 데이터를 이용하여 각 인덱싱 기법 중 가장 효율적인 기법을 보인다.

건설현장 안전관리자의 과중한 서류업무 해소방안 연구 (Study on Solutions to the Heavy Work of Safety Managers at Construction Sites)

  • 조춘환
    • 한국건설안전학회 논문집
    • /
    • 제5권1호
    • /
    • pp.1-8
    • /
    • 2023
  • 본 연구의 목적은 국내 건설현장에서 안전관리자의 과중한 서류업무를 덜어줄 방법을 소개하고 안전사고 예방을 위해 소요시간을 감소할 수있는 업무효율화 방법을 제시하였다. 첫째, RPA 프로그램을 이용하여 안전서류 자동작성과 필요한 자료를 찾아주는 기능을 적용한다. 둘째, 교육장 및 현장에서 모바일을 활용한 서류작성이다. 사례로 안전교육 후 교육일지를 모발일 앱으로 작성하는 것을 제시하였다. 셋째, 필수 안전·보건서류의 누락방지를 위해 RPA가 제출 시기에 맞춰서 자동 warning 기능이 작동하는 기능으로 담당자에게 메일 또는 문자가 발송된다. 넷째, 검색기능인 'Google Cloud Search'를 통하여 빠르고, 정확도 높은 최신의 자료를 찾는 기능을 적용하였다.

효율적 구조 질의를 지원하는 바다-IV/XML 질의처리기의 설계 및 구현 (Design and Implementation of BADA-IV/XML Query Processor Supporting Efficient Structure Querying)

  • 이명철;김상균;손덕주;김명준;이규철
    • 정보기술과데이타베이스저널
    • /
    • 제7권2호
    • /
    • pp.17-32
    • /
    • 2000
  • As XML emerging as the Internet electronic document language standard of the next generation, the number of XML documents which contain vast amount of Information is increasing substantially through the transformation of existing documents to XML documents or the appearance of new XML documents. Consequently, XML document retrieval system becomes extremely essential for searching through a large quantity of XML documents that are storied in and managed by DBMS. In this paper we describe the design and implementation of BADA-IV/XML query processor that supports content-based, structure-based and attribute-based retrieval. We design XML query language based upon XQL (XML Query Language) of W3C and tightly-coupled with OQL (a query language for object-oriented database). XML document is stored and maintained in BADA-IV, which is an object-oriented database management system developed by ETRI (Electronics and Telecommunications Research Institute) The storage data model is based on DOM (Document Object Model), therefore the retrieval of XML documents is executed basically using DOM tree traversal. We improve the search performance using Node ID which represents node's hierarchy information in an XML document. Assuming that DOW tree is a complete k-ary tree, we show that Node ID technique is superior to DOM tree traversal from the viewpoint of node fetch counts.

  • PDF

문단 가중치 분석 기반 본문 영역 선정 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;유성종;김도안;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.462-463
    • /
    • 2018
  • 기존의 문서 분석 시스템들은 형태소 분석기나 TF-IDF 기법을 통해 단어 위주의 분석을 진행하였다. 이러한 시스템들은 키워드들의 가중치를 계산하여 주요 키워드를 도출할 수 있는 장점이 있다. 이에 반해 문서의 내용을 분석하기에는 구조적인 한계로 인해 부적합한 실정이다. 이를 해결하기 위해 본 논문에서 제안하는 알고리즘은 문서 내에 있는 문단들의 가중치를 계산한 뒤 문단들을 영역별로 분할한다. 그리고 분할된 영역별로 중요도를 계산하여 해당 문서 내에 가장 중요한 문단들이 있는 영역을 사용자에게 알려준다. 이를 통해 사용자는 기존의 문서 분석 시스템들을 사용할 때보다 문서를 분석하기에 적합한 서비스를 제공받을 것으로 사료된다.

  • PDF

실시간 경매정보 비교 검색을 위한 모니터링 에이전트 시스템 (A Monitoring Agent System for the Comparative Information Search in Real Time Auction)

  • 김철기;이상용
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.1-9
    • /
    • 2001
  • 인터넷 전자상거래 기술의 발달에 따라 인터넷 경매 시장이 급속히 성장하고 있다. 인터넷 경매를 위하여 사용자는 수시로 경매 사이트를 방문하고, 경매정보를 모니터링하며, 또한 최종 가격을 평가하려고 시도한다. 그러나 사용자가 이차 같은 일들을 수작업으로 수행하는 것은 너무 비효율적이었다. 본 논문에서는 실시간 경매에서 비교 정보 검색과 사례 베이스 검색을 위한 에이전트 시스템 RAMAS(Real-Time Auction Information Monitoring Agent System)를 구현하였다. RAMAS는 사용자에게 여러 경매 사이트로부터 실시간으로 경매 정보를 제공하며, 사례 베이스로부터 적절한 가격정보도 제공하게 된다. 본 시스템을 이용하면 판매자와 구매자는 실시간 경매정도와 적절한 가격정보를 얻을 수 있다 따라서 그들은 부당한 손실 없이, 보다 효율적으로 적절한 가격에 도달할 수 있다.

  • PDF

SSD에서의 시맨틱 파일 검색을 위한 확장된 속성 제공의 로그기반 파일시스템 (Attribute-Rich Log-Structured Filesystem for Semantic File Search on SSD)

  • 기안호;강수용
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권2호
    • /
    • pp.241-252
    • /
    • 2011
  • 운영체제의 다른 부분이나 저장장치, 매체의 변화에 비해 파일시스템은 지난 수십 년 간 그 발전 속도가 더딘 편이다. 그러나 데이터의 증가에 따라 파일의 개수는 기하급수적으로 증가하고 있으며, 이렇게 늘어난 파일들에 대해 검색을 효율적으로 수행하기 위한 새로운 파일시스템 구조에 대한 연구가 최근 파일에 대한 시맨틱 검색을 하고자 하는 요구와 맞물려 주목 받고 있다. 하지만 이러한 연구는 저장 장치와 바로 맞닿는 계층이 아닌 더 상위 계층에서만 이루어지고 있어 기존의 하드디스크와는 다른 특성을 지니는 플래시 메모리 기반의 저장장치인 SSD에 최적화를 시키기 위한 노력으로 이어지진 않았다. 논문에서는 다중 로깅 지점이라는 SSD의 특성을 활용한 로그기반 파일시스템이 SSD에서 얻는 성능상의 이점을 활용하여 새로운 요구사항인 시맨틱 파일 검색까지 추가 비용 없이 지원하는 파일시스템을 제안한다.

항공기 통합기술정보시스템(ITIS) 개발 및 운용 (Development and Operation of Integrated Technical Information System(ITIS) for an Aircraft Development)

  • 정준영;이준우;김천영
    • 한국콘텐츠학회논문지
    • /
    • 제6권2호
    • /
    • pp.75-83
    • /
    • 2006
  • 항공기 체계부에서는 연구개발 과정에서 발생되는 기술자료에 대해서 데이터베이스 관리시스템을 이용하여 체계적으로 관리하는 기술자료 관리시스템을 운용하였으며, 수행중인 항공기 개발 사업에 프로젝트별로 연구개발 기술자료를 관리하였다. 그러나 사업별로 분리하여 사용자 관리 및 기술자료를 관리함에 따라 업무메모 워크플로 및 기술자료 검색 등에 문제점을 야기하였으며, 이에 따라 사업별 기술자료 관리시스템을 통합 관리할 수 있는 웹기반 통합기술정보시스템을 개발하였다. 본 시스템의 구축 및 운용으로 사용자 및 권한을 관리하여 사업별로 접근할 수 있고, 통합기술정보시스템의 통합 화면에서 각 사용자별로 필요한 업무메모 워크플로 및 기술자료 검색을 효율적으로 수행할 수 있어 사업별 기술자료 관리 및 활용 등 연구 생산성을 극대화하였다.

  • PDF

온톨로지 매핑 기반 엔지니어링 정보 검색 (Engineering Information Search based on Ontology Mapping)

  • 정민;서효원
    • 한국정밀공학회지
    • /
    • 제23권5호
    • /
    • pp.30-36
    • /
    • 2006
  • The participants in collaborative environment want to get the right information or documents which are intended to find. In general search systems, documents which contain only the keywords are retrieved. For searching different word-expressions for the same meaning, we perform mapping before searching. Our mapping-based search approach has two parts, ontology-based mapping logic and ontology libraries. The ontology-based mapping consists of three steps such as character matching (CM), definition comparing (DC) and similarity checking (SC). First, the character matching is the mapping of two terminologies that have identical character strings. Second, the definition comparing is the method that compares two terminologies' ontological definitions. Third, the similarity checking pairs two terminologies which were not mapped by two prior steps through evaluating the similarity of the ontological definitions. For the ontology libraries, document ontology library (DOL), keyword ontology library (KOL), and mapping result library (MRL) are defined. With these three libraries and three mapping steps, an ontology-based search engine (OntSE) is built, and a use case scenario is discussed to show the applicability.

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

Study on the Environment Information Providing Method based on Spatial Information Document

  • Choi, Byoung Gil;Na, Young Woo;Kim, Sung Pyo
    • 한국측량학회지
    • /
    • 제34권2호
    • /
    • pp.185-194
    • /
    • 2016
  • The purpose of this study is to present a method to provide environment information based on spatial information document. At present, a lot of spatial information, including environment information, is being produced, but separate software or system is required for the user to acquire the information. In particular, in the case of environment information, various types of information are being produced, such as ecology, vegetation and measurement network data. Therefore, it is necessary to present the form and the making method of spatial information document that allows using environment information as spatial information without separate software or system. To provide spatial information document-based environment information, types and forms of environment information, data format and offering methods produced by the government, in particular, the Ministry of Environment and the local governments, are analyzed. 12 fields are classified and the form of produced data is GIS DB, measurement network data, text data and so on. With decrease of paper maps, spatial information document that offers display by layer, coordinate data, attribute data, distance and area measurement, location search by coordinates, GPS location linkage and location display on the map is presented to increase utilization of geo-environment information maps. Finally, the standard document specification based on spatial information document is presented in consideration of usability and readability in order to provide a variety of environment information without separate software or system.