• 제목/요약/키워드: Document Analysis

검색결과 1,173건 처리시간 0.033초

연관분석을 이용한 효과적인 표절검사 및 문서분류에 관한 연구 (A Study on Plagiarism Detection and Document Classification Using Association Analysis)

  • 황인수
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제23권3호
    • /
    • pp.127-142
    • /
    • 2014
  • Plagiarism occurs when the content is copied without permission or citation, and the problem of plagiarism has rapidly increased because of the digital era of resources available on the World Wide Web. An important task in plagiarism detection is measuring and determining similar text portions between a given pair of documents. One of the main difficulties of this task is that not all similar text fragments are examples of plagiarism, since thematic coincidences also tend to produce portions of similar text. In order to handle this problem, this paper proposed association analysis in data mining to detect plagiarism. This method is able to detect common actions performed by plagiarists such as word deletion, insertion and transposition, allowing to obtain plausible portions of plagiarized text. Experimental results employing an unsupervised document classification strategy showed that the proposed method outperformed traditionally used approaches.

과학기술분야 문헌제공서비스의 트랜잭션 데이터 분석 연구 (An Analysis of Transaction Data of Document Delivery Service in Science & Technology Field)

  • 김홍렬
    • 정보관리학회지
    • /
    • 제21권2호
    • /
    • pp.169-187
    • /
    • 2004
  • 미래 도서관의 패러다임이 정보소장에서 정보접근으로 변화됨에 따라 도서관상호협력과 문헌제공서비스의 중요성이 증가하고 있다. 이를 위하여 개별 도서관들은 자료의 구입예산을 절감하고 도서관정보서비스의 질적인 향상을 물론 이용자의 정보서비스에 대한 만족도를 제고한다는 점에서 문헌제공서비스의 활용은 상당한 장점이 있다. 본 연구는 문헌제공서비스의 효과적인 수행과 이용을 위한 국내 이용자들의 문헌제공서비스 트랜잭션 데이터 분석을 통하여 문헌제공서비스의 이용추이와 동향을 예측하고, 여기에 나타난 그들의 요구변화를 검토하여 국내 도서관 및 정보센터의 문헌제공서비스의 질적인 향상과 이용자 만족도 제고에 사용할 수 있는 근거 자료를 제시하는데 그 목적이 있다. 이를 위하여 KISTI-DDS의 실제 이용데이터를 활용하여 문헌제공서비스의 연도별, 지역별, 이용계층별 차이를 분석하였으며, 자료유형별 복사추이도 관찰하였다. 또한 이용자들이 원문복사를 제공하는 복사 제공기관과 원문입수방법을 검토하고 연도별, 이용계층별로 의미있는 차이가 있는지를 분석하였다.

Investigation on Uncertainty in Construction Bid Documents

  • Shrestha, Rabin;Lee, JeeHee
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.67-73
    • /
    • 2022
  • Construction bid documents contain various errors or discrepancies giving rise to uncertainties. The errors/discrepancies/ambiguities in the bid document, if not identified and clarified before the bid, may cause dispute and conflict between the contracting parties. Given the fact that bid document is a major resource in estimating construction costs, inaccurate information in bid document can result in over/under estimating. Thus, any questions from bidders related to the errors in the bid document should be clarified by employers before bid submission. This study aims to examine the pre-bid queries, i.e., pre-bid request for information (RFI), from state DoTs of the United States to investigate error types most frequently encountered in bid documents. For the study, around 200 pre-bids RFI were collected from state DoTs and were classified into several error types (e.g., coordination error, errors in drawings). The analysis of the data showed that errors in bill of quantities is the most frequent error in the bid documents followed by errors in drawing. The study findings addressed uncertainty types in construction bid documents that should be checked during a bid process, and, in a broader sense, it will contribute to advancing the construction management body of knowledge by clarifying and classifying bid risk factors at an early stage of construction projects.

  • PDF

DEVELOPMENT OF BEST PRACTICE GUIDELINES FOR CFD IN NUCLEAR REACTOR SAFETY

  • Mahaffy, John
    • Nuclear Engineering and Technology
    • /
    • 제42권4호
    • /
    • pp.377-381
    • /
    • 2010
  • In 2007 the Nuclear Energy Agency's Committee on the Safety of Nuclear Installations published Best Practice Guidelines for the use of CFD in Nuclear Reactor Safety. This paper provides an overview of the document' contents and highlights a few of its recommendations. The document covers the full extent of a CFD analysis from initial problem definition and selection of an appropriate tool for the analysis, through final documentation of results. It provides advice on selection of appropriate simulation software, mesh construction, and selection of physical models. In addition it contains extensive discussion of the verification and validation process that should accompany any high-quality CFD analysis.

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

블록의 속성과 질감특징을 이용한 문서영상의 블록분류 (Block Classification of Document Images by Block Attributes and Texture Features)

  • 장영내;김중수;이철희
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.856-868
    • /
    • 2007
  • 본 논문에서는 블록의 속성과 질감특징을 이용하여 효과적인 블록 분류 방법을 제안하였다. 제안한 방법에서는 먼저 명암도 문서영상을 이진화한 후, 평활화 기법을 적용하여 블록의 위치정보와 본 논문에서 사용할 특징 중에 하나인 각 블록의 내부에 있는 작은 블록들의 최대 높이 값을 구하였다. 이 위치정보들을 이용하여 문서영상을 각 블록으로 분할한다. 이 블록의 명암도 블록영상에서 문서의 속성이 잘 반영된 (0,1) 방향의 공간 명암도 의존 행렬을 구하여 7가지 질감특징을 구하였다. 먼저 블록의 속성을 최소거리 규칙(Nearest Neighbor Rule)에 입력하여 문자와 비문자 영역으로, 상세분류를 위하여 7가지 질감특징을 이용하여 큰 문자, 작은 문자, 표, 그래픽 및 사진 등으로 구분함으로써 문서인식을 위한 구조 해석뿐만 아니라 다양한 응용 분야에 효과적으로 이용될 수 있도록 하였다.

  • PDF

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장 (Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification)

  • 이호경;양선;고영중
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1008-1014
    • /
    • 2016
  • 트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.

상호대차에 의한 원문복사서비스의 도서관 면책에 관한 연구 (A Study on Library Exemption of Document Delivery Service by Interlibrary Loan)

  • 홍재현
    • 정보관리학회지
    • /
    • 제22권1호
    • /
    • pp.21-45
    • /
    • 2005
  • 도서관 상호대차에 의한 원문복사서비스는 정보를 공동 이용하여 이용자의 정보요구를 충족시켜 주기 위한 진보된 형태의 서비스이다. 현재 상호대차에 의한 원문복사서비스의 면책 적용에 관해서는 해석이 분분하다. 본 연구의 목적은 Fax 및 Ariel 시스템을 이용한 원문복사의 저작권 문제에 관한 법적 해결 방안을 제시하는 데 있다. 이를 위하여 상호대차에 의한 원문복사서비스에 관한 국제적인 면책 적용의 동향을 검토하였다. 우리 현행저작권법에 입각한 원문복사서비스의 면책 적용에 대한 해석들을 분석하였고 문제점을 지적하였다. 이러한 분석 결과를 기초로 하여, 원문복사서비스와 관련한 현행 저작권법상의 도서관 면책 규정의 문제점을 해결하기 위한 법적 개정방안과 그 조문을 구체적으로 제시하였다. 따라서 본 연구가 제시한 법적 개정 방안은 2005년 또는 향후 도서관 면책 규정의 개정을 위한 기초 자료로 활용될 수 있을 것이다.

문서 분석 기반 주요 요소 추출 시스템 (Document Analysis based Main Requisite Extraction System)

  • 이종원;여일연;정회경
    • 한국정보통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.401-406
    • /
    • 2019
  • 본 논문에서는 XML 형태의 논문이나 보고서로 작성된 문서를 분석하는 시스템을 제안한다. 논문이나 보고서에서 지정한 키워드를 추출하고 이를 사용자에게 보여준 뒤 사용자가 해당 문서 내에서 검색을 원하는 키워드를 입력하면 각 키워드들을 포함하고 있는 문단들을 추출한다. 시스템은 사용자가 입력한 키워드들의 빈도수를 확인하고 가중치를 계산한 뒤 가중치가 가장 낮은 키워드만을 포함한 문단들을 제거한다. 또한, 정제된 문단들을 10개의 영역으로 나눈 뒤 영역별 문단들의 중요도를 계산하고 각 영역들의 중요도를 비교하여 가장 높은 중요도를 갖는 주요 영역을 사용자에게 알려준다. 이러한 특징들로 인해 제안하는 시스템을 활용할 경우 기존의 문서 분석 시스템을 활용하여 논문이나 보고서를 분석하는 것보다 압축률이 높은 형태로 주요 문단들을 제공받을 수 있다. 이로 인해 문서를 이해하는데 필요한 시간을 줄일 수 있을 것으로 사료된다.

텍스트 마이닝을 이용한 국내 기록관리학 분야 지적구조 분석 (Examining the Intellectual Structure of Records Management & Archival Science in Korea with Text Mining)

  • 이재윤;문주영;김희정
    • 한국문헌정보학회지
    • /
    • 제41권1호
    • /
    • pp.345-372
    • /
    • 2007
  • 이 연구에서는 텍스트 마이닝의 주요 기법인 문헌 클러스터링과 문헌 유사도 네트워크 분석을 적용하여 기록관리학 연구의 지적구조를 분석하였다. 대상 데이터는 2001년부터 2006년까지 발간된 국내 문헌정보학 영역의 대표적인 저널 5종에서 선정된 기록관리학 관련 논문 145건을 중심으로 분석하였다. 군집단위 지적구조 분석 결과, 국내에서 수행된 기록관리학 영역의 핵심적인 주제 영역은 <전자기록관리 디지털보존>, <기록관리정책 제도>, <기록물 기술/목록>, <기록관리학 영역/교육>이었으며, 문헌단위 지적구조 분석을 통하여서는 <디지털 아카이빙> 주제 영역이 중심을 이루고 있음을 확인할 수 있었다. 또한 시기별 분석을 통해서는 <기록정보서비스> 영역이 새롭게 등장하고 있음이 드러났다.