• 제목/요약/키워드: Similar Documents

검색결과 283건 처리시간 0.024초

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구 (A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research)

  • 박동진;최기석;이명선;이상태
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.54-62
    • /
    • 2009
  • 국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

연관분석을 이용한 효과적인 표절검사 및 문서분류에 관한 연구 (A Study on Plagiarism Detection and Document Classification Using Association Analysis)

  • 황인수
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제23권3호
    • /
    • pp.127-142
    • /
    • 2014
  • Plagiarism occurs when the content is copied without permission or citation, and the problem of plagiarism has rapidly increased because of the digital era of resources available on the World Wide Web. An important task in plagiarism detection is measuring and determining similar text portions between a given pair of documents. One of the main difficulties of this task is that not all similar text fragments are examples of plagiarism, since thematic coincidences also tend to produce portions of similar text. In order to handle this problem, this paper proposed association analysis in data mining to detect plagiarism. This method is able to detect common actions performed by plagiarists such as word deletion, insertion and transposition, allowing to obtain plausible portions of plagiarized text. Experimental results employing an unsupervised document classification strategy showed that the proposed method outperformed traditionally used approaches.

MCML 기반 모션캡처 데이터 저장 및 퍼지 기반 모션 검색 기법 (Storing and Retrieving Motion Capture Data based on Motion Capture Markup Language and Fuzzy Search)

  • 이성주;정현숙
    • 한국지능시스템학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-275
    • /
    • 2007
  • 모션 캡처 기술은 현실감 있는 캐릭터 동작을 얻기 위해 많이 사용되고 있지만, 모션 캡처 데이터의 상이한 포맷들로 인하여 효율적인 모션 데이터의 저장과 검색이 어려운 문제점을 가지고 있다. 본 논문에서는 상이한 형식의 모션 캡처 데이터를 통합하고 효과적으로 저장 및 검객하기 위한 프레임워크를 제안한다. 상이한 모션 캡처 데이터 포맷들을 통합하기 위한 XML 기반의 표준 포맷을 MCML(Motion Capture Markup Language)로 정의하고 있으며 서로 다른 포맷의 모션 캡처 데이터 파일을 하나의 단일화된 MCML 파일로 변환하여 관계형 데이터베이스 또는 XML 데이베이스에 저장함으로써 동일 데이터의 중복 저장 및 공유 문제를 해결한다. 모션캡처 데이터의 검색은 퍼지 문자열 검색(Fuzzy string searching) 기법에 의한 유사어 검색으로 특정 키워드를 포함하는 MCML 문서들을 찾거나 특정 위치의 시작 프레임에서 일련의 프레임들을 선택적으로 추출할 수 있는 모션클립(motion clips) 검색이 가능하도록 하였다.

A Study of Natural Language Plagiarism Detection

  • Ahn, Byung-Ryul;Kim, Heon;Kim, Moon-Hyun
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2005년도 6th 2005 International Conference on Computers, Communications and System
    • /
    • pp.325-329
    • /
    • 2005
  • Vast amount of information is generated and shared in this active digital As the digital informatization is vividly going on now, most of documents are in digitalized forms, and this kind of information is on the increase. It is no exaggeration to say that this kind of newly created information and knowledge would affect the competitiveness and the future of our nation. In addition to that, a lot of investment is being made in information and knowledge based industries at national level and in reality, a lot of efforts are intensively made for research and development of human resources. It becomes easier in digital era to create and share the information as there are various tools that have been developed to create documents along with the internet, and as a result, the share of dual information is increasing day in and day out. At present, a lot of information that is provided online is actually being plagiarized or illegally copied. Specifically, it is very tricky to identify some plagiarism from tremendous amount of information because the original sentences can be simply restructured or replaced with similar words, which would make them look different from original sentences. This means that managing and protecting the knowledge start to be regarded as important, though it is important to create the knowledge through the investment and efforts. This dissertation tries to suggest new method and theory that would be instrumental in effectively detecting any infringement on and plagiarism of intellectual property of others. DICOM(Dynamic Incremental Comparison Method), a method which was developed by this research to detect plagiarism of document, focuses on realizing a system that can detect plagiarized documents and parts efficiently, accurately and immediately by creating positive and various detectors.

  • PDF

신용장(信用狀) 거래관습(去來慣習)에 있어 서류치유원리(書類治癒原理)와 금반언법리(禁反言法理)의 적용방식(適用方式) : Banco General Ruminahui v. Citibank International 판례평석 (A Study on the Interpretation & Application of Documentary Cure and Estoppel Doctrine in Letter of Credit Transaction based on the Banco General Ruminahui v. Citibank International Case)

  • 김기선
    • 무역상무연구
    • /
    • 제13권
    • /
    • pp.515-536
    • /
    • 2000
  • This study analyzes the U.S. case law which challenges the legal conclusions of the district court with respect to the applicability, and effect, of the doctrine of waiver and estoppel in addition to the doctrine of documentary cure. The impliations are as follows. First, the documentary cure requirement can not be interpreted to mean early enough to allow the beneficiary to cure and represent the documents before the presentment deadline or expiry date of letter of credit. The mere fact that the presentment period expired before the completion of bank's review and notification process does not compel any conclusion about whether the examiner spent a reasonable amount of time examining the documents. Indeed, the reasonable time requirement does not imply that banks examine a presentation out of order or hurry a decision based upon particular needs or desires of a beneficiary. Secondly, even if the doctrine of waiver can apply to letter of credit governed by the strict compliance standard, a one-time acceptance of discrepant documents by a bank does not waive the bank's right to insist upon conforming documents in all subsequent letter of credit transactions between the bank and beneficiary. Revised UCC Article 5 is highly persuasive on this point: waiver of discrepancies by issuer or an applicant in one or more presentation does not waive similar discrepancies in a future presentation. Neither the issuer nor the beneficiary can reasonably rely upon honor over past waivers as a basis for concluding that a future defective presentation will justify honor.

  • PDF

데이터마이닝 기법 적용을 위한 공용 XML 구조 추출 알고리즘 (Common XML Structure Extracting Algorithm for Applying Data Mining Techniques)

  • 장민석;방현진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.1072-1076
    • /
    • 2005
  • 현재 구조화된 데이터 표현의 표준으로 XML 언어가 일반화되고 있는 경향으로 인해 데이터 마이닝 대상으로서의 XML의 중요성이 점증하고 있는 실정이다. 특히 XML 문서에 연관규칙(association rule)을 적용함으로써 원하는 정보를 추출하는 연구가 진행되어 왔다. 하지만 마이너가 유사한 XML 문서들로부터 효율적으로 정보를 얻어내는 방법에 대한 문제에 대해서는 별 진전이 없었다. 본 연구에서는 다양한 XML Schema를 적용하는 유사한 XML 문서들로부터 공용 XML 구조를 추출하는 방법을 제안하고자 한다. 이러한 공용 XML Schema는 다양한 XML 구조를 단일화함으로써 우리가 원하는 정보를 정확하고 효율적으로 얻어낼 수 있도록 도와주는 데이터 마이닝의 사전 작업으로서 중요하다고 판단된다. 본 논문에서는 다양한 XML Schema를 적용하는 유사한 XML 문서들로부터 공용 XML 구조를 추출하는 방법을 제시한다.

  • PDF

Principles of Risk Assessment: Overview of the Risk Assessment Process

  • Doull John
    • 대한예방의학회:학술대회논문집
    • /
    • 대한예방의학회 1994년도 교수 연수회(환경)
    • /
    • pp.402-403
    • /
    • 1994
  • There are three different approaches to chemical risk assessment which will be considered in this paper. The U.S. Environmental Protection Agency(EPA) Cancer Risk Assessment includes some of the approaches used by the International Agency for Research on Cancer (IARC). The Agency for Toxic Substances and Disease Registry (ATSDR) effort is an evaluated database approach similar to that used in the National Institute for Occupational Safety and Health (NIOSH) Criteria Documents and in the documentations prepared by the Occupational Safety and Health Administration (OSHA) for the Permissible Exposure Limits (PELs) and those of the American Conference of Governmental Industrial Hygienists (ACGIH) for the Threshold Limit Values (TLVs). A third approach is used by the Committee on Toxicology.

  • PDF

Health Promotion in Canada

  • George, Anne
    • Korean Journal of Health Education and Promotion
    • /
    • 제3권1호
    • /
    • pp.47-53
    • /
    • 2001
  • Canada has a rich history in the theory and development of the field of health promotion. Over 25 years ago, in 1974, the Canadian government produced the first government policy document that identified health promotion as a national strategy. The document, which came from the national Health Minister, was entitled A New Perspective on the Health of Canadians (Lalonde, 1974). It led the way for other governments to produce similar documents, and to many western countries embracing the ideas and ideals of health promotion.(omitted)

  • PDF

조선시대 고문서(古文書)에 사용된 종이 분석 (An Analysis of Papers used in Historical Manuscrips)

  • 손계영
    • 한국기록관리학회지
    • /
    • 제5권1호
    • /
    • pp.79-105
    • /
    • 2005
  • 본 연구는 조선시대의 고문서에 사용된 종이를 분석하여 그 특징을 고찰함에 그 목적을 두고 있다. 현존하는 종이 실물의 분석을 통하여 조선시대 고문서에 사용된 종이의 상태와 변화를 실질적으로 관찰해 보고자 한다. 분석대상은 문중에 소장하고 있는 고문서 1,504건으로, 그 종류는 17종 23항이다. 분석방법으로는 종이의 발형태(발초 발끈의 형태), 밀도, 섬유종류를 분석하는 방법을 시도하였다. 우선 발의 형태는 발초수와 발끈폭으로 나누어 관찰하였는데, 3cm내의 발초수는 크게 10개 내외의 경우와 17개 내외의 경우로 나누어진다. 17개 내외의 경우는 조선초기의 책지에서 보이는 발초수와 유사하나, 10개 내외의 경우는 그 사례가 드물다. 10개 내외의 발초수를 갖춘 것은 1933년 Dard Hunter의 조사에 보이는 억새발인 것으로 파악된다. 발초수를 시기적으로 살펴보면, 조선전기에 비해 중기부터 말기로 갈수록 발초가 더욱 촘촘해짐을 확인할 수 있다. 발끈폭은 상당히 불규칙적으로 나타나며, 이외에도 다양한 현상을 발견할 수 있다. 예를 들면, 발끈과 발끈 사이에 짧은 발끈이 있는 경우, 발끈이 이중으로 나타나는 경우, 발끈폭이 좁게 나타나는 경우 등이 그것이다. 발끈폭은 조선후기로 갈수록 좁아지는 현상을 보이는데, 특히 1800년대 이후에 확연히 좁아짐을 알 수 있다. 다음으로 밀도를 살펴보면, 문서종류마다 나타나는 평균밀도가 "탁지준절(度支準折)"에 기록된 종이 종류와 무관하지 않다. 종이 종류의 항목이 같은 문서는 서로 유사한 평균밀도를 보이며 초주지, 상품도련지, 하품도련지, 저주지의 순으로 밀도가 점점 낮아진다. 이외에도 같은 종류 문서의 밀도를 분석해 보면 당시에 문서를 둘러싼 다양한 이해관계를 알 수 있다. 마지막으로 문서지에 사용된 식물섬유의 종류를 살펴보았다. "탁지준절"에서 구분한 상품도련지, 하품도련지, 초주지, 저주지를 사용한 각 문서지의 섬유를 관찰한 결과, 모두 같은 형태의 닥섬유임을 알 수 있다. 이는 문서지 제조에 사용된 종이가 식물섬유의 차이에 의해서 구분되었던 것이 아니라, 제작 가공방법 등의 차이로 구분되었음을 알려주는 것이다. 문서의 작성목적에 따라 종이의 종류를 다르게 사용하고, 시기에 따라서도 종이의 특징이 다른 양상으로 나타난다. 본 연구를 통해서 책지(冊紙)와 문서지(文書紙)의 비교를 할 수 있고, 중국의 고대 종이와 조선시대 종이의 비교도 가능하게 되었다. 이와 같은 연구를 통해 당시의 종이 종류와 문서종류별 시대별 변화과정을 구체적으로 이해할 수 있는 계기가 되리라 믿는다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.