• Title/Summary/Keyword: 원본 문서 추출

Search Result 17, Processing Time 0.024 seconds

Plagiarism Detected Source Retrieval and Text Alignment (표절 원본 문서 추출 및 표절 위치 탐색 기법)

  • Lee, Hyun-Young;Jeon, Seung-Cheol;Kang, Yu-Jin;Kim, Seung-Hwan;Lee, Are-Mi;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.187-192
    • /
    • 2014
  • 인터넷과 스마트기기 발전으로 정보에 대한 접근이 쉬워짐에 따라 다른 문서에 대한 표절 행위가 쉽게 이루어지고 있습니다. 그리고 표절 검사를 수행하는데 시간적, 인적, 공간적 낭비가 이루어진다. 이러한 낭비와 표절에 대한 경각심을 일으키고자 본 논문에서는 표절 검사 속도 향상을 위한 표절 원본 문서 추출(source retrieval)과 추출된 문서의 단어를 이용하는 표절 위치 탐색(text alignment)기법을 이용하여 표절구간을 찾는 방법을 제안한다. 본 논문의 표절 원본 문서 추출 및 표절 위치 탐색 기법을 활용하면 표절 검사의 시간과 정확도가 향상될 것으로 기대한다.

  • PDF

A Model for XML Data Conversion with Style Editor (XSL 편집기를 이용한 데이터 변환 모델)

  • Lee, Eun-Jung;Woo, Gyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1119-1122
    • /
    • 2001
  • XML 데이터의 스타일 편집기 시스템을 이용한 문서의 변환 방법을 소개한다. 스타일 편집을 위한 XSL 정보는 XML 데이터에서 스타일을 적용할 부분을 선택하고 적용할 스타일을 기술하는데, 적용 결과는 원본 XML 문서에서 일부를 추출하는 효과가 된다. 본 논문에서는 이 때 추출되는 XML 문서의 부분을 새로운 문서로 생성하는 XSLT 의 자동 생성 알고리즘을 제안하였다. 이 때 생성된 XSLT 코드에 의해 XML 문서를 변환한 결과가 다음과 같은 성질을 만족함을 보였다. 1) 변환된 결과 문서에 편집의 결과인 XSL 스타일을 그대로 적용할 수 있으며, 2) 결과 문서가 최소한의 노드만을 가진다. 일반적으로 스타일을 적용할 때 원본 XML 문서는 불필요하거나 공개될 수 없는 많은 정보를 포함하고 있다. 본 논문에서 제시된 모델을 실제 문서 전송 시스템에 적용하면 스타일 편집의 결과로 XML 의 필요한 부분만을 추출하는 XSLT 코드와 그 추출 문서에 적용 가능한 XSL 스타일 정보를 생성함으로써 효율적인 전송과 데이터 보호의 목적을 동시에 만족시킬 수 있다.

  • PDF

Two-step Document Summarization using Deep Learning and Maximal Marginal Relevance (딥러닝과 Maximal Marginal Relevance를 이용한 2단계 문서 요약)

  • Jeon, Jaewon;Hwang, Hyunsun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.297-300
    • /
    • 2019
  • 문서 요약은 길이가 긴 원본 문서의 의미는 유지한 채 원본보다 짧은 문서나 문장을 생성하는 자연어 처리 태스크이다. 본 논문에서는 Maximal Marginal Relevance(MMR)를 이용한 sequence-to-sequence 문장 추출 모델을 이용하여 의미가 중복되는 문장을 최소화하는 문장을 추출하고 추출된 문장을 sequence-to-sequence 모델을 통해 요약문을 생성하는 2단계 문서 요약 모델을 제안한다. 실험 결과 MMR을 활용하지 않았던 기존의 방법론보다 Rouge 성능이 향상되었다.

  • PDF

Digital Watermarking for Document Image (문서 이미지를 위한 디지털 워터마킹)

  • Li, De;Choi, Jonguk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.464-466
    • /
    • 2003
  • 전자정부, 전자상거래의 활성화로 디지털 문서가 빠른 속도로 유통되고 있기에 이에 대한 효과적인 보호대척이 필요한 실정이다. 본 논문에서는 Window Pattern을 이용하여 문서 이미지에 저작권 정보를 삽입하는 방안을 제안한다. 삽입대상 Window Patte을 결정하고 이러한 Pattern으로 원본 영상을 Scan하면서 픽셀 값에 변화를 주게 된다. 이렇게 되어 하나의 Pattern에 1 bit의 정보의 삽입이 가능하게 되고 추출 시 원본은 필요로 하지 않으며 실용성이 높고 적용분야도 넓다.

  • PDF

Performance Improvement of Document Classification by Rule-based Word Clustering (규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상)

  • Hyun Woo-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

Developement of the Video Watermarking Technology for the Audiovisual Contents Management (시청각기록물 관리를 위한 동영상 워터마킹 기술개발)

  • Shin, Dong-Hwan;Kim, Sung-Jin;Nam, Sung-Un
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.99-101
    • /
    • 2008
  • 시청각기록물은 기존 문서기록물과 달리 생생한 현장감을 전달할 수 있고 사용자들의 관심을 끌 수 있는 장점이 있다. 그러나 전자시청 각기록물은 원본과 똑같은 품질의 사본들이 많이 만들어지게 되어 위변조가 쉽고 불법복제 및 배포가 가능하기 때문에 기록물관리에 주의를 기울여야 한다. 이러한 문제를 해결하기 위한 방안들로서 DRM과 워터마킹기술이 주목을 받게 되었다. 본 논문에서는 시청각기록물 중에서 동영상 시청각 기록물에 적용 가능한 워터마킹 기술을 제안한다. 본 논문에서 제시한 워터마킹 기술은 원본영상신호의 복제신호를 추출하여 워터마크 정보를 삽입하는 방법을 취했다. 전자시청각 기록물 출처확인 및 무단배포에 따른 저작권 권리 추적을 위한 기술로서 다양한 실험을 통하여 가능성을 점검하였다. 원본 신호에서 추출된 신호를 이용하여 워터마크 정보를 삽입하기 때문에 화질훼손이 적고 압축알고리즘에 강인한 특성을 갖고 있다. 실험결과를 통해서 원본보존을 중요시하는 시청각기록물관리 분야에서 적용 가능성을 제시하였다.

  • PDF

A Comparative Study on the Korean Text Extractive Summarization using Pre-trained Language Model (사전 학습 언어 모델을 이용한 한국어 문서 추출 요약 비교 분석)

  • Young-Rae Cho;Kwang-Hyun Baek;Min-Ji Park;Byung Hoon Park;Sooyeon Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.518-521
    • /
    • 2023
  • 오늘날 과도한 정보의 양 속에서 디지털 문서 내 중요한 정보를 효율적으로 획득하는 것은 비용 효율의 측면에서 중요한 요구사항이 되었다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 이 중 추출요약은 정보의 손실 및 잘못된 정보 생성의 가능성을 줄이고 요약 가능하다. 그러나 여러 토크나이저와 임베딩 모델 중 적절한 활용을 위한 비교가 미진한 상황이다. 본 논문에서는 한국어 사전학습된 추출 요약 언어 모델들을 선정하고 추가 데이터셋으로 학습하고 성능 평가를 실시하여 그 결과를 비교 분석하였다.

모폴로지를 이용한 문서 영상내의 특징영역 추출

  • 이상협;이경무
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1996.06a
    • /
    • pp.67-75
    • /
    • 1996
  • 컴퓨터를 이용한 문서정보의 처리를 위해서는 기본적으로 문서영상내의 각 특징영역을 분리하는 것이 필수적이다. 본 논문에서는 노이즈가 존재하는 non-manhattan layout 이치 문서영상내의 halftone 이미지, 선 및 텍스트 등의 중요한 특징영역들을 자동으로 구분 추출하는 효과적인 알고리즘을 제안한다. 제안한 알고리즘의 기본적인 아이디어는 먼저 처리속도의 고속화를 위하여 원본 영상을 축소시키는 것이 필수적인 바, 축소 시 노이즈의 제거와 동시에 축소된 영상 내에서 원하는 영역의 특징들이 잘 나타나도록 하는 임계치 축소기법을 제안 사용하여 축소영상을 만든 다음, 축소영상에 다양한 모폴로지 필터를 적용함으로써 각 알고리즘의 성능을 이용한 노이즈 문서영상을 이용한 시뮬레이션을 통하여 보인다.

  • PDF

A Study on Watermarking Algorithm for Binary Images (이진 영상 워터마킹 알고리즘에 관한 연구)

  • Li, De;Choi, Jong-Uk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.2189-2192
    • /
    • 2003
  • 전자정부, 전자상거래의 활성화로 디지털 문서가 빠른 속도로 유통되고 있기에 이에 대한 효과적인 보호대책이 필요한 실정이다. 본 논문에서는 Window Pattern을 이용하여 Binary Image에 저작권 정보를 삽입하는 방안을 제안한다. 삽입대상 Window Pattern을 결정하고 이러한 Pattern으로 원본 영상을 Scan하면서 픽셀 값에 변화를 주게 된다. 이렇게 되어 하나의 Pattern에 1bit의 정보의 삽입이 가능하게 되고 추출 시 원본을 필요로 하지 않으며 실용성이 높고 적용분야도 넓다.

  • PDF

A Plagiarism Detection System for Newspaper Articles by using Web Search (웹 검색을 활용한 기사 표절 탐지 시스템)

  • Cho, Jung-Hyun;Kim, Yu-Seop
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.420-424
    • /
    • 2008
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

  • PDF