• 제목/요약/키워드: document encoding & decoding

검색결과 6건 처리시간 0.025초

OOXML기반의 동적 그룹키를 이용한 전자문서 관리 시스템의 설계 (Design of E-Document Management System Using Dynamic Group Key based on OOXML)

  • 이영구;김현철;정택영;전문석
    • 한국통신학회논문지
    • /
    • 제34권12B호
    • /
    • pp.1407-1417
    • /
    • 2009
  • 본 논문에서는 접근제어 환경에서 하나의 문서에 대하여 세분화된 페이지 정보를 권한별로 제공할 수 있는 전자문서 관리 시스템을 제안한다. 제안하는 시스템은 일방향의 특성을 가지는 해쉬 체인을 이용해 계층식별자를 생성함으로써 기존 시스템과 달리 모든 사용자의 키 정보를 소유할 필요가 없다. 또한, 해쉬 체인 기반의 계층식별자와 랜덤하게 생성한 그룹식별자를 조합해 그룹키를 생성함으로써 페이지별 대칭키를 이용한 문서 암호화 기법에 키 생성 및 관리 문제를 해결함과 동시에 그룹 구성원 이동에 따른 동적 변화에 유연하게 대처할 수 있다. 마지막으로 실험을 통해 기존 전자문서 관리 시스템과 비교, 분석한 결과 문서 암 복호화 속도, 페이지별 암 복호화 속도에서 우수함을 확인 할 수 있었다.

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법 (A Method for Automatic Detection of Character Encoding of Multi Language Document File)

  • 서민지;김명호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.170-177
    • /
    • 2016
  • 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.

SPIHT 기반 문서 부호화와 복호화 시스템의 성능 향상 (Improvement of SPIHT-based Document Encoding and Decoding System)

  • 장준;이호석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.687-695
    • /
    • 2003
  • 본 논문은 문자가 포함된 영상에서 문자의 가독성은 유지하면서 영상을 압축하고 복원하는 효율적인 방법을 제시한다. 본 논문에서 제시하는 방법은 문서 분할, Quincunx 다운샘플링, (5/3) 웨이블릿 리프팅 그리고 서브밴드별 SPIHT(Set Partitioning In Hierarchical Trees) 부호화 방법을 기반으로 하여 구축되었다. 부호화 과정에서는 Quincunx 다운샘를링과 서브밴드 SPIHT 부호화 방법을 사용하여 부호화 수행 시간을 단축하였으며 산술 부호화를 적용하여 SPIHT 부호기의 비트스트림을 더욱 압축하였다. 실험에서는, 복원된 영상을 제시하여 시스템의 성능을 압축율과 PSNR을 비교하고 분석하였다. 실험에서는, 복원된 영상을 제시하여 시스템의 성능을 확인할 수 있도록 하였으며, 여러 가지 양자화를 적용하여 제안한 SPIHT에 기반한 문서 압축 시스템의 압축율과 PSNR을 비교하고 분석하였다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

영상과 문자정보의 통합 부호화에 관한 연구 (A Study on the Integrated Coding of Image and Document Data)

  • 이헌주;박구만;박규태
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.42-49
    • /
    • 1989
  • 본 연구에서는 영상에 한글 및 영문숫자로 구성된 문서정보를 심을 수 있는 새로운 통합 부호화 방법을 제안하였다. 계조도를 갖는 영상에 대해 임의의 단계로 재양자화한 화소들을 대응하는 마이크로 패턴을 할당하여 영상을 재구성한 후 이진 출력장치에 표시할 수 있다. 그리고 , 각 마이크로 패턴에 문자정보를 할당하여 심을 수 있다. 이러한 개념을 기초로, 고속 부호화 및 복호화 알고리듬을 구현하여 실험을 수행하였다. 실험결과, $64{\times}64$ 화소의 영상을 마이크로 패턴으로 이진화한 영상에 화소 당 평균 약 8.5비트의 문자정보, 즉 한글 2000자 또는 영문자 4000자 이상을 심을 수 있었다. 이를 이용하여 영상과 문서의 통합 개인 신상기록 시스템을 구현하였다.

  • PDF

주의집중 및 복사 작용을 가진 Sequence-to-Sequence 순환신경망을 이용한 제목 생성 모델 (Title Generation Model for which Sequence-to-Sequence RNNs with Attention and Copying Mechanisms are used)

  • 이현구;김학수
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.674-679
    • /
    • 2017
  • 대용량의 텍스트 문서가 매일 만들어지는 빅데이터 환경에서 제목은 문서의 핵심 아이디어를 빠르게 집어내는데 매우 중요한 단서가 된다. 그러나 블로그 기사나 소셜 미디어 메시지와 같은 많은 종류의 문서들은 제목을 갖고 있지 않다. 본 논문에서는 주의집중 및 복사 작용을 가진 sequence-to-sequence 순환신경망을 사용한 제목 생성 모델을 제안한다. 제안 모델은 양방향 GRU(Gated Recurrent Unit) 네트워크에 기반 하여 입력 문장을 인코딩(encoding)하고, 입력 문장에서 자동 선별된 키워드와 함께 인코딩된 문장을 디코딩함으로써 제목 단어들을 생성한다. 93,631문서의 학습 데이터와 500문서의 평가 데이터를 가진 실험에서 주의집중 작용방법이 복사 작용방법보다 높은 어휘 일치율(ROUGE-1: 0.1935, ROUGE-2: 0.0364, ROUGE-L: 0.1555)을 보였고 사람이 정성평가한 지표는 복사 작용방법이 높은 성능을 보였다.