• 제목/요약/키워드: 문서 전자화

검색결과 261건 처리시간 0.021초

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

OOXML기반의 동적 그룹키를 이용한 전자문서 관리 시스템의 설계 (Design of E-Document Management System Using Dynamic Group Key based on OOXML)

  • 이영구;김현철;정택영;전문석
    • 한국통신학회논문지
    • /
    • 제34권12B호
    • /
    • pp.1407-1417
    • /
    • 2009
  • 본 논문에서는 접근제어 환경에서 하나의 문서에 대하여 세분화된 페이지 정보를 권한별로 제공할 수 있는 전자문서 관리 시스템을 제안한다. 제안하는 시스템은 일방향의 특성을 가지는 해쉬 체인을 이용해 계층식별자를 생성함으로써 기존 시스템과 달리 모든 사용자의 키 정보를 소유할 필요가 없다. 또한, 해쉬 체인 기반의 계층식별자와 랜덤하게 생성한 그룹식별자를 조합해 그룹키를 생성함으로써 페이지별 대칭키를 이용한 문서 암호화 기법에 키 생성 및 관리 문제를 해결함과 동시에 그룹 구성원 이동에 따른 동적 변화에 유연하게 대처할 수 있다. 마지막으로 실험을 통해 기존 전자문서 관리 시스템과 비교, 분석한 결과 문서 암 복호화 속도, 페이지별 암 복호화 속도에서 우수함을 확인 할 수 있었다.

중국의 당안유산(檔案遺産) 보존과 디지털화 방향 (The Archival Heritage in China : Preservation, Digitalization and Standardization)

  • 펑 후이린
    • 한국기록관리학회지
    • /
    • 제5권2호
    • /
    • pp.153-165
    • /
    • 2005
  • 중국은 역사가 길고 유구한 문화를 가진 국가이다. 수천 년의 역사는 방대한 수량의 당안문헌자료를 남겼다. 이러한 당안은 중국 민족의 "기억"을 구성하고 있다. 결승, 갑골, 청동, 비단에서 종이, 필름, CD까지 인류의 역사는 부단히 진화된 당안(기록(記錄)을 의미함)매체와 당안관리를 통하여 보존되고 연속될 수 있었다. 오늘날처럼 정보기술이 물밀 듯이 우리를 향하여 다가오는 시대에, 우리는 인류 기억의 "수호자"로서 옛 것과 새로운 것 그리고 변하는 것과 변하지 않는 것의 충격 속에서 가장 적당한 균형점을 찾을 수밖에 없다. 아키비스트는 한편으로는 최선을 다하여 전통 당안문헌의 생명을 유지시켜 장기적으로 충분히 이용될 수 있도록 하며, 다른 한편으로는 전자문서의 도전을 받아들여 새로운 관리방식으로 새로운 형태의 문서들을 보존시켜 인류의 역사를 연장하도록 시도하여야 한다. 정보시대는 인류 사회 발전의 새로운 단계로 문서당안의 디지털화(전자화) 역시 당안관리 역사의 긴 강에서 중요한 의의를 갖는 과정이다. 이 원고의 내용은 세 부분으로 이루어져 있다. 첫째 부분은 중국의 당안유산 보존 현황을 소개하였다. 특히 "중국당안유산사업"과 "특별서고(特藏室)"의 건설을 중점적으로 소개 하고, 둘째 부분은 중국의 당안디지털화 과정을 소개하였고, 셋째 부분은 전자문서관리의 표준화 건설을 소개하였다.

웹 기반의 협동작업을 위한 동기적 웹 브라우저 공유 시스템의 설계 및 구현 (Design and Implementation of a Synchronous Web Browser Sharing System for Web-based Collaborative Computing)

  • 김문석;이성제;성미영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.227-229
    • /
    • 2000
  • 공간적으로 분산되어 있는 여러 작업자들이 웹 상에서 실시간으로 협력 연구할 수 있도록 하기 위해서는 기본적으로 협동작업 지원 도구인 화상회의, 전자칠판의 지원뿐만 아니라 동기적 웹 브라우저의 공유 또한 필수적이다. 본 논문에서 소개하는 동기적 웹 브라우저의 공유 시스템에서는 협동 작업자들이 주소 동기화(URL Synchronization) 및 폼 동기화(Form Synchronization)를 통해서 워드 및 파워포인트와 같은 웹 문서와 웹 데이터베이스의 내용을 공유할 수 있고 브라우저의 내용이 길어질 경우에도 스크롤 동기화(Scroll Synchronization) 및 윈도우 크기 동기화(Window Size Synchronization)를 통해 문서내의 같은 부분을 공유할 수 있다. 본 논문에서는 공간적으로 분산되어 있는 여러 작업자들이 협동작업을 위해서 상용 웹 브라우저를 이용하여 웹 문서와 웹 데이터베이스를 공유함으로써 보다 효율적인 작업을 할 수 있는 시스템을 소개한다.

  • PDF

표준화를 위한 일반 사전의 논리 구조 (The Logical Structure for Standardization of printed Dictionary)

  • 최병진;이재성;이운재;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.415-423
    • /
    • 1996
  • 컴퓨터의 발달과 더불어 최근 자연언어 처리 분야의 일부에서는 일반 문서들(human-readable text)을 전자 문서(machine-readable text)화 하려는 노력이 이루어지고 있다. 이러한 연구 중 대표적인 것으로 사전을 전자문서화된 형태로 바꾸는 작업을 들 수 있는데, 외국에서는 이미 10여년 전부터 이에 관한 연구가 꾸준히 진행되어 결실을 맺고 있다. 이에 반해 우리나라에는 아직 이에 견줄만한, 나아가 표준화할 만한 전자사전이 아직 개발되어 있지 않은 상황이다. 따라서 본고에서는, 일반 사전을 전자사전화 하기 위한 정형화된 논리적 구조를 검토해 보기로 한다.

  • PDF

공개키 기반 구조에서 안전한 메일 전송을 위한 클라이언트 메일 보안 시스템 설계 및 구현 (Design and Implementation of a Client Mail Security System for Secure Mail Exchange using Public Key Infrastructure)

  • 정창렬;고진광
    • 한국정보통신학회논문지
    • /
    • 제7권1호
    • /
    • pp.149-157
    • /
    • 2003
  • 최근 인터넷을 기반으로 한 정보기술의 발전은 정보처리 및 정보교환이 활발해 짐에 따라 인터넷 이용의 많은 부분이 전자화된 문서를 인터넷 메일을 통해 주고받고 있다. 이는 오픈 네트웍을 통해 전자문서를 보내고 송, 수신함에 있어 문서정보에 대한 안정성이 위협 받고 있다. 특히 중요문서를 주고받을 때는 그 위협 정도는 매우 높다. 따라서 본 연구에서는 이러한 전자 문서들을 안전하게 전송한 수 있도록 하는 클라이언트 메일 보안 시스템을 설계 구현하였다. 그러므로 전자문서 정보를 인터넷을 통해 전달할 때 발생 가능한 정보의 조작이나 변질, 도용으로부터 중요 문서정보를 보호하도록 공개키 기반 구조에서 안전한 전송을 위한 암호화된 메일 전송과 배달증명 그리고 메일메시지 무결성을 보장하도록 한다. 뿐만 아니라 윈도우즈용 GUI 인터페이스 환경에서 공개키를 기반으로 한 SET프로토콜을 이용하여 전문적인 지식이 없는 일반 사용자도 쉽게 사용할 수 있는 사용자 인터페이스와 공개키 암호화 알고리즘을 적용한 메일보안시스템을 개발하였다.

XML 정규화 알고리즘 구현 (An Implementation of the Canonical XML Algorithm)

  • 박기식;조인준;정회경
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1698-1707
    • /
    • 2003
  • 현재 XML이 전자 상거래 시장에 널리 수용하여 사용되고 있다. 그러나 XML 문서는 논리적으로 동일하나 물리적으로 여러 다른 형태가 존재할 수 있어, XML 디지털 서명과 같은 물리적 형태로써 유효성을 판단하는 응용 프로그램에서는 문제점이 발생할 수 있다. 따라서 이런 단점을 해결하기 위해 W3C에서는 논리적으로 동일한 XML문서를 물리적으로 동일하게 변환시키도록 XML 정규화(Canonical XML) 알고리즘을 제안하여 사용하도록 권고하고 있다. 본 논문에서는 W3C에서 권고한 XML 정규화 알고리즘을 수행하는 시스템을 설계 및 구현함으로써, 좀 더 정교하고 정규화 된 문서로 변형하여 W3C 표준을 따르는 다른 응용 시스템과의 상호 운용이 가능하다. 또한 웹 서비스를 위한 전자서명 시스템에서의 사용이 용이할 뿐만 아니라, 웹 서비스 상호 운용성을 위한 XML 문서 교환 시 물리적 동일성이 요구되는 여러 시스템에서의 사용이 용이할 것으로 사료된다. 뿐만 아니라 국제적 인코딩 스킴과 국내 인코딩 스킴인 EUC­KR과의 변환기능을 추가함으로써 국내 실정에 맞는 XML 정규화 알고리즘이 될 것이며, 이는 국제적 상호 운용성 확보의 기반 기술이 될 것이다.

건설분야 전자매뉴얼의 필요성 및 특성분석을 통한 실무적용성 연구 (A Study on the Necessity and Applicability of Interactive Electronic Technical Manual(IETM) for Construction Projects)

  • 강인석;정원명;곽중민
    • 한국건설관리학회논문집
    • /
    • 제6권1호
    • /
    • pp.99-108
    • /
    • 2005
  • 건설분야 전자매뉴얼은 기존에 서술적 문서형태로 작성되어온 시공법, 유지관리절차 등에 관련된 시방규정, 지침서들이 시각화를 위한 멀티 미디어 기능과 통합연계정보 제공기능을 갖는 전자적 형태로 구성된 것을 의미한다. 이러한 전자적 개념의 건설전자매뉴얼은 지침 규정의 전자화는 물론이고, 공사관리자의 이해도 증진을 위해 해당 규정에 관련된 3D동영상 화면과 가상현실, 시공이력사진 정보들을 연계해서 제공해 주는 종합 정보시스템 개념을 갖고 있다. 현재 시방정보, 관련법규 등의 건설분야 각종 지침들은 전자화를 위한 표준적 인 규칙 이 없이 일반적 인 문서형 태로 작성되고 있으므로, 관련정보의 체계적인 축적 및 공유가 어렵고 효과적 인 시설물의 시공 및 유지관리에 장애요인이 되고 있다. 본 연구에서는 기존 건설분야 정보화 체계와 비교하여 전자매뉴얼의 필요성과 타 분야 전자매뉴얼대비 건설전자매뉴얼의 특성을 분석하여 건설분야에 적합한 구성전략을 제시함으로써, 건설분야 전자매뉴얼의 활용도를 인식시키는데 연구목적이 있다. 이를 위하여 본 연구에서는 유지관리업무 전자매뉴얼 시안을 포함하는 시설물 재해관리용 전자매뉴얼의 적용성을 가상적으로 구성하여 검증하고 있다.

XML을 이용한 철근콘크리트 건물 구조계산서 전자화 (XML-Based Digitalization of Structural Design Sheets for RC Buildings)

  • 정종현;강경수
    • 한국전산구조공학회논문집
    • /
    • 제18권4호통권70호
    • /
    • pp.435-443
    • /
    • 2005
  • 본 연구의 목적은 XML을 기반으로 하여 웹(web)을 통한 교환이 가능한 철관콘크리트 건물의 구조계산서를 전자화(digitalization)하는 방안을 제시하는 것이다. 이를 위해서 철근콘크리트 건물의 구조계산서를 XML로 표현하기 위한 자료 구조(data structure)를 정의하였다. 여기에는 수식과 그래픽 등 웹에서는 교환하기 어려운 형식의 자료들도 포함된다. 다음에는 이 자료구조에 따라 구조계산서를 XML문서로 작성하였다. 그리고 이 XML문서를 웹에서 효과적으로 출력(presentation)하는 방안을 도출하였다. 마지막에는 XML로 표현된 구조계산서를 웹에서 교환할 수 있는 웹 응용프로그램(web application)을 부분적으로 구현하였고, 이를 간단한 예제에 적용하여 본 연구결과의 타당성을 검토하였다.

NMF와 EMD를 이용한 영문자 활자체 폰트분류 (Font Classification using NMF and EMD)

  • 이창우;강현;정기철;김항준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.688-690
    • /
    • 2004
  • 최근 전자화된 문서 영상을 효율적으로 관리하고 검색하기 위한 문서구조분석 방법과 문서의 자동 분류에 관한 많은 연구가 발표되고 있다. 본 논문에서는 NMF(non-negative matrix factorization) 알고리즘을 사용하여 폰트를 자동으로 분류하는 방법을 제안한다. 제안된 방법은 폰트의 구분 특징들이 공간적으로 국부성을 가지는 부분으로 표현될 수 있다는 가정을 바탕으로, 전체의 폰트 이미지들로부터 각 폰트들의 구분 특징인 부분을 학습하고, 학습된 부분들을 특징으로 사용하여 폰트를 분류하는 방법이다. 학습된 폰트의 특징들은 계층적 군집화 알고리즘을 이용하여 템플릿을 생성하고, 테스트 패턴을 분류하기 위하여 템플릿 패턴과의 EMD(earth mover's distance)를 사용한다. 실험결과에서 폰트 이미지들의 공간적으로 국부적인 특징들이 조사되고, 그 특징들의 폰트 식별을 위한 적절성을 보였다. 제안된 방법이 기존의 문자인식. 문서 검색 시스템들의 전처리기로 사용되면. 그 시스템들의 성능을 향상시킬 것으로 기대된다.

  • PDF