DOI QR코드

DOI QR Code

Suggestions on how to convert official documents to Machine Readable

공문서의 기계가독형(Machine Readable) 전환 방법 제언

  • 임진희 (명지대학교 기록정보과학전문대학원)
  • Received : 2020.12.31
  • Accepted : 2021.01.13
  • Published : 2021.01.31

Abstract

In the era of big data, analyzing not only structured data but also unstructured data is emerging as an important task. Official documents produced by government agencies are also subject to big data analysis as large text-based unstructured data. From the perspective of internal work efficiency, knowledge management, records management, etc, it is necessary to analyze big data of public documents to derive useful implications. However, since many of the public documents currently held by public institutions are not in open format, a pre-processing process of extracting text from a bitstream is required for big data analysis. In addition, since contextual metadata is not sufficiently stored in the document file, separate efforts to secure metadata are required for high-quality analysis. In conclusion, the current official documents have a low level of machine readability, so big data analysis becomes expensive.

빅데이터 시대에 정형데이터 뿐만 아니라 비정형데이터를 분석하는 것이 중요한 과제로 대두되고 있다. 정부기관이 생산하는 공문서도 텍스트 기반의 대형 비정형데이터로 빅데이터 분석의 대상이 된다. 기관 내부의 업무효율, 지식관리, 기록관리 등의 관점에서 공문서 빅데이터를 분석하여 유용한 시사점을 도출해 나가야 할 것이다. 그러나, 현재 공공기관이 보유 중인 공문서의 상당수가 개방포맷이 아니어서 빅데이터 분석을 하려면 비트스트림에서 텍스트를 추출하는 전처리 과정이 요구된다. 또한, 문서파일 내에 맥락 메타데이터가 충분히 저장되어 있지 못하여 품질 높은 분석을 하려면 별도의 메타데이터 확보 노력이 필요하다. 결론적으로 현재의 공문서는 기계가독(machine readable) 수준이 낮아 빅데이터 분석에 비용이 많이 들게 된다. 이 연구에서는 향후 공문서가 기계가독 수준을 높이기 위해서는 공문서의 개방포맷화, 기안문 서식의 표준태그화, 자기 기술(self-descriptive) 메타데이터 확보, 문서 텍스트 태깅 등이 선행될 필요가 있다는 점을 제안한다. 첫째, 문서가 스스로를 설명하기 위해 추가되어야 하는 메타데이터 항목들을 제시하고 이 메타데이터들이 기계가독형이 되도록 문서파일에 저장하는 방법을 제안한다. 둘째, 문서 내용 분석 시 자연어 처리에만 의존하지 않고 행정 맥락에 따라 중요한 키워드를 미리 국제표준 태그로 마킹하여 기계가독형이 되도록 하는 방안을 제안한다.

Keywords

References

  1. 국가기록원. 2020.7.8. 문서 파일포맷과 서식 개선 방안-서울시 사례를 중심으로. https://www.youtube.com/watch?v=UN8fqGAl7vM
  2. 국가법령정보센터. 2017.10.17. 행정 효율과 협업 촉진에 관한 규정 시행령 및 시행규칙. https://law.go.kr/lsSc.do?section=&menuId=1&subMenuId=15&tabMenuId=81&eventGubun=060101&query=%ED%96%89%EC%A0%95%ED%9A%A8%EC%9C%A8%EA%B3%BC+%ED%98%91%EC%97%85#undefined (2020년 12월 30일 접근)
  3. 김인택, 안대진, 이해영. 2017. 인공지능을 활용한 지능형 기록관리 방안. 한국기록관리학회지, 17(4), 225-250. https://doi.org/10.14404/JKSARM.2017.17.4.225
  4. 남서진, 임진희. 2017. 정부기능분류체계(BRM)의 재정비를 위한 사례연구-'문화재' 정책영역을 중심으로. 한국기록관리학회지, 17(2), 129-163. https://doi.org/10.14404/JKSARM.2017.17.2.129
  5. 동아일보. 2020.12.17. 인공지능 시대 정부 문서, 근본을 바꿀 때다. https://www.donga.com/news/Opinion/article/all/20201216/104481261/1 (2020년 12월 30일 접근)
  6. 안대진, 임진희. 2017. 제4차 산업혁명 기술의 기록관리 적용 방안. 기록학연구, 54, 211-248. https://doi.org/10.20923/kjas.2017.54.211
  7. 오세라, 정미리, 임진희. 2016. 공개포맷에 기반한 전자 기록 보존 포맷 재설계 방향 연구. 한국기록관리학회지, 16(4), 79-120. https://doi.org/10.14404/JKSARM.2016.16.4.079
  8. 오진관, 오세라, 최광훈, 임진희. 원문정보공개 지원을 위한 민감정보 필터링 요건에 관한 연구. 한국기록관리학회지, 17(1), 51-71. https://doi.org/10.14404/JKSARM.2017.17.1.051
  9. 이상훈. 2009.7. 한국정부 수립 이후 행정체제의 변동과 국가기록관리체제의 개편(1948년-64년). 기록학연구, 21, 169-246. https://doi.org/10.20923/kjas.2009.21.169
  10. 이화여자대학교 산학협력단. 2010.4 온톨로지 기반 태그를 기반으로한 정보 검색 기법. 교육과학기술부 한국연구재단 https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=TRKO201000014135 (2020년 12월 30일 접근)
  11. 임진희. 2020. 클라우드 환경에서 공문서 파일포맷의 선택 전략. 기록학연구, 66, 5-35. https://doi.org/10.20923/kjas.2020.66.005
  12. 정미리, 오세라, 임진희. 2016. 공문서 컴포넌트 오픈포맷 채택이 기록관리에 미치는 영향 분석. 한국기록관리학회지, 16(2), 29-55. https://doi.org/10.14404/JKSARM.2016.16.2.029
  13. 정보소통광장. 2020.11.4. 새싹따릉이 시범운영 세부 추진계획. https://opengov.seoul.go.kr/sanction/21539219 (2020년 12월 30일 접근)
  14. 정보통신기획평가원. 2020.12. 2021년도 제1차 정보통신.방송 기술개발사업 및 표준개발지원사업 신규지원 대상과제 공고. https://ezone.iitp.kr/common/anno/02/form.tab?PMS_TSK_PBNC_ID=PBD202000000098 (2020년 12월 30일 접근)
  15. 최주호, 이재영. 2012. 전자기록물의 메타데이터 추출 및 비교 검증 기술 연구. 한국기록관리학회지, 12(1), 7-32. https://doi.org/10.14404/jksarm.2012.12.1.007
  16. 하승록, 안대진, 임진희. 2017. 기록정보 LOD 구축을 위한 의미 상호연결 자동화 실험 연구. 한국기록관리학회지, 72(4), 177-200.
  17. 행정자치부. 2007. 청와대비서실의 보고서작성법. https://copy.or.kr/884 (2020년 12월 30일 접근)
  18. 행정안전부. 2020.12. 공공서식 디자인 재설계 방안 연구. http://www.prism.go.kr/homepage/entire/retrieveEntireDetail.do?pageIndex=1&research_id=1741000-202000076&leftMenuLevel=160&cond_research_name=%EA%B3%B5%EA%B3%B5%EC%84%9C%EC%8B%9D&cond_research_start_date=&pageUnit=10&cond_order=3
  19. CCDSD. 2012. REFERENCE MODEL FOR AN OPEN ARCHIVAL INFORMATION SYSTEM(OAIS). https://public.ccsds.org/Pubs/650x0m2.pdf (2020년 12월 30일 접근)
  20. DLM Forum Foundation. 2011. MoReq2010. https://www.moreq.info/files/moreq2010_vol1_v1_1_en.pdf (2020년 12월 30일 접근)