Browse > Article
http://dx.doi.org/10.20923/kjas.2021.67.099

Suggestions on how to convert official documents to Machine Readable  

Yim, Jin Hee (명지대학교 기록정보과학전문대학원)
Publication Information
The Korean Journal of Archival Studies / v., no.67, 2021 , pp. 99-138 More about this Journal
Abstract
In the era of big data, analyzing not only structured data but also unstructured data is emerging as an important task. Official documents produced by government agencies are also subject to big data analysis as large text-based unstructured data. From the perspective of internal work efficiency, knowledge management, records management, etc, it is necessary to analyze big data of public documents to derive useful implications. However, since many of the public documents currently held by public institutions are not in open format, a pre-processing process of extracting text from a bitstream is required for big data analysis. In addition, since contextual metadata is not sufficiently stored in the document file, separate efforts to secure metadata are required for high-quality analysis. In conclusion, the current official documents have a low level of machine readability, so big data analysis becomes expensive.
Keywords
bigdata; text analysis; self-descriptive metadata; UUID; hash value; international standard tag;
Citations & Related Records
Times Cited By KSCI : 2  (Citation Analysis)
연도 인용수 순위
1 국가기록원. 2020.7.8. 문서 파일포맷과 서식 개선 방안-서울시 사례를 중심으로. https://www.youtube.com/watch?v=UN8fqGAl7vM
2 국가법령정보센터. 2017.10.17. 행정 효율과 협업 촉진에 관한 규정 시행령 및 시행규칙. https://law.go.kr/lsSc.do?section=&menuId=1&subMenuId=15&tabMenuId=81&eventGubun=060101&query=%ED%96%89%EC%A0%95%ED%9A%A8%EC%9C%A8%EA%B3%BC+%ED%98%91%EC%97%85#undefined (2020년 12월 30일 접근)
3 김인택, 안대진, 이해영. 2017. 인공지능을 활용한 지능형 기록관리 방안. 한국기록관리학회지, 17(4), 225-250.   DOI
4 안대진, 임진희. 2017. 제4차 산업혁명 기술의 기록관리 적용 방안. 기록학연구, 54, 211-248.   DOI
5 오세라, 정미리, 임진희. 2016. 공개포맷에 기반한 전자 기록 보존 포맷 재설계 방향 연구. 한국기록관리학회지, 16(4), 79-120.   DOI
6 오진관, 오세라, 최광훈, 임진희. 원문정보공개 지원을 위한 민감정보 필터링 요건에 관한 연구. 한국기록관리학회지, 17(1), 51-71.   DOI
7 이상훈. 2009.7. 한국정부 수립 이후 행정체제의 변동과 국가기록관리체제의 개편(1948년-64년). 기록학연구, 21, 169-246.   DOI
8 이화여자대학교 산학협력단. 2010.4 온톨로지 기반 태그를 기반으로한 정보 검색 기법. 교육과학기술부 한국연구재단 https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=TRKO201000014135 (2020년 12월 30일 접근)
9 임진희. 2020. 클라우드 환경에서 공문서 파일포맷의 선택 전략. 기록학연구, 66, 5-35.   DOI
10 정미리, 오세라, 임진희. 2016. 공문서 컴포넌트 오픈포맷 채택이 기록관리에 미치는 영향 분석. 한국기록관리학회지, 16(2), 29-55.   DOI
11 정보소통광장. 2020.11.4. 새싹따릉이 시범운영 세부 추진계획. https://opengov.seoul.go.kr/sanction/21539219 (2020년 12월 30일 접근)
12 정보통신기획평가원. 2020.12. 2021년도 제1차 정보통신.방송 기술개발사업 및 표준개발지원사업 신규지원 대상과제 공고. https://ezone.iitp.kr/common/anno/02/form.tab?PMS_TSK_PBNC_ID=PBD202000000098 (2020년 12월 30일 접근)
13 최주호, 이재영. 2012. 전자기록물의 메타데이터 추출 및 비교 검증 기술 연구. 한국기록관리학회지, 12(1), 7-32.   DOI
14 하승록, 안대진, 임진희. 2017. 기록정보 LOD 구축을 위한 의미 상호연결 자동화 실험 연구. 한국기록관리학회지, 72(4), 177-200.
15 행정자치부. 2007. 청와대비서실의 보고서작성법. https://copy.or.kr/884 (2020년 12월 30일 접근)
16 행정안전부. 2020.12. 공공서식 디자인 재설계 방안 연구. http://www.prism.go.kr/homepage/entire/retrieveEntireDetail.do?pageIndex=1&research_id=1741000-202000076&leftMenuLevel=160&cond_research_name=%EA%B3%B5%EA%B3%B5%EC%84%9C%EC%8B%9D&cond_research_start_date=&pageUnit=10&cond_order=3
17 CCDSD. 2012. REFERENCE MODEL FOR AN OPEN ARCHIVAL INFORMATION SYSTEM(OAIS). https://public.ccsds.org/Pubs/650x0m2.pdf (2020년 12월 30일 접근)
18 DLM Forum Foundation. 2011. MoReq2010. https://www.moreq.info/files/moreq2010_vol1_v1_1_en.pdf (2020년 12월 30일 접근)
19 남서진, 임진희. 2017. 정부기능분류체계(BRM)의 재정비를 위한 사례연구-'문화재' 정책영역을 중심으로. 한국기록관리학회지, 17(2), 129-163.   DOI
20 동아일보. 2020.12.17. 인공지능 시대 정부 문서, 근본을 바꿀 때다. https://www.donga.com/news/Opinion/article/all/20201216/104481261/1 (2020년 12월 30일 접근)