• 제목/요약/키워드: Text Readability

검색결과 63건 처리시간 0.024초

공문서의 기계가독형(Machine Readable) 전환 방법 제언 (Suggestions on how to convert official documents to Machine Readable)

  • 임진희
    • 기록학연구
    • /
    • 제67호
    • /
    • pp.99-138
    • /
    • 2021
  • 빅데이터 시대에 정형데이터 뿐만 아니라 비정형데이터를 분석하는 것이 중요한 과제로 대두되고 있다. 정부기관이 생산하는 공문서도 텍스트 기반의 대형 비정형데이터로 빅데이터 분석의 대상이 된다. 기관 내부의 업무효율, 지식관리, 기록관리 등의 관점에서 공문서 빅데이터를 분석하여 유용한 시사점을 도출해 나가야 할 것이다. 그러나, 현재 공공기관이 보유 중인 공문서의 상당수가 개방포맷이 아니어서 빅데이터 분석을 하려면 비트스트림에서 텍스트를 추출하는 전처리 과정이 요구된다. 또한, 문서파일 내에 맥락 메타데이터가 충분히 저장되어 있지 못하여 품질 높은 분석을 하려면 별도의 메타데이터 확보 노력이 필요하다. 결론적으로 현재의 공문서는 기계가독(machine readable) 수준이 낮아 빅데이터 분석에 비용이 많이 들게 된다. 이 연구에서는 향후 공문서가 기계가독 수준을 높이기 위해서는 공문서의 개방포맷화, 기안문 서식의 표준태그화, 자기 기술(self-descriptive) 메타데이터 확보, 문서 텍스트 태깅 등이 선행될 필요가 있다는 점을 제안한다. 첫째, 문서가 스스로를 설명하기 위해 추가되어야 하는 메타데이터 항목들을 제시하고 이 메타데이터들이 기계가독형이 되도록 문서파일에 저장하는 방법을 제안한다. 둘째, 문서 내용 분석 시 자연어 처리에만 의존하지 않고 행정 맥락에 따라 중요한 키워드를 미리 국제표준 태그로 마킹하여 기계가독형이 되도록 하는 방안을 제안한다.

딥러닝에 의한 한글 필기체 교정 어플 구현 (An Implementation of Hangul Handwriting Correction Application Based on Deep Learning)

  • 이재형;조민영;김진수
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.13-22
    • /
    • 2024
  • 현재 디지털 기기의 확산과 함께 일상에서 손으로 쓰는 글씨의 비중은 점점 줄어들고 있다. 키보드와 터치스크린의 활용도 증가에 따라 한글 필기체의 품질 저하는 어린 학생부터 성인까지 넓은 범위의 한글 문서에서 관찰되고 있다. 그러나 한글 필기체는 여전히 개인적인 고유한 특징을 포함하면서 가독성을 제공하는 많은 문서 작성에 필요하다. 이를 위해 본 논문에서는 손으로 쓴 한글 필기체의 품질을 개선하고, 교정하기 위한 목적의 어플 구현을 목적으로 한다. 제안된 어플은 CRAFT(Character-Region Awareness For Text Detection) 모델을 사용하여 필기체 영역을 검출하고, 딥러닝으로서 VGG-Feature-Extraction 모델을 사용하여 필기체의 특징을 학습한다. 이때 사용자가 작성한 한글 필기체의 음절 단위로 신뢰도를 인식률로 제시하고, 또한, 후보 폰트들중에서 가장 유사한 글자체를 추천하도록 구현한다. 다양한 실험을 통해 제안한 어플은 기존의 상용화된 문자 인식 소프트웨어와 비교할만한 우수한 인식률을 제공함을 확인할 수 있다.

상업·정보계 고등학교 '컴퓨터 일반' 교과서의 분석 (The Analysis of 'General Computer' Textbooks in Commerce·Information High Schools)

  • 강오한
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제1권1호
    • /
    • pp.21-28
    • /
    • 2012
  • 본 논문에서는 내용 분석법(content analysis)과 Romey의 분석법을 적용하여 상업 정보계 고등학교 '컴퓨터 일반' 교과서를 분석하였다. 내용 분석법으로 교과서의 구성 체계와 내용을 분석하였으며, Romey의 분석법으로 4개의 분석요소인 본문, 자료, 활동, 평가에 대한 탐구적 경향을 판별하였다. 내용 분석법을 적용한 결과, 교과서를 구성하는 중영역의 수, 영역별 페이지 수, 영역별 개념의 수에서 교과서별로 차이가 있는 것으로 나타났다. Romey의 분석법을 적용한 결과, 교과서 본문은 탐구적 경향이 낮은 형태로 기술되었으며, 학습 자료와 활동은 각각 1권, 평가는 2권의 교과서가 탐구적 경향이 높게 구성된 것으로 확인되었다. 본 논문에서는 분석 결과를 바탕으로 '컴퓨터 일반' 교과서의 개선 방안을 제안하였다.

Benchmarking of BioPerl, Perl, BioJava, Java, BioPython, and Python for Primitive Bioinformatics Tasks and Choosing a Suitable Language

  • Ryu, Tae-Wan
    • International Journal of Contents
    • /
    • 제5권2호
    • /
    • pp.6-15
    • /
    • 2009
  • Recently many different programming languages have emerged for the development of bioinformatics applications. In addition to the traditional languages, languages from open source projects such as BioPerl, BioPython, and BioJava have become popular because they provide special tools for biological data processing and are easy to use. However, it is not well-studied which of these programming languages will be most suitable for a given bioinformatics task and which factors should be considered in choosing a language for a project. Like many other application projects, bioinformatics projects also require various types of tasks. Accordingly, it will be a challenge to characterize all the aspects of a project in order to choose a language. However, most projects require some common and primitive tasks such as file I/O, text processing, and basic computation for counting, translation, statistics, etc. This paper presents the benchmarking results of six popular languages, Perl, BioPerl, Python, BioPython, Java, and BioJava, for several common and simple bioinformatics tasks. The experimental results of each language are compared through quantitative evaluation metrics such as execution time, memory usage, and size of the source code. Other qualitative factors, including writeability, readability, portability, scalability, and maintainability, that affect the success of a project are also discussed. The results of this research can be useful for developers in choosing an appropriate language for the development of bioinformatics applications.

상품 리뷰 분석을 통한 사용자 맞춤형 추천 시스템 (Customized recommendation system through product review analysis)

  • 황도연;배상중;김창수;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.460-461
    • /
    • 2018
  • 전통적인 방식의 추천 시스템은 사용자가 독립적으로 행동한다는 가정하에 개발된 방식이며, 단순하게 상품을 나열하거나 상품의 속성과 사용자의 기호를 연관하는 기능이 부족하여 가독성과 효율성이 떨어지는 문제점이 있다. 이를 해결하기 위해 본 논문에서는 상품 리뷰 데이터를 크롤링을 한 뒤 R을 이용한 텍스트 마이닝 기법을 사용하여 비정형의 리뷰 데이터를 사용자의 구매이력과의 연관 분석을 통해 의미 있는 정보로 가공하여 사용자 맞춤형 정보를 제공하는 시스템을 제안한다. 이를 통해 사용자는 방대한 양의 상품 리뷰 데이터를 분석할 필요 없이 자신에게 필요한 데이터만을 제공받을 수 있게 되어 사용자의 의사결정에 도움 될 것으로 사료된다.

  • PDF

IPTV 서비스 검색을 위한 최적화 정보 기반 메타데이터 캡슐화 구조 설계 및 구현 (Design and Implementation of an Optimization information based Metadata Encapsulation Architecture for IPTV Service Discovery)

  • 오봉진;백의현;유관종
    • 정보처리학회논문지C
    • /
    • 제18C권4호
    • /
    • pp.255-264
    • /
    • 2011
  • TV-Anytime은 XML을 PVR이나 방송서비스에 적용하기 위하여 서비스, 컨텐츠 정보 표현을 위한 스키마와 전송 프로토콜을 정의하여 많은 방송 규격에서 참조 문서로 활용되고 있다. 높은 확장성과 가독성에 비해 텍스트기반으로 정보를 기술하여 문서가 커지는 단점이 존재하며 이를 극복하기 위한 인코딩 알고리즘이 많이 제안되고 있다. 본 논문에서는 TVA 디스크립션을 전송하는 과정에서 문서의 크기를 최소화 할 수 있는 최적화 정보를 서버 단에서 반영하는 효율적인 인코딩 방식과 캡슐화 과정에서 색인 정보에 필요한 정보를 줄이고 정보를 빠르고 직관적으로 수신할 수 있는 인덱싱 방식을 제안한다.

Spoken-to-written text conversion for enhancement of Korean-English readability and machine translation

  • HyunJung Choi;Muyeol Choi;Seonhui Kim;Yohan Lim;Minkyu Lee;Seung Yun;Donghyun Kim;Sang Hun Kim
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.127-136
    • /
    • 2024
  • The Korean language has written (formal) and spoken (phonetic) forms that differ in their application, which can lead to confusion, especially when dealing with numbers and embedded Western words and phrases. This fact makes it difficult to automate Korean speech recognition models due to the need for a complete transcription training dataset. Because such datasets are frequently constructed using broadcast audio and their accompanying transcriptions, they do not follow a discrete rule-based matching pattern. Furthermore, these mismatches are exacerbated over time due to changing tacit policies. To mitigate this problem, we introduce a data-driven Korean spoken-to-written transcription conversion technique that enhances the automatic conversion of numbers and Western phrases to improve automatic translation model performance.

고령사용자를 위한 웹 인터페이스에서의 가독성에 관한 연구 -Typeface의 가독성을 중심으로- (A study on the readability of web interface for the elderly user -Focused on readability of Typeface-)

  • 이현주;우서혜;박은영;서혜영;백승철
    • 디자인학연구
    • /
    • 제20권3호
    • /
    • pp.315-324
    • /
    • 2007
  • 우리나라는 급격한 정보화로 인해 연령에 따른 격차가 심각하게 증가하고 있다. 현재 우리나라 노인계층의 인터넷 이용률은 10% 미만으로 나타나 신체적, 인지적 능력 차이가 있는 고령자가 접근하여 정보를 습득하고 이용하기에는 어려움이 있는 것으로 나타났다. 본 연구는 웹 인터페이스에서 사용되는 한글서체에 대한 활용의 가이드라인을 개발하여 고령자가 쉽게 정보를 습득하고 이용할 수 있게 하는데 연구의 목적이 있다. 문헌연구를 통하여 각각의 문헌에서 제시하는 고령자를 위한 웹 인터페이스 디자인 가이드를 추출하고 그것들을 인터페이스의 구성요소로 분류한 후 한국의 인터넷 환경에 필요한 실험주제를 선정하였다. 이를 바탕으로 크기에 따라 읽기 편한 한글 서체, 본문용으로 적당한 굴림과 바탕서체의 크기, 읽기 편한 행간의 크기, 읽기 편한 자간의 크기, 본문용으로 적당한 글줄의 길이, 제목용과 본문용 서체의 크기대비에 대한 최적치, 읽기 편한 정렬방식의 연구문제를 선정하였으며, 1차 예비조사를 통하여 얻어진 개선사항들을 바탕으로 2차 본 조사에 사용될 질문들을 개선하고 고령자를 대상으로 한 설문임을 고려하여 최소한의 문항으로 샘플의 수를 조절하여 온라인과 오프라인에서 설문을 진행할 수 있도록 프로그램을 제작하여 설문을 실시하였다. 연구의 결과 본문용으로 적당한 서체의 크기, 제목용 서체와 본문용 서체와의 크기대비, 선호서체, 정렬방식에서 비고령자와 고령자간의 가독성에 대한 만족도가 다른 것 을 알 수 있었으며, 행간, 자간, 글줄길이에 따른 가독성에 대한 만족도의 차이는 나타나지 않았다. 본 연구를 통하여 는 웹사이트에서 사용되는 한글 가독성에 대한 만족도가 비고령자와 고령자간에 어떤 차이가 있는지, 그리고 이를 활용하여 한글서체 환경에서 웹 표준방식에 맞게 활용할 수 있도록 구체화 하여, 고령자를 위한 웹 컨텐츠에서의 서체활용 가이드를 개발하여 급속도로 다가오는 고령화 사회에서 고령자도 쉽게 인터넷을 통하여 정도를 습득하고 사용할 수 있는 유니버설 웹 인터페이스를 위한 기반자료로 활용될 것으로 전망된다.

  • PDF

한탄강 세계지질공원 연천 지역의 자기-안내식 해설 매체를 통한 스스로 이해 가능 정도: 이독성과 교육과정 관련성을 중심으로 (Degree of Self-Understanding Through "Self-Guided Interpretation" in Yeoncheon, Hantan River UNESCO Geopark: Focusing on Readability and Curriculum Relevance)

  • 김민지;김찬종;유은정
    • 한국지구과학회지
    • /
    • 제44권6호
    • /
    • pp.655-674
    • /
    • 2023
  • 본 연구의 목적은 한탄강 세계지질공원 연천 지역의 "자기-안내식 해설" 매체가 방문객이 이해하기 쉽고 배경지식수준에 맞춰 작성되어 있는지 탐색하는 것이다. 이를 위해, 2022년 9월과 11월 2차례에 걸쳐 한탄강 세계지질공원을 현장 조사하고, 지질명소의 형성 시대와 지질 특성이 다양한 연천 지역을 분석 대상으로 선정하였다. 연천 지역에 존재하는 총 36개의 자기-안내식 해설 매체를 대상으로 지질명소별 해설 매체의 현황, 이독성 수준, 그래픽의 특성, 과학과 교육과정 반영 정도를 분석하였다. 연구 결과, 연천 지역 해설 매체 종류는 안내판이 가장 많고, 지질명소를 안내한 내용이 주를 이루었다. 해설 매체 텍스트의 분량은 12학년 과학 교과서보다 많고, 평균 어휘 등급은 11-12학년군 과학 교과서 수준과 유사하고, 복문의 비율이 높아 이독성이 다소 낮았다. 해설 매체에 포함된 그래픽의 종류는 사진이 가장 많고, 대부분 예시적 기능이며, 다중 구조 그래픽이 사용되어, 지질 형성 과정을 이해하는 데 도움을 주었다. 해설 매체에서 사용하는 과학 용어 중 86.3%가 2015 개정 교육과정의 "고체지구" 영역에 포함된 용어를 사용하였으며, 교육과정에 포함된 과학 용어는 4학년 수준의 용어가 가장 많았다. 선택 교육과정인 11학년 수준의 용어가 두 번째로 많고, 전체 과학 용어 중 13.7%는 교육과정에 포함되어 있지 않은 용어였다. 또한, 지질명소에 따라 해설 매체에 사용된 과학 용어 수준 차이가 나타났으며, 특히 안내판보다 홈페이지에 사용된 용어 수준이 일반적으로 높은 경향을 보였다. 본 연구 결과를 통해 연천 지역의 지질명소별 해설 매체에 따라 방문객 스스로 이해하는 데 어려움을 주는 요인을 구체적으로 파악할 수 있었다. 일반 관람객의 지질자원 교육을 활성화하고 지질학 분야의 발전을 기대할 수 있는 자기-안내식 해설 매체의 개선 방향에 대한 후속 연구를 제언하였다.

임신·수유부의 올바른 영양관리를 위한 카드뉴스 형식의 교육자료 개발 (Development of Education Materials as a Card News Format for Nutrition Management of Pregnant and Lactating Women)

  • 한영희;김정현;이민준;유택상;현태선
    • 대한지역사회영양학회지
    • /
    • 제22권3호
    • /
    • pp.248-258
    • /
    • 2017
  • Objectives: The purpose of the study was to develop a series of education materials as a card news format to provide nutrition information for pregnant and lactating women. Methods: The materials were developed in seven steps. As a first step, the needs of pregnant and lactating women were assessed by reviewing scientific papers and existing education materials, and by interviewing a focus group. The second step was to construct main categories and the topics of information. In step 3, a draft of the contents in each topic was developed based on the scientific evidence. In step 4, a draft of card news was created by editors and designers by editing the text and embedding images in the card news. In step 5, the text, images and sequences were reviewed to improve readability by the members of the project team and nutrition experts. In step 6, parts of the text or images or the sequences of the card news were revised based on the reviews. In step 7, the card news were finalized and released online to the public. Results: A series of 26 card news for pregnant and lactating women were developed. The series covered five categories such as nutrition management, healthy food choices, food safety, favorites to avoid, nutrition management in special conditions for pregnant and lactating women. The satisfaction of 7 topics of the card news was evaluated by 140 pregnant women, and more than 70% of the women were satisfied with the materials. Conclusions: The card news format materials developed in this study are innovative nutrition education tools, and can be downloaded on the homepage of the Ministry of Food and Drug Safety. Those materials can be easily shared in social media by nutrition educators or by pregnant and lactating women to use.