• 제목/요약/키워드: Text line information

검색결과 147건 처리시간 0.029초

경계선 기울기 방법을 이용한 다양한 인쇄체 한글의 인식 (Recognition of Various Printed Hangul Images by using the Boundary Tracing Technique)

  • 백승복;강순대;손영선
    • 한국지능시스템학회논문지
    • /
    • 제13권1호
    • /
    • pp.1-5
    • /
    • 2003
  • 본 논문에서는 CCD 흑백 카메라를 이용하여 입력되는 인쇄체 한글 이미지의 문자를 인식하여 편집 가능한 텍스트 문서로 변환하는 시스템을 구현하였다 문자 인식에 있어서 잡음에 강한 경계선 기울기 방법을 이용함으로써 문자의 구조적 특성에 근거한 윤곽선 정보를 추출할 수 있었다. 이를 이용하여 각 문자 이미지의 수평 및 수직 모음을 인지하고 6가지 유형으로 분류한 후, 자소 단위로 분리하고 최대 길이 투영을 사용하여 모음을 인식하였다. 분리된 자음은 경계선이 변화되는 위상의 형태를 미리 저장된 표준 패턴과 비교하여 인식하였다. 인식된 문자는 KS 한글 완성형 코드로 문서 편집기에 출력되어 사용자에게 제공되는 시스템을 구현하였다.

본초 상호작용 관계망 분석 및 활용 방향 (An Analysis of the Network of Interactions among Medicinal Herbs and Their Uses)

  • 이정현;권오민
    • 대한예방한의학회지
    • /
    • 제17권1호
    • /
    • pp.1-11
    • /
    • 2013
  • Objectives : The aim of this research is to produce information by gathering up the data on the interaction between medicinal herbs which lie scattered in oriental medical books, and to provide people with easy access to the information by visualizing it. Methods : For this purpose, this study established the fundamental data by organizing the patterns of interaction into some kinds after selecting a part of Bonchogangmok(本草綱目) and extracting its text. In addition, in an effort to visualize the data, the study converted the data into 'net' file and visualized the interaction between medicinal herbs on Pajek. The visualization was done targeting a total of three patterns, such as 1 medicinal herb, 2 medicinal herbs, and 1 prescription. With the data on 'Chinese Lacquer(乾漆)' for 1 medicinal herb, data on 'Licorice(甘草)' and 'Chinese Lacquer(乾漆)' for 2 medicinal herbs, and data on 'Iijin-tang(二陳湯)' for prescription, the research conducted the analysis of the network using 'Kamada-Kawaii Algorithm' on Pajek. Results : As a result of the analysis, it was possible to see the meanings at a single glance as the scattered and fractional meanings were integrated with focus on medicinal herbs, but the increasing number of analyzed medicinal herbs tended to more and more complicate their relationships, thus, requiring additional work like filtering. Conclusions : Such results are fairly applicable in on-line database, and it is judged that if further research expands its scope to include systematic classification of medicinal herbs or cover other medical books than Bonchogangmok, it will create more objective, abundant information.

집단지성 기반 학습자료 북마킹 서비스 시스템 (Learning Material Bookmarking Service based on Collective Intelligence)

  • 장진철;정석환;이슬기;정치훈;윤완철;이문용
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.179-192
    • /
    • 2014
  • 최근 IT 환경의 변화에 따라 웹 서비스를 기반으로 대규모 사용자 대상의 상호 참여적인 MOOC(Massive Open Online Courses)과 같은 온라인 교육 환경이 부상하고 있다. 그러나 온라인 교육 시스템은 원거리로 학습이 이루어짐에 따라 학습자의 자발적 동기를 꾸준히 유지하기 어려우며, 또한 학습자 간에 지식을 공유하고 공유한 지식을 활용하는 기능이 부족하다. 이러한 문제를 극복하기 위해 구성주의적 학습이론과 집단지성에 기반하여 학습자가 보유한 학습자료를 공유하고 개인화된 학습자료 추천을 받을 수 있는 학습자료 북마킹 서비스인 WeStudy를 구현하였다. 위키피디아(Wikipedia), 슬라이드쉐어 (SlideShare), 비디오렉쳐스 (VideoLectures) 등 현존하는 집단지성 기반 서비스들의 주요 기능으로부터 필요한 집단지성 기능들을 검토하였으며, 본 서비스의 주요 기능으로 1) 리스트 및 그래프 형태의 학습자료 리스트 시각화, 2) 개인화된 학습자료 추천, 3) 보다 상세한 학습자료 추천을 위한 관심 학습자 지정 등을 도출하여 시스템을 설계하였다. 이후, 웹 기반으로 구현된 세 가지 주요기능 별로 개량된 휴리스틱 사용성 평가 방법을 통해 개발된 시스템의 사용성 평가를 실시하였다. 10명의 HCI 분야 전공자 및 현업 종사자를 대상으로 정량적 및 정성적인 평가 결과, 세 가지의 주요 기능에서 전반적으로 사용성이 우수한 것으로 판정되었다. 주요 기능 별 정성적인 평가에서 도출된 여러 마이너 이슈들을 반영할 필요가 있으며, 향후 대규모 사용자를 대상으로 본 서비스를 보급하고 이용할 수 있도록 제공하여 자발적인 지식 공유 환경을 조성할 수 있을 것으로 전망된다.

문서 영상의 영역 분류와 회전각 검출 (A Block Classification and Rotation Angle Extraction for Document Image)

  • 모문정;김욱현
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.509-516
    • /
    • 2002
  • 본 논문에서는 그림, 글자, 표, 직선 등과 같은 다양한 정보를 포함하는 문서 영상 인식에 대한 효율적인 알고리즘을 제안한다. 이 시스템은 문서영상의 기울짐을 보정하기 위한 회전각검출 단계, 불필요한 배경영역을 제거하는 단계, 문서영상에 내재된 각 구성요소를 검출하는 분류 단계로 구성된다. 알고리즘은 문서의 기울어짐에 의해서 발생되는 오류를 최소화하기 위한 회전각 검출과정과 검출된 회전각을 기반으로 문서를 보정하는 전처리단계를 수행한다. 입력된 문서영상의 수평성분과 수직성분만을 이용하여 회전각을 검출하고, 문서의 구성요소 검출과정에서 불필요한 배경영역을 제거함으로써 계산시간을 최소화하였다. 그리고 영상에 내재된 그림영역, 글자영역, 표영역, 직선영역 둥의 다양한 구성요소를 분류한다. 제안한 문서 인식 시스템의 성능 평가를 위해서 다양한 문서영상에 제안한 방법을 적용하고 성공적인 결과를 보인다.

연결요소 방법과 메디안 필터를 이용한 문서영상 기하학적 구조분석 (The Geometric Layout Analysis of the Document Image Using Connected Components Method and Median Filter)

  • 장대근;황찬식
    • 한국통신학회논문지
    • /
    • 제27권8A호
    • /
    • pp.805-813
    • /
    • 2002
  • 인쇄문서를 전자문서로 자동전환하기 위해서는 먼저 문서영상의 기하학적 구조를 분석하여 문자, 그림, 표 등의 세부 영역으로 분류해야한다. 그러나 문서구조의 복잡성과 그림의 크기와 밀도의 다양함은 기하학적 구조분석을 어렵게 만드는 원인이 되고 있다. 본 논문에서는 연결요소 기반의 방법을 이용하여 복잡한 구조의 문서도 세부적 영역분할이 가능하며, separable 메디안 필터를 이용하여 크기와 밀도가 다양한 문자가 그림을 분류하고, 1차원 메디안 필터를 수평, 수직방향으로 각각 적용하여 표를 구성하는 직선이 훼손되거나 직선에 문자가 붙어있는 경우에도 추출을 가능하게 함으로써, 상용제품이나 기존의 방법에 비해 영역분할 및 분류 그리고 표를 구성하는 직선추출이 우수한 방법을 제안한다.

Sun 등이 제안한 착용 가능한 토큰 시스템의 취약점 분석에 관한 연구 (Weaknesses of the new design of wearable token system proposed by Sun et al.)

  • 김정윤;최형기
    • 정보보호학회논문지
    • /
    • 제20권5호
    • /
    • pp.81-88
    • /
    • 2010
  • Sun 등은 노트북이나 PDA와 같은 모바일 장치의 보안을 위해, 착용 가능한 토큰 시스템을 제안하였다. 본 논문을 통해, Sun 등의 시스템이 오프라인 패스워드 추측 공격, 그리고 기지평문 공격에 기반한 중간자 공격에 취약하다는 것을 보여준다. 우리는 성능저하를 최소화 하는 동시에, Sun 등의 시스템의 보안 문제점을 극복하는 해결책을 제시한다. Sun 등의 시스템과 비교하여, 제안하는 프로토콜에서는 연산 능력이 부족한 토큰의 경우 곱셈 연산이 1회 추가되었으며, 연산 능력이 우수한 노트북, PDA와 같은 모바일 장치에서는 지수승 연산이 1회 추가되었다. 제안하는 프로토콜에서는 Sun 등의 시스템에 존재하는 보안 문제점 뿐 아니라, 알려진 어떠한 보안 문제점도 존재하지 않는다. 즉, 제안하는 시스템은 최소한의 추가적인 오버헤드 만으로, Sun 등의 보안 취약점을 모두 극복하였다.

곡면 용기에 표시된 성분표 자동 인식을 위한 인공지능 기반 스마트폰 애플리케이션 (Deep-Learning-based smartphone application for automatic recognition of ingredients on curved containers)

  • 정희용;신춘성
    • 한국산업정보학회논문지
    • /
    • 제28권6호
    • /
    • pp.29-43
    • /
    • 2023
  • 소비자는 본인의 건강을 위해서 화장품 및 식품의 성분을 보고 알레르기 유발이나, 주의 성분이 포함되어 있는지 여부를 확인 후 구매를 해야 하지만, 실상은 포장지나 패키징 용기에서 표기가 작고 상세 성분 표기를 찾기 어려우며 바쁜 일상 가운데 일일이 확인하는 과정이 소홀해지기 쉽다. 이에 본 논문은 소비자에게 용기에 부착된 성분을 보다 알기 쉽게 전달하도록 곡면 용기에 표시된 배합 성분표를 자동으로 인식하기 위한 인공지능 기반 스마트폰 애플리케이션을 제안한다. 제안한 스마트폰 기반 성분표 자동인식 어플리케이션은 곡면 용기에 표시된 성분표를 인식할 수 있도록 텍스트 추출 후 원근변환을 통해 인식을 정확도 95% 달성하였다. 또한, 성분명이 곡면에 표시되기 때문에 변형되거나 길이가 길어서 줄 바꿈이 있는 텍스트를 위해 텍스트영역의 경계영역과 위치를 계산하여 처리하였다. 이를 통해 제안한 스마트폰 어플리케이션은 내장된 카메라를 통해 용기에 부착된 성분표 영상을 획득한 뒤, 성분과 관련된 텍스트를 발견하고 인식하여 배합제한성분 정보를 추출하도록 하였다. 마지막으로 다양한 테스트를 통하여 개발한 애플리케이션으로 원통형 곡면 용기에 담긴 화장품의 성분표 인식에 문제가 없다는 것을 검증하였다.

Genbank 분석을 통한 이종의 콘텐츠 연계 방안 설계 (Design of Heterogeneous Content Linkage Method by Analyzing Genbank)

  • 안부영;이명선;김지영;오충식
    • 한국콘텐츠학회논문지
    • /
    • 제10권6호
    • /
    • pp.49-54
    • /
    • 2010
  • 유전자 서열정보는 그 양이 방대하고 다양하기에 DB 구축 및 분석을 위하여 고성능 컴퓨터 및 정보기술 기법이 필요하다. 그래서 컴퓨터를 활용하여 생물학적 데이터를 수집, 관리, 저장, 평가, 분석하는 연구분야인 생명정보학이라는 학문이 지속적으로 발전하고 있다. 이런 생명정보학 발전에 발맞추어 한국과학기술정보연구원(KISTI)에서는 정보기술 기반 생명정보 인프라를 구축하여 생명과학 연구자들에게 제공하고 있다. 본 논문에서는 생명정보 DB 중에서 전세계 연구자들이 가장 많이 이용하는 유전자 DB인 Genbank의 reference 필드를 분석하여 한국과학기술정보연구원(KISTI)의 과학기술정보 통합서비스인 NDSL (http://NDSL.kr)과의 연계 방안을 제안하고자 한다. 이를 위하여 NCBI FTP 사이트에서 Genbank 데이터를 수집하여 Genbank 텍스트 파일을 유전자 기본정보와 참고정보로 나누어 DB로 재구축하였으며 Genbank reference 필드에서 논문 및 특허 정보 추출을 통한 새로운 테이블을 생성하였고, KISTI의 논문 DB (http://scholar.ndsl.kr), 특허 DB (http://patent.ndsl.kr)와의 연계 방안을 제시하였다.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.