• 제목/요약/키워드: 문서 인식

검색결과 664건 처리시간 0.041초

Active카메라를 이용한 지능형 문서 영상 획득 (Intelligent Document Scanning with Active Camera)

  • 박안진;정기철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.592-594
    • /
    • 2004
  • 문서 영상 획득(document scanning)은 문서 영상 분석과 인식을 위한 중요한 단계이다 최근, 문서 영상 획득 장치로 스캐너(flat scanner)가 가장 많이 이용되고 있지만, 만지면 망가질 것 같은 얇은 고서, 매우 두꺼운 책과 같은 문서를 획득하기에는 어려움이 있다 이런 어려움을 해결하기 위해, 카메라를 이용한 문서 영상 획득에 관한 않은 연구가 진행되고 있으며, 카메라의 저해상도나 잡음과 칼은 문제를 해결하면, 스캐너를 대신하는 입력 장치로 이용할 수 있다. 저해상도 문제를 해결하는 방법으로 기본의 일반적인 레지스트레이션(registration) 방법은, 연결 부분(stitching position)에서 오브젝트(object: text, graphics, image)의 왜곡이 생기는 문제점이 있다. 본 논문에서는 PTZ(pan-tilt-zoom) 카메라를 이용하여 연결 부분에서 왜곡을 최소화하여 오브젝트를 획득하는 컴포넌트 기반의 영상 레지스트레이션(component-based image registration) 방법을 제안한다. 제안한 방법은 연결 부분에서 오브젝트의 수를 최소화하는데 목적이 있으며, 일반적인 레지스트레이션 방법에 비해 연결 부분에서 왜곡을 상당히 줄일 수 있으며, 상대적으로 인식률을 놓일 수 있다.

  • PDF

지능형 펜기반 온라인 교정 시스템의 설계 및 구현 (Modeling and Implementation of Intelligent Pen-based Online Editing System)

  • 김재경;손원성;정한상;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.178-180
    • /
    • 2002
  • 최근 종이 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 구축되고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 교정 부호와 텍스트 간의 정확한 영역 인식이 중요하며 이를 위해 교정 부호의 특성과 텍스트 영역의 분석이 필요하다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

공유 문서를 활용한 과학 수업에서 나타난 학생 담화의 특징 -인식 네트워크 분석(ENA)의 활용- (Exploring Collaborative Learning Dynamics in Science Classes Using Google Docs: An Epistemic Network Analysis of Student Discourse)

  • 신은혜
    • 한국과학교육학회지
    • /
    • 제44권1호
    • /
    • pp.77-86
    • /
    • 2024
  • 본 연구는 과학 수업에서 공유 문서의 활용이 학생의 담화 패턴과 학습에 미치는 영향을 조사하기 위해 학생들의 담화를 인식 네트워크 분석(Epistemic Network Analysis) 방법으로 분석하였다. 49명의 중학교 2학년 학생을 대상으로 과학 교사인 연구자 본인이 Google Docs를 기반으로 제작된 활동지를 활용한 공유 문서와 동일 내용의 종이 활동지를 활용한 일반 수업을 실시하고, 각 수업에서 수집된 담화를 비교 분석하였다. 분석 결과, 공유 문서 활용 수업에서는 일반 수업에 비해 과제 수행과 관련된 발언의 비율이 더 높았으며, 특히 사진 촬영과 업로드에 대한 담화가 두드러졌다. 그러나 이러한 담화가 교사가 의도한 동료 학습으로 이어지지는 않았다. 성취 수준에 따른 분석 결과에서는 공유 문서 활용 수업에서 하위 수준 학생의 발언 비율이 상대적으로 더 높았으며, 상위 학생과 하위 학생 간의 발언 유형 및 연결 구조에서 차이가 나타났다. 또한 상위 수준 학생이 의견과 설명 제시를 주도하면 하위 학생이 이를 받아 적는 역할 분담이 관찰되었으며, 공유 문서 활용 수업에서 그러한 경향이 더 뚜렷하였다. 마지막으로 인식 네트워크 분석으로 정전기의 원인에 대한 학생의 인식 변화를 시각화하였다. 연구 결과를 바탕으로 공유 문서를 활용하여 협력 학습을 촉진하기 위해 다양한 의견과 산출물의 공유가 가능한 개방적 문제를 포함하는 전략과 인식 네트워크 분석을 활용한 개념 학습 효과 확인 가능성을 제언하였다.

실세계의 FAQ 메일 자동분류를 위한 문서 특징추출 방법의 성능 비교 (Comparison of Document Features Extraction Methods for Automatic Classification of Real World FAQ Mails)

  • 홍진혁;류중원;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2001
  • 최근 문서 자동분류의 중요성이 널리 인식되어 다양한 연구가 진행되고 있다. 본 논문에서는 한글 문서의 효과적인 자동분류를 위한 다양한 특징추출 방법들을 구현하고 실제 질의메일에 대한 효율적인 특징주출 방법을 제시한다. 실험을 위해 문서 빈도(document frequency), 정보획득(information gain), 상호 정보량(mutual information), x$^2$등 7가지 특징추출 방법을 사용하였으며 463개의 실제 테스트 질의메일에 적용한 결과, x$^2$ 방법이 74.7%의 인식률을 내어 성능이 가장 좋음을 알 수 있었다. 반면에 x$^2$와 함께 가장 자주 쓰이는 방법 중의 하나인 정보 이득은 인식률이 최대 40.6%밖에 되지 않았다.

  • PDF

DB 자동 구축을 위한 필기 형식문서 인식 시스템의 개발 (Development of Handwritten Form Recognition System for Automated Database Construction)

  • 김동준;조성정;류성호;이택헌;김진형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.1047-1050
    • /
    • 2000
  • 형식문서는 현재 정보의 체계화된 표현 및 저장 수단으로서 널리 사용되어 왔다. 최근 이러한 형식문서들을 데이터베이스화해주는 시스템들이 보급되고 있다. 그러나 대부분 외국의 시스템을 기반으로 작성되어 한글, 영어, 숫자, 한자등 다양한 필기 문자들이 사용되는 국내 환경의 특수성을 적절히 반영하지 못하고 있다. 그 결과, 대부분의 경우 아직도 사람이 직접 자료를 입력해야만 한다. 본 논문에서는 이러한 국내 실정에 맞게 다양한 언어의 필기 문자 인식기를 결합하여 형식 문서의 정보를 자동으로 데이터베이스에 입력해 주는 시스템을 제안한다. 제안된 시스템은 영상을 인식한 뒤 그 결과를 검증하는 방법을 통하여 정보의 입력을 보다 효율적으로 수행할 수 있을 뿐 아니라, 전체 작업을 단계별로 분할하여 병렬적으로 수행할 수 있게 함으로써 처리율을 향상시킬 수 있게 하였다.

  • PDF

인쇄 문서 영상의 단어 단위 속성 인식 (Recognition of Word-level Attributed in Machine-printed Document Images)

  • 곽희규;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.412-421
    • /
    • 2001
  • 본 논문은 문서 영상에 존재하는 개별 단어들에 대한 속성정보 추출 방법을 제안한다. 단어 단위의 속성 인식은 단어 영상 매칭의 정확도 및 속도 개선, OCR 시스템에서 인식률 향상, 문서의 재생산 등 다양한 응용 가치를 찾을 수 있으며, 메타정보(meta-information) 추출을 통해 영상 검색(image retrieval)이나 요약(summary) 생성 등에 활용할 수 있다. 제안하는 시스템에서 고려하는 단어 영상의 속성은 언어의 종류(한글, 영문), 스타일(볼드, 이탤릭, 보통, 밑줄), 문자 크기(10, 12, 14 포인트), 문자 개수 (한글: 2, 3, 4, 5, 영문: 4, 5, 6, 7, 8, 9, 10), 서체(명조, 고딕)의 다섯 가지 정보이다. 속성 인식을 위한 특징은, 언어 종류 인식에 2개, 스타일 인식에 3개, 문자 크기와 개수는 각각 1개, 한글 서체 인식은 1개, 영문 서체 인식은 2개를 사용한다. 분류기는 신경망, 2차형 판별함수(QDF), 선형 판별함수(LDF)를 계층적으로 구성한다. 다섯 가지 속성이 조합된 26,400개의 단어 영상을 사용한 실험을 통해, 제안된 방법이 소수의 특징만으로도 우수한 속성 인식 성능을 보임을 입증하였다.

  • PDF

구조문서 기반 온라인 교정 시스템의 설계 및 구현 (Implementation of Online Editing System based on Structural Documents)

  • 정한상;김재경;손원성;임순범;최윤철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2289-2292
    • /
    • 2002
  • 최근 웹을 기반으로 한 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인상의 전자 문서 환경에 맞게 변화하고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 일반문서와 달리 웹 문서의 구조정보를 고려한 편집이 지원되어야 하며 또한 교정부호와 텍스트간의 정확한 영역 인식이 이루어져야 한다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정 부호와 편집 텍스트 영역간의 모호성을 최소화하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

조응구조의 지시사상 (mapping) 이론

  • 박영규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.199-199
    • /
    • 1990
  • 입력된 문서 영상으로부터 분리 추출된 문자 영상을 올바르게 인식하는 것은 문서 인식에서 가장 핵심적인 부분이다. 스캐너를 통해 입력되고 분리된 실제의 문자 영상은 많은 문제점들을 가지고 있다. 한글의 경우 이 중 개별 문자 영상내의 각 자소간의 접촉은 올바른 인식을 저해하는 주요한 원인이다. 이런 접촉의 문제를 효율적으로 해결하기 위해 한글의 구조적 특성을 지닌 "방향 필터"를 정의하고, 이것을 이용하여 세선화된 문자 영상을 추적하면서 선소들을 뽑아낸다. 이렇게 하여 얻은 선소들과 선소들간의 지식을 조합하여 한글자소 획을 추출케 되고 결국에는 이런 획의 조합을 통해 문자 영상을 인식하는 방법을 제안한다.

  • PDF

문서중심 XML 문서를 위한 데이터 모델 (Data Model for Document-Centric XML Document)

  • 김연희;김성완;신판섭;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.25-27
    • /
    • 2001
  • 웹 상의 데이터 표현 및 교환의 새로운 표준으로 인식되어 점차 그 교류의 앙이 중가하고 있는 XML 문서를 효과적으로 저장, 접근 및 검색하기 위한 기법에 대한 연구가 많았으나, 기존의 연구들은 데이터중심 문서의 특성이 두드러지는 XML 문서룬 대상으로 하는 것이 대두분이였다. 그러나 효과적인 XML 문서의 저장 및 검색을 위해서는 XML 문서의 실제 사용 목적이나 그 특성에 따라 XML 문서를 분류하여 각 특성에 맞는 저장, 접근 및 검색 기법을 개발하고 이를 통합한 XML 문서 저장 시스템의 개발이 요구된다. 따라서 본 논문에서는 통합 시스템 개발에서, 인간 이해 중심의 문서적 특성을 가지는 문서중심 문서를 위한 데이더 모델을 제안한다. 제안된 데이터 모델은 루트 노드가 존재하는 방향성과 순서가 있는 그래프 형태를 지원하며, XML 문서의 주요 구성 요소를 지원하는 여러 타입의 노드와 다양한 노드 사이의 관계를 표현하는 링크로 구성되어 XML 문서가 가지는 의미와 구조적 특징이 잗 표현되도록 하였다. 또한 모델링 후 손실되는 정보가 거의 없기 때문에, 다시 XML 문서로 변환하면 원래 XML 문서 그대로 복원되는 장점이 있어 문서중심 문서의 저장 및 검색을 위한 전용XML 저장 시스템에 적합한 데이터 모델이다.

  • PDF

자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구 (A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering)

  • 김건영;이정빈;손미애
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.127-135
    • /
    • 2023
  • 정보통신기술이 발달함에 따라 전투공간에서 생산·공유되는 정보 및 체계 내 저장·관리되는 정보의 양이 폭발적으로 증가하였다. 이는 지휘관이 전장상황 인식 및 지휘결심을 수행하는 데에 활용할 수 있는 정보의 양이 증가하였음을 의미하지만, 한편으로는 지휘관의 정보 부담을 증가시킴으로써 신속한 지휘결심을 저해하는 요인이 되기도 한다. 이러한 한계를 극복하기 위해, 본 연구에서는 지휘관이 전장상황 보고 문서를 수신하였을 때, 체계 내 보유 문서 중에서 이를 해석하는 데에 도움을 줄 수 있는 문서들을 자동적으로 탐색 및 선별하고 요약하는 기법을 제안하였다. 첫째로, 개체명 인식 방법을 활용하여 수신된 전장상황 보고 문서로부터 개체들을 식별한다. 둘째로, 각 개체와 관련된 체계 내 보유 문서들을 탐색한다. 셋째로, 언어모델과 협업 필터링을 활용하여 이러한 문서들을 선별한다. 이때 언어모델은 수신된 보고 문서와 탐색된 문서 간의 유사도를 산출하기 위해 활용되고, 협업 필터링은 지휘관의 문서 열람 히스토리를 반영하기 위해 활용된다. 마지막으로, 선별된 문서들로부터 각 개체가 포함된 문장을 선별하고 이를 정렬한다. 실험은 군 문서와 비슷한 특성을 지니는 학술논문들을 활용하여 수행하였고, 제안된 방법의 타당성을 검증하였다.