• 제목/요약/키워드: 문서 구조 분석

검색결과 496건 처리시간 0.024초

교차점 검출과 분류를 통한 카메라 문서영상에서의 테이블 구조 인식 알고리듬 (Table recognition algorithm for camera-captured document images based on junction detection and labeling)

  • 서원교;구형일;이동혁;김상호;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.263-266
    • /
    • 2013
  • 표는 중요한 정보를 함축적으로 담고 있는 문서 요소로서 문서 영상에서 표의 내용과 구조를 분석하고 이해하려는 연구가 많이 진행되어 왔다. 이러한 표의 검출과 인식에 관한 기존의 연구들은 평판 스캐너로 취득한 문서 영상을 대상으로 이루어졌는데 최근에는 디지털 카메라와 스마트폰이 보급됨에 따라 평판 스캐너 대신 카메라를 이용한 표 인식의 필요성이 대두되고 있다. 따라서 본 논문에서는 카메라로 획득한 문서 영상에서 표 인식에 대한 알고리듬을 제안한다. 먼저 표가 선들의 집합으로 이루어져 있다는 가정 아래 문서 이미지에 존재하는 선을 이진화와 강인한 곡선 맞춤 알고리듬을 사용하여 검출한다. 검출된 선들의 교차점은 표의 요소일 수도 있으며 오검출의 결과일 수도 있는데 교차점 주변의 관찰 결과와 교차점 사이의 연관 관계를 에너지 식으로 표현하고 이 식을 최소화함으로써 각각의 교차점에 최적의 레이블을 할당한다. 얻어진 레이블은 표로 유일하게 변환되며 표의 구조를 셀 단위까지 추정할 수 있다. 다양한 표 영상에 대한 실험 결과를 통하여 제안한 방법이 문서영상의 기하학적인 왜곡에도 불구하고 영상에 존재하는 표를 성공적으로 인식함을 보여준다.

  • PDF

비디오 문서 관리시스템의 설계 및 구현 (Design and Implementation of Video Documents Management System)

  • 권재길;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권8호
    • /
    • pp.2287-2297
    • /
    • 2000
  • 시청각 정보 및 의미적 정보 등을 포함하는 비디오 문서는 미디어들간에 복잡한 관계성을 가지며, 내용에 대한 주제별 검색과 문서에 나타나는 객체 정보를 이용한 특정 영역별 검색을 요구하는 등 사용자의 질의가 다양해지고 있으나, 기존의 정보 검색 설계 방법으로는 이러한 내용을 충분히 수용하기 어렵다. 따라서 비디오 문서를 체계적으로 관리하고 다양한 검색을 지원하기 위해서는 자동 혹은 수동으로 추출된 문서의 의미적 정보 및 구조적 정보 등을 활용한 구조적이고 체계적인 메타데이터 모델을 정립해야 한다. 본 논문은 비디오 문서가 가지는 특성들을 분석하여 다양한 질의를 수용할 수 있고, 다른 비디오 응용의 기반 구조로 제공될 수 있는 일반저인 메타데이터를 분류하고 이를 통합적으로 관리하는 일반 통합 메타데이터 모델(GIMM)을 제안한다. 그리고 GIMM을 이용하여 비디오 문서 관리 시스템(VDMS)을 설계하고 구현한다.

  • PDF

PHR 서비스를 위한 XML 스키마 구조 설계 (Design of XML Schema Structure for PHR Service)

  • 이영우;심재성;박석천
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.504-506
    • /
    • 2013
  • 본 논문에서는 PHR 서비스를 제공하는데 각각의 병원에서 서로 다른 문서구조로 인하여 연동이 용이하지 않은 문제점에 대한 방안으로 XML 스키마 구조를 설계하였다. 이를 위하여 PHR과 표준문서 구조를 분석하고 의료기관의 각각의 시스템을 연동하기 위해 XML 스키마를 이용하여 의료정보 연동시스템과 PHR 서비스를 위한 XML 스키마 구조를 설계하였다.

양식 문서 영상에서 도표 구조 분석을 위한 라인 추적 알고리즘 (Line Tracking Algorithm for Table Structure Analysis in Form Document Image)

  • 김계경
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권2호
    • /
    • pp.151-159
    • /
    • 2021
  • 도표로 작성된 양식 문서에서 도표의 레이아웃 해석에 필요한 그리드 라인을 추출하기 위해 다양한 필터링 또는 모폴로지 등의 방법을 사용하여 직선 성분을 선명하게 개선시키기 위한 연구들이 많이 진행되고 있다. 도표의 직선 성분을 선명화하더라도 직선 내부에 절단 점들이 존재하거나 기울어진 경우에는 직선 추출이 어렵고 도표 셀들의 레이아웃을 논리적으로 표현하는데 여전히 어려움을 겪을 수 있다. 본 연구에서는 직선에 절단점들이 존재하거나 기울어져도 직선을 검출할 수 있는 라인 추적 알고리즘을 제안하였다. 이를 이용하여 그리드 라인을 추출하고 라인들의 교차점 및 셀 정보들을 찾아 도표의 구조를 분석할 수 있는 알고리즘을 마련하였다. 제안한 알고리즘을 실제 양식 문서 영상을 대상으로 실험한 결과 평균 0.41초 처리시간에 96.4%의 도표 구조를 분석할 수 있음을 확인하였다.

웹 인덱싱을 위한 통합 전처리 시스템의 개발 (Integrated Sentence Preprocessing System for Web Indexing)

  • 심준혁;차정원;이근배
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

웹 인덱싱을 위한 통합 전처리 시스템의 개발 (Integrated Sentence Preprocessing System for Web Indexing)

  • 심준혁;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

HL7 표준임상문서구조를 사용한 전자퇴원요약의 생성, 저장, 관리 시스템 (Generation, Storing and Management System for Electronic Discharge Summaries Using HL7 Clinical Document Architecture)

  • 김화선;김일곤;조훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.239-249
    • /
    • 2006
  • 병원정보시스템(Hospital Information System)은 다른 병원정보시스템과 서로 독립적으로 운영되므로 상호운영성(Interoperability)이 배제되어 왔다. 이 연구는 HL7 표준임상문서구조(Health Level 7, Clinical Document Architecture)와 XML 스키마의 분석과 설계를 통하여 새로운 패러다임의 병원정보시스템을 제안한다. 퇴원요약지로부터 필수 항목을 규정하여 템플릿을 정의한 후 임상문서구조를 설계하여 자동적으로 임상문서를 생성되도록 하였다. XML 스키마는 HL7에서 정의한 참조정보모델(Reference Information Model)을 기반으로 분석하였고, 전송 프로토콜은 HL7 V2.4를 사용하였다. 본 연구가 가지는 의의는 첫째, 국제 표준인 HL7 표준임상문서구조를 사용하기 위한 확장과 정제과정의 연구를 했으며, 둘째, 표준임상문서구조를 사용할 수 있는 웹 기반의 차세대 병원정보시스템의 구조를 제안하였다. 결론적으로, 한국의 퇴원요약 표준임상문서구조에 대한 본 연구로 말미암아 평생전자의무기록(Electronic Health Record)과 임상데이타저장소(Clinical Data Repository)를 포함하여 다양한 보건의료기관 간 의료정보 공유의 기반이 될 것이다.

웹 상에서 JAVA를 이용한 컴퓨터 프로그램분석 시스템의 설계 및 구현 (A Design and Implementation of the System Analyzing Computer Programs Using Java on WWW)

  • 최돈은;이재영;서영상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.670-672
    • /
    • 1999
  • 인터넷의 빠른 보급으로 인해 교육용 시스템은 독립형 교육시스템에서 최신의 정보를 실시간으로 얻을 수 있는 웹 기반 교육시스템으로 변화하고 있다. 본 연구에서는 학습자들이 제공한 프로그램을 관리자가 교육시스템내에서 구조체와 함수 단위로 분석한다. 분석된 구조체와 함수는 구조체 파일과 함수 파일로 파일 시스템에 저장되고, 저장된 구조체 파이과 함수 파일의 정보는 데이터베이스에 추가된다. 그 후, 제공된 소스 파일을 HTML문서로 변환하는 과정에서 구조체와 함수는 데이터베이스에서 구조체와 함수 파일을 찾게되고, 발견하면 각각의 파일 정보를 이용하여,

문단 가중치 분석 기반 본문 영역 선정 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;유성종;김도안;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.462-463
    • /
    • 2018
  • 기존의 문서 분석 시스템들은 형태소 분석기나 TF-IDF 기법을 통해 단어 위주의 분석을 진행하였다. 이러한 시스템들은 키워드들의 가중치를 계산하여 주요 키워드를 도출할 수 있는 장점이 있다. 이에 반해 문서의 내용을 분석하기에는 구조적인 한계로 인해 부적합한 실정이다. 이를 해결하기 위해 본 논문에서 제안하는 알고리즘은 문서 내에 있는 문단들의 가중치를 계산한 뒤 문단들을 영역별로 분할한다. 그리고 분할된 영역별로 중요도를 계산하여 해당 문서 내에 가장 중요한 문단들이 있는 영역을 사용자에게 알려준다. 이를 통해 사용자는 기존의 문서 분석 시스템들을 사용할 때보다 문서를 분석하기에 적합한 서비스를 제공받을 것으로 사료된다.

  • PDF