• 제목/요약/키워드: Document Segmentation

검색결과 74건 처리시간 0.018초

웹 이미지로부터 이미지기반 문자추출 (Locating Text in Web Images Using Image Based Approaches)

  • Chin, Seongah;Choo, Moonwon
    • 지능정보연구
    • /
    • 제8권1호
    • /
    • pp.27-39
    • /
    • 2002
  • 본 논문은 다양한 웹 이미지로부터 문자영역(text block)의 위치를 알아내고 문자영역을 추출하는 방법을 제안한다. 인터넷 사용자관점에서 볼 때, 웹 이미지에 포함되어 있는 문자정보는 중요한 정보이지만 최근까지 이 분야의 연구는 그리 활발하지 못했다. 본 연구에서 제안된 알고리즘은 문자의 경사방향(skew)과 문자의 크기나 폰트에 관한 사전 정보 없이 수행되어 질 수 있도록 제안되었다 폰트 스타일과 크기에 제약되지 않고 문자영역을 적합하게 추출하기 위해 유용한 에지 검출, 문자 클러스터링 영역으로 정의되는 문자의 고유한 특성을 위한 히스토그램을 사용하였다. 다수의 실험을 통하여 제안된 방법을 테스트하고 수용할 만한 결과를 도출했다.

  • PDF

효과적인 추천과 세분화를 위한 트랜잭션 기반 여러 형태 사용자 프로파일의 구축 (The Construction of Multiform User Profiles Based on Transaction for Effective Recommendation and Segmentation)

  • 고재진;안형근
    • 정보처리학회논문지D
    • /
    • 제13D권5호
    • /
    • pp.661-670
    • /
    • 2006
  • 쉽게 접할 수 있는 정보의 양이 증가하고 전자상거래가 발전함에 따라, 드넓은 정보공간을 축소하기 위하여 추천과 SDI 시스템과 같은 정보 필터링 시스템이 사용되어지게 되었으며, 이에 따라 사용자들은 그들의 요구와 취향에 가장 적합한 정보들을 바로 접근할 수 있게 되었다. 지금까지 다양한 정보 필터링 방법들이 추천시스템을 지원하기 위해 제안되었다. 최근에는 새로운 정보교환 표준으로 떠오르고 있는 XML 문서를 필터링 하는 시스템들에 있어서도 다른 접근 방법을 요구하고 있다. 따라서, 본 논문에서 제안하는 시스템은 XML이 가진 구조 정보를 이용하여 여러 형태의 사용자 프로파일을 생성하는 방법을 제안한다. 시스템은 구매와 같은 트랜잭션이 발생하기 전에 사용자 구매 패턴을 분석하기 위해서 필요한 프로파일을 운영자가 직접 정의하는 운영자 프로파일과 이를 적용한 사용자 프로파일의 두 부분으로 구성된다. 운영자 프로파일은 DTD로부터 선택된 항목을 이용하여 DTD를 따르는 문서내의 특정부분을 가리킬 수 있도록 만들어진다. 제안하는 시스템은 사용자의 구매 행위에 적응력을 가질 수 있도록 보다 정확한 사용자 프로파일을 구축하고, 이와 같은 사용자 프로파일을 기반으로 사용자에게 불필요한 검색과정 없이 필요한 상품 정보를 제공할 수 있도록 한다.

체인 정합과 확장된 그룹핑 방법을 사용한 곡선형 텍스트 라인 추출 (Extracting curved text lines using the chain composition and the expanded grouping method)

  • ;윤진선;송영준;김남;김용기
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.453-460
    • /
    • 2007
  • 본 논문은 정형화되지 않은 텍스트 라인들을 추출하기 위한 방법을 보여주고 있다. 텍스트 라인들은 각기 다른 각도로 구성되고, 심하게 굴곡이 있는 모양, 그리고 텍스트 라인내의 약간의 단어 사이의 공간이 생기게 된다. 그러한 텍스트 라인들은 포스터, 주소, 그리고 예술 문서 등에서 발견된다. 제안하는 방법은 기존의 직관적인 그룹핑 방법에 기반을 두고 있지만, 하나의 라인에서 발생하는 불충분한 특징점들과 모호한 회전 등을 극복하기 위한 방법을 개발하였다. 본 논문에서 텍스트 라인들은 몇 개의 연결된 성분들로 구성되고, 이 성분들은 하나의 문자 또는 연결된 문자들의 검은색 화소들의 집합이라고 가정하였다. 제안하는 방법은 반복적으로 증가되는 임계값과 가까운 성분들은 하나의 체인으로 병합하게 되고 확장되어 길어진 체인들은 라인의 원시 체인으로서 인지된다. 그때 원시 체인들은 텍스트 라인의 부분적 회전에 따라 좌우로 확장되어 진다. 텍스트 라인의 부분적인 회전은 원시 체인이 확장될 때, 체인들의 각 면에서 재구성될 것이다. 이러한 과정을 통해서 모든 텍스트 라인들이 구성되어 진다. 제안 방법은 로고와 슬로건에서 사용된 곡면으로 쓰여진 텍스트 라인들에 대해서 실험한 결과 직선 텍스트 라인은 98%, 곡선 텍스트 라인은 94%로서 높은 추출율을 보여주고 있다.

Sentinel-1 SAR 영상을 활용한 국내 내륙 수체 학습 데이터셋 구축 및 알고리즘 적용 연구 (A Study of Development and Application of an Inland Water Body Training Dataset Using Sentinel-1 SAR Images in Korea)

  • 이어루;정형섭
    • 대한원격탐사학회지
    • /
    • 제39권6_1호
    • /
    • pp.1371-1388
    • /
    • 2023
  • 지구온난화로 인해 촉발된 기후변화가 홍수와 같은 수재해의 빈도와 규모를 증가시키며 국내 또한 장마와 집중호우로 인한 수재해가 증가하는 추세를 보인다. 이에 광범위한 수재해에 대해 효과적인 대응 및 기후 변화에 따른 선제적 대처가 필수적이며 이는 위성레이더 영상을 통해 가능하다. 본 연구에서는 Sentinel-1 위성 레이더 영상으로부터 국내 수체의 특성을 반영하기 위해 한강권역과 낙동강 권역의 일부 수체 영역에 대해 수체 학습 데이터셋 1,423장을 구축하였다. 정밀한 데이터 어노테이션(Annotation)을 위해 다양한 상황에 따른 구축 기준 문서를 작성한 뒤 진행하였다. 구축이 완료된 데이터셋을 딥러닝 모델 중 U-Net에 적용하여 수체 탐지 결과를 분석하였다. 최종적으로 학습된 모델을 학습과에 활용되지 않은 수체 영역에 적용하여 결과를 분석함으로써 전 국토 수체 모니터링의 가능성을 확인하였다. 분석 결과 구축된 수체 영역의 대해서는 F1-Score 0.987, Intersection over Union (IoU) 0.955의 높은 정확도로 수체를 탐지할 수 있었으며, 학습 및 평가에 활용되지 않은 다른 국내 수체 영역에 대해서도 동일하게 F1-Score 0.941, IoU 0.89의 높은 수체 탐지 결과를 나타냈다. 두 결과 모두 전반적으로 일부 그림자 영역과 폭이 좁은 하천에서 오류가 관찰되었으나, 그 외에는 정밀하게 수체를 탐지하였다. 이러한 연구 결과는 수재해 피해 규모 및 수자원 변화 모니터링에 중요한 기여를 할 것으로 기대된다. 추후 연구에서는 보다 다양한 수체 특성을 가진 데이터셋을 추가 구축한다면 오분류한 영역을 개선할 수 있을 것으로 기대되며, 전 국토의 수체를 효율적으로 관리 및 모니터링하는데 활용될 것으로 사료된다.