• Title/Summary/Keyword: 텍스트

Search Result 4,922, Processing Time 0.031 seconds

텍스트 마이닝의 개념과 응용

  • Jo, Tae-Ho
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • s.5
    • /
    • pp.76-85
    • /
    • 2001
  • 정보검색시스템은 물론 텍스트 데이터를 대상으로하는 지식관리 시스템, 문서관리시스템, 그리고 전자도서관등에서 텍스트 마이닝에 대한 기술에 대한 수요가 증가하고 있는 추세이다. 이 글에서는 텍스트 마이닝의 개념을 소개하고, 텍스트 마이닝의 주요기능, 그리고, 응용사례등을 기술할것이다. 텍스트 마이닝은 텍스트 데이터를 대상으로 하여 그들간의 암묵적인 정보를 추출하는 과정으로 정의할 수 있다. 데이터마이닝과 텍스트 마이닝의 차이는 대상이 텍스트 데이터와 수치 데이터하는 점에서 구분되고 텍스트 마이닝은 데이터 마이닝과 달리 이를 구조화시키는 과정이 필요하다. 텍스트마이닝에 있어서 구조화하는 과정에서 가장 보편적으로 사용되는것은 문서색인이다.

  • PDF

Text Extraction using Character-Edge Map Feature From Scene Images (장면 이미지로부터 문자-에지 맵 특징을 이용한 텍스트 추출)

  • Park, Jong-Cheon;Hwang, Dong-Guk;Lee, Woo-Ram;Kwon, Kyo-Hyun;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2006.05a
    • /
    • pp.139-142
    • /
    • 2006
  • 본 연구는 장면 이미지로부터 텍스트에 존재하는 문자-에지 특징을 이용하여 텍스트를 추출하는 방법을 제안한다. 캐니(Canny)에지 연산자를 이용하여 장면 이미지로부터 에지를 추출하고, 추출된 에지로부터 16종류의 에지-맵 생성한다. 생성된 에지 맵을 재구성하여 문자 특징을 갖는 8종류의 문자-에지 맵을 만단다. 텍스트는 배경과 잘 분리되는 특징이 있으므로 텍스트에 존재하는 '문자-에지 맵'의 특징을 이용하여 텍스트를 추출한다. 텍스트 영역에 대한 검증은 문자-에지 맵의 분포와 텍스트에 존재하는 글자간의 공백 특징으로 한다. 제안한 방법은 다양한 종류의 장면 이미지를 실험대상으로 하였고, 텍스트는 적어도 2글자 이상으로 구성된다는 제한조건과 너무 크거나 작은 텍스트는 텍스트 추출에서 제외하였다. 실험결과 텍스트 영역 추출률은 약 83%를 얻었다.

  • PDF

Text Region Detection using Feature of Adaptive Character-Edge Map in Natural Images (자연영상에서 적응적 문자-에지 맵 특징을 이용한 텍스트 영역 검출)

  • Park, Jong-Cheon;Hwang, Dong-Guk;Lee, Woo-Ram;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.05a
    • /
    • pp.181-184
    • /
    • 2007
  • 자연영상에 포함된 텍스트는 많은 중요한 정보를 포함하고 있으므로 자연영상에서 텍스트 정보를 검출하는 연구가 활발히 진행되고 있다. 본 논문에서는 문자 영역의 구조적인 특정을 배열문법으로 정의한 적응적 문자-에지 맵을 제안하여 텍스트 영역을 검출한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지를 레이블링하고 그 영역의 문자구조 특징을 분석하기 위해서 적응적 문자-에지 맵을 분석한다. 적응적 문자-에지 랩의 분포 상태를 분석함으로서 텍스트 후보 영역을 검출하고, 텍스트 영역의 에지 히스토그램 프로파일을 분석함으로서 텍스트 후보 영역에 대한 검증을 수행하여 최종적인 텍스트 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 기울어진 텍스트와 다양한 크기의 텍스트 구성된 자연영상에서 텍스트 영역을 효과적으로 검출하였다.

  • PDF

Study on the management of text clutter on ENC portrayal (전자해도의 텍스트 중첩 해결 방안 연구)

  • Kang, Dongwoo;Oh, Sewoong;Shim, Wooseong
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2013.10a
    • /
    • pp.176-177
    • /
    • 2013
  • 전자해도 표현 측면에서 구분한 종류는 공간적 위상관계를 표현하는 정보, 사물을 표현하는 오브젝트, 그리고 오브젝트의 속성정보를 표현하는 텍스트가 있다. 텍스트가 필요 유무의 구분 없이 동시에 화면에 표출될 때, 각각의 텍스트가 서로 중첩되면서 의미 파악이 힘들뿐만 아니라 화면 가독성에 많은 영향을 미친다. S-52 표준에서는 텍스트의 화면 표출 여부를 선택할 수 있도록 기능을 제공하고 있으나, 이는 모든 텍스트를 동시에 표출하는 것과 하지 않는 것일 뿐 텍스트 중첩 문제는 해결되지 않는다. 이를 해결하기 위하여 본 연구에서는 텍스트 중첩 유무 및 각 오브젝트의 정보를 바탕으로 텍스트의 표출 여부를 판단하는 방안을 제안하였고 이를 통해 전자해도의 가독성을 높이고 텍스트의 의미전달이 용이하도록 하였다.

  • PDF

Hangul Text Detection using Text Corner Edge Feature Analysis in Natural Scene Images (자연영상에서 코너 에지 특징 분석방법을 이용한 한글 텍스트 검출기법에 관한 연구)

  • Park Jong-Cheon;Kwon Kyo-Hyun;Jun Byung-Min
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2005.11a
    • /
    • pp.379-383
    • /
    • 2005
  • 본 연구에서는 자연 이미지에서 한글 텍스트가 갖고 있는 에지 코너 특징을 이용한 한글 텍스트 검출방법을 제안한다. 자연영상으로부터 에지를 검출하고, 검출된 에지를 20종류의 에지 구조 성분을 갖는 에지 맵을 생성한다. 생성된 에지 맵에서 한글 텍스트 특징 갖는 특징들을 조합하여 모두 8가지의 텍스트 영역 후보 특징을 추출한다. 추출된 텍스트 영역의 특징을 수평 및 수직방향으로 검사하여 텍스트의 시작 라인과 끝라인을 검출하여 텍스트 영역의 수평좌표를 구한다. 추출된 텍스트 후보 영역에서 최종적으로 텍스트 영역을 결정한다. 제안한 방법은 다양한 종류의 자연 이미지에서 텍스트 영역을 검출에서 좋은 성능을 나타냈다.

  • PDF

Text Region Detection Using Connected Component Feature in Mobile Phone Images (모바일폰 영상에서 연결요소 특징을 이용한 텍스트 영역 검출)

  • Gwon, Gyo-Hyeon;Park, Jong-Cheon;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2012.05b
    • /
    • pp.716-718
    • /
    • 2012
  • 본 논문에서는 모바일 폰으로 획득한 영상의 텍스트영역 검출을 제안한다. 최근 모바일 폰을 이용한 영상기반 응용 분야의 연구가 활발히 진행되고 있으며, 특히 영상에서 텍스트를 인식하기 위한 전단계로 텍스트 영역 검출은 중요하다. 본 논문은 텍스트 영역 검출을 위해 먼저, 컬러 영상을 입력 받아 그레이 이미지로 변환하여 영상내에 내포된 잡음을 제거하고 열림/닫힘 연산의 특징을 이용해 각 연결요소를 검출하고 검출된 요소들을 레이블링 한다. 레이블링 된 영상은 텍스트가 갖는 특정 조건에 의해 텍스트 영역인지 텍스트 영역이 아닌지를 검출하고 검출된 텍스트 영역은 검증을 통해 최종 텍스트 영역을 검출한다. 제안한 방법은 기존의 택스트 영역 겁출보다 정확도가 향상할 수 있다.

  • PDF

Text Region Detection using Edge and Local Minima/Maxima Transformation From Natural Scene Images (에지 및 국부 최소/최대 변환을 이용한 자연이미지로부터 텍스트 영역검출)

  • Park, Jong-Cheon;Hwang, Dong-Guk;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.11a
    • /
    • pp.257-259
    • /
    • 2008
  • 자연이미지에 내포된 텍스트는 많은 정보를 제공함으로 이를 효과적으로 검출하여 다양한 응용분야에 활용될 수 있다. 본 논문에서는 텍스트 영역의 에지 특징과 국부 최소/최대 변환을 이용하여 자연이미지로부터 텍스트 영역 검출 방법을 제안한다. 에지 검출은 캐니-에지 검출기로 추출하고, 국부 최소/최대 변환을 이용하여 텍스트 영역의 연결성분을 추출한다. 각각 추출된 에지 및 연결성분으로부터 텍스트 영역 후보를 검출하고, 각각의 결과를 결합하여 최종적인 텍스트 후보 영역을 검출하고, 후보 텍스트 영역에 대한 검증을 수행함으로서 최종적인 텍스트 영역을 검출한다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험한 결과, 에지 및 연결성분의 두 가지 특징을 결합함으로서 자연이미지에 존재하는 다양한 형태의 텍스트 영역을 효과적으로 검출하였다.

  • PDF

Scene Text Detection Using Color-Based Binarization and Text Region Verification Using Support Vector Machine (색기반 이진화를 이용한 장면 텍스트 추출과 써포트 벡터머신을 이용한 텍스트 영역 검증)

  • Jang, Dae-Geun;Kim, Eui-Jeong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.161-163
    • /
    • 2007
  • 기존의 텍스트 추출을 위한 이진화 방법은 입력 이미지를 명도 이미지로 변환한 뒤 이진화 하는 방법을 사용하였다. 이러한 방법은 칼라 이미지에서는 극명히 구분되는 색이라 할지라도 명도 이미지로 변환하는 과정에서 같은 밝기를 같게 되는 경우(예를 들어, 배경은 붉은색, 텍스트는 초록색), 텍스트를 추출하는 데 어려움이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 입력 이미지를 R, G, B로 분리하고 각각을 이진화 하여 텍스트를 추출하고 다해상도 웨이블릿(Wavelet) 변환을 이용하여 텍스트의 획 특징을 추출하여 추출된 특징들을 SVM(Support Vector Machine) 분류기로 검증하여 최종 텍스트 영역을 확정한다. 제안한 방법을 적용함으로써 명도 정보만으로는 추출하기 어려웠던 텍스트 영역을 효과적으로 추출하고 텍스트와 구별하기 어려운 영역을 획수준으로 검증할 수 있었다.

  • PDF

Study on Text Detection of Low-contrast Region in Natural Images Using Connected-Component Based Method (자연영상에서 저 대비 영역의 텍스트 영역 검출을 위한 연결요소 기반 방법에 관한 연구)

  • Bak, Jong-Cheon;Gwon, Gyo-Hyeon;Jeon, Byeong-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.191-194
    • /
    • 2010
  • 최근 모바일 기기 응용 분야에 관한 연구가 활발히 진행되고 있으며 모바일기기로 촬영된 영상에서 텍스트 정보를 추출하고자 하는 많은 연구도 진행되고 있다. 자연영상으로부터 텍스트 인식을 위한 전 단계로 텍스트 영역 검출은 필수적이므로 본 연구는 텍스트 영역의 지역적 연결요소 성분 특징을 고려하여 저 대비 영역에 존재하는 텍스트 영역을 검출하는 방법을 제안한다. 연결요소 성분은 전역 및 지역적 표준편차를 이용하여 연결성분을 추출하고 추출된 연결성분으로부터 후보 텍스트 영역을 검출하고, 후보 텍스트 영역에 대한 검증을 수행함으로서 최종적인 텍스트 영역을 검출한다. 제안한 방법은 낮은 대비를 갖는 자연영상에서 텍스트 영역 검출 성능을 개선하는 결과를 얻었다.

  • PDF

Study on Text Detection of Low-contrast Region in Natural Images Using Edge-Based Based Method (자연영상에서 저 대비 영역의 텍스트 영역 검출을 위한 에지-기반 방법에 관한 연구)

  • Bak, Jong-Cheon;Gwon, Gyo-Hyeon;Jeon, Byeong-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.187-190
    • /
    • 2010
  • 최근 모바일 기기 응용 분야에 관한 연구가 활발히 진행되고 있으며 모바일기기로 촬영된 영상에서 텍스트 정보를 추출하고자 하는 많은 연구도 진행되고 있다. 자연영상으로부터 텍스트 인식을 위한 전 단계로 텍스트 영역 검출은 필수적이므로 본 연구는 텍스트 영역의 에지-기반 특징을 고려하여 저 대비 영역에 존재하는 텍스트 영역을 검출하는 방법을 제안한다. 에지 성분은 캐니-연산자를 이용하여 검출하고 검출된 에지성분으로부터 후보 텍스트 영역을 검출하고, 후보 텍스트 영역에 대한 검증을 수행함으로서 최종적인 텍스트 영역을 검출한다. 제안한 방법은 낮은 대비를 갖는 자연영상에서 텍스트 영역 검출 성능을 개선하는 결과를 얻었다.

  • PDF