• 제목/요약/키워드: Scene text recognition

검색결과 30건 처리시간 0.028초

Detecting and Segmenting Text from Images for a Mobile Translator System

  • Chalidabhongse, Thanarat H.;Jeeraboon, Poonsak
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.875-878
    • /
    • 2004
  • Researching in text detection and segmentation has been done for a long period in the OCR area. However, there is some other area that the text detection and segmentation from images can be very useful. In this report, we first propose the design of a mobile translator system which helps non-native speakers to understand the foreign language using ubiquitous mobile network and camera mobile phones. The main focus of the paper will be the algorithm in detecting and segmenting texts embedded in the natural scenes from taken images. The image, which is captured by a camera mobile phone, is transmitted to a translator server. It is initially passed through some preprocessing processes to smooth the image as well as suppress noises. A threshold is applied to binarize the image. Afterward, an edge detection algorithm and connected component analysis are performed on the filtered image to find edges and segment the components in the image. Finally, the pre-defined layout relation constraints are utilized in order to decide which components likely to be texts in the image. A preliminary experiment was done and the system yielded a recognition rate of 94.44% on a set of 36 various natural scene images that contain texts.

  • PDF

Knowledge-Based Numeric Open Caption Recognition for Live Sportscast

  • Sung, Si-Hun
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1871-1874
    • /
    • 2003
  • Knowledge-based numeric open caption recognition is proposed that can recognize numeric captions generated by character generator (CG) and automatically superimpose a modified caption using the recognized text only when a valid numeric caption appears in the aimed specific region of a live sportscast scene produced by other broadcasting stations. in the proposed method, mesh features are extracted from an enhanced binary image as feature vectors, then a valuable information is recovered from a numeric image by perceiving the character using a multiplayer perceptron (MLP) network. The result is verified using knowledge-based hie set designed for a more stable and reliable output and then the modified information is displayed on a screen by CG. MLB Eye Caption based on the proposed algorithm has already been used for regular Major League Base-ball (MLB) programs broadcast five over a Korean nationwide TV network and has produced a favorable response from Korean viewer.

  • PDF

차량 번호판 인식을 위한 앙상블 학습기 기반의 최적 특징 선택 방법 (An Ensemble Classifier Based Method to Select Optimal Image Features for License Plate Recognition)

  • 조재호;강동중
    • 전기학회논문지
    • /
    • 제65권1호
    • /
    • pp.142-149
    • /
    • 2016
  • This paper proposes a method to detect LP(License Plate) of vehicles in indoor and outdoor parking lots. In restricted environment, there are many conventional methods for detecting LP. But, it is difficult to detect LP in natural and complex scenes with background clutters because several patterns similar with text or LP always exist in complicated backgrounds. To verify the performance of LP text detection in natural images, we apply MB-LGP feature by combining with ensemble machine learning algorithm in purpose of selecting optimal features of small number in huge pool. The feature selection is performed by adaptive boosting algorithm that shows great performance in minimum false positive detection ratio and in computing time when combined with cascade approach. MSER is used to provide initial text regions of vehicle LP. Throughout the experiment using real images, the proposed method functions robustly extracting LP in natural scene as well as the controlled environment.

비디오에서 프로젝션을 이용한 문자 인식 (Identification of Korea Traditional Color Harmony)

  • 백정욱;신성윤;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.196-197
    • /
    • 2009
  • 비디오에서 우선 장면 전환 검출을 통해 생성된 키 프레임을 대상으로 프로젝션을 통하여 문자 인식을 수행하도록 한다. 텍스트의 자간 분리를 수직 프로젝션에 의해 분리 한다. 자소는 초성, 중성, 종성으로 분리하고 6가지 유형으로 분리한다. 자소 패턴 분리는 수평 프로젝션을 통하여 6가지 유형에 맞도록 분리한다. 자소는 수평, 수직, 사선, 역사선 방향으로 분리한다. 자소의 인식은 4-방향 프로젝션과 위치정보를 이용하여 인식하도록 한다.

  • PDF

딥러닝을 활용한 한글문장 OCR연구 (A Study on the OCR of Korean Sentence Using DeepLearning)

  • 박선우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.470-474
    • /
    • 2019
  • 한글 OCR 성능을 높이기 위해 딥러닝 모델을 활용하여 문자인식 부분을 개선하고자 하였다. 본 논문에서는 폰트와 사전데이터를 사용해 딥러닝 모델 학습을 위한 한글 문장 이미지 데이터를 직접 생성해보고 이를 활용해서 한글 문장의 OCR 성능을 높일 다양한 모델 조합들에 대한 실험을 진행했다. 딥러닝 모델은 STR(Scene Text Recognition) 구조를 사용해 변환, 추출, 시퀀스, 예측 모듈 각 24가지 모델 조합을 구성했다. 딥러닝 모델을 활용한 OCR 실험 결과 한글 문장에 적합한 모델조합은 변환 모듈을 사용하고 시퀀스와 예측 모듈에는 BiLSTM과 어텐션을 사용한 모델조합이 다른 모델 조합에 비해 높은 성능을 보였다. 해당 논문에서는 이전 한글 OCR 연구와 비교해 적용 범위를 글자 단위에서 문장 단위로 확장하였고 실제 문서 이미지에서 자주 발견되는 유형의 데이터를 사용해 애플리케이션 적용 가능성을 높이고자 한 부분에 의의가 있다.

  • PDF

맞춤형 여행 콘텐츠 개발을 위한 OCR 기법을 활용한 영화 속 촬영지 정보 추출 방안 제시 (Study on Extracting Filming Location Information in Movies Using OCR for Developing Customized Travel Content)

  • 박은비;신유빈;강주영
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.29-39
    • /
    • 2020
  • 목적 사회 전반적으로 퍼진 개인의 취향에 대해 존중하는 분위기는 소비 트렌드를 바꾸었다. 그에 따라 여행 산업에서도 소비자 개인의 취향을 반영하는 맞춤형 여행이 새로운 트렌드로 주목받고 있다. 특히 여행 산업 분야 중 하나인 '영화 관광'에 대한 관심이 커지고 있음에 주목하였다. 영화를 시청하며 발생하는 개인의 여행 동기를 맞춤형 여행 제안으로 충족시키고자 하며, 이는 '영화 관광 산업'의 지속적 발전의 촉진제가 될 것으로 기대한다. 설계/방법론/접근 본 연구에서는 시청자가 실제로 방문하고 싶은 영화 속 촬영지 정보를 'OCR'을 통해 추출, 제안하는 방법론을 구현하였다. 먼저, 실시간 이미지 프로세싱 라이브러리인 'OpenCV'를 활용하여 사용자가 선택한 영화 속 장면을 추출 받는다. 또한, 딥러닝 기반의 텍스트 영역 탐지모델인 'EAST 모델'을 활용하여 해당 장면 이미지에서 문자가 위치한 곳을 탐지하여 검출한다. 검출한 이미지는 'OpenCV 내장 함수'를 사용해 전처리하여 인식의 정확도를 높인다. 마지막으로 광학 문자 인식 엔진인 'Tesseract'를 사용하여 이미지 속 문자를 인식 가능한 텍스트로 변환한 후, 'Google Map API'를 통해 실제 위치 정보를 반환한다. 의의 본 연구는 기존의 영화 관광에서 나아가, 4차 산업 기술을 활용한 개인 맞춤 관광 콘텐츠를 제공해준다는 점에서 큰 의의가 있다. 이는 앞으로 여행사와 함께 영화 관광 패키지 상품 개발에 활용될 수 있다. 또한 국내에서 해외로의 유입뿐만 아니라, 해외에서 국내로의 유입에 활용될 가능성 역시 내포하고 있다.

Label Restoration Using Biquadratic Transformation

  • Le, Huy Phat;Nguyen, Toan Dinh;Lee, Guee-Sang
    • International Journal of Contents
    • /
    • 제6권1호
    • /
    • pp.6-11
    • /
    • 2010
  • Recently, there has been research to use portable digital camera to recognize objects in natural scene images, including labels or marks on a cylindrical surface. In many cases, text or logo in a label can be distorted by a structural movement of the object on which the label resides. Since the distortion in the label can degrade the performance of object recognition, the label should be rectified or restored from deformations. In this paper, a new method for label detection and restoration in digital images is presented. In the detection phase, the Hough transform is employed to detect two vertical boundaries of the label, and a horizontal edge profile is analyzed to detect upper-side and lower-side boundaries of the label. Then, the biquadratic transformation is used to restore the rectangular shape of the label. The proposed algorithm performs restoration of 3D objects in a 2D space, and it requires neither an auxiliary hardware such as 3D camera to construct 3D models nor a multi-camera to capture objects in different views. Experimental results demonstrate the effectiveness of the proposed method.

형태학과 문자의 모양을 이용한 뉴스 비디오에서의 자동 문자 추출 (Automatic Text Extraction from News Video using Morphology and Text Shape)

  • 장인영;고병철;김길천;변혜란
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권4호
    • /
    • pp.479-488
    • /
    • 2002
  • 최근 들어 인터넷 사용의 증가와 더불어 디지털 비디오의 수요 또한 급격히 증가하고 있는 추세이다. 따라서 디지털 비디오 데이타베이스의 인덱싱을 위한 자동화된 도구가 필요하게 되었다. 디지털비디오 영상에 인위적으로 삽입되어진 문자와 배경에 자연적으로 포함되어진 배경문자 등의 문자 정보는 이러한 비디오 인덱싱을 위한 중요한 단서가 되어질 수 있다. 본 논문에서는 뉴스 비디오의 정지 영상에서 뉴스 자막과 배경 문자를 추출하기 위한 새로운 방법을 제안한다. 제안된 알고리즘은 다음과 같이 세 단계로 구성된다. 첫 번째 전처리 단계에서는 입력된 컬러 영상을 명도 영상으로 변환하고, 히스토그램 스트레칭을 적용하여 영상의 수준을 향상시킨다. 이 영상에 적응적 임계값 추출에 의한 분할 방법을 수정 적용하여 영상을 분할한다. 두 번째 단계에서는 적응적 이진화가 적용된 결과 영상에 모폴로지 연산을 적절하게 사용하여, 우선 문자 영역은 아니면서 문자로 판단되기 쉬운 양의 오류(false-positive) 요소들이 강조되어 남아있는 영상을 만든다. 또한, 변형된 이진화 결과 영상에 모폴로지 연산과 본 논문에서 제안한 기하학적 보정(Geo-corrertion) 필터링 방법을 적용하여 문자와 문자로 판단되기 쉬운 요소들이 모두 강조되어 남아있는 영상을 만든다. 이 두 영상의 차를 구함으로서 찾고자 하는 문자 요소들이 주로 남고, 문자가 아닌 문자처럼 보이는 오류 요소들은 대부분 제거된 결과 영상을 만든다. 문자로 판단되는 양의 오류 영역들을 남기는데 사용된 모폴로지 연산은 3$\times$3 크기의 구조 요소를 갖는 열림과 (열림닫힘+닫힘열림)/2 이며, 문자 및 문자와 유사한 요소들을 남기는데 사용된 연산은 (열림닫힘+닫힘열림)/2와 기하학적 보정이다. 세 번째 검증 단계에서는 전체 영상 화소수 대비 각 후보 문자 영역의 화소수 비율, 각 후보 문자 영역의 전체 화소수 대비 외곽선의 화소수 비율, 각 외곽 사각형의 폭 대 높이간의 비율 등을 고려하여 비문자로 판단되는 요소들을 제거한다. 임의의 300개의 국내 뉴스 영상을 대상으로 실험한 결과 93.6%의 문자 추출률을 얻을 수 있었다. 또한, 본 논문에서 제안한 방법으로 국외 뉴스, 영화 비디오 등의 영상에서도 좋은 추출을 보임을 확인할 수 있었다.

멀티미디어 공연에서 비디오를 활용한 리얼리티 구축하기 - 샤우뷔네의 <햄릿>과 리니아 드 솜브라의 <아마릴로>를 중심으로 - (Weaving the realities with video in multi-media theatre centering on Schaubuhne's Hamlet and Lenea de Sombra's Amarillo)

  • 최영주
    • 한국연극학
    • /
    • 제53호
    • /
    • pp.167-202
    • /
    • 2014
  • When video composes mise-en-scene during the performance, it reflects the aspect of contemporary image culture, where the individual as creator joins in the image culture through the device of cell phone and computer remediating the former video technology. It also closely related with the contemporary theatre culture in which 1960's and 1970's video art was weaved into the contemporary performance theatre. With these cultural background, theatre practitioners regarded media-friendly mise-en-scene as an alternative facing the cultural landscape the linear representational narrative did not correspond to the present culture. Nonetheless, it can not be ignored that video in the performance theatre is remediating its historical function: to criticize the social reality. to enrich the aesthetic or emotional reality. I focused video in the performance theatre could feature the object with the image by realizing the realtime relay, emphasizing the situation within the frame, and strengthening the reality by alluding the object as a gesutre. So I explored its two historical manuel. First, video recorded the spot, communicated the information, and arose the audience's recognition of the object to its critical function. Second, video in performance theatre could redistribute perceptual way according to the editing method like as close up, slow motion, multiple perspective, montage and collage, and transformation of the image to the aesthetic function. Reminding the historical function of video in contemporary performance theatre, I analyzed two shows, Schaubuhne's Hamlet and Lenea de Sombra's Amarillo which were introduced to Korean audiences during the 2010 Seoul Theatre Olympics. It is known to us that Ostermeir found real social reality as a text and made the play the context. In this, he used video as a vehicle to penetrate the social reality through the hero's perspective. It is also noteworthy that Ostermeir understood Hamlet's dilemma as these days' young generation's propensity. They delayed action while being involved in image culture. Besides his use of video in the piece revitalized the aesthetic function of video by hypermedial perceptual method. Amarillo combined documentary theatre method with installation, physical theatre, and video relay on the spot, and activated aesthetic function with the intermediality, its interacting co-relationship between the media. In this performance theatre, video has recorded and pursued the absent presence of the real people who died or lost in the desert. At the same time it fantasized the emotional aspect of the people at the moment of their death, which would be opaque or non prominent otherwise. As a conclusion, I found the video in contemporary performance theatre visualized the rupture between the media and perform their intermediality. It attempted to disturb the transparent immediacy to invoke the spectator's perception to the theatrical situation, to open its emotional and spiritual aspect, and to remind the realities as with Schaubuhne's Hamlet and Lenea de Sombra's Amarillo.

소상팔경(瀟湘八景), 전통경관 텍스트로서의 의미와 결속구조 (A Study on the Meaning and Coherence of Sosangpalkyung as a Text of Traditional Scenery)

  • 노재현
    • 한국조경학회지
    • /
    • 제37권1호
    • /
    • pp.110-119
    • /
    • 2009
  • 소상팔경은 중국에서 태동하여 오랫동안 동아시아의 시와 그림에 지대한 영향을 미쳤으며, 한국과 일본에서 전통 경관의 원형을 이끄는 문화현상으로 자리하였다. 지금까지 팔경 등 '경(景)'에 대한 연구는 지속적으로 이루어져 왔지만 정작 국내 팔경문화의 원류가 되는 소상팔경의 형식과 의미를 집중적으로 조명한 조경학적 연구 성과는 찾을 수 없다. 본 연구는 '문화경관 텍스트'로서의 소상팔경가와 소상팔경도에 담겨진 정형적 모습은 무엇이며 소상팔경이라는 문화현상 속에는 과연 어떠한 인식체계와 사유방식(思惟方式)의 결속구조가 엮여져 있는가를 밝히기 위해 시도되었다. '팔(八)'의 상징성을 정리하고 경관 어휘소의 분절 및 해체를 통해 '소상팔경' 각 경의 표층구조와 상관관계를 기호학적 관점에서 아이콘과 코드로 풀이하는 한편 텍스트 '소상팔경가'와 '소상팔경도'의 결속구조와 그 의미를 파악하였다. 소상팔경은 음양관과 팔괘(八卦)를 기본으로, 인생과 자연의 순환 및 변환 원리를 문자와 그림 텍스트로 정리한 언어기호이며, 문장의 문법적 구조와 형식은 단어의 상징성을 강조한 함축언어를 유사성과 대비성의 원리로서 전개 대응시킴으로서 자연의 섭리를 인간의 의식 안으로 옮겨오려고 시도한 결속구조와 결속성이 강하게 작용하고 있다. 또한, '소상팔경'은 다양한 경관 요소를 일정한 형식과 구조의 틀 속에서 배열함으로써 인생과 자연의 생멸 과정과 교감 그리고 소통을 변증법적으로 묘사하고 있다. 소상팔경의 이미지 기호는 결국 인생과 자연의 순환론을 강조하기 위한 것으로 보이며, 시간 및 계절 순환체계에서 인간이 관조하여 바라본 서사적 풍경이다. 고려에서 조선으로 이입된 "소상팔경"의 문화현상은 성리학적 풍경으로 덧칠되면서 조선의 문예미학을 이끄는 원동력이 되었고, 그 결속구조는 조선의 색채 풍경으로 변형되었지만 결속력은 꾸준히 전승되어 전래 문화경관의 기본 텍스트이자 한국적 풍경의 원형이 되었다.