• Title/Summary/Keyword: Text-to-Image

Search Result 898, Processing Time 0.221 seconds

밝기 변화에 강인한 적대적 음영 생성 및 훈련 글자 인식 알고리즘 (Adversarial Shade Generation and Training Text Recognition Algorithm that is Robust to Text in Brightness)

  • 서민석;김대한;최동걸
    • 로봇학회논문지
    • /
    • 제16권3호
    • /
    • pp.276-282
    • /
    • 2021
  • The system for recognizing text in natural scenes has been applied in various industries. However, due to the change in brightness that occurs in nature such as light reflection and shadow, the text recognition performance significantly decreases. To solve this problem, we propose an adversarial shadow generation and training algorithm that is robust to shadow changes. The adversarial shadow generation and training algorithm divides the entire image into a total of 9 grids, and adjusts the brightness with 4 trainable parameters for each grid. Finally, training is conducted in a adversarial relationship between the text recognition model and the shaded image generator. As the training progresses, more and more difficult shaded grid combinations occur. When training with this curriculum-learning attitude, we not only showed a performance improvement of more than 3% in the ICDAR2015 public benchmark dataset, but also confirmed that the performance improved when applied to our's android application text recognition dataset.

Rectification of Perspective Text Images on Rectangular Planes

  • Le, Huy Phat;Madhubalan, Kavitha;Lee, Guee-Sang
    • International Journal of Contents
    • /
    • 제6권4호
    • /
    • pp.1-7
    • /
    • 2010
  • Natural images often contain useful information about the scene such as text or company logos placed on a rectangular shaped plane. The 2D images captured from such objects by a camera are often distorted, because of the effects of the perspective projection camera model. This distortion makes the acquisition of the text information difficult. In this study, we detect the rectangular object on which the text is written, then the image is restored by removing the perspective distortion. The Hough transform is used to detect the boundary lines of the rectangular object and a bilinear transformation is applied to restore the original image.

복잡한 영상에서 적응적 에지검출을 이용한 텍스트 추출 알고리즘 연구 (Text Extraction Algorithm in Complex Images using Adaptive Edge detection)

  • 신성;김선동;백영현;문성룡
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.251-252
    • /
    • 2007
  • The thesis proposed the Text Extraction Algorithm which is a text extraction algorithm which uses the Coiflet Wavelet, YCbCr Color model and the close curve edge feature of adaptive LoG Operator in order to complement the demerit of the existing research which is weak in complexity of background, variety of light and disordered line and similarity of text and background color. This thesis is simulated with natural images which include naturally text area regardless of size, resolution and slant and so on of image. And the proposed algorithm is confirmed to an excellent by compared with an existing extraction algorithm in same image.

  • PDF

자연 영상에서의 정확한 문자 검출에 관한 연구 (A Study on Localization of Text in Natural Scene Images)

  • 최미영;김계영;최형일
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권5호
    • /
    • pp.77-84
    • /
    • 2008
  • 본 논문에서는 자연영상에 존재하는 문자들을 효율적으로 검출하기 위한 새로운 접근 방법을 제안한다. 빛 또는 조명의 영향에 의해 획득된 영상 내에 존재하는 반사성분은 문자 또는 관심객체들의 경계가 모호해 지거나 관심객체와 배경이 서로 혼합되었을 경우, 문자추출 및 인식을 함에 있어서 오류를 포함시킬 수 있다. 따라서 영상 내에 존재하는 반사성분을 제거하기 위해 먼저, 영상으로부터 Red컬러 성분에 해당하는 히스토그램에서 두개의 피크 점을 검출한다. 검출된 두 개의 피크 점들 간의 분포를 사용하여 노말 또는 편광 영상에 해당하는지를 판별한다. 노말 영상의 경우 부가적인 처리를 거치지 않고 문자영역을 검출하며 편광 영상인 경우 조명성분을 제거하기 위해 호모모픽 필터링 방법을 적용하여 반사성분에 해당하는 영역을 제거한다. 그리고 문자영역을 검출하기 위해 색 병합과 세일런스 맵을 이용하여 각각의 문자 후보영역을 결정한다. 마지막으로 두 후보영역을 이용하여 최종 문자영역을 검출한다.

  • PDF

기능적 자기공명영상의 언어기능검사 시 image를 이용한 자극방법의 타당성 연구 (A feasibility study on new stimulation method in fMRI language examinations using custom designed images)

  • 최관우;손순룡;정미애;민정환
    • 한국산학기술학회논문지
    • /
    • 제12권11호
    • /
    • pp.5005-5011
    • /
    • 2011
  • 본 연구는 자기공명영상을 이용한 뇌 언어 인지기능의 영상화에 있어서 기존의 text를 이용한 자극방법의 단점을 개선하기 위하여 음절이나 단어에 부합하는 image를 자체 개발하여 적용함으로써 인지기능 영상화 구현의 타당성을 알아보고자 하였다. 연구대상은 2011년 3월부터 동년 5월까지 언어기능검사가 필요한 성인 5명을 대상으로 text를 이용한 자극방법과 text를 대체한 image를 이용한 자극방법으로 나누어 각각 3회 시행하였다. 실험 장비는 3.0T 초전도 자기공명영상장치와 Invivo사의 Eloquene를 이용하였고, EPI-BOLD 기법으로 기능적 자기공명영상을 획득하였다. 영상의 후처리는 SPM 99를 이용하여 각 자극별로 95%의 신뢰수준에서 활성화 신호를 결정하였고, 관심영역인 Broca's area의 활성화 cluster 수와 활성화도를 비교하였다. 연구결과, 5명 모두 관심 영역인 Broca's area에서 활성화를 보였으며, 활성화 cluster 수와 활성화도는 약간의 차이가 있었으나, 통계적 유의성은 없었다. 결론적으로 image를 이용한 자극방법은 언어장벽이 있더라도 image 자체가 쉽게 인지할 수 있는 공통된 인식표기 수단이고 단어나 음절보다 시각적 효과가 크므로 인지기능이 저하된 외국인이나 문맹자나 영유아, 장애자, 노약자 등의 검사시 text를 이용한 자극방법의 대체가 가능하리라 사료된다.

Space Coding을 이용한 Text watermarking (Text Watermarking using Space Coding)

  • 황미란;추현곤;최종욱;김회율
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.117-120
    • /
    • 2002
  • In this paper, we propose a new text watermarking method using space coding and PN sequence. A PN sequence generated from user message modifies the space between words in each line. The detection can be done without original text image using the average space with in the text. Experimental results show that proposed method has the invisible property and robustness to the attack such as the elimination of words in the text.

  • PDF

방사선 의료영상 검색 시스템에 관한 연구 (A Study on Radiological Image Retrieval System)

  • 박병래;신용원
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제28권1호
    • /
    • pp.19-24
    • /
    • 2005
  • 방사선사를 위한 교육 및 영상 정보에 대한 정확한 판단에 유용한 주석-기반 방사선 의료영상 검색 시스템을 설계 및 구현하고, 방사선 의료영상에 대한 단순 속성정보, 부가적인 정보인 텍스트 설명정보로부터 추출한 중요 키워드에 대한 효율적인 검색을 위해 $B^+$-트리와 역화일 기법을 이용한 색인기법을 제안하고자 한다. 윈도우즈 XP에서 Delphi를 이용하여 구현하였으며, 방사선사는 방사선 의료영상에 대한 속성 정보, 부가적인 설명정보, 이미지 정보를 저장하도록 하고, 구축된 영상 데이터베이스로부터 속성정보와 텍스트 키워드 정보를 이용하여 검색 가능하도록 하였다. 임상방사선사가 단순속성정보 및 텍스트 설명정보를 찾아냄으로써 임상현장에서의 체계적인 교육뿐 만 아니라 지식을 구조화함으로써 교육시간의 단축과 방사선 의료영상에 대해 정확한 판단을 내릴 수 있다. 구현되어진 방사선 의료영상검색 시스템은 차후에 일반촬영, 특수조영영상을 포함한 통합화상시스템으로의 확장이 요구되며, 아울러 웹을 통한 서비스를 구축함으로써 의사결정시스템으로 발전 할 수 있는 기반기술로 기대된다.

  • PDF

음각 정보를 이용한 딥러닝 기반의 알약 식별 알고리즘 연구 (Pill Identification Algorithm Based on Deep Learning Using Imprinted Text Feature)

  • 이선민;김영재;김광기
    • 대한의용생체공학회:의공학회지
    • /
    • 제43권6호
    • /
    • pp.441-447
    • /
    • 2022
  • In this paper, we propose a pill identification model using engraved text feature and image feature such as shape and color, and compare it with an identification model that does not use engraved text feature to verify the possibility of improving identification performance by improving recognition rate of the engraved text. The data consisted of 100 classes and used 10 images per class. The engraved text feature was acquired through Keras OCR based on deep learning and 1D CNN, and the image feature was acquired through 2D CNN. According to the identification results, the accuracy of the text recognition model was 90%. The accuracy of the comparative model and the proposed model was 91.9% and 97.6%. The accuracy, precision, recall, and F1-score of the proposed model were better than those of the comparative model in terms of statistical significance. As a result, we confirmed that the expansion of the range of feature improved the performance of the identification model.

Design and Development of a Multimodal Biomedical Information Retrieval System

  • Demner-Fushman, Dina;Antani, Sameer;Simpson, Matthew;Thoma, George R.
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.168-177
    • /
    • 2012
  • The search for relevant and actionable information is a key to achieving clinical and research goals in biomedicine. Biomedical information exists in different forms: as text and illustrations in journal articles and other documents, in images stored in databases, and as patients' cases in electronic health records. This paper presents ways to move beyond conventional text-based searching of these resources, by combining text and visual features in search queries and document representation. A combination of techniques and tools from the fields of natural language processing, information retrieval, and content-based image retrieval allows the development of building blocks for advanced information services. Such services enable searching by textual as well as visual queries, and retrieving documents enriched by relevant images, charts, and other illustrations from the journal literature, patient records and image databases.

A Design and Implementation of Generative AI-based Advertising Image Production Service Application

  • Chang Hee Ok;Hyun Sung Lee;Min Soo Jeong;Yu Jin Jeong;Ji An Choi;Young-Bok Cho;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.31-38
    • /
    • 2024
  • 본 논문에서는 생성형 AI 기반의 광고 이미지 자동 제작 서비스를 제공하는 ASAP(AI-driven Service for Advertisement Production) 애플리케이션을 제안한다. 이 애플리케이션은 GPT-3.5 Turbo Instruct를 이용하여 사용자가 입력한 키워드에 적합한 배경 분위기와 홍보 문구를 생성한다. 이를 입력으로 하여 배경 이미지와 텍스트 이미지를 생성하기 위해 OpenAI사의 DALL·E 3 모델과 Stability AI사의 SDXL 모델을 활용한다. 추가적으로 OCR 기술을 활용하여 텍스트 이미지의 정확도를 높이고, 생성된 출력물들을 모두 합성하여 최종적인 광고를 제작한다. 또한 PILLOW, OpenCV 라이브러리의 텍스트 박스를 이용하여 전화번호, 영업시간 등 세부 사항을 홍보물의 가장자리에 삽입할 수 있도록 구현한다. 본 애플리케이션은 광고 제작에 어려움이 많은 소상공인들에게 광고를 쉽고 편리하게 제작할 수 있고, 광고 제작 비용을 절감할 수 있는 효과를 제공한다.