• Title/Summary/Keyword: 텍스트 인식

Search Result 779, Processing Time 0.04 seconds

Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images (카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화)

  • Song Young-Ja;Choi Yeong-Woo
    • The KIPS Transactions:PartB
    • /
    • v.13B no.3 s.106
    • /
    • pp.205-214
    • /
    • 2006
  • Texts in images have significant and detailed information about the scenes, and if we can automatically detect and recognize those texts in real-time, it can be used in various applications. In this paper, we propose a new text detection method that can find texts from the various camera-captured images and propose a text segmentation method from the detected text regions. The detection method proposes color variance as a detection feature in RGB color space, and the segmentation method suggests an improved K-means color clustering in RGB color space. We have tested the proposed methods using various kinds of document style and natural scene images captured by digital cameras and mobile-phone camera, and we also tested the method with a portion of ICDAR[1] contest images.

The Design and Implementation of Mobile Dictionary App based on Voice Recognition Server (음성 인식 서버를 이용한 모바일 사전 설계 및 구현)

  • Yu, Jae-Seung;Park, Hee-Tae;Park, Mi-So;Song, Min-kyu;Yun, Sung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1698-1701
    • /
    • 2012
  • 음성 인식은 사용자의 음성을 문자로 변환하는 기술로 최근 스마트폰의 사용자 인터페이스로 사용되면서 그 활용도가 높아지고 있다. 기존의 스마트폰용 사전 프로그램은 좁은 자판으로 인하여 입력과정에 오타가 많이 발생하고, 찾고자 하는 단어의 발음은 알고 있지만 철자를 알지 못 하는 경우에 검색할 수 없다. 본 논문에서는 음성 명령을 이용한 스마트폰용 영한사전 앱을 설계 및 구현하였다. 외부 음성 인식 서버를 이용하여 음성 명령을 이해하고 클라이언트에 SQLite를 이용하여 사전 데이터 베이스를 구축한다. 클라이언트는 서버로 사용자 음성을 전달하고, 서버는 음성 정보를 텍스트로 변환하여 클라이언트에게 제공한다[1]. 클라이언트는 서버로부터 전송받은 텍스트를 이용하여 사전 데이터베이스를 검색하고, 그 결과를 사용자에게 보여준다.

A Study on the Development of Automatic Schedule Management System through Speech Recognition Text Analysis (음성인식 텍스트 분석을 통한 자동 일정 관리 시스템 개발에 관한 연구)

  • Lee, Hae-Mi;Cho, We-Duke
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.279-282
    • /
    • 2022
  • 컴퓨터가 마이크 등의 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술인 음성 인식 기술과 인공지능 기술을 결합한 음성 대화 시스템에 대한 연구 진행 및 제품 출시가 활발하게 이루어지고 있다. 기존의 시스템을 사용하면서 날짜와 시간 외의 정보 추출 정도가 빈약하거나 자동 등록이 되지 않는 문제점을 확인하였다. 음성 인식 기술을 통해 얻은 텍스트에서 보다 많은 정보를 추출하고, 자동 등록 및 알림과 맛집 등 추가 정보 제공 시스템을 구축하는 것을 목표로 하였다.

Development of a Korean Font Classification System for Images Based on Syllable-Level Text Recognition (글자 단위 텍스트 인식 기반의 이미지 내 한글 글꼴 분류 시스템 개발)

  • Sara Yu;Kim Yoon-Ju;Song Ji-Hyo;Ki Yong Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.718-721
    • /
    • 2023
  • 이미지 내 글꼴을 파악하는 것은 디자인 자료 제작, 저작권 확인 등 다양한 곳에서 중요한 문제이다. 하지만 이미지 내 한글 글꼴을 자동으로 식별하는 시스템은 아직 존재하지 않으며, 수동으로 한글 글꼴을 파악하는 것은 시간과 정확도 측면에서 매우 비효율적이다. 따라서 본 논문에서는 이미지 내 한글 글꼴을 자동으로 인식하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 크게 두 가지 기법을 사용한다: (1) 한글의 기하학적인 특성을 활용하여 글자 단위로 텍스트를 인식하며, (2) 단어가 아닌 글자 단위로 글꼴을 분류하고 각 글자에 대한 글꼴 분류 결과를 종합하여 최종적인 글꼴 분류 결과를 얻는다. 10가지 한글 글꼴이 나타나는 직접 제작한 이미지를 사용하여 시스템의 성능을 평가한 결과 제안 방법은 비교 방법에 비해 더욱 정확히 한글 글꼴을 분류함을 확인하였다.

Continuous Speech Recognition Using N-gram Language Models Constructed by Iterative Learning (반복학습법에 의해 작성한 N-gram 언어모델을 이용한 연속음성인식에 관한 연구)

  • 오세진;황철준;김범국;정호열;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.6
    • /
    • pp.62-70
    • /
    • 2000
  • In usual language models(LMs), the probability has been estimated by selecting highly frequent words from a large text side database. However, in case of adopting LMs in a specific task, it is unnecessary to using the general method; constructing it from a large size tent, considering the various kinds of cost. In this paper, we propose a construction method of LMs using a small size text database in order to be used in specific tasks. The proposed method is efficient in increasing the low frequent words by applying same sentences iteratively, for it will robust the occurrence probability of words as well. We carried out continuous speech recognition(CSR) experiments on 200 sentences uttered by 3 speakers using LMs by iterative teaming(IL) in a air flight reservation task. The results indicated that the performance of CSR, using an IL applied LMs, shows an 20.4% increased recognition accuracy compared to those without it. This system, using the IL method, also shows an average of 13.4% higher recognition accuracy than the previous one, which uses context-free grammar(CFG), implying the effectiveness of it.

  • PDF

An Exploratory Study on the Importance and Performance Analysis of Health Message Design Principles (건강증진 메시지 디자인 원리의 중요도와 실행도에 관한 탐색적 연구)

  • Choi, Hyoseon;Cho, Young Hoan;You, Myoung Soon
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.6
    • /
    • pp.307-318
    • /
    • 2014
  • This study investigated how people perceived the importance of health message design principles including gist presentation, usefulness of content, format, and intuitive design and how well a webzine article published by Korean Ministry of Food and Drug Safety was designed in terms of the four design principles. This study also explored what individual characteristics influenced the perceptions of health message design principles. A total of 294 adults participated in the survey, and their responses were analyzed with the Importance-Performance Analysis method. Participants perceived that usefulness of content was most important in the text design; gist presentation was most important in the visual design; and format was well designed in both text and visual messages. This study showed that it is crucial to improve the quality of visual health messages particularly in terms of gist presentation and intuitive design. We also found that individuals' interest in health played a significant role in the perceptions of health messages. These results were discussed in regards to principles and strategies for the effective design of health messages.

Characteristics of Entertainment Program Subtitles and Effects on the Audience's Perception : Text Analysis of JTBC (예능프로그램 자막의 특성과 수용자 인식에 미치는 영향 : JTBC <비정상회담> 텍스트 분석)

  • Kim, Ho-Kyung;Kwon, Ki-Seok;Seo, Sang-Ho
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.3
    • /
    • pp.232-246
    • /
    • 2016
  • Subtitles in entertainment programs have extended the roles from providing additional explanation and complementary sound effect to maximizing amusement and impression as the type which triggers the audience's interest. This study examined the characteristics of the subtitles and the effects on the audiences, mainly focused on of JTBC. Based on the result of the content analysis, the interested subtitles are continuously presented in each episode (10~20%) compared to the proportion of the total captions. Producers have repeatedly used the nickname of the cast members to construct and reinforce the character of them. The text analysis shows that the audience's perception about the cast is mainly influenced by the subtitles. The producers intentionally use the subtitles and subjectively intervene in the entertainment programs. The subtitles have a major effect on the audience's perception and image formation. Producers should be more prudent about their use of subtitles and viewers, on the other hand, must interpret the meaning of subtitles, as active information consumers.

Named Entity Recognition Using Customs Data (관세데이터를 활용한 개체명 인식)

  • KyoungHun yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.434-436
    • /
    • 2023
  • 본 연구는 관세 데이터를 BERT 기반 모델을 활용한 개체명 인식(NER)모델을 제안한다. 관세 분야 국내 첫 시도이며, 선행연구들과 달리 개체명 인식에 초점을 맞춘다. 관세 관련 텍스트에서 고유한 의미의 개체를 인식하는 것이 주요 목표이다. 이 연구는 관세 분야의 개체명 인식에 대한 이해도를 높이고 향후 HS 코드 검색 시스템 개발에 대한 기초 연구를 제공한다.

Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features (이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템)

  • Jungwoo Lim;Yoonna Jang;Junyoung Son;Seungyoon Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

Feature Term Based Retrieval Method for Image Retrieval (이미지 검색을 위한 특징용어 기반 검색 기법)

  • Park, Sung-Hee;Hur, Jeung;Kim, Hyun-Jin;Jang, Myung-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.576-578
    • /
    • 2003
  • 본 논문에서는 이미지 검색을 위한 새로운 검색 기법을 제시한다. 기존의 특징기반 검색 기법이나 주석기반 검색 기법은 특징이나 주석에 대하여 색인 형태나 질의 형태가 동일하였다. 그러나, 제안하는 검색 기법은 위의 두 전형적인 검색기법을 혼합한 것으로, 텍스트로 질의하면 질의 텍스트를 질의처리를 통해 텍스트에 포함된 특징용어를 추출하고 특징용어를 이미지가 본질적으로 가지는 특징(color, shape, texture)으로 변환한 다음 그 특징을 질의로 이용하여 특징기반 검색을 하는 기법이다. 이러한 기법은 현재 사용자에게 친숙한 텍스트 질의를 유지할 수 있게 해 주며 앞으로 음성인식을 통한 음성 질의인터페이스가 적용될 경우 더욱 효과적으로 사용될 수 있을 것이다.

  • PDF