• Title/Summary/Keyword: 장면 텍스트

Search Result 71, Processing Time 0.026 seconds

Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features (이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템)

  • Jungwoo Lim;Yoonna Jang;Junyoung Son;Seungyoon Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

Text Region Extraction of Natural Scene Images using Gray-level Information and Split/Merge Method (명도 정보와 분할/합병 방법을 이용한 자연 영상에서의 텍스트 영역 추출)

  • Kim Ji-Soo;Kim Soo-Hyung;Choi Yeong-Woo
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.6
    • /
    • pp.502-511
    • /
    • 2005
  • In this paper, we propose a hybrid analysis method(HAM) based on gray-intensity information from natural scene images. The HAM is composed of GIA(Gray-intensity Information Analysis) and SMA(Split/Merge Analysis). Our experimental results show that the proposed approach is superior to conventional methods both in simple and complex images.

Mobile Richmedia Broadcasting Technology (모바일 리치미디어 방송 기술)

  • Cha, Ji-Hun;Lee, In-Jae;Park, Sang-Taek;Mun, Gyeong-Ae;Hong, Jin-U
    • Electronics and Telecommunications Trends
    • /
    • v.23 no.3
    • /
    • pp.96-105
    • /
    • 2008
  • 최근 WiBro, HSDPA 등의 통신망을 통한 휴대 인터넷이 광대역화 되고, 방송 기술의 디지털화로 인해 기존의 단순 AV 중심의 모바일 방송 서비스를 탈피하여 음성, 영상, 이미지, 텍스트 등의 다양한 멀티미디어 서비스 제공과 이들간의 대화형 기능을 제공하는 리치미디어 서비스가 각광을 받고 있다. 이러한 응용 분야를 위해서 다양한 멀티미디어 데이터의 시공간적인 배치 및 동기화를 위한 기술 규격으로 MPEG-4에서는 BIFS와 LASeR를 제공한다. BIFS는 2D 및 3D를 포함하는 보다 광범위한 멀티미디어 콘텐츠에 대한 장면 기술 표준이며, LASeR는 자원이 부족한 휴대전화와 같이 디스플레이 크기가 작고, 네트워크 대역폭도 작은 단말을 대상으로 하는 2D 전용의 장면 시술 표준이다. 본 고에서는 제한된 대역폭과 낮은 성능의 단말과 같은 모바일 방송통신 환경에서 리치미디어 방송 서비스를 제공하기 위한 최신 리치미디어 방송 서비스를 위한 요소기술 및 표준화 동향을 살펴보고, 최신 리치미디어의 국제표준인 LASeR에 기반한 모바일 리치미디어 방송 기술 개발 현황에 대하여 살펴본다.

Automatic Camera Control for Automated Digital Cinematography from Text (텍스트로부터의 자동 디지털 영상제작을 위한 카메라 자동제어)

  • 장세민;박종철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.904-906
    • /
    • 2004
  • 영화를 제작하는 과정에 필수적으로 사용되고 있는 대본에는 필요한 부분마다 영상기법이 명시되어 있어서 실제 장면을 구현하는 과정에 원작자가 의도하는 상황을 비교적 정확하게 재현하는 것이 가능하다. 이에 비하여 교통사고 사건보고서나 동화 등을 기반으로 디지털 영상을 자동으로 제작하려는 경우 이러한 영상기법이 명시되어 있지 않다. 그러므로 자연언어로 기술된 자료로부터 디지털 영상을 자동으로 제작하기 위해서는 작가의 의도를 파악하여 적절한 영상기법을 추출하는 방안이 있어야 한다. 본 논문의 선행 연구에서는 동화를 대상으로 하는 애니메이션 자동 생성을 위해서 시간 관리, 참조 해결, 위치 설정, 세부 명령 결정 및 다수 캐릭터 제어 등의 요소 기술이 필요하다는 것을 보이고 특히 시간 관리 중에서 적절한 장면전환이 필요한 경우를 자동으로 파악하는 방안을 제시하였다. 본 논문에서는 결합범주문법을 사용하여 동화 문장에 나타나는 작가의 의도를 분석하고, 이에 부합하는 다양한 카메라 운용기법을 자동으로 파악하여 적용한 디지털 영상 제작 방안을 제시하고 구현한 시스템을 보인다.

  • PDF

Scene Text Extraction in Natural Images Using Color Variance Feature (색 변화 특징을 이용한 자연이미지에서의 장면 텍스트 추출)

  • 송영자;최영우
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.1835-1838
    • /
    • 2003
  • Texts in natural images contain significant and detailed informations about the images. Thus, to extract those texts correctly, we suggest a text extraction method using color variance feature. Generally, the texts in images have color variations with the backgrounds. Thus, if we express those variations in 3 dimensional RGB color space, we can emphasize the text regions that can be hard to be captured with a method using intensity variations in the gray-level images. We can even make robust extraction results with the images contaminated by light variations. The color variations are measured by color variance in this paper. First, horizontal and vertical variance images are obtained independently, and we can fine that the text regions have high values of the variances in both directions. Then, the two images are logically ANDed to remove the non-text components with only one directional high variance. We have applied the proposed method to the multiple kinds of the natural images, and we confirmed that the proposed feature can help to find the text regions that can he missed with the following features - intensity variations in the gray-level images and/or color continuity in the color images.

  • PDF

Three-Level Color Clustering Algorithm for Binarizing Scene Text Images (자연영상 텍스트 이진화를 위한 3단계 색상 군집화 알고리즘)

  • Kim Ji-Soo;Kim Soo-Hyung
    • The KIPS Transactions:PartB
    • /
    • v.12B no.7 s.103
    • /
    • pp.737-744
    • /
    • 2005
  • In this paper, we propose a three-level color clustering algerian for the binarization of text regions extracted from natural scene images. The proposed algorithm consists of three phases of color segmentation. First, the ordinary images in which the texts are well separated from the background, are binarized. Then, in the second phase, the input image is passed through a high pass filter to deal with those affected by natural or artificial light. Finally, the image Is passed through a low pass filter to deal with the texture in texts and/or background. We have shown that the proposed algorithm is more effective used gray-information binarization algorithm. To evaluate the effectiveness of the proposed algorithm we use a commercial OCR software ARMI 6.0 to observe the recognition accuracies on the binarized images. The experimental results on word and character recognition show that the proposed approach is more accurate than conventional methods by over $35\%$.

A Special MPEG-4 Authoring Tool for PDA (PDA환경에서의 MPEG-4 컨텐츠 저작도구)

  • 이송록;임영순;김상욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.517-519
    • /
    • 2004
  • MPEG-4는 이미지, 비디오. 오디오와 다양한 기하객체 및 텍스트객체 등 설러 가지 멀티미디어 데이터를 각 객체 단위로 합성하여 멀티미디어 컨텐츠를 구성함으로써 멀티미디어 데이터에 대한 재사용성과 효율성을 높이며, 사용자와의 상호작용이 가능한 시청각 장면을 생성하고 전송을 가능하게 한다. 유비쿼터스 컴퓨팅에 대한 연구가 개발하게 전개되고 있는 이때, PC에서뿐만 아니라 언제 어디서나 가능한 모바일 환경에서 다양한 사용자 인터랙션에 중점을 두고 카드메일, 간단 게임 저작 등을 가능하게 함으로써 poA환경에서 전문적인 저작도구를 개발하는 것이 필요하다. 본 논문은 poA환경에서 기하객체와 텍스트, 이미지 등의 객체들을 이용하여 MPEG-4 컨텐츠 저작을 위한 씬 트리를 생성하고 이에 대한 인코딩을 통하여 BIFS 파일 포맷을 형성하고 멀티플렉서를 통하여 MPEG-4 파일을 생성함으로써 PDA환경에서 직접적이고도 시각적인 저작이 가능한 MPEG-4 건텐츠 저작시스템을 제안하고 그 개발 결과를 보인다.

  • PDF

Performance Improvement of TextFuseNet using Image Sharpening (선명화 기법을 이용한 TextFuseNet 성능 향상)

  • Jeong, Ji-Yeon;Cheon, Ji-Eun;Jung, Yuchul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.71-73
    • /
    • 2021
  • 본 논문에서는 Scene Text Detection의 새로운 프레임워크인 TextFuseNet에 영상처리 관련 기술인 선명화 기법을 제안한다. Scene Text Detection은 야외 간판이나 표지판 등 불특정 배경에서 글자를 인식하는 기술이며, 그중 하나의 프레임워크가 TextFuseNet이다. TextFuseNet은 문자, 단어, 전역 기준으로 텍스트를 감지하는데, 여기서는 영상처리의 기술인 선명화 기법을 적용하여 TextFuseNet의 성능을 향상시키는 것이 목적이다. 선명화 기법은 기존 Sharpening Filter 방법과 Unsharp Masking 방법을 사용하였고 이 중 Sharpening Filter 방법을 적용하였을 때 AP가 0.9% 향상되었음을 확인하였다.

  • PDF

A Study on the Cooperative Patterns of Literature and Drama -Focused on , (문학과 드라마의 통섭 양상 연구 -<쓸쓸하고 찬란하신(神) 도깨비>, <신사의 품격>을 중심으로)

  • Son, Mi-young
    • The Journal of the Convergence on Culture Technology
    • /
    • v.5 no.1
    • /
    • pp.37-43
    • /
    • 2019
  • Korean dramas since the 2000s are continuously experimenting with new narrative possibilities. Especially in the recent Korean drama, various modes of hybridization, mixing, and transformation are attempted. Therefore, this study aims to examine the consensus of literature and drama through popular drama in 2010. This study examines how literary texts are utilized in dramas through the use of Kim Eun-sook's lonely and glorious god-goblin and gentleman's dignity, and how these narrative and visual effects are gained. These two dramas are not only popular drama in Korea but also have important implications for interpreting literature and drama consciousness because they actively utilize literary texts in drama. This is the process of interpreting the main scene in which literature and the drama conspire, and grasping its significance. Through this study, we analyze the process of borrowing the part of the text of the text, drama, and taking the effect of storytelling by using 'book' as its materiality. This will confirm the way in which various genres are mixed and juxtaposed in one video text and its effects.