• 제목/요약/키워드: Caption

검색결과 167건 처리시간 0.023초

SOA 기반의 디지털 셋탑 박스 개발 (Development of SOA based Digital Settop Box)

  • 황지연;고형준;신승중;류대현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.422-425
    • /
    • 2011
  • 디지털 셋탑 박스가 보편화 되면서 다양한 콘텐츠들이 나오고 있으며, 사용자나 방송사, 사업자의 요구에 따라 웹 서비스, DLNA, FTP Server, Media, SI, 등이 변경 요구되고 있다. 본 논문에서는 웹기반의 인터넷에서 사용되는 SOA를 적용하여 기능을 서비스 단위로 재해석하고, 여러 요구조건에 대응 할 수 있는 셋탑 박스 시스템을 개발하였다. 본 논문에서 개발한 SOA 기반의 셋탑 박스는 Media, SI, Cas, Demux, Subtitle, Caption, 예약 등을기능을 서비스 단위로 재해석하여 여러 요구조건에 대응할 수 있으므로 셋탑 박스 사용자, 방송사, 사업자에 의해 빠르게 변화하는 환경에 신속히 적응할 수 있다.

청각장애인을 위한 지상파 UHD 기반 감정표현 자막 수신 시스템 설계 (Design of Emotion Subtitles System based on Terrestrial UHD TV for the Hearing-Impaired)

  • 송진혁;배병준;조숙희;안충현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.135-136
    • /
    • 2021
  • 최근 지상파 UHD 방송에서는 자막을 비디오 패킷에 삽입하여 전달하는 기존 방식이 아닌 별도의 전송로로 전달하는 폐쇄형 자막(closed caption) 방식을 적용하고 있다. 또한 자막에는 문자 뿐만 아니라 이미지까지 포함하여 청각장애인의 프로그램 이해도를 높이는데 활용할 수 있다. 따라서 본 논문에서는 청각장애 시청자가 방송 콘텐츠 내용의 이해도를 향상시키기 위하여 지상파 UHD 방송에서 기존의 문자 자막과 움직이는 이미지 자막(=감정표현 자막)을 수신하여 동시에 표현할 수 있는 수신시스템을 제안한다.

  • PDF

음성인식과 변경된 동적계획법을 이용한 VOD 콘텐트와 자막의 동기화 (Synchronization of VOD Content and Captions Using Speech Recognition and Modified Dynamic Programming)

  • 오주현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.131-134
    • /
    • 2021
  • 지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.

  • PDF

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화 (Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired)

  • 최미애;김승현;조민애;박동영;김용호;윤종후
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.465-468
    • /
    • 2020
  • 인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

  • PDF

Meme Analysis using Image Captioning Model and GPT-4

  • Marvin John Ignacio;Thanh Tin Nguyen;Jia Wang;Yong-Guk Kim
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.628-631
    • /
    • 2023
  • We present a new approach to evaluate the generated texts by Large Language Models (LLMs) for meme classification. Analyzing an image with embedded texts, i.e. meme, is challenging, even for existing state-of-the-art computer vision models. By leveraging large image-to-text models, we can extract image descriptions that can be used in other tasks, such as classification. In our methodology, we first generate image captions using BLIP-2 models. Using these captions, we use GPT-4 to evaluate the relationship between the caption and the meme text. The results show that OPT6.7B provides a better rating than other LLMs, suggesting that the proposed method has a potential for meme classification.

저해상도 하수관거의 균열 탐지를 위한 영상처리 알고리즘 (Image Processing Algorithm for Crack Detection of Sewer with low resolution)

  • 손병직;전준용;허광희
    • 한국산학기술학회논문지
    • /
    • 제18권2호
    • /
    • pp.590-599
    • /
    • 2017
  • 국내에서 하수관로 탐사장치는 200만 화소 이상의 고해상도 디지털 카메라를 이용한 제품이 개발되어 있으나 30만 화소 이하의 장치가 대부분 사용되고 있다. 특히, 10만화소 이하의 장치가 아직도 많이 사용되고 있어, 영상처리를 위한 환경이 매우 열악하다. 본 연구에서 다루는 하수관 영상은 매우 저해상도($240{\times}320$ = 76,800화소)로 균열탐지가 매우 어렵다. 국내에서 이러한 저해상도 하수관거 영상이 대부분이기 때문에, 이를 연구대상으로 선택하였다. 이러한 저해상도 영상으로 하수 관거의 균열을 자동으로 탐지하는 기법을 디지털 영상처리 기술을 이용하여 연구하였다. 총8단계를 거쳐 균열을 자동으로 탐지하는 프로그램을 개발하였으며, 기본적으로 Matlab 프로그램의 함수를 이용하였다. 2단계에서 최적의 임계값을 찾는 알고리즘과 5단계에서 균열을 판단하는 알고리즘을 개발하였다. 2단계는 자막이 흰색이기 때문에 자막이 없는 원래 영상보다 Otsu's 임계값(threshold)이 높게 계산이 되는 점에 착안하여 Otsu 임계값을 시작으로 0.01씩 감소시키면서 최적의 임계값을 찾는 방법 알고리즘이며, 5단계는 길이가 10mm(40픽셀) 이상이고 폭이 1mm(4픽셀) 이상으로 판단하여, 균열을 탐지하는 알고리즘이다. 해석 결과 매우 저해상도 영상임에도 불구하고 균열 탐지 결과가 우수한 것으로 판단된다.

거리경관에 대한 청각적 이미지의 평가구조 - 대학생들의 음풍경 체험을 통한 의미론적 고찰 - (The Evaluation Structure of Auditory Images on the Streetscapes - The Semantic Issues of Soundscape based on the Students' Fieldwork -)

  • 한명호
    • 한국음향학회지
    • /
    • 제24권8호
    • /
    • pp.481-491
    • /
    • 2005
  • 이 연구의 목적은 사운드스케이프의 의미론적 관점에 기초하여 도시의 거리경관에 관한 청각적 이미지의 평가구조를 파악하는 것이다. 캡션평가법이라는 새로운 환경심리조사수법을 이용하여 2001년부터 2005년까지 총45명의 대학생이 남원시의 주요 거리를 걸으면서 듣고 느끼는 소리의 이미지 파악을 위한 현장조사에 참가하고, 그 결과 청각적 경관에 대한 요소, 특징, 인상 및 선호도 등을 포함한 다양한 자료를 얻을 수 있었다. 남원시에 있어서, 청각적 이미지의 구성 요소는 자연음, 그리고 기계음, 사회음, 지시음 등을 포함한 인공음으로 분류되고, 청각적 경관의 특징은 소리종류, 양태, 상황, 성질, 주변관계, 이미지 등으로, 그리고 청각적 경관의 인상은 인간의 감성, 거리의 분위기, 소리 자체의 특성이라는 3가지 카테고리로 분류된다. 청각적 경관과 판단과의 관계로 부터, 청각적 경관의 요소, 특징, 인상 등은 긍정적, 중립적, 부정적 이미지 등의 항목으로 구성된다. 또한, 남원시의 거리경관의 평가구조모델로부터 그 장소 또는 공간의 청각적 이미지특성을 파악할 수 있었다.

2009 개정 초등학교와 중학교 과학 교과서의 화학 영역 및 화학 I, II 교과서의 읽기자료 분석 (Analysis of the Reading Materials in the Chemistry Domain of Elementary School Science and Middle School Science Textbooks and Chemistry I and II Textbooks Developed Under the 2009 Revised National Science Curriculum)

  • 안지현;정유니;이규열;강석진
    • 대한화학회지
    • /
    • 제63권2호
    • /
    • pp.111-122
    • /
    • 2019
  • 이 연구에서는 2009 개정 과학교육과정에 따른 초등학교와 중학교 과학 교과서의 화학 영역 및 화학 I, II 교과서의 읽기자료를 분석하였다. 읽기자료는 주제, 목적, 제시 형식, 학생 활동 유형 측면에서 분석하였다. 읽기자료에 사용된 시각자료도 유형, 역할, 캡션과 인덱스, 텍스트와의 근접성 등의 측면에서 분석하였다. 연구 결과, 초등학교 과학 교과서가 중학교 과학과 화학 I, II 교과서보다 읽기자료 비율이 높았다. 초등학교 과학 교과서에는 실생활 응용 유형의 읽기자료가 많았으나, 중학교 과학과 화학 I, II 교과서에는 과학 지식 유형이 상대적으로 많았다. 초등학교 과학 교과서에는 개념 심화 유형의 읽기자료가 상대적으로 많았고 중학교 과학과 화학 I, II 교과서에는 개념 보충 유형의 읽기자료가 상대적으로 많았다. 읽기자료에 사용된 시각자료는 대부분 사진이나 삽화였고, 본문 보조나 본문 부연 역할의 시각자료가 많았고, 캡션이나 인덱스를 사용하지 않은 시각자료가 많았으며, 시각자료와 텍스트 사이의 근접성에도 문제점이 나타났다.

청각선호도에 미치는 청각적 경관의 요소, 특징, 인상 요인과 계절의 상호작용 효과 (Interaction Between Seasons and Auditory Elements, Features and Impressions of Soundscape in Influencing Auditory Preferences)

  • 한명호;오양기
    • 한국음향학회지
    • /
    • 제26권7호
    • /
    • pp.306-316
    • /
    • 2007
  • 이 연구는 사운드스케이프라는 청각적 경관의 개념에 기초하여, 계절에 따라 도시 거리의 청각적 경관에서 나타나는 경관요소, 경관특징, 경관인상에 대한 한국인의 청각선호도를 조사하여, 청각적 경관의 구성요인과 계절의 요인이 어떻게 상호작용하여 청각선호도에 영향을 미치는 지를 파악하는 것이다. 캡션평가법이라는 환경심리 조사수법을 이용하여 45명의 대학생들이 4계절 동안 남원시의 거리를 걸으면서 듣고 느낀 청각적 경관에서 나타나는 경관요소, 경관특징, 경관인상의 요인과 계절의 상호작용 효과를 단순요인 분산분석과 비모수 일원배치 분산분석하였다. 분석결과, 청각적 경관의 경관요소, 경관특징, 경관인상과 계절 사이에 상호작용 효과가 있으며, 각 경관의 구성요인들이 청각선호도에 영향을 미치는 것으로 나타났다. 경관요소의 계절별 선호도는 봄, 여름, 가을에는 자연음이, 겨울에는 사회음의 선호도가 높게 나타났다. 경관특징의 계절별 선호도는 봄, 여름 및 겨울에는 양태가, 그리고 가을은 주변관계가 중요한 영향을 미치고 있다. 경관인상의 계절별 선호도는 봄과 겨울은 소리특성이, 그리고 여름과 가을은 거리의 분위기라는 경관인상이 중요한 영향을 미치고 있다. 이 연구의 결과는 사운드스케이프 디자인에 있어서 계절에 따라 어떠한 청각적 경관의 경관요소, 경관특징, 경관인상을 배려하는 것이 바람직한 것인가, 그 양부를 판정할 수 있는 유용한 자료로써 활용할 수 있다.

MPEG 비디오 스트림에 대한 MC-DCT 영역에서의 자막 처리 방법 (Caption Processing Method for MPEG Video Stream in MC-DCT Dom)

  • 권오형;낭종호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권10호
    • /
    • pp.1003-1014
    • /
    • 2000
  • MPEG은 동영상 압축 규약의 하나로서 고하질을 유지하면서 높은 압축율을 제공하기 때문에 그 사용 범위가 점차로 넓어지고 있으며, 또한 이러한 이유로 인해서 MPEG 데이터에 대한 편집 시스템의 요구도 점차 증가되고 있다. 그러나. MPEG 스트림에 대한 편집은 대부분 공간 영역에서 수행되기 때문에 수행 시간이 오래 걸리고 화질이 저하된다는 단점을 안고 있다. 본 논문에서는 DC 이미지를 이용한 MC-DCT 영역에서의 자막 처리 방법을 제안함으로써 기존의 자막 처리 방법이 안고 있는 단점을 극복하도록 하였다. 제안한 방법에서는 MC-DCT 영역에서의 워터마크 삽입 방법[1]을 응용하여 빠른 처리가 가능하도록 하였으며, MC-DCT 영역에서 쉽게 구할 수 있는 DC 이미지를 이용하여 화면 상태에 따라 자막의 세기를 조절함으로써 P,B 프레임의 처리 과정에서 발생하게 되는 화질 저하를 최소화하도록 하였다. 이러한 MC-DCT 영역에서의 자막 방법을 사용함으로써 기존의 자막 처리 방법 보다 약 4.9배 빠른 수행 속도를 얻을 수 있었으며, 화질 보존의 측면에서도 기존의 자막 처리 방법이 화면 전체에 대해서 화질 저하가 발생하는 반면 제안한 방법은 자막이 들어가는 부분에 대해서만 화질 저하가 발생하였다. 이러한 방법을 MPEG 스트림에 대해서 사용하게 된다면, 소프트웨어만을 이용한 저가의 데스크 탑 환경에서도 효율적인 자막 처리가 가능하게 될 것이다.

  • PDF