• 제목/요약/키워드: 자막 추출

검색결과 82건 처리시간 0.031초

디지털 비디오에서 문자 영역 이진화를 위한 색상 극화 기법 (The Color Polarity Method for Binarization of Text Region in Digital Video)

  • 정종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권9호
    • /
    • pp.21-28
    • /
    • 2009
  • 색상 극화란 주어진 텍스트 영역에서 글자색이 무엇인지를 결정하는 과정으로서 텍스트 추출을 위해서 선행되야 하는 작업이다. 본 논문에서는 텍스트 영역이 주어졌을 때 글자 영역을 추출하기 위한 색상 극화 기법을 제안한다. 제안된 방법은 글자 영역과 배경 영역에 대한 관찰을 바탕으로 두 영역 사이의 면적 비율과 표준편차비율의 관계를 색상 극화에 이용한다. 이를 위하여 그레이 스케일로 주어진 텍스트 영역을 Otsu의 방법으로 이진화하고 이진화된 두 영역을 각각 4-CC 레이블링한다. 레이블링된 두 그룹의 영역에 대해 각각 면적과 영역 중심으로부터의 거리에 대한 표준편차를 계산한 다음 두 그룹에서 면적이 가장 넓은 영역을 갖는 영역 사이의 면적 비와 표준편차가 가장 작은 영역들 사이의 표준편차 비를 이용하여 색상 극화를 수행한다. 다양한 폰트와 크기를 갖는 텍스트 영역에 대한 실험을 통해 제안된 방법이 강건하게 색상 극화를 수행함을 확인하였다.

후코이단과 탄닌산에 의한 PEMFC 고분자막의 내구성 향상 (Enhancement of Membrane Durability in PEMFC by Fucoidan and Tannic Acid)

  • 이미화;오소형;추천호;김영숙;나일채;박권필
    • Korean Chemical Engineering Research
    • /
    • 제61권1호
    • /
    • pp.45-51
    • /
    • 2023
  • PEMFC(고분자전해질 연료전지) 고분자막의 내구성을 향상시키기 위해서 라디칼 제거제와 지지체가 사용되고 있다. 본 연구에서는 화학적 내구성과 물리적 내구성을 향상시키기 위해서 해조류에서 추출한 후코이단과 가교제 역할을 하는 탄닌산을 첨가한 고분자막의 내구성을 평가하였다. 물리적 내구성은 인장강도를 측정해 확인했고, 화학적 내구성은 Fenton 실험으로 측정하였다. 막과 전극합체(MEA)를 제조하여 셀에서 가속 내구 평가를 통해 기계적 내구성과 화학적 내구성을 평가하였다. 인장강도 측정으로 후코이단과 탄닌산의 변형율과 항복강도 등을 향상시켜 고분자막의 기계적 내구성을 향상시킬 수 있음을 보였다. 후코이단이 라디칼 제거제 역할을 함을 Fenton 실험에서 확인했다. 단위전지에서 가속 내구 실험 결과 후코이단은 화학적 내구와 기계적 내구를 모두 향상시켜 무첨가막보다 가속 내구 평가 시간을 38.1% 증가시켰고, 탄닌산을 추가하면 기계적 내구성 향상에 의해 고분자막의 내구성이 13.9% 향상되었다.

상황 정보를 활용한 동영상 문맥 광고 (Contextual In-Video Advertising Using Situation Information)

  • 이봉준;우현욱;이정태;임해창
    • 한국산학기술학회논문지
    • /
    • 제11권8호
    • /
    • pp.3036-3044
    • /
    • 2010
  • 동영상 데이터 서비스가 나날이 증가함에 따라 특정 동영상 장면에 적합한 광고를 보여주거나 추가적인 정보를 제공하려는 요구가 커지고 있다. 장면에 적합한 광고를 보여주기 위하여 동영상의 영상이나 음성 정보를 직접 이용하는 방법은 현재의 기술력으로 한계가 있고, 제목, 카테고리 정보, 요약 등의 메타데이터도 계속해서 변화하는 장면의 내용을 반영하지 못한다. 본 연구는 동영상의 대본 자막에서 추출한 장면의 상황 정보를 이용하여 주어진 동영상 장면에 적합한 광고를 자동으로 부착해 주는 새로운 동영상 문맥 광고 시스템을 제안한다. 대본 자막에서 추출한 상황 정보를 광고 검색에 이용했을 때 높은 성능 향상을 확인할 수 있었고, 이를 이용하여 사용자에게 더 적합한 광고를 보여줄 수 있다.

방송 콘텐츠의 재가공을 위한 시작.종료점 검출 (Detecting of start/end point for TV content reprocessing)

  • 윤정현;김천석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 하계학술대회
    • /
    • pp.303-306
    • /
    • 2010
  • DMB, IPTV 등의 미디어에서 방송 서비스를 위해 다수의 기송출된 지상파 방송 프로그램을 재가공하여 활용한다. 이를 위한 작업에서 방송 프로그램 앞뒤에 삽입되어 있던 지상파 방송사의 광고를 각 서비스 사업자의 계약 광고로 대체하므로, 광고를 분리하여 방송 프로그램의 본 내용만 인코딩하는 과정이 필요하다. 본 논문에서는 이와 같은 재가공 작업을 위해 방송프로그램 스트림에서 본 내용의 시작 종료점을 검출하는 방법을 제안한다. 이는 디지털 방송 프로그램 스트림으로부터 영상의 특징과 자막 데이터를 추출, 분석하여 판별하는 방법으로, 개별 광고의 특징 데이터를 이용하지 않고 처리한다. 따라서 방송 콘텐츠를 재가공하기 위한 인코딩 시스템에, 모든 광고들을 미리 분석하고 특징 데이터를 추출하는 전처리 과정없이 적용이 가능하다.

  • PDF

내용 기반 검색을 위한 뉴스 비디오 키 프레임의 특징 정보 추출 (Extraction of Features in key frames of News Video for Content-based Retrieval)

  • 정영은;이동섭;전근환;이양원
    • 한국정보처리학회논문지
    • /
    • 제5권9호
    • /
    • pp.2294-2301
    • /
    • 1998
  • 본 논문은 방송사별 각 장면의 중요한 내용의 성격을 갖고 있는 특징을 방송사별 뉴스 비디오에서 추출하기 위한 것이다. 추출하고자 하는 특징의 요소는 방송사 구별을 위한 방송사 아이콘과 각 장면의 대표적 성격을 갖고 있는 아이콘, 각 장면내의 주요 내용을 대표하는 정보인 자막의 문장 추출이다. 본 논문에서 제안하는 방법은, 비디오 프레임으로 입력되는 영상을 YIQ칼라 공간으로 전환한 뒤 히스토그램 평활화 방법을 이용하여 입력 영상의 영역 구분을 명확하게 한 후에, 영상의 에지를 추출하고 수직과 수평선에 기반한 에지 히스토그램의 비교에 의하여 원하는 특징을 추출하는 것이다. 또한 히스토그램 차이값에 의해서 선택된 키 프레임들 중에서 뉴스 아이콘을 추출하고 아이콘에 의하여 각 장면을 분할 할 수 있는 방법을 제안하였다. 본 논문에서는 칼라 히스토그램이나 웨이블릿, 또는 객체의 움직임에 기반한 복잡한 방법대신 에지 히스토그램 비교 방법을 사용하여, 알고리즘을 간소화함으로써 계산 시간을 단축하였으며 특징 추출에도 좋은 결과를 나타냈다.

  • PDF

하이퍼네트워크 모델을 이용한 비전-언어 크로스모달 연관정보 추출 (Extraction Analysis for Crossmodal Association Information using Hypernetwork Models)

  • 허민오;하정우;장병탁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.278-284
    • /
    • 2009
  • 하나의 컨텐츠를 위해 동영상, 이미지, 소리, 문장과 같은 하나 이상의 모달리티로 전달하는 멀티모달 데이터가 증가하고 있다. 이러한 형태의 자료들은 잘 정의되지 않은 형태를 주로 가지기 때문에, 모달리티 간의 정보가 명백히 표현되지 못하는 경우가 많았다. 그래서, 본 연구에서 저자들은 자연계를 다루는 다큐멘터리 동영상 데이터를 이용하여 비전-언어 간의 상호 연관정보인 크로스모달 연관정보를 추출하고 분석하는 방법을 제시하였다. 이를 위해 정글, 바다, 우주의 세 가지 주제로 구성된 다큐멘터리로부터 이미지와 자막의 조합으로 이루어진 데이터를 모은 후, 그로부터 시각언어집합과 문장언어집합을 추출하였다. 분석을 통하여, 이 언어집합들간의 상호 크로스 모달 연관정보를 통해 생성된 다른 모달리티 데이터가 의미적으로 서로 관련이 있음을 확인할 수 있었다.

  • PDF

AI를 활용한 메타데이터 추출 및 웹서비스용 메타데이터 고도화 연구 (Metadata extraction using AI and advanced metadata research for web services)

  • 박성환
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.499-503
    • /
    • 2024
  • 방송 프로그램은 자체 방송 송출 외에도 인터넷 다시 보기, OTT, IPTV 서비스 등 다양한 매체에 제공되고 있다. 이 경우 콘텐츠 특성을 잘 나타내는 검색용 키워드 제공은 필수적이다. 방송사에서는 제작 단계, 아카이브 단계 등에서 주요 키워드를 수동으로 입력하는 방법을 주로 사용한다. 이 방식은 양적으로는 핵심 메타데이터 확보에 부족하고, 내용 면에서도 타 매체 서비스에서 콘텐츠 추천과 검색에 한계를 드러낸다. 본 연구는 EBS에서 개발한 DTV 자막방송 서버를 통해 사전 아카이빙 된 폐쇄형 자막 데이터를 활용하여 다수의 메타데이터를 확보하는 방법을 구현했다. 먼저 구글의 자연어 처리 AI 기술을 적용하여 핵심 메타데이터를 자동으로 추출하였다. 다음 단계는 핵심 연구 내용으로 우선순위와 콘텐츠 특성을 반영하여 핵심 메타데이터를 찾는 방법을 제안한다. 차별화된 메타데이터 가중치를 구하는 기술로는 TF-IDF 계산법을 응용하여 중요도를 분류했다. 실험 결과 성공적인 가중치 데이터를 얻었다. 이 연구로 확보한 문자열 메타데이터는 추후 문자열 유사도 측정 연구와 결합하면 타 매체에 제공하는 콘텐츠 서비스에서 정교한 콘텐츠 추천용 메타데이터를 확보하는 기반이 된다.

음향학적 자질을 활용한 비디오 스피치 요약의 자동 추출과 표현에 관한 연구 (Investigating an Automatic Method for Summarizing and Presenting a Video Speech Using Acoustic Features)

  • 김현희
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.191-208
    • /
    • 2012
  • 스피치 요약을 생성하는데 있어서 두 가지 중요한 측면은 스피치에서 핵심 내용을 추출하는 것과 추출한 내용을 효과적으로 표현하는 것이다. 본 연구는 강의 자료의 스피치 요약의 자동 생성을 위해서 스피치 자막이 없는 경우에도 적용할 수 있는 스피치의 음향학적 자질 즉, 스피치의 속도, 피치(소리의 높낮이) 및 강도(소리의 세기)의 세 가지 요인을 이용하여 스피치 요약을 생성할 수 있는지 분석하고, 이 중 가장 효율적으로 이용할 수 있는 요인이 무엇인지 조사하였다. 조사 결과, 강도(최대값 dB과 최소값 dB간의 차이)가 가장 효율적인 요인으로 확인되었다. 이러한 강도를 이용한 방식의 효율성과 특성을 조사하기 위해서 이 방식과 본문 키워드 방식간의 차이를 요약문의 품질 측면에서 분석하고, 이 두 방식에 의해서 각 세그먼트(문장)에 할당된 가중치간의 관계를 분석해 보았다. 그런 다음 추출된 스피치의 핵심 세그먼트를 오디오 또는 텍스트 형태로 표현했을 때 어떤 특성이 있는지 이용자 관점에서 분석해 봄으로써 음향학적 특성을 이용한 스피치 요약을 효율적으로 추출하여 표현하는 방안을 제안하였다.

화자인식을 이용한 대화 상황정보 어노테이션 (Conversation Context Annotation using Speaker Detection)

  • 박승보;김유원;조근식
    • 한국멀티미디어학회논문지
    • /
    • 제12권9호
    • /
    • pp.1252-1261
    • /
    • 2009
  • 효율적인 영상의 검색과 동영상의 축약을 위해 선행되어야 하는 것이 동영상 정보에서 의미를 추출하여 영상 정보를 어노테이션 하는 작업이다. 어노테이션을 위한 동영상의 의미 정보는 다양한 방식에 의해 얻어질 수 있다. 동영상의 의미정보는 영상의 개체들의 단순한 정체 정보를 추출하는 방식과 개체들이 만들어 내는 상황정보를 추출하는 방식으로 구분될 수 있다. 하지만 개체들의 단순 정보만으로 어노테이션을 진행하기 보다는 개체들 간의 상호작용이나 관계에 대한 표현을 개체 정보와 함께 고려하여 대화 상황에 대한 온전한 의미를 어노테이션 하는 것이 더욱 좋다. 본 논문은 영상으로부터 화자정보를 추출하고 대화상황을 구성하여 어노테이션 하는 것에 대한 연구이다. 인식된 얼굴 정보로부터 현재 영상에 누가 있는 지 알아낸 후 입의 움직임을 분석하여 화자가 누구인지 알아내고, 화자와 청자 및 자막의 유무를 통해 대화 상황을 추출하여 XML로 변환하는 방법을 본 연구에서 제안한다.

  • PDF

CogTV를 위한 생체신호기반 시청자 선호도 모델 (A Viewer Preference Model Based on Physiological Feedback)

  • 박태서;김병희;장병탁
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.316-322
    • /
    • 2014
  • 본 논문은 TV를 이용한 영화시청 환경에서 해당 컨텐트에 대한 시청자의 암묵적 반응과 컨텐트의 멀티모달 피쳐를 실시간으로 측정 및 동기화하여 이를 기반으로 동영상 선호모델을 지속적으로 개선하고 필요시 영화추천을 수행하는 시스템을 제안한다. 제안한 시스템에선 이미지, 소리, 자막 스트림으로부터 실시간 추출되는 저수준 피쳐들과 동기화되어 측정된 얼굴표정, 자세 및 생체신호로부터 해당 동영상이 유발한 시청자의 감정상태를 추정하여 선호모델 학습에 사용한다. 제안한 컨텐트-시청자 연계 추천모델의 일례로서 컨텐트의 오디오 및 자막 정보를 이용하여 시청자의 피부전기활성도로 측정된 arousal반응을 예측할 수 있음을 보인다.