• 제목/요약/키워드: Intelligent Video Analysis Method

검색결과 54건 처리시간 0.022초

스토리 기반의 정보 검색 연구 (Story-based Information Retrieval)

  • 유은순;박승보
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.81-96
    • /
    • 2013
  • 웹의 발전과 콘텐츠 산업의 팽창으로 비디오 데이터가 폭발적으로 증가함에 따라 데이터의 정보 검색은 매우 중요한 문제가 되었다. 그동안 비디오 데이터의 정보 검색과 브라우징을 위해 비디오의 프레임(frame)이나 숏(shot)으로부터 색채(color)와 질감(texture), 모양(shape)과 같은 시각적 특징(features)들을 추출하여 비디오의 내용을 표현하고 유사도를 측정하는 내용 기반(content-based)방식의 비디오 분석이 주를 이루었다. 영화는 하위 레벨의 시청각적 정보와 상위 레벨의 스토리 정보를 포함하고 있다. 저차원의 시각적 특징을 통해 내용을 표현하는 내용 기반 분석을 영화에 적용할 경우 내용 기반 분석과 인간이 인지하는 영화의 내용 사이에는 의미적 격차(semantic gap)가 발생한다. 왜냐하면 영화의 스토리는 시간의 진행에 따라 그 내용이 변하고, 관점에 따라 주관적 해석이 가능한 고차원의 의미정보이기 때문이다. 따라서 스토리 차원의 정보 검색을 위해서는 스토리를 모델링하는 정형화된 모형이 필요하다. 최근 들어 소셜 네트워크 개념을 활용한 스토리 기반의 비디오 분석 방법들이 등장하고 있다. 그러나 영화 속 등장인물들의 소셜 네트워크를 통해 스토리를 표현하는 이 방법들은 몇 가지 문제점들을 드러내고 있다. 첫째, 등장인물들의 관계에만 초점이 맞추어져 있으며, 스토리 진행에 따른 등장인물들의 관계 변화를 역동적으로 표현하지 못한다. 둘째, 등장인물의 정체성과 심리상태를 보여주는 감정(emotion)과 같은 심층적 정보를 간과하고 있다. 셋째, 등장인물 이외에 스토리를 구성하는 사건과 배경에 대한 정보들을 반영하지 못하고 있다. 따라서 본 연구는 기존의 스토리 기반의 비디오 분석 방법들의 한계를 살펴보고, 문제 해결을 위해 문학 이론에서 제시하고 있는 서사 구조에 근거하여 스토리 모델링에 필요한 요소들을 인물, 배경, 사건의 세 가지 측면에서 제시하고자 한다.

영상 프레임 분석을 통한 대용량 캡슐내시경 영상의 지능형 판독보조 시스템 (Intelligent Diagnosis Assistant System of Capsule Endoscopy Video Through Analysis of Video Frames)

  • 이현규;최민국;이돈행;이상철
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.33-48
    • /
    • 2009
  • 캡슐내시경검사는 일반 내시경 검사에 비해 고통이 없고 합병증이 적다고 보고되어 있어 향후 지속적인 발전 가능성이 매우 큰 분야로 잘 알려져 있다. 그러나, 캡슐내시경을 이용한 진단은 캡슐이 동일한 위치에 상주할 경우 반복적으로 촬영된 유사한 영상을 오래도록 관찰 하여야 하므로, 진단자로 하여금 막대한 시간적 비용을 발생하게 한다. 따라서 보다 현실적이고 실용적인 캡슐내시경 검사를 위한 효율적인 탐색 및 진단 방법으로써 캡슐내시경영상에 대한 지능형 탐색방법이 요구된다. 본 논문에서 제안하는 지능형 판독보조 시스템은 영상차감을 통해 중복영상을 최소화한 후 프레임단위로 영상이 내포한 정보를 일차원도표(map)의 형태로 제공하고, 이러한 결과도표의 분석도구 및 방법을 제안함으로써 진단시간을 큰 폭으로 단축할 수 있는 방법을 제안하였다. 즉, 비교연산 한 정규화된 교차상관(Normalized Cross-Correlation) 방법을 통해 전처리 된 인접영상에 대한 유사도를 추출하고, 설정된 임계값이상의 영상들만을 탐색 범위로 지정하여 중복 촬영된 영상의 탐색을 최소화 한다. 이외에도 영상간 유사도, 엔트로피와 명암도를 통해 얻어진 이동도표, 특성도표와 명암도표를 분석하여 효율적으로 사용자가 탐색을 원하는 부위에 대한 탐색밀도를 높이는 등의 다양한 진단 매뉴얼을 제시한다.

  • PDF

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

효과적인 인터랙티브 비디오 저작을 위한 얼굴영역 기반의 어노테이션 방법 (Annotation Method based on Face Area for Efficient Interactive Video Authoring)

  • 윤의녕;가명현;조근식
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.83-98
    • /
    • 2015
  • TV를 보면서 방송에 관련된 정보를 검색하려는 많은 시청자들은 정보 검색을 위해 주로 포털 사이트를 이용하고 있으며, 무분별한 정보 속에서 원하는 정보를 찾기 위해 많은 시간을 소비하고 있다. 이와 같은 문제를 해결하기 위한 연구로써, 인터랙티브 비디오에 대한 연구가 활발하게 진행되고 있다. 인터랙티브 비디오는 일반적인 비디오에 추가 정보를 갖는 클릭 가능한 객체, 영역, 또는 핫스팟을 동시에 제공하여 사용자와 상호작용이 가능한 비디오를 말한다. 클릭 가능한 객체를 제공하는 인터랙티브 비디오를 저작하기 위해서는 첫째, 증강 객체를 생성하고, 둘째, 어노테이터가 비디오 위에 클릭 가능한 객체의 영역과 객체가 등장할 시간을 지정하고, 셋째, 객체를 클릭할 때 사용자에게 제공할 추가 정보를 지정하는 과정을 인터랙티브 비디오 저작 도구를 이용하여 수행한다. 그러나 기존의 저작 도구를 이용하여 인터랙티브 비디오를 저작할 때, 객체의 영역과 등장할 시간을 지정하는데 많은 시간을 소비하고 있다. 본 논문에서는 이와 같은 문제를 해결하기 위해 유사한 샷들의 모임인 샷 시퀀스의 모든 샷에서 얼굴 영역을 검출한 샷 시퀀스 메타데이터 모델과 객체의 어노테이션 결과를 저장할 인터랙티브 오브젝트 메타데이터 모델, 그리고 어노테이션 후 발생될 수 있는 부정확한 객체의 위치 문제를 보완할 사용자 피드백 모델을 적용한 얼굴영역을 기반으로 하는 새로운 형태의 어노테이션 방법을 제안한다. 마지막으로 제안한 어노테이션 방법의 성능을 검증하기 위해서 인터랙티브 비디오 저작 시스템을 구현하여 기존의 저작도구들과 저작 시간을 비교하였고, 사용자 평가를 진행 하였다. 비교 분석 결과 평균 저작 시간이 다른 저작 도구에 비해 2배 감소하였고, 사용자 평가 결과 약 10% 더 유용한다고 평가 되었다.

소셜챗봇 구축에 필요한 관계성 추론을 위한 텍스트마이닝 방법 (Identifying Social Relationships using Text Analysis for Social Chatbots)

  • 김정훈;권오병
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.85-110
    • /
    • 2018
  • 챗봇은 음성, 이미지, 비디오 또는 텍스트와 같은 다양한 매채를 이용하여 대화가 가능한 대화형 어시스턴트이자 인공지능을 기반으로 사용자의 질문에 답하거나 문제를 해결할 수 있는 사용자 친화적 프로그램이다. 하지만 현재 챗봇은 사용자가 요청한 작업을 정확하게 수행하는 기술적측면에 초점이 맞추어져 있으며, 개인화된 대화로 사용자와 챗봇간의 관계성 구축에는 제한적이어서 일부 사례에도 불구하고 소셜챗봇이 되기에는 미흡한 상태이다. 만약 인간의 사회성을 나타내는 특징 중 하나인 관계성을 챗봇이 인식하여 알맞게 대화를 하여 문제를 해결할 수 있다면, 개인화된 대화를 할 수 있을 뿐만 아니라 인간과 유사한 대화를 할 수 있을 것이다. 본 연구의 목적은 사용자가 입력한 내용을 기반으로 챗봇과 사용자 간의 관계성을 추론하고 대화 상황에 맞게 대화 상대가 적절한 대화를 수행 할 수 있는 텍스트 분석 방법을 제안하는 것이다. 본 연구의 실험 및 평가를 하기 위하여 실제 SNS대화 내용을 사용하였다. 분석결과 개인정보 보호를 위해 사용자의 개인 프로필 정보가 제외된 방법에서도 우수한 결과를 나타내어 소셜 챗봇에 적합한 방법으로 검증되었다.

실시간 객체기반 비디오 서비스를 위한 MPEG-4 Encoder 분석 (Analysis of MPEG-4 Encoder for Object-based Video)

  • 김민훈;이선영;문석주;장의선
    • 대한전자공학회논문지SP
    • /
    • 제41권1호
    • /
    • pp.13-20
    • /
    • 2004
  • 본 논문에서는 현재 MPEG-4 비디오의 인코더를 분석하고 인코더의 복잡함을 줄일 수 있는 효율적인 압축기술을 제안하였다. 지금까지의 객체기반 비디오에서는 유/무선 저 전송률 부호화환경에 맞추기 위하여 형상부호화(Shape coding)를 제외한 인코더 최적화가 주를 이루었다. 최근에 본 연구팀이 수행한 형상부호화의 복잡도를 줄이기 위한 실험을 통하여 객체기반 부호화에서 형상부호화가 차지하는 계산비중이 상대적으로 높다는 것을 밝혀냈다 본 논문에서는 최근까지의 영상부호화 분야와 형상부호화 분야의 최적화 기술이 성공적으로 결합되어 최적의 객체기반 부호화 기술을 유도할 수 있는지 실험하였다 먼저 영상부호화 부분에서는 기존의 MEMC(Motion Estimation Motion Compensation)에서 사용된 검색 방법인 나선형 검색 대신에 MVFAST(Motion Vector Field Adaptive Search Technique) 기술을 채택하였고, 형상부호화 부분에서는 복잡함을 줄이기 위해 기존의 MEMC에서 사용된 나선형 검색을 생략하고 IVOPF(Intelligent VOP Formation) 대신 TRB(Tightest Rectangular Boundary)을 채택하여 최적화에 적용해 보았다. 실험결과, 객체기반 부호화를 위한 제안된 최적화 방식이 기존의 reference software 보다 $57.3\%$ 향상되었음을 알 수 있었다. 아울러, 본 논문에서 제안된 기술은 형상부호화 부분에만 적용된 최적화 기술보다 $50.8\%$ 향상된 실험결과를 보여주었다.

A Study on Swarm Robot-Based Invader-Enclosing Technique on Multiple Distributed Object Environments

  • Ko, Kwang-Eun;Park, Seung-Min;Park, Jun-Heong;Sim, Kwee-Bo
    • Journal of Electrical Engineering and Technology
    • /
    • 제6권6호
    • /
    • pp.806-816
    • /
    • 2011
  • Interest about social security has recently increased in favor of safety for infrastructure. In addition, advances in computer vision and pattern recognition research are leading to video-based surveillance systems with improved scene analysis capabilities. However, such video surveillance systems, which are controlled by human operators, cannot actively cope with dynamic and anomalous events, such as having an invader in the corporate, commercial, or public sectors. For this reason, intelligent surveillance systems are increasingly needed to provide active social security services. In this study, we propose a core technique for intelligent surveillance system that is based on swarm robot technology. We present techniques for invader enclosing using swarm robots based on multiple distributed object environment. The proposed methods are composed of three main stages: location estimation of the object, specified object tracking, and decision of the cooperative behavior of the swarm robots. By using particle filter, object tracking and location estimation procedures are performed and a specified enclosing point for the swarm robots is located on the interactive positions in their coordinate system. Furthermore, the cooperative behaviors of the swarm robots are determined via the result of path navigation based on the combination of potential field and wall-following methods. The results of each stage are combined into the swarm robot-based invader-enclosing technique on multiple distributed object environments. Finally, several simulation results are provided to further discuss and verify the accuracy and effectiveness of the proposed techniques.

얼굴 인식 및 화자 정보를 이용한 오프라인 회의 기록 지원 시스템 (Recording Support System for Off-Line Conference using Face and Speaker Recognition)

  • 손윤식;정진우;박한무;계승철;윤종혁;정낙천;오세만
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.66-71
    • /
    • 2008
  • 최근 멀티미디어 서비스는 동영상 압축 기술 및 네트워크의 발달을 기반으로 하여 다양한 응용 서비스를 제공하고 있으며, 이 중 화상 회의 시스템은 이 두 가지 기술이 효과적으로 사용된 대표적인 예이다. 원격 사용자간의 원활한 의사전달을 위해 고려된 화상회의 시스템은 효과적인 응용 서비스로 분류되고 있지만, 이러한 서비스 제공을 위한 기술을 이용하여 빈도가 훨씬 많은 일반적인 회의를 지원하는 응용서비스는 드문 편이다. 본 논문에서는 얼굴 정보와 화자 정보를 기반으로 오프라인 회의를 보조하는 시스템을 제안한다. 제안된 시스템은 3개의 마이크와 웹캠을 이용하여 화자의 위치를 파악하고 웹캠에서 얻어진 정보를 이용하여 얼굴 영역 정보를 분석하고 인식한 후 화자 정보를 추출하여 발언자들을 추적하여 기록하는 기능을 제공한다.

관련 동영상 정보를 활용한 YouTube 가짜뉴스 탐지 기법 (Fake News Detection on YouTube Using Related Video Information)

  • 김준호;신용준;안현철
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.19-36
    • /
    • 2023
  • 정보통신기술의 발전으로 인해 누구나 쉽게 정보를 생산, 유포할 수 있게 되면서, 이를 악용하여 의도적으로 유포하는 거짓 정보인 가짜뉴스가 새로운 문제로 대두되기 시작하였다. 초기에 텍스트 방식으로 주로 전파되던 가짜뉴스는 점차 진화하여 이제는 멀티미디어 형식으로 퍼지고 있다. 유튜브는 2005년에 설립된 이후 세계 최고의 동영상 플랫폼으로 성장하면서 전 세계 사람들이 대부분 이용하고 있다. 하지만 유튜브는 가짜뉴스가 퍼지는 주요 창구가 되며 사회적인 문제를 일으키고 있다. 유튜브의 가짜뉴스를 탐지하기 위하여 다양한 학자들이 연구를 진행해 왔다. 가짜뉴스 탐지 연구에는 콘텐츠 기반의 접근과 배경정보 기반의 접근이 존재하는데 기존 가짜뉴스 연구와 유튜브의 가짜뉴스 탐지 연구를 살펴보면 콘텐츠 기반의 접근이 다수를 차지하고 있다. 본 연구에서는 콘텐츠 기반의 가짜뉴스 탐지가 아닌 배경정보 기반의 가짜뉴스 탐지기법을 제안하는데, 그 중에서도 유튜브에서 제공하는 관련 동영상 정보를 활용하여 가짜뉴스를 탐지하는 방법을 제안하고자 한다. 구체적으로 관련 동영상에서 얻은 정보와 원본 동영상에서 얻은 정보를 임베딩 기술인 Doc2vec을 이용하여 벡터화 한 후, 딥러닝 네트워크인 합성곱 신경망(CNN)을 통하여 가짜뉴스를 판별하고자 하였다. 실증분석 결과 제안 기법은 기존의 콘텐츠 기반으로 유튜브 가짜뉴스를 탐지하는 접근에 비해 보다 우수한 예측 성능을 보임을 확인하였다. 이러한 본 연구의 제안 기법은 파급력이 높은 유튜브 상에서 유포되는 가짜뉴스의 전파를 사전에 예방함으로써, 우리사회를 보다 안전하고 신뢰할 수 있도록 만드는데 기여할 수 있을 것으로 기대한다.

FPGA와 Dual Port SRAM 적용한 Radar System Positive Afterimage 고속 정보 표출에 관한 연구 (A Study on the high-speed Display of Radar System Positive Afterimage using FPGA and Dual port SRAM)

  • 신현종;유형근
    • 한국위성정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.1-9
    • /
    • 2016
  • 본 연구는 PPI Scop 레이더 장치에서 수신된 정보신호 중 영상신호 분리와 합성과정을 거쳐 영상신호 생성, 심볼생성, 양성 잔상 신호 생성 결합 처리 과정을 거쳐 레이더 정보 분석용 화면에서 운영자의 판별 용이성, 가독성 향상과 더불어 운영 편리성을 획기적으로 향상시킬 수 있는 기술적 구현방안에 대하여 2가지 형태로 연구하였다. 첫째, FPGA기반 고속 프로세스 정보처리 연산시스템으로 구성된 하드웨어 자원을 이용하여 시스템의 고속화 안정성을 갖추도록 하였다. 둘째, 소프트웨어 자원인 함수곡선 알고리즘과 지능화된 알고리즘을 연계 구현하여 레이더 정보, 분석 시스템에서 필요한 제약요건을 충족할 수 있도록 연구하였다. 기존의 레이더 시스템에서 구현이 불가능 하였던 프레임 단위 영상데이터 분석을 위해 영상캡처와 저장, 레이더 정보 표출 영상을 MPEG4 동영상으로 저장을 할 수 있도록 하였다. 연구의 핵심은 영상 양성 처리 함수곡선 알고리즘을 통해 육안판별에서 관찰 목표물, 특정 감시 대상물체 정보를 강조, 지연표출 및 색상 표현도 할 수 있도록 하였다. 고속 FPGA기반에 탑재된 ARM Processor Support in Pro ASIC3 적용하여 지능화된 알고리을 부분적으로 탑재시켜 시스템의 신뢰성과 효율 제고로 운영자 정보판독 가독성 향상은 물론 최적화된 고해상도 영상, 고속의 정보 분석 및 다양한 정보 표출을 유지할 수 있도록 구현하였다.