• Title/Summary/Keyword: 음성영상융합

Search Result 84, Processing Time 0.033 seconds

2D Face Image Recognition and Authentication Based on Data Fusion (데이터 퓨전을 이용한 얼굴영상 인식 및 인증에 관한 연구)

  • 박성원;권지웅;최진영
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2001.05a
    • /
    • pp.241-245
    • /
    • 2001
  • 얼굴인식은 이미지의 많은 변동(표정, 조명, 얼굴의 방향 등)으로 인해 한가지 인식 방법으로는 높은 인식률을 얻기 어렵다. 이러한 어려움을 해결하기 위해, 여러 가지 정보를 융합시키는 데이터 퓨전 방법이 연구되었다. 기존의 데이터 퓨전 방법은 보조적인 생체 정보(지문, 음성 등)를 융합하여 얼굴인식기를 보조하는 방식을 취하였다. 이 논문에서는 보조적인 생체 정보를 사용하지 않고, 기존의 얼굴인식방법을 통해 얻어지는 상호보완적인 정보를 융합하여 사용하였다. 개별적인 얼굴인식기의 정보를 융합하기 위해, 전체적으로는 Dempster-Shafer의 퓨전이론에 근거하면서, 핵심이 되는 질량함수를 새로운 방식으로 재정의한 퓨전모델을 제안하였다. 제안된 퓨전모델을 사용하여 개별적인 얼굴인식기의 정보를 융합한 결과, 생체정보 없이, 개별적인 얼굴인식기보다 나은 인식률을 얻을 수 있었다.

  • PDF

Lip and Voice Synchronization Using Visual Attention (시각적 어텐션을 활용한 입술과 목소리의 동기화 연구)

  • Dongryun Yoon;Hyeonjoong Cho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.4
    • /
    • pp.166-173
    • /
    • 2024
  • This study explores lip-sync detection, focusing on the synchronization between lip movements and voices in videos. Typically, lip-sync detection techniques involve cropping the facial area of a given video, utilizing the lower half of the cropped box as input for the visual encoder to extract visual features. To enhance the emphasis on the articulatory region of lips for more accurate lip-sync detection, we propose utilizing a pre-trained visual attention-based encoder. The Visual Transformer Pooling (VTP) module is employed as the visual encoder, originally designed for the lip-reading task, predicting the script based solely on visual information without audio. Our experimental results demonstrate that, despite having fewer learning parameters, our proposed method outperforms the latest model, VocaList, on the LRS2 dataset, achieving a lip-sync detection accuracy of 94.5% based on five context frames. Moreover, our approach exhibits an approximately 8% superiority over VocaList in lip-sync detection accuracy, even on an untrained dataset, Acappella.

자동차 융합 정보통신 장치들의 보안 기술 현황 및 발전 방향

  • Yun, KeumJu;Park, DaeHyuck
    • Review of KIISC
    • /
    • v.24 no.2
    • /
    • pp.21-27
    • /
    • 2014
  • 사용자의 편리함과 유익함 뒤에는 높은 위험성이 공존한다. 특히 자동차의 경우에는 빠른 속도로 장소를 이동할 수 있다는 장점이 있지만, 사고 발생 시에 생명을 위협할 만큼의 위험을 가지고 있다. 자동차 사고 발생 후에는 시시비비를 가리기 위해서 많은 분쟁이 발생하는 것이 일반적인 판례였다. 자동차용 블랙박스는 자동차 사고 발생 시에 정확한 현장의 영상, 음성 및 기타 센서 정보를 기록한다. 이를 이용해서 전후좌우, 차량의 상태를 분석하여 사건 발생의 실마리를 찾을 수 있는 중요한 단서로 사용된다. 하지만, 아직은 블랙박스 영상만으로는 법적인 자료로 사용될 수는 없다. 즉, 법적인 자료로 채택되기 위한 기밀성과 무결성 측면에서 약점을 가지고 있다. 이에 따라서 기록된 정보를 암호화하고, 접근 자에 대한 기록을 남기는 기능이 연구 및 표준화 제정되고 있다. 차량 내외에서 수집된 정보에 암호화를 적용하여 이종 기기간 데이터 공유를 차단하고, 자동차 정보기기 보안 인증서를 가지고 있는 단체를 통하여 보안키를 이용하여 정보를 활용하기 위한 시스템이 구성되고 있다. 이를 통하여 자동차 융합 정보통신 장치들로부터 기록된 정보를 법적인 객관적 근거로 활용할 수 있도록 자동차용 정보통신 기기들이 기밀성과 무결성을 준수할 수 있도록 발전할 것이다.

Teeth Image Recognition Using Hidden Markov Model (HMM을 이용한 치열 영상인식)

  • Kim, Dong-Ju;Yoon, Jun-Ho;Cheon, Byeong-Geun;Lee, Hyon-Gu;Hong, Kwang-Seok
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2006.06a
    • /
    • pp.29-32
    • /
    • 2006
  • 본 논문에서는 기존의 생체인식에서 사용하지 않았던 방법으로 개인의 치열 영상을 이용하는 생체 인식 방법을 제안한다. 제안한 치열 인식 시스템은 데이터의 중복성 제거와 관측벡터의 차원 감소를 위하여 2D-DCT를 특징 파라미터로 사용하고, 음성인식 및 얼굴인식 분야에서 사용하는 EHMM 기술을 사용한다. EHMM은 3개의 super-state로 구성되며 각각의 super-state는 3개, 5개, 3개의 상태를 갖는 1D-HMM으로 구성된다. 치열인증 시스템의 성능 평가는 모델 훈련에 사용하지 않은 치열 영상으로 인식 실험하여 평가한다. 치열인식 실험에는 남자 10명과 여자 10명에 대하여 각각 10개의 이미지로 구성된 총 200개의 치열 영상을 사용한다. 치열인식 실험에서 제안한 치열인식 시스템의 인식률은 98.5%를 보였고, 참고문헌 [4]의 EHMM을 사용한 얼굴인식 시스템이 갖는 98%와 대등한 성능을 나타내는 것을 확인하였다.

  • PDF

멀티미디어 기술 기반 방송제작 체계

  • 김경수
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.20 no.5
    • /
    • pp.10-16
    • /
    • 2002
  • 디지털 기술의 급속한 발전에 의한 디지털 방송의 도입은 방송환경에 커다란 변혁을 초래하고 있다. 기술의 발전은 방송, 통신, 컴퓨터를 융합시킨 새로운 미디어 서비스를 등장시키고 있으며, 이러한 미디어의 융합은 지금까지 독자적인 영역에서 발전하여 오던 각각의 미디어들이 가지고 있는 한계성 또는 단점을 상호보완적으로 개선함으로써 서비스 능력을 대폭적으로 향상시키는 방향으로 전개되고 있다. 이와같은 디지털 시대의 대변혁은 멀티미디어 서비스를 그 중심축으로 하고 있으며, 이른바 방송통신 융합시대의 경쟁력 있는 서비스를 도입하기 위한 미디어간, 국가간의 경계영역을 초월한 글로벌 경쟁체제가 급속히 진전되어 가고 있다. 이와 같은 미디어의 융합 현상에 따라 제작 환경도 새로운 디지털 방송 서비스를 효율적으로 지원하도록 전환되어야 한다. 디지털 방송의 특징인 고품질 및 다채널 시대를 맞아 방송 콘텐츠의 재활용도를 높이는 것은 매우 중요하며, 데이터 방송, 인터넷 방송 등 다양한 기능의 서비스를 도입하기 위해선 제작 체계의 개선이 뒷받침되어야 한다. 따라서 본 논문에서는 새로운 제작 환경에 대해서 살펴보고자 한다. 특히, 컴퓨터 기반의 제작 환경 구축에 핵심 요소인 넌리니어 편집시스템과 방송 콘텐츠를 효율적으로 관리하고 재활용할 수 있는 디지털 아카이브에 대해 소개하고자 한다. 테이프 대신 하드디스크를 기록 매체로 하는 넌리니어(non-linear) 시스템의 등장에 따라 방송 프로그램 제작에 대한 새로운 개념의 정립이 필요하게 되었으며, 이를 근간으로 하는 새로운 프로그램 제작환경, 즉 네트워크에 의해 컴퓨터와 데이터베이스를 연결하여 제작으로부터 송출가지 통합관리가 가능한 새로운 방송 프로그램 제작환경, 이른바 멀티미디어 제작환경을 구축하는 것이 디지털 방송 시대의 방송 사업자에게 가장 중요한 과제중의 하나가 되었다. 멀티미디어 제작환경을 구축함으로써 영상, 음성 및 다양한 부가 데이터를 포함하는 멀티미디어 프로그램을 편리하게 제작할 수 있으며, 데이터베이스로부터 필요한 영상 이미지를 자유롭게 합성, 조작하는 등, 매우 다양하고 편리한 제작기법을 활용할 수 있다. 또한 멀티미디어를 응용한 제작 분야로서 컴퓨터 그래픽스 기술은 방송의 사전제작에 커다란 기여를 하고 있으며, 이미 선거방송을 비롯한 여러가지 프로그램은 가상스튜디오와 가상캐릭터 기술을 활용하여 제작하고 있다. 방송사업자는 이러한 멀티미디어 제작시스템을 근간으로 영상검색, 영상 합성, 스크립트 편집, 가상현실 응용 등 고도의 제작 기법을 활용함으로써 사용자 친화성, 다이나믹한 표현, 실시간, 대화성을 특징으로 하는 다양한 멀티미디어 서비스를 시청자에게 제공할 수 있을 것이다.

Diagnosis of Scoliosis Using Chest Radiographs with a Semi-Supervised Generative Adversarial Network (준지도학습 방법을 이용한 흉부 X선 사진에서 척추측만증의 진단)

  • Woojin Lee;Keewon Shin;Junsoo Lee;Seung-Jin Yoo;Min A Yoon;Yo Won Choi;Gil-Sun Hong;Namkug Kim;Sanghyun Paik
    • Journal of the Korean Society of Radiology
    • /
    • v.83 no.6
    • /
    • pp.1298-1311
    • /
    • 2022
  • Purpose To develop and validate a deep learning-based screening tool for the early diagnosis of scoliosis using chest radiographs with a semi-supervised generative adversarial network (GAN). Materials and Methods Using a semi-supervised learning framework with a GAN, a screening tool for diagnosing scoliosis was developed and validated through the chest PA radiographs of patients at two different tertiary hospitals. Our proposed method used training GAN with mild to severe scoliosis only in a semi-supervised manner, as an upstream task to learn scoliosis representations and a downstream task to perform simple classification for differentiating between normal and scoliosis states sensitively. Results The area under the receiver operating characteristic curve, negative predictive value (NPV), positive predictive value, sensitivity, and specificity were 0.856, 0.950, 0.579, 0.985, and 0.285, respectively. Conclusion Our deep learning-based artificial intelligence software in a semi-supervised manner achieved excellent performance in diagnosing scoliosis using the chest PA radiographs of young individuals; thus, it could be used as a screening tool with high NPV and sensitivity and reduce the burden on radiologists for diagnosing scoliosis through health screening chest radiographs.

A Study on the Windows Application Control Model Based on Leap Motion (립모션 기반의 윈도우즈 애플리케이션 제어 모델에 관한 연구)

  • Kim, Won
    • Journal of the Korea Convergence Society
    • /
    • v.10 no.11
    • /
    • pp.111-116
    • /
    • 2019
  • With recent rapid development of computer capabilities, various technologies that can facilitate the interaction between humans and computers are being studied. The paradigm tends to change to NUI using the body such as 3D motion, haptics, and multi-touch with GUI using traditional input devices. Various studies have been conducted on transferring human movements to computers using sensors. In addition to the development of optical sensors that can acquire 3D objects, the range of applications in the industrial, medical, and user interface fields has been expanded. In this paper, I provide a model that can execute other programs through gestures instead of the mouse, which is the default input device, and control Windows based on the lip motion. To propose a model which converges with an Android application and can be controlled by various media and voice instruction functions using voice recognition and buttons through connection with a main client. It is expected that Internet media such as video and music can be controlled not only by a client computer but also by an application at a long distance and that convenient media viewing can be performed through the proposal model.

System design for vehicle black box data integrity provision of cloud computing base (데이터 무결성 제공을 위한 클라우드 기반의 차량용 블랙박스 시스템 설계)

  • Kim, Bo-Kyung;Baek, Hye-Ran;Jo, Su-Bin;Jung, Sun-Jae;Choi, Young-jun;OH, Seok-Youn;Rhee, Kyung-Hyune
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.640-643
    • /
    • 2013
  • 차량용 블랙박스는 영상, 음성 및 자동차의 주행정보를 저장하는 매체로서 저장되는 데이터를 통해 차량 접촉사고 시 운전자의 과실여부를 판단할 수 있는 중요한 장치로 최근 자동차 시장에서 많은 주목을 받고 있다. 그러나 현재 차량용 블랙박스는 단순히 주행 데이터를 저장만 하고 있어 법적인 근거 자료로 활용되기 위해서는 데이터에 대한 무결성 보장을 제공하는 기능이 없는 상황이다. 블랙박스에 저장된 데이터는 공격자에 의해 위, 변조될 위험이 존재함으로 본 논문에서는 보다 안전한 환경에서의 무결성 보장을 위해 클라우드 컴퓨팅 환경에서의 무결성을 제공하는 시스템을 설계 한다.

Implementation on On-Demand System using ATM/HFC Network (ATM/HFC망을 이용한 On-Demand 시스템 구현)

  • 김광수
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.06b
    • /
    • pp.149-155
    • /
    • 1999
  • 방송과 통신산업의 융합현상이 가속화됨에 따라, CATV망을 이용하여 다양한 영상, 음성, 데이터 통신을 위한 새로운 기술과 서비스의 요구가 증가하고 있다. 디지털 방식의 CATV를 위한 세계적 표준화 작업이 선진국을 중심으로 진행되고 있으며, 국내에서도 이에 따른 기술개발의 목표 및 규격설정을 통한 호환성 보장 체계가 필요함에 이를 위한 연구개발을 수행하였다. CATV의 디지털화는 MoD, 화상전화, 고속 인터넷 와 같은 다양한 디지털 서비스를 CATV사업자가 가입자에게 제공함으로써 서비스 폭을 넓히는 FSN(Full Service Network)의 기반으로 활용할 수 있다.

  • PDF

Development of Interactive Hologram Education System based on Speech Recognition - Live Map (음성인식 기반 대화형 홀로그램 교육 시스템의 개발 및 평가에 관한 연구 - 라이브맵(Live Map))

  • Kwon, Chongsan;Lee, Dong-Heon;Moon, Mikyeong
    • Journal of Industrial Convergence
    • /
    • v.17 no.4
    • /
    • pp.69-75
    • /
    • 2019
  • In this study, we developed a world map learning system for elementary education that uses Google Cloud platform STT, Dialog Flow, and fan holograms to recognize the voices of learners and to show and explain three-dimensional images of suitable results as holograms. As a result of the experiments and interviews, it is expected to be helpful for improving the learning effect by inducing students' interest and immersion and is expected to be effectively used for collaborative learning and education for students with disabilities.