• 제목/요약/키워드: Image Representation

검색결과 786건 처리시간 0.029초

Hole-filling Method to Enhance Viewing Characteristics for Multilayer Type 3D Display System U sing a DMD

  • Baek, Hogil;Choi, Sungwon;Kim, Hyunho;Choi, Hee-Jin;Min, Sung-Wook
    • Current Optics and Photonics
    • /
    • 제4권6호
    • /
    • pp.545-550
    • /
    • 2020
  • We propose a hole-filling method to solve discontinuous depth representation and to reduce the visible seams and cracks that cause the limitation of the viewing angle of the three-dimensional (3D) image in the multilayer type 3D display system. The occlusion and the disocclusion regions between layers, such as the visible seams and cracks, are a major bottleneck of the multilayer type 3D display system to represent a volumetric 3D image by stacking multiple images. As a result, in the reconstructed 3D image, the visible seams and cracks appear as brighter overlapping and undesirable cut-off. In order to resolve the problems above, we applied the depth-fused effect to the sub-depth map generating algorithm and improve the viewing characteristics of the multilayer type 3D display. The experimental demonstrations are also provided to verify the proposed scheme.

마스크된 복원에서 질병 진단까지: 안저 영상을 위한 비전 트랜스포머 접근법 (From Masked Reconstructions to Disease Diagnostics: A Vision Transformer Approach for Fundus Images)

  • ;변규린;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.557-560
    • /
    • 2023
  • In this paper, we introduce a pre-training method leveraging the capabilities of the Vision Transformer (ViT) for disease diagnosis in conventional Fundus images. Recognizing the need for effective representation learning in medical images, our method combines the Vision Transformer with a Masked Autoencoder to generate meaningful and pertinent image augmentations. During pre-training, the Masked Autoencoder produces an altered version of the original image, which serves as a positive pair. The Vision Transformer then employs contrastive learning techniques with this image pair to refine its weight parameters. Our experiments demonstrate that this dual-model approach harnesses the strengths of both the ViT and the Masked Autoencoder, resulting in robust and clinically relevant feature embeddings. Preliminary results suggest significant improvements in diagnostic accuracy, underscoring the potential of our methodology in enhancing automated disease diagnosis in fundus imaging.

학습용 시각 정보 인식 시스템의 설계 및 구현 (Design and Implementation of Visual Information Extraction System for Education)

  • 신현경
    • 정보교육학회논문지
    • /
    • 제16권4호
    • /
    • pp.483-488
    • /
    • 2012
  • 모바일 기반의 스마트 기기의 보급이 확대됨에 따라 교육 현장에서 이를 활용하는 사례가 증가하고 있는 추세이며, 가까운 장내에는 매우 중요한 교육용 기자재로서의 위치를 차지할 것으로 예측된다. 이러한 추세에 맞춰 교육과학기술부는 스마트 교육에 대한 중장기 추진 계획을 발표하였고 현재 추진을 준비 중에 있으며, 다양한 산업계 학계 연구 기관에서 관련 연구 결과물과 시제품들을 활발히 발표하고 있는 현실이다. 본 논문에서는 모바일 스마트 기기에 장착된 비디오카메라를 이용하여 촬영된 영상 내부에 포함된 문자를 인식하는 모듈을 구현하고 이를 응용하여, 교육환경에서 현실적으로 적용 가능한 학습용 시각 정보 인식 시스템에 관련한 설계 및 구현 방안을 제안하였다. 본 논문에서 제안한 학습용 시각 정보 인식 시스템은 비디오 영상취득, 영상 처리, 정보 추출, 지식 표현 등 4개의 모듈로 구성되었으며, 실제적인 예제를 통해 각 모듈을 설명 하였다.

  • PDF

대화식 클러스터링 기법을 이용한 칼라 지도의 문자 영역 추출에 관한 연구 (Character Extraction from Color Map Image Using Interactive Clustering)

  • 안창;박찬정;이상범
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.270-279
    • /
    • 1997
  • 지도 영상에 포함된 문자들을 효율적으로 인식하기 위해서는, 문자 영역만을 추 출하여 독립된 계층으로 만드는 전처리 단계가 선행되어야 한다. 본 논문에서는 칼라 지도 영상의 색 정보를 대화식 클러스터링 기법에 의해 색 별로 분리하고, 문자 영역 을 추출하는 알고리즘을 제안하였다. 제안된 대화식 클러스터링 기법은 칼라 영상 중 에서 사용자가 분리하기 원하는 색을 대화식으로 선택하여 각각의 선택된 색을 중심 으로 클러스터를 형성하고 분리한다. 문자를 추출하는 알고리즘은 문자를 표현하는 색만을 추출한 이전 영상을 벡터 데이터화 한 후 각 원시 요소들의 상호 관계를 고려 하여 직선, 원, 문자의 세 계층으로 분류하는 것으로서, 문자와 직선이 중첩되어, 하 나의 연결 요소를 이루고 있을 때에도 효과적으로 문자를 분리할 수 있다. 알고리즘 의 평가를 위해 1:3,000의 지번약도에 대한 실험을 수행하였으며, 선분과 문자가 중 첩되어 있는 경우에도 각각 분리할 수 있음을 확인하였다.

  • PDF

애니메이션 텍스트와 이미지로써 손의 의미작용에 관한 연구 (A study on the Significance of Hand Image in Animation)

  • 김윤경
    • 만화애니메이션 연구
    • /
    • 통권14호
    • /
    • pp.53-63
    • /
    • 2008
  • 이 논문에서는 애니메이션에서 표현되는 '손'의 의미작용에 관해 연구해보고자 한다. 애니메이션에서 '손'은 단순한 조형적 제시나 의미전달뿐 아니라 내면의 의식과 이미지를 재창조하는 다양한 시도로 나타난다. 또한 '손'은 내러티브 형식으로서의 주체이자 객체로 개인의 의식과 사회적 현실을 동시에 반영하는 데 효과적인 역할을 한다. 따라서 본 연구 가 주목하는 것은 부분 또는 전체로 표현되는 '손'이 어떻게 애니메이션에서 작가의 의식과 시대성찰을 구현하고 있는가하는 점이다. 이처럼 '손'과 같이 일부로써 전체를, 또는 전체로써 일부를 나타내는 비유적 표현법으로 작품의 내용이 실제 세계를 드러낸다고 보는 시각은 수사학의 분야 중 제유에 가깝다고 보고 이를 분석들로 삼고자 한다. 이에 이지 트릉카(Jiri Trnka)의 작품 손(The Hand)을 필두로 애니메이션에 나타난 제유의 표현과 이를 통한 기법과 의미의 확장을 연구해 보고자 한다.

  • PDF

움직임 추정 능동 방사선 기반 고속 객체 추적 (Motion-Estimated Active Rays-Based Fast Moving Object Tracking)

  • 라정중;서경석;최흥문
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.15-22
    • /
    • 2005
  • 객체 중심점에서 움직임을 추정하여 빠르게 이동하는 객체의 윤곽선을 추적 할 수 있는 알고리듬을 제안하였다. 방사상 표현(radial representation) 방식을 적용하여 객체 중심점에서만 블록정합 (block matching) 알고리듬으로 움직임을 추정하여 적은 계산량으로 객체 움직임을 추정함으로써 객체 윤곽선을 추적하였다. 객체의 움직임을 추정함으로써 프레임 간 객체의 움직임이 객체 중심에서 윤곽까지 거리 이상 빠르게 이동하는 객체도 추적할 수 있다. 에너지 수렴 과정에서 기울기 영상과 차영상(difference image)을 에너지 함수로 함께 사용함으로 복잡한 배경 등에도 강건하도록 하였다. 실험 결과 움직임이 빠른 객체와 복잡한 배경 속의 객체도 실시간으로 강건하게 추적함을 확인하였다.

Grabcut 알고리즘을 활용한 Stereoscopic 객체표현 기반 기술 연구 (Research on Infrastructure technology of Stereoscopic Object Expression Utilizing the Grabcut algorithm)

  • 이민호;최진영;이종혁;차재상
    • 한국ITS학회 논문지
    • /
    • 제17권5호
    • /
    • pp.151-159
    • /
    • 2018
  • 최근 입체영상 기술은 신 성장 동력 산업으로서 잠재성 있는 블루오션으로 자리매김하고 있으며, 가상 및 증강현실 기술의 발전과 함께 관심이 꾸준히 증가하고 있다. 입체영상 표현방식은 양안시차, 편광안경 등 다양한 형태의 기술이 개발되어 활용되고 있으나, 눈의 피해나, 두통, 혼선, 해상도 저하 등 한계점을 지닌다. 본 논문에서는 기존의 한계점을 극복하고자 중첩된 투명 디스플레이를 활용한 새로운 방식의 입체영상 표현 기법을 제시하였으며, Grabcut 알고리즘을 활용한 전경 추출 실험과 아크릴과 스마트 디바이스를 활용한 새로운 방식의 입체감 표현 실험을 통해 적용 가능성을 확인하였다. 또한, 이미지 프로세싱 소요 시간 등 분석을 통해 실시간 스트리밍 적용도 가능함을 검증하였다.

비선형 매니폴드 학습을 이용한 얼굴 이미지 합성 (Face Image Synthesis using Nonlinear Manifold Learning)

  • 조은옥;김대진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권2호
    • /
    • pp.182-188
    • /
    • 2004
  • 얼굴 구성 요소 각각에 대한 파라미터로부터 특정한 포즈나 표정을 갖는 얼굴 이미지를 합성하는 방법을 제안한다 이러한 파라미터화는 얼굴 이미지의 표현과 저장, 전송을 효과적으로 수행할 수 있도록 한다. 그러나 얼굴 이미지의 변화는 고차원의 이미지 공간에서 복잡한 비선형 매니폴드를 구성하기 때문에 파라미터화 하는 것이 쉽지 않다. 이러한 문제점을 해결하기 위해, 얼굴 이미지에 대한 표현방법으로 LLE (Locally Linear Embedding) 알고리즘을 사용한다. LLE 알고리즘은 얼굴 이미지들 사이의 관계를 유지하면서 저차원의 특징 공간으로 투사된 매니폴드를 더욱 부드럽고 연속적으로 만들어준다. 그 다음, 특징공간에서 특정한 포즈나 표정 파라미터에 해당하는 포인트를 추정하기 위해 snake 모델을 적용한다. 마지막으로, 추정된 특징 값의 주변에 있는 여러 장의 얼굴 이미지들의 가중치 평균을 구해 합성된 결과이미지를 만든다 실험결과를 통해 제안된 방법을 이용하면 겹침 현상이 적고 포즈나 표정에 대한 파라미터의 변화와 일치하는 이미지를 합성한다는 것을 보인다.

멀티모달 패션 추천 대화 시스템을 위한 개선된 트랜스포머 모델 (Improved Transformer Model for Multimodal Fashion Recommendation Conversation System)

  • 박영준;조병철;이경욱;김경선
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.138-147
    • /
    • 2022
  • 최근 챗봇이 다양한 분야에 적용되어 좋은 성과를 보이면서 쇼핑몰 상품 추천 서비스에도 챗봇을 활용하려는 시도가 많은 이커머스 플랫폼에서 진행되고 있다. 본 논문에서는 사용자와 시스템간의 대화와 패션 이미지 정보에 기반해 사용자가 원하는 패션을 추천하는 챗봇 대화시스템을 위해, 최근 자연어처리, 음성인식, 이미지 인식 등의 다양한 AI 분야에서 좋은 성능을 내고 있는 트랜스포머 모델에 대화 (텍스트) 와 패션 (이미지) 정보를 같이 사용하여 추천의 정확도를 높일 수 있도록 개선한 멀티모달 기반 개선된 트랜스포머 모델을 제안하며, 데이터 전처리(Data preprocessing) 및 학습 데이터 표현(Data Representation)에 대한 분석을 진행하여 데이터 개선을 통한 정확도 향상 방법도 제안한다. 제안 시스템은 추천 정확도는 0.6563 WKT(Weighted Kendall's tau)으로 기존 시스템의 0.3372 WKT를 0.3191 WKT 이상 크게 향상시켰다.

뉴로모픽 구조 기반 FPGA 임베디드 보드에서 이미지 분류 성능 향상을 위한 특징 표현 방법 연구 (Feature Representation Method to Improve Image Classification Performance in FPGA Embedded Boards Based on Neuromorphic Architecture)

  • 정재혁;정진만;윤영선
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권2호
    • /
    • pp.161-172
    • /
    • 2021
  • 뉴로모픽 아키텍처는 저에너지로 인공지능 기술을 지원하는 차세대 컴퓨팅으로 주목받고 있다. 그러나 뉴로모픽 아키텍처 기반의 FPGA 임베디드 보드는 크기나 전력 등으로 인하여 가용 자원이 제한된다. 본 논문에서는 제한된 자원을 효율적으로 사용하기 위해 특징점의 고려 없이 크기를 재조정하는 보간법과 에너지 기반으로 특징점을 최대한 보존하는 DCT(Discrete Cosine Transform) 기법을 통한 특징 표현 방법을 비교 및 평가한다. 크기가 조정된 이미지는 일반적인 PC 환경에서와 FPGA 임베디드 보드의 Nengo 프레임워크에서 컨벌루션 신경망을 통해 정확도를 비교 분석했다. 실험 결과 PC의 컨벌루션 신경망과 FPGA Nengo 환경 모두에서 DCT 기반 분류 성능이 일반 보간법보다 약 1.9% 높은 성능을 보였다. 실험 결과를 바탕으로 뉴로모픽 구조 기반 FPGA 보드의 제한된 자원 환경에서 기존에 사용되던 보간법 대신 DCT 방식을 이용한다면 분류에 사용되는 뉴런의 표현에 많은 자원을 할당하여 인식률을 높일 수 있을 것으로 기대한다.