• Title/Summary/Keyword: 모델 이미지

Search Result 1,854, Processing Time 0.03 seconds

Forgery Detection Scheme Using Enhanced Markov Model and LBP Texture Operator in Low Quality Images (저품질 이미지에서 확장된 마르코프 모델과 LBP 텍스처 연산자를 이용한 위조 검출 기법)

  • Agarwal, Saurabh;Jung, Ki-Hyun
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.31 no.6
    • /
    • pp.1171-1179
    • /
    • 2021
  • Image forensic is performed to check image limpidness. In this paper, a robust scheme is discussed to detect median filtering in low quality images. Detection of median filtering assists in overall image forensic. Improved spatial statistical features are extracted from the image to classify pristine and median filtered images. Image array data is rescaled to enhance the spatial statistical information. Features are extracted using Markov model on enhanced spatial statistics. Multiple difference arrays are considered in different directions for robust feature set. Further, texture operator features are combined to increase the detection accuracy and SVM binary classifier is applied to train the classification model. Experimental results are promising for images of low quality JPEG compression.

Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features (이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템)

  • Jungwoo Lim;Yoonna Jang;Junyoung Son;Seungyoon Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

Conversion of Image into Sound Based on HSI Histogram (HSI 히스토그램에 기초한 이미지-사운드 변환)

  • Kim, Sung-Il
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.3
    • /
    • pp.142-148
    • /
    • 2011
  • The final aim of the present study is to develop the intelligent robot, emulating human synesthetic skills which make it possible to associate a color image with a specific sound. This can be done on the basis of the mutual conversion between color image and sound. As a first step of the final goal, this study focused on a basic system using a conversion of color image into sound. This study describes a proposed method to convert color image into sound, based on the likelihood in the physical frequency information between light and sound. The method of converting color image into sound was implemented by using HSI histograms through RGB-to-HSI color model conversion, which was done by Microsoft Visual C++ (ver. 6.0). Two different color images were used on the simulation experiments, and the results revealed that the hue, saturation and intensity elements of each input color image were converted into fundamental frequency, harmonic and octave elements of a sound, respectively. Through the proposed system, the converted sound elements were then synthesized to automatically generate a sound source with wav file format, using Csound.

Automaitc Generation of Fashion Image Dataset by Using Progressive Growing GAN (PG-GAN을 이용한 패션이미지 데이터 자동 생성)

  • Kim, Yanghee;Lee, Chanhee;Whang, Taesun;Kim, Gyeongmin;Lim, Heuiseok
    • Journal of Internet of Things and Convergence
    • /
    • v.4 no.2
    • /
    • pp.1-6
    • /
    • 2018
  • Techniques for generating new sample data from higher dimensional data such as images have been utilized variously for speech synthesis, image conversion and image restoration. This paper adopts Progressive Growing of Generative Adversarial Networks(PG-GANs) as an implementation model to generate high-resolution images and to enhance variation of the generated images, and applied it to fashion image data. PG-GANs allows the generator and discriminator to progressively learn at the same time, continuously adding new layers from low-resolution images to result high-resolution images. We also proposed a Mini-batch Discrimination method to increase the diversity of generated data, and proposed a Sliced Wasserstein Distance(SWD) evaluation method instead of the existing MS-SSIM to evaluate the GAN model.

Implementation of the Stone Classification with AI Algorithm Based on VGGNet Neural Networks (VGGNet을 활용한 석재분류 인공지능 알고리즘 구현)

  • Choi, Kyung Nam
    • Smart Media Journal
    • /
    • v.10 no.1
    • /
    • pp.32-38
    • /
    • 2021
  • Image classification through deep learning on the image from photographs has been a very active research field for the past several years. In this paper, we propose a method of automatically discriminating stone images from domestic source through deep learning, which is to use Python's hash library to scan 300×300 pixel photo images of granites such as Hwangdeungseok, Goheungseok, and Pocheonseok, performing data preprocessing to create learning images by examining duplicate images for each stone, removing duplicate images with the same hash value as a result of the inspection, and deep learning by stone. In addition, to utilize VGGNet, the size of the images for each stone is resized to 224×224 pixels, learned in VGG16 where the ratio of training and verification data for learning is 80% versus 20%. After training of deep learning, the loss function graph and the accuracy graph were generated, and the prediction results of the deep learning model were output for the three kinds of stone images.

3D SVG Presentation Using Export of 3ds max 3D (3ds max의 익스포트를 이용한 3차원 SVG 표현)

  • 김승완;박덕규;정혜진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.640-642
    • /
    • 2004
  • SVG(Scalable Vector Graphic)는 웹 개발자 디자이너 및 사용자가 간단한 선언 방식의 프로그래밍 모델을 통해 HTML의 한계를 뛰어 넘어 견고한 비주얼 컨텐츠와 대화형 기능을 작성할 수 있는 W3C의 표준 XML 기반의 이미징 모델이다. 웹에서의 SVG는 확장형 벡터 그래픽으로서 2차원 이미지를 이미지의 손상 없이 표현하게 된다. 이 논문에서는 2차원에 국한되어 있는 SVG를 확장하여 3차원 이미지를 표현하고자 한다. 2차원 이미지의 표현은 x축과 y축의 평면 축만 있는데 비해 3차원 이미지의 표현은 깊이 정보인 z축을 가지고 있어야 3차원 이미지를 표현하게 된다. 비트맵 그래픽과 달리 벡터 그래픽인 SVG를 이용하여 웹 브라우저에서 3차원 오브젝트를 표현하는 방법에 대친 고찰하고자 한다.

  • PDF

Image captioning and video captioning using Transformer (Transformer를 사용한 이미지 캡셔닝 및 비디오 캡셔닝)

  • Gi-Duk Kim;Geun-Hoo Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.303-305
    • /
    • 2023
  • 본 논문에서는 트랜스포머를 사용한 이미지 캡셔닝 방법과 비디오 캡셔닝 방법을 제안한다. 트랜스포머의 입력으로 사전 학습된 이미지 클래스 분류모델을 거쳐 추출된 특징을 트랜스포머의 입력으로 넣고 인코더-디코더를 통해 이미지와 비디오의 캡션을 출력한다. 이미지 캡셔닝의 경우 한글 데이터 세트를 학습하여 한글 캡션을 출력하도록 학습하였으며 비디오 캡셔닝의 경우 MSVD 데이터 세트를 학습하여 학습 후 출력 캡션의 성능을 다른 비디오 캡셔닝 모델의 성능과 비교하였다. 비디오 캡셔닝에서 성능향상을 위해 트랜스포머의 디코더를 변형한 GPT-2를 사용하였을 때 BLEU-1 점수가 트랜스포머의 경우 0.62, GPT-2의 경우 0.80으로 성능이 향상됨을 확인하였다

  • PDF

Comparison Study of the Performance of CNN Models for malicious code image classification (악성코드 이미지 분류를 위한 CNN 모델 성능 비교)

  • Kang, Chae-Hee;Oh, Eun-Bi;Lee, Seung-Eon;Lee, Hyun-Kyung;Kim, Sung-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.432-435
    • /
    • 2022
  • 최근 IT 산업의 지속적인 발전으로 사용자들을 위협하는 악성코드, 피싱, 랜섬웨어와 같은 사이버 공격 또한 계속해서 발전하고 더 지능화되고 있으며 변종 악성코드도 기하급수적으로 늘어나고 있다. 지금까지의 시그니처 패턴 기반의 탐지법으로는 이러한 방대한 양의 알려지지 않은 악성코드를 탐지할 수 없다. 따라서 CNN(Convolutional Neural Network)을 활용하여 악성코드를 탐지하는 기법들이 제안되고 있다. 이에 본 논문에서는 CNN 모델 중 낮은 인식 오류율을 지닌 모델을 선정하여 정확도(Accuracy)와 F1-score 평가 지표를 통해 비교하고자 한다. 두 가지의 악성코드 이미지화 방법을 사용하였으며, 2015 년 이후 ILSVRC 에서 우승을 차지한 모델들과, 추가로 2019 년에 발표된 EfficientNet 을 사용하여 악성코드 이미지를 분류하였다. 그 결과 2 바이트를 한 쌍의 좌표로 변환하여 생성한 256 * 256 크기의 악성코드 이미지를 ResNet-152 모델을 이용해 분류하는 것이 우수한 성능을 보임을 실험적으로 확인하였다.

Corrected 3D Reconstruction Based on Continuous Image Sets (연속 다중 이미지 기반 3D 생성 모델 보정 기술 개발)

  • Kim, TaeYeon;Jo, Dongsik
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.374-375
    • /
    • 2022
  • Recently, Metaverse service has been widely used to naturally communicate with a remote location, freeing from time and spatial constraints. In order to produce such contents, it is necessary to restore and synthesize a 3D model based on real space data. In this paper, a 3D-generated reconstruction model is produced based on continuous images using multiple cameras and a technique to correct the reconstructed 3D model is presented. For this. offline multi-camera setup was performed, errors were analyzed on the 3D model created through images obtained from various angles, and correction was performed using a matching technique between image frames. It is expected that 3D reconstructed data can be utilized in various service fields such as culture, tourism, and medical care.

  • PDF

Automatic Mask Generation for 3D Makeup Simulation (3차원 메이크업 시뮬레이션을 위한 자동화된 마스크 생성)

  • Kim, Hyeon-Joong;Kim, Jeong-Sik;Choi, Soo-Mi
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.397-402
    • /
    • 2008
  • 본 논문에서는 햅틱 인터랙션 기반의 3차원 가상 얼굴 메이크업 시뮬레이션에서 메이크업 대상에 대한 정교한 페인팅을 적용하기 위한 자동화된 마스크 생성 방법을 개발한다. 본 연구에서는 메이크업 시뮬레이션 이전의 전처리 과정에서 마스크를 생성한다. 우선, 3차원 스캐너 장치로부터 사용자의 얼굴 텍스쳐 이미지와 3차원 기하 표면 모델을 획득한다. 획득된 얼굴 텍스쳐 이미지로부터 AdaBoost 알고리즘, Canny 경계선 검출 방법과 색 모델 변환 방법 등의 영상처리 알고리즘들을 적용하여 마스크 대상이 되는 주요 특정 영역(눈, 입술)들을 결정하고 얼굴 이미지로부터 2차원 마스크 영역을 결정한다. 이렇게 생성된 마스크 영역 이미지는 3차원 표면 기하 모델에 투영되어 최종적인 3차원 특징 영역의 마스크를 레이블링하는데 사용된다. 이러한 전처리 과정을 통하여 결정된 마스크는 햅틱 장치와 스테레오 디스플레이기반의 가상 인터페이스를 통해서 자연스러운 메이크업 시뮬레이션을 수행하는데 사용된다. 본 연구에서 개발한 방법은 사용자에게 전처리 과정에서의 어떠한 개입 없이 자동적으로 메이크업 대상이 되는 마스크 영역을 결정하여 정교하고 손쉬운 메이크업 페인팅 인터페이스를 제공한다.

  • PDF