• Title/Summary/Keyword: 이미지 데이터 셋

Search Result 294, Processing Time 0.024 seconds

Learning data production technique for visual optimization of generative models (생성모델의 시각적 최적화를 위한 학습데이터 제작기법)

  • Cho, Hyeongrae;Park, Gooman
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.13-14
    • /
    • 2021
  • 본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.

  • PDF

Face Identification Using a Near-Infrared Camera in a Nonrestrictive In-Vehicle Environment (적외선 카메라를 이용한 비제약적 환경에서의 얼굴 인증)

  • Ki, Min Song;Choi, Yeong Woo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.3
    • /
    • pp.99-108
    • /
    • 2021
  • There are unrestricted conditions on the driver's face inside the vehicle, such as changes in lighting, partial occlusion and various changes in the driver's condition. In this paper, we propose a face identification system in an unrestricted vehicle environment. The proposed method uses a near-infrared (NIR) camera to minimize the changes in facial images that occur according to the illumination changes inside and outside the vehicle. In order to process a face exposed to extreme light, the normal face image is changed to a simulated overexposed image using mean and variance for training. Thus, facial classifiers are simultaneously generated under both normal and extreme illumination conditions. Our method identifies a face by detecting facial landmarks and aggregating the confidence score of each landmark for the final decision. In particular, the performance improvement is the highest in the class where the driver wears glasses or sunglasses, owing to the robustness to partial occlusions by recognizing each landmark. We can recognize the driver by using the scores of remaining visible landmarks. We also propose a novel robust rejection and a new evaluation method, which considers the relations between registered and unregistered drivers. The experimental results on our dataset, PolyU and ORL datasets demonstrate the effectiveness of the proposed method.

A Study of Establishment and application Algorithm of Artificial Intelligence Training Data on Land use/cover Using Aerial Photograph and Satellite Images (항공 및 위성영상을 활용한 토지피복 관련 인공지능 학습 데이터 구축 및 알고리즘 적용 연구)

  • Lee, Seong-hyeok;Lee, Moung-jin
    • Korean Journal of Remote Sensing
    • /
    • v.37 no.5_1
    • /
    • pp.871-884
    • /
    • 2021
  • The purpose of this study was to determine ways to increase efficiency in constructing and verifying artificial intelligence learning data on land cover using aerial and satellite images, and in applying the data to AI learning algorithms. To this end, multi-resolution datasets of 0.51 m and 10 m each for 8 categories of land cover were constructed using high-resolution aerial images and satellite images obtained from Sentinel-2 satellites. Furthermore, fine data (a total of 17,000 pieces) and coarse data (a total of 33,000 pieces) were simultaneously constructed to achieve the following two goals: precise detection of land cover changes and the establishment of large-scale learning datasets. To secure the accuracy of the learning data, the verification was performed in three steps, which included data refining, annotation, and sampling. The learning data that wasfinally verified was applied to the semantic segmentation algorithms U-Net and DeeplabV3+, and the results were analyzed. Based on the analysis, the average accuracy for land cover based on aerial imagery was 77.8% for U-Net and 76.3% for Deeplab V3+, while for land cover based on satellite imagery it was 91.4% for U-Net and 85.8% for Deeplab V3+. The artificial intelligence learning datasets on land cover constructed using high-resolution aerial and satellite images in this study can be used as reference data to help classify land cover and identify relevant changes. Therefore, it is expected that this study's findings can be used in the future in various fields of artificial intelligence studying land cover in constructing an artificial intelligence learning dataset on land cover of the whole of Korea.

Generative optical flow based abnormal object detection method using a spatio-temporal translation network

  • Lim, Hyunseok;Gwak, Jeonghwan
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.4
    • /
    • pp.11-19
    • /
    • 2021
  • An abnormal object refers to a person, an object, or a mechanical device that performs abnormal and unusual behavior and needs observation or supervision. In order to detect this through artificial intelligence algorithm without continuous human intervention, a method of observing the specificity of temporal features using optical flow technique is widely used. In this study, an abnormal situation is identified by learning an algorithm that translates an input image frame to an optical flow image using a Generative Adversarial Network (GAN). In particular, we propose a technique that improves the pre-processing process to exclude unnecessary outliers and the post-processing process to increase the accuracy of identification in the test dataset after learning to improve the performance of the model's abnormal behavior identification. UCSD Pedestrian and UMN Unusual Crowd Activity were used as training datasets to detect abnormal behavior. For the proposed method, the frame-level AUC 0.9450 and EER 0.1317 were shown in the UCSD Ped2 dataset, which shows performance improvement compared to the models in the previous studies.

Using similarity based image caption to aid visual question answering (유사도 기반 이미지 캡션을 이용한 시각질의응답 연구)

  • Kang, Joonseo;Lim, Changwon
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.191-204
    • /
    • 2021
  • Visual Question Answering (VQA) and image captioning are tasks that require understanding of the features of images and linguistic features of text. Therefore, co-attention may be the key to both tasks, which can connect image and text. In this paper, we propose a model to achieve high performance for VQA by image caption generated using a pretrained standard transformer model based on MSCOCO dataset. Captions unrelated to the question can rather interfere with answering, so some captions similar to the question were selected to use based on a similarity to the question. In addition, stopwords in the caption could not affect or interfere with answering, so the experiment was conducted after removing stopwords. Experiments were conducted on VQA-v2 data to compare the proposed model with the deep modular co-attention network (MCAN) model, which showed good performance by using co-attention between images and text. As a result, the proposed model outperformed the MCAN model.

Improved depth evaluation using Epipolar geometry (Epipolar geometry를 활용한 개선된 depth 평가 방법)

  • Seong-Min Kim;Jong-Ki Han
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.99-102
    • /
    • 2022
  • 실재하는 물체나 장소를 디지털 카메라나 휴대폰 카메라로 여러 장 촬영하여 얻은 2차원 이미지 데이터셋으로부터 3차원 영상을 얻기 위해서 이미지를 이루는 각 pixel의 depth 정보를 얻는 것은 필수적인 과정이다. 주어진 이미지에서 depth 정보를 얻기 위해 Shuhan Shen은 PatchMatch 알고리즘을 활용하는 것을 제안하였다. 그 이후 PatchMatch 기반의 알고리즘은 널리 사용되며 우수한 성능을 보이고 있다. PatchMatch 기반의 알고리즘을 사용해 depth를 추정하는 과정에서 depth와 법선 벡터를 Zero-mean Normalized Cross Correlation(ZNCC)를 사용해 평가한다. 하지만, ZNCC는 depth를 평가하려는 pixel의 주변 pixel들의 밝기 값 혹은 색상 값의 분포를 사용하기 때문에 밝기 값이나 색상 값의 변화가 적은 texture-less region에서는 신뢰성이 떨어진다. 본 논문에서는 이 문제를 epipolar geometry를 활용한 기하학적 정보를 이용하여 개선하고자 한다.

  • PDF

AI Announcer : Information Transfer Software Using Artificial Intelligence Technology (AI 아나운서 : 인공지능 기술을 이용한 정보 전달 소프트웨어)

  • Kim, Hye-Won;Lee, Young-Eun;Lee, Hong-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.937-940
    • /
    • 2020
  • 본 논문은 AI 기술을 기반으로 텍스트 스크립트를 자동으로 인식하고 영상 합성 기술을 응용하여 텍스트 정보를 시각화하는 AI 아나운서 소프트웨어 연구에 대하여 기술한다. 기존의 AI 기반 영상 정보 전달 서비스인 AI 앵커는 텍스트를 인식하여 영상을 합성하는데 오랜 시간이 필요하였으며, 특정 인물 이미지로만 영상 합성이 가능했기 때문에 그 용도가 제한적이었다. 본 연구에서 제안하는 방법은 Tacotron 으로 새로운 음성을 학습 및 합성하여, LRW 데이터셋으로 학습된 모델을 사용하여 자연스러운 영상 합성 체계를 구축한다. 단순한 얼굴 이미지의 합성을 개선하고 다채로운 이미지 제작을 위한 과정을 간략화하여 다양한 비대면 영상 정보 제공 환경을 구성할 수 있을 것으로 기대된다.

Comparative analysis by pressure ulcer image size using Xception modeling (Xception 모델링을 이용한 욕창이미지 크기별 비교분석)

  • Jin-beom Seo;Ha-na Yoo;Young-bok Cho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.19-20
    • /
    • 2023
  • 전이학습은 영상 분류를 진행한 모델을 사용하여 다른 종류의 영상 분류에 적용하여 문제를 푸는 것을 의미하며, 모델 설계부터 진행한 학습 모델보다 빠른 속도와 높은 정확도를 달성할 수 있다. 또한, 적은 데이터셋에 대하여 학습을 진행하여 좋은 결과를 도출할 수 있는 장점이 존재한다. 본 논문에서는 전이학습으로 사용되는 모델 중 Xception 모델을 사용하며, 욕창 이미지의 모델 입력 크기를 256, 512, 1024의 크기로 설정하여 학습을 진행 후 욕창 이미지 크기별 성능을 비교분석을 진행하고자 한다.

  • PDF

미쓰비시의 MCCS측정기, 품질표준화를 위한 과정

  • Korean Printers Association
    • 프린팅코리아
    • /
    • v.7 no.9
    • /
    • pp.113-113
    • /
    • 2008
  • PPC 서버는 CIP3/4에 따른 프리프레스장비에 의해 생성된 미리보기 이미지를 통하여 회선율을 산출 및 인쇄조건 데이터를 변환하여 IPC로 전송하고 전송된 데이터는 IPC를 통해 인쇄기에 잉크키 등을 미리설정(프리셋)한다. 인쇄되는 인쇄물의 잉크 키 데이터와 화선율의 데이터를 MCCS(색조관리장치)로 보내고 MCCS에서는 인쇄된 칼라 패치를 분광계로 계측하고, 그 결과를 화면에 표시한다. MCCS는 목표치에 대하여 계측치의 차이를 기준으로 목표치에 가깝게 되도록 잉크키 개도를 조절해 피드백하며, IPC EXPERT 기능용 계측 데이터를 IPC로 보낸다. 따라서, 사람의 눈으로 관리하는 컬러매니지먼트(CMS가 아닌 CIP3/4 데이터의 화선율과 인쇄조건을 PPC서버가 변환하여 IPC에 전송하는 것이다. 인쇄한 인쇄결과물을 MCCS로 계측하여 항상 기준목표 농도치에 맞게 기계에 피드백하고 잉크키 개도를 조절, 색조관리를 함으로써 일정한 품질유지 및 농도관리를 가능(손지절감 및 색조관리의 일관성)하게 하는 시스템이다.

  • PDF

A Forensic Methodology for Detecting Image Manipulations (이미지 조작 탐지를 위한 포렌식 방법론)

  • Jiwon Lee;Seungjae Jeon;Yunji Park;Jaehyun Chung;Doowon Jeong
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.33 no.4
    • /
    • pp.671-685
    • /
    • 2023
  • By applying artificial intelligence to image editing technology, it has become possible to generate high-quality images with minimal traces of manipulation. However, since these technologies can be misused for criminal activities such as dissemination of false information, destruction of evidence, and denial of facts, it is crucial to implement strong countermeasures. In this study, image file and mobile forensic artifacts analysis were conducted for detecting image manipulation. Image file analysis involves parsing the metadata of manipulated images and comparing them with a Reference DB to detect manipulation. The Reference DB is a database that collects manipulation-related traces left in image metadata, which serves as a criterion for detecting image manipulation. In the mobile forensic artifacts analysis, packages related to image editing tools were extracted and analyzed to aid the detection of image manipulation. The proposed methodology overcomes the limitations of existing graphic feature-based analysis and combines with image processing techniques, providing the advantage of reducing false positives. The research results demonstrate the significant role of such methodology in digital forensic investigation and analysis. Additionally, We provide the code for parsing image metadata and the Reference DB along with the dataset of manipulated images, aiming to contribute to related research.