• Title/Summary/Keyword: 모델 이미지

Search Result 1,854, Processing Time 0.043 seconds

Assembly Part Image-based 3D Shape Retrieval using Attentional View Pooling (Attentional View Pooling을 이용한 조립 부품 이미지 기반 3 차원 물체 검색)

  • Lee, Eun Ji;Kang, Isaac;Kim, Min Woo;Park, Seon Ji;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.11a
    • /
    • pp.72-75
    • /
    • 2020
  • 조립 부품 이미지에 해당하는 3D CAD 모델 매칭 기술은 최근 로봇 조립 기술의 발전으로 필요성이 대두되고 있다. 이미지 기반 3 차원 모델 매칭 연구는 진행되어 왔지만 가구 부품 이미지와는 특성이 다른 RGB[5] 이미지나 스케치 이미지를 다루는[1] 접근들이었다. 딥러닝을 사용하는 스케치 이미지 기반 3 차원 물제 검색 연구에서는 대부분 3 차원 이미지를 다각도에서 렌더링한 view 이미지들에서 feature를 추출하고 pooling 하여 하나의 feature를 출력한다. 그러나 기존의 view pooling 방식은 단순한 평균 방식으로, 부품 이미지에 따른 view를 반영하기에는 한계가 있었다. 따라서 본 논문에서는 조립 부품 이미지 기반 3 차원 물체 검색을 위해 query 부품 이미지에 따라 다른 view 이미지에 집중할 수 있는 방식의 attentional view pooling을 제안한다. 또한 조립 부품 데이터의 특성 상 class 당 CAD 모델이 하나인 상황이므로 학습 데이터가 터무니없이 부족하여 이를 해결하기 위한 학습 데이터 증강 방법을 제안한다. 실험은 의자 부품 11가지에 대해 진행하였고 이를 통해 제안하는 방식의 성능을 입증하였다.

  • PDF

Generate Korean image captions using LSTM (LSTM을 이용한 한국어 이미지 캡션 생성)

  • Park, Seong-Jae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

An Efficient Text Detection Model using Bidirectional Feature Fusion (양방향 특징 결합을 이용한 효율적 문자 탐지 모델)

  • Lim, Seong-Taek;Choi, Hoeryeon;Lee, Hong-Chul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.67-68
    • /
    • 2021
  • 기존 객체탐지는 경계 상자 회귀방식을 적용하였지만, 문자는 왜곡과 변형이 심한 특성을 가진 객체로 U-net 구조의 이미지 분할 방식을 사용하는 경우가 많다. 따라서 최근 문자 탐지는 통계적 모델에 비해 높은 정확도를 보이는 심층 신경망 기반의 모델 연구가 많이 진행되고 있다. 본 연구에서는 이미지 분할을 통한 양방향 특징 결합 기법을 사용한 문자 탐지 모델을 제안한다. 이미지 분할 방식은 메모리의 효율이 떨어지기 때문에 이를 극복하고자 특징 추출 단계에서 경량화된 네트워크를 적용하였다. 또한, 객체 탐지에서 큰 성과를 보인 양방향 특징 결합 모듈을 U-net 구조에 추가하여 추출된 특징이 효과적으로 결합 되는 결과를 얻었다. 제안하는 모델의 문자 탐지 성능은 합성 문자 데이터셋을 이용한 실험을 통해 기존의 U-net 구조의 이미지 분할 방식보다 향상되었음을 확인하였다.

  • PDF

Research on the use of educational content in generative AI (생성형 AI 의 교육용 컨텐츠 활용을 위한 연구)

  • Lee-Seung Ryul;Oh-Tae hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.936-937
    • /
    • 2023
  • 본 논문에서는 LLM(Large Language Model) 모델의 fine-tuning 을 통한, 기초 수리 서술형 문항 풀이용 모델 및 Dall-E2 등 이미지 생성형 모델을 활용한 따른 영어 퀴즈풀이용 이미지 생성형 모델을 생성하여, 한국어 기반 LLM 자체 모델 학습 및 교육용 이미지 생성에 대한 방법을 고찰하였다.

A Study on Improvement of Image Classification Accuracy Using Image-Text Pairs (이미지-텍스트 쌍을 활용한 이미지 분류 정확도 향상에 관한 연구)

  • Mi-Hui Kim;Ju-Hyeok Lee
    • Journal of IKEEE
    • /
    • v.27 no.4
    • /
    • pp.561-566
    • /
    • 2023
  • With the development of deep learning, it is possible to solve various computer non-specialized problems such as image processing. However, most image processing methods use only the visual information of the image to process the image. Text data such as descriptions and annotations related to images may provide additional tactile and visual information that is difficult to obtain from the image itself. In this paper, we intend to improve image classification accuracy through a deep learning model that analyzes images and texts using image-text pairs. The proposed model showed an approximately 11% classification accuracy improvement over the deep learning model using only image information.

An Edge Detection Technique for Performance Improvement of eGAN (eGAN 모델의 성능개선을 위한 에지 검출 기법)

  • Lee, Cho Youn;Park, Ji Su;Shon, Jin Gon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.3
    • /
    • pp.109-114
    • /
    • 2021
  • GAN(Generative Adversarial Network) is an image generation model, which is composed of a generator network and a discriminator network, and generates an image similar to a real image. Since the image generated by the GAN should be similar to the actual image, a loss function is used to minimize the loss error of the generated image. However, there is a problem that the loss function of GAN degrades the quality of the image by making the learning to generate the image unstable. To solve this problem, this paper analyzes GAN-related studies and proposes an edge GAN(eGAN) using edge detection. As a result of the experiment, the eGAN model has improved performance over the existing GAN model.

Synthetic data generation technique using object bounding box and original image combination (객체 바운딩 박스와 원본 이미지 결합을 이용한 합성 데이터 생성 기법)

  • Ju-Hyeok Lee;Mi-Hui Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.476-478
    • /
    • 2023
  • 딥러닝은 컴퓨터 비전의 상당한 발전을 기여했지만, 딥러닝 모델을 학습하려면 대규모 데이터 세트가 필요하다. 이를 해결하기 위해 데이터 증강 기술이 주목받고 있다. 본 논문에서는 객체 추출 바운딩 박스와 원본 이미지의 바운딩 박스를 결합하여 합성 데이터 생성기법을 제안한다. 원본 이미지와 동일한 범주의 데이터셋에서 참조 이미지의 객체를 추출한 다음 생성 모델을 사용하여 참조 이미지와 원본 이미지의 특징을 통합하여 새로운 합성 이미지를 만든다. 실험을 통해, 생성 기법을 통한 딥러닝 모델의 성능향상을 보여준다.

Comparative study on quality of scanned images from varying materials and surface conditions of standardized model for dental scanner evaluation (치과용 스캐너 평가를 위한 국제표준모델의 재료 및 표면 상태에 따른 스캔 영상 결과물 비교 연구)

  • Park, Ju-Hee;Seol, Jeong-Hwan;Lee, Jun Jae;Lee, Seung-Pyo;Lim, Young-Jun
    • Journal of Dental Rehabilitation and Applied Science
    • /
    • v.34 no.2
    • /
    • pp.104-115
    • /
    • 2018
  • Purpose: The purpose of this study is to evaluate the image acquisition ability of intraoral scanners by analyzing the comprehensiveness of scanned images from standardized model, and to identify problems of the model. Materials and Methods: Cast models and 3D-printed models were prepared according to international standards set by ISO12836 and ANSI/ADA no. 132, which were then scanned by model scanner and two different intraoral scanners (TRIOS3 and CS3500). The image acquisition performance of the scanners was classified into three grades, and the study was repeated with varying surface conditions of the models. Results: Model scanner produced the most accurate images in all models. Meanwhile, CS3500 showed good image reproducibility for angled structures and TRIOS3 showed good image reproducibility for rounded structures. As for model ingredients, improved plaster model best reproduced scan images regardless of the type of scanner used. When limited to 3D-printed model, powdered surface condition resulted in higher image quality. Conclusion: When scanning structures beyond FOV (field of view) in standardized models (following ISO12836 and ANSI/ADA 132), lack of reference points to help distinguish different faces confuses the scanning and matching process, resulting in inaccurate display of images. These results imply the need to develop a new standard model not confined to simple pattern repetition and symmetric structure.

CNN model transition learning comparative analysis based on deep learning for image classification (이미지 분류를 위한 딥러닝 기반 CNN모델 전이 학습 비교 분석)

  • Lee, Dong-jun;Jeon, Seung-Je;Lee, DongHwi
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.370-373
    • /
    • 2022
  • Recently, various deep learning framework models such as Tensorflow, Pytorch, Keras, etc. have appeared. In addition, CNN (Convolutional Neural Network) is applied to image recognition using frameworks such as Tensorflow, Pytorch, and Keras, and the optimization model in image classification is mainly used. In this paper, based on the results of training the CNN model with the Paitotchi and tensor flow frameworks most often used in the field of deep learning image recognition, the two frameworks are compared and analyzed for image analysis. Derived an optimized framework.

  • PDF

Relation Extraction between Image Objects using Dual Supervision (Dual Supervision 을 이용한 이미지 객체 간 관계 추출)

  • Min-Kyu Kim;Min-Soo Jang;Hee-Gook Jun;Dong-Hyuk Im
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1244-1246
    • /
    • 2023
  • 비디오, 오디오, 이미지, 텍스트 등의 비정형 데이터는 데이터 구조가 없어 데이터 자체만으로는 내용에 대한 질의 처리가 힘들어 정형 데이터로 변환하는 과정이 필요하다. 관계 추출 작업은 문장 내 단어 간 속성 또는 관계를 예측하여, 문장을 구조적으로 표현한다. 자연어처리 기법인 Dual Supervision 모델은 인간이 레이블한 데이터와 기계가 레이블한 데이터를 기반으로 기존 모델보다 적은 리소스로 관계를 예측한다. 해당 자연어 처리 모델을 이미지 처리에도 적용하여 기존 방법보다 적은 리소스를 이용하여 이미지에 대한 내용을 구조적으로 나타내는 모델을 제안하였으며, 실험을 통해 효율적인 이미지 객체 관계 추출이 가능함을 확인하였다.