• 제목/요약/키워드: 모델 이미지

검색결과 1,854건 처리시간 0.029초

Attentional View Pooling을 이용한 조립 부품 이미지 기반 3 차원 물체 검색 (Assembly Part Image-based 3D Shape Retrieval using Attentional View Pooling)

  • 이은지;강이삭;김민우;박선지;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.72-75
    • /
    • 2020
  • 조립 부품 이미지에 해당하는 3D CAD 모델 매칭 기술은 최근 로봇 조립 기술의 발전으로 필요성이 대두되고 있다. 이미지 기반 3 차원 모델 매칭 연구는 진행되어 왔지만 가구 부품 이미지와는 특성이 다른 RGB[5] 이미지나 스케치 이미지를 다루는[1] 접근들이었다. 딥러닝을 사용하는 스케치 이미지 기반 3 차원 물제 검색 연구에서는 대부분 3 차원 이미지를 다각도에서 렌더링한 view 이미지들에서 feature를 추출하고 pooling 하여 하나의 feature를 출력한다. 그러나 기존의 view pooling 방식은 단순한 평균 방식으로, 부품 이미지에 따른 view를 반영하기에는 한계가 있었다. 따라서 본 논문에서는 조립 부품 이미지 기반 3 차원 물체 검색을 위해 query 부품 이미지에 따라 다른 view 이미지에 집중할 수 있는 방식의 attentional view pooling을 제안한다. 또한 조립 부품 데이터의 특성 상 class 당 CAD 모델이 하나인 상황이므로 학습 데이터가 터무니없이 부족하여 이를 해결하기 위한 학습 데이터 증강 방법을 제안한다. 실험은 의자 부품 11가지에 대해 진행하였고 이를 통해 제안하는 방식의 성능을 입증하였다.

  • PDF

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

양방향 특징 결합을 이용한 효율적 문자 탐지 모델 (An Efficient Text Detection Model using Bidirectional Feature Fusion)

  • 임성택;최회련;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.67-68
    • /
    • 2021
  • 기존 객체탐지는 경계 상자 회귀방식을 적용하였지만, 문자는 왜곡과 변형이 심한 특성을 가진 객체로 U-net 구조의 이미지 분할 방식을 사용하는 경우가 많다. 따라서 최근 문자 탐지는 통계적 모델에 비해 높은 정확도를 보이는 심층 신경망 기반의 모델 연구가 많이 진행되고 있다. 본 연구에서는 이미지 분할을 통한 양방향 특징 결합 기법을 사용한 문자 탐지 모델을 제안한다. 이미지 분할 방식은 메모리의 효율이 떨어지기 때문에 이를 극복하고자 특징 추출 단계에서 경량화된 네트워크를 적용하였다. 또한, 객체 탐지에서 큰 성과를 보인 양방향 특징 결합 모듈을 U-net 구조에 추가하여 추출된 특징이 효과적으로 결합 되는 결과를 얻었다. 제안하는 모델의 문자 탐지 성능은 합성 문자 데이터셋을 이용한 실험을 통해 기존의 U-net 구조의 이미지 분할 방식보다 향상되었음을 확인하였다.

  • PDF

생성형 AI 의 교육용 컨텐츠 활용을 위한 연구 (Research on the use of educational content in generative AI)

  • 이승렬;오태훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.936-937
    • /
    • 2023
  • 본 논문에서는 LLM(Large Language Model) 모델의 fine-tuning 을 통한, 기초 수리 서술형 문항 풀이용 모델 및 Dall-E2 등 이미지 생성형 모델을 활용한 따른 영어 퀴즈풀이용 이미지 생성형 모델을 생성하여, 한국어 기반 LLM 자체 모델 학습 및 교육용 이미지 생성에 대한 방법을 고찰하였다.

이미지-텍스트 쌍을 활용한 이미지 분류 정확도 향상에 관한 연구 (A Study on Improvement of Image Classification Accuracy Using Image-Text Pairs)

  • 김미희;이주혁
    • 전기전자학회논문지
    • /
    • 제27권4호
    • /
    • pp.561-566
    • /
    • 2023
  • 딥러닝의 발전으로 다양한 컴퓨터 비전 연구를 수행할 수 있게 됐다. 딥러닝은 컴퓨터 비전 연구 중 이미지 처리에서 높은 정확도와 성능을 보여줬다. 하지만 대부분의 이미지 처리 방식은 이미지의 시각 정보만을 이용해 이미지를 처리하는 경우가 대부분이다. 이미지-텍스트 쌍을 활용할 경우 이미지와 관련된 설명, 주석 등의 텍스트 데이터가 이미지 자체에서는 얻기 힘든 추가적인 맥락과 시각 정보를 제공할 수 있다. 본 논문에서는 이미지-텍스트 쌍을 활용하여 이미지와 텍스트를 분석하는 딥러닝 모델 제안한다. 제안 모델은 이미지 정보만을 사용한 딥러닝 모델보다 약 11% 향상된 분류 정확도 결과를 보였다.

eGAN 모델의 성능개선을 위한 에지 검출 기법 (An Edge Detection Technique for Performance Improvement of eGAN)

  • 이초연;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.109-114
    • /
    • 2021
  • GAN(Generative Adversarial Network, 생성적 적대 신경망)은 이미지 생성모델로서 생성기 네트워크와 판별기 네트워크로 구성되며 실제 같은 이미지를 생성한다. GAN에 의해 생성된 이미지는 실제 이미지와 유사해야 하므로 생성된 이미지와 실제 이미지의 손실 오차를 최소화하는 손실함수(loss function)를 사용한다. 그러나 GAN의 손실함수는 이미지를 생성하는 학습을 불안정하게 만들어 이미지의 품질을 떨어뜨린다는 문제점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 GAN 관련 연구를 분석하고 에지 검출(edge detection)을 이용한 eGAN(edge GAN)을 제안한다. 실험 결과 eGAN 모델이 기존의 GAN 모델보다 성능이 개선되었다.

객체 바운딩 박스와 원본 이미지 결합을 이용한 합성 데이터 생성 기법 (Synthetic data generation technique using object bounding box and original image combination)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.476-478
    • /
    • 2023
  • 딥러닝은 컴퓨터 비전의 상당한 발전을 기여했지만, 딥러닝 모델을 학습하려면 대규모 데이터 세트가 필요하다. 이를 해결하기 위해 데이터 증강 기술이 주목받고 있다. 본 논문에서는 객체 추출 바운딩 박스와 원본 이미지의 바운딩 박스를 결합하여 합성 데이터 생성기법을 제안한다. 원본 이미지와 동일한 범주의 데이터셋에서 참조 이미지의 객체를 추출한 다음 생성 모델을 사용하여 참조 이미지와 원본 이미지의 특징을 통합하여 새로운 합성 이미지를 만든다. 실험을 통해, 생성 기법을 통한 딥러닝 모델의 성능향상을 보여준다.

치과용 스캐너 평가를 위한 국제표준모델의 재료 및 표면 상태에 따른 스캔 영상 결과물 비교 연구 (Comparative study on quality of scanned images from varying materials and surface conditions of standardized model for dental scanner evaluation)

  • 박주희;설정환;이준재;이승표;임영준
    • 구강회복응용과학지
    • /
    • 제34권2호
    • /
    • pp.104-115
    • /
    • 2018
  • 목적: 본 연구는 현재 시판되고 있는 구강스캐너를 사용하여 구강스캐너 정확도 평가를 위해 국제표준이 제안하고 있는 모형의 스캔이미지 획득이 가능한 지 분석하고, 이를 통해 표준모델이 가지고 있는 문제점을 파악하는 데 있다. 연구 재료 및 방법: ISO12836과 ANSI/ADA no.132에서 규정하는 국제표준을 참고하여 3D 프린터기를 이용하여 모델을 제작하였으며, 모델스캐너와 두 가지 구강스캐너를 이용하여 스캔을 하였다. 스캔이미지 획득 정도를 3등급으로 분류하여 스캐너의 성능을 비교하였으며, 모델 표면의 상태에 따른 이미지 획득 능력도 비교하였다. 결과: 모델 스캐너가 모든 모델에서 가장 우수한 이미지를 얻을 수 있었으며 TRIOS3는 둥근 형태의 구조물, CS3500은 각진 형태의 구조물에 대한 이미지 재현이 좋은 결과를 보였다. 표준 모델의 표면상태에 따른 스캔이미지 재현에서는 초경석고 모델이 스캐너 종류와 관계없이 가장 우수하였다. 3D 프린팅 모델의 경우, 표면에 파우더 처리를 한 모델에서 가장 우수한 스캔이미지를 얻을 수 있었다. 결론: ISO12836과 ANSI/ADA 132의 표준모델의 경우, 구강스캐너의 field of view (FOV)를 벗어나는 구조물을 스캔할 때 서로 다른 면인 것을 구분하는 기준점이 존재하지 않게 되면 연속적인 스캔 및 정합과정에서 정확한 이미지를 나타내지 못한다는 것을 알 수 있었다. 그러므로 단순한 패턴의 반복과 대칭구조를 가지지 않는 새로운 표준모델이 필요하다고 여겨진다.

이미지 분류를 위한 딥러닝 기반 CNN모델 전이 학습 비교 분석 (CNN model transition learning comparative analysis based on deep learning for image classification)

  • 이동준;전승제;이동휘
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.370-373
    • /
    • 2022
  • 최근 Tensorflow나 Pytorch, Keras 같은 여러가지의 딥러닝 프레임워크 모델들이 나왔다. 또한 이미지 인식에 Tensorflow, Pytorch, Keras 같은 프레임 워크를 이용하여 CNN(Convolutional Neural Network)을 적용시켜 이미지 분류에서의 최적화 모델을 주로 이용한다. 본 논문에서는 딥러닝 이미지 인식분야에서 가장 많이 사용하고 있는 파이토치와 텐서플로우의 프레임 워크를 CNN모델에 학습을 시킨 결과를 토대로 두 프레임 워크를 비교 분석하여 이미지 분석할 때 최적화 된 프레임워크를 도출하였다.

  • PDF

Dual Supervision 을 이용한 이미지 객체 간 관계 추출 (Relation Extraction between Image Objects using Dual Supervision)

  • 김민규;장민수;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1244-1246
    • /
    • 2023
  • 비디오, 오디오, 이미지, 텍스트 등의 비정형 데이터는 데이터 구조가 없어 데이터 자체만으로는 내용에 대한 질의 처리가 힘들어 정형 데이터로 변환하는 과정이 필요하다. 관계 추출 작업은 문장 내 단어 간 속성 또는 관계를 예측하여, 문장을 구조적으로 표현한다. 자연어처리 기법인 Dual Supervision 모델은 인간이 레이블한 데이터와 기계가 레이블한 데이터를 기반으로 기존 모델보다 적은 리소스로 관계를 예측한다. 해당 자연어 처리 모델을 이미지 처리에도 적용하여 기존 방법보다 적은 리소스를 이용하여 이미지에 대한 내용을 구조적으로 나타내는 모델을 제안하였으며, 실험을 통해 효율적인 이미지 객체 관계 추출이 가능함을 확인하였다.