• 제목/요약/키워드: Vision-language model

검색결과 40건 처리시간 0.027초

객체 탐지 과업에서의 트랜스포머 기반 모델의 특장점 분석 연구 (A Survey on Vision Transformers for Object Detection Task)

  • 하정민;이현종;엄정민;이재구
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.319-327
    • /
    • 2022
  • Transformers are the most famous deep learning models that has achieved great success in natural language processing and also showed good performance on computer vision. In this survey, we categorized transformer-based models for computer vision, particularly object detection tasks and perform comprehensive comparative experiments to understand the characteristics of each model. Next, we evaluated the models subdivided into standard transformer, with key point attention, and adding attention with coordinates by performance comparison in terms of object detection accuracy and real-time performance. For performance comparison, we used two metrics: frame per second (FPS) and mean average precision (mAP). Finally, we confirmed the trends and relationships related to the detection and real-time performance of objects in several transformer models using various experiments.

Continuous Korean Sign Language Recognition using Automata-based Gesture Segmentation and Hidden Markov Model

  • Kim, Jung-Bae;Park, Kwang-Hyun;Bang, Won-Chul;Z.Zenn Bien;Kim, Jong-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.105.2-105
    • /
    • 2001
  • This paper studies continuous Korean Sign Language (KSL) recognition using color vision. In recognizing gesture words such as sign language, it is a very difficult to segment a continuous sign into individual sign words since the patterns are very complicated and diverse. To solve this problem, we disassemble the KSL into 18 hand motion classes according to their patterns and represent the sign words as some combination of hand motions. Observing the speed and the change of speed of hand motion and using state automata, we reject unintentional gesture motions such as preparatory motion and meaningless movement between sign words. To recognize 18 hand motion classes we adopt Hidden Markov Model (HMM). Using these methods, we recognize 5 KSL sentences and obtain 94% recognition ratio.

  • PDF

영상기반의 안정적 수신호 인식기를 위한 손동작 패턴 설계 방법 (Hand Motion Design for Performance Enhancement of Vision Based Hand Signal Recognizer)

  • 손수원;배정훈;양철종;왕한;고한석
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.30-37
    • /
    • 2011
  • 본 논문에서는 수신호 인식기에 쓰이기 위한 분별성 있는 손동작을 만드는 방법을 제안한다. 기존의 수화DB에서 손의 움직임을 분석하여 기본 동작이 되는 4가지의 모션 프리미티브를 선정하였으며, 선정된 모션 프리미티브를 조합하여 구별성 있는 '기본 손동작 집합'을 제작하였다. 제안하는 '기본 손동작 집합' 의 구별성을 증명하기 위하여 '기본 손동작 집합' 인식기를 만들고 인식결과를 확인하였다. 사용된 인식기는 hidden Markov model (HMM) 을 기반으로 제작되었다. 기본 손동작 인식 task에 대한 성능평가 결과 99.01%로써 각 모델 간에 높은 구별성을 보이는 것을 확인할 수 있었다.

사회적 자본과 개인 동기가 정보공유와 커뮤니티 촉진에 미치는 영향: 중국의 가상커뮤니티를 중심으로 (The Effects of Social Capital and Individual Motivations on Information Sharing and Community Promotion: Focused on a Chinese Virtual Community)

  • 김종기;대상;김재현
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제25권1호
    • /
    • pp.135-158
    • /
    • 2016
  • Purpose Virtual communities change the way people communicate and share information. The purpose of this paper is to find how internet social capital and individual motivations influence the information sharing in virtual communities. This study considers the social capital theory, individual motivations, information sharing, and community promotion to construct a theoretical model. Design/methodology/approach Social capital focuses on three dimensions that include 6 factors: social interaction ties, centrality, shared language, shared vision, trust and reciprocity. Individual motivations include 2 factors: reputation and enjoy helping. To confirm the research model and the hypotheses, 426 effective questionnaires were used for the final analysis. Findings The result of data analysis demonstrates that social interaction ties, centrality, shared language, trust, and reciprocity were significant in affecting information sharing behaviors. However, reputation, enjoy helping, and shared vision does not appear to have a significant influence on information sharing behaviors. The information sharing was positively related to community promotion.

Updated Primer on Generative Artificial Intelligence and Large Language Models in Medical Imaging for Medical Professionals

  • Kiduk Kim;Kyungjin Cho;Ryoungwoo Jang;Sunggu Kyung;Soyoung Lee;Sungwon Ham;Edward Choi;Gil-Sun Hong;Namkug Kim
    • Korean Journal of Radiology
    • /
    • 제25권3호
    • /
    • pp.224-242
    • /
    • 2024
  • The emergence of Chat Generative Pre-trained Transformer (ChatGPT), a chatbot developed by OpenAI, has garnered interest in the application of generative artificial intelligence (AI) models in the medical field. This review summarizes different generative AI models and their potential applications in the field of medicine and explores the evolving landscape of Generative Adversarial Networks and diffusion models since the introduction of generative AI models. These models have made valuable contributions to the field of radiology. Furthermore, this review also explores the significance of synthetic data in addressing privacy concerns and augmenting data diversity and quality within the medical domain, in addition to emphasizing the role of inversion in the investigation of generative models and outlining an approach to replicate this process. We provide an overview of Large Language Models, such as GPTs and bidirectional encoder representations (BERTs), that focus on prominent representatives and discuss recent initiatives involving language-vision models in radiology, including innovative large language and vision assistant for biomedicine (LLaVa-Med), to illustrate their practical application. This comprehensive review offers insights into the wide-ranging applications of generative AI models in clinical research and emphasizes their transformative potential.

Generative Adversarial Networks: A Literature Review

  • Cheng, Jieren;Yang, Yue;Tang, Xiangyan;Xiong, Naixue;Zhang, Yuan;Lei, Feifei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4625-4647
    • /
    • 2020
  • The Generative Adversarial Networks, as one of the most creative deep learning models in recent years, has achieved great success in computer vision and natural language processing. It uses the game theory to generate the best sample in generator and discriminator. Recently, many deep learning models have been applied to the security field. Along with the idea of "generative" and "adversarial", researchers are trying to apply Generative Adversarial Networks to the security field. This paper presents the development of Generative Adversarial Networks. We review traditional generation models and typical Generative Adversarial Networks models, analyze the application of their models in natural language processing and computer vision. To emphasize that Generative Adversarial Networks models are feasible to be used in security, we separately review the contributions that their defenses in information security, cyber security and artificial intelligence security. Finally, drawing on the reviewed literature, we provide a broader outlook of this research direction.

외국인 근로자의 조직몰입에 영향을 미치는 요인 연구 (Factors Affecting Organizational Commitment of Foreign Workers)

  • 이유나;하규수
    • 벤처혁신연구
    • /
    • 제6권1호
    • /
    • pp.161-179
    • /
    • 2023
  • 한국에 체류하는 외국인이 200만명이 넘어서고 있다. 본 연구에서는 외국인 근로자들을 대상으로 개인 특성 및 환경 특성이 조직몰입에 미치는 영향을 실증 분석하였다. 실증 분석을 위한 연구 모형을 설정하였다. 개인욕구, 적응능력, 조직생활, 사회적 지지로 크게 4개의 부분으로 나누어 독립변수를 설정하고 종속변수로 조직몰입도를 설정하여 연구 모형을 도출하였다. 이러한 연구 모형을 바탕으로 분석을 위한 데이터 수집은 한국에서 근무 중인 외국인을 대상으로 설문조사 방식으로 하였다. 응답자 중 유효한 200부를 바탕으로 SPSS 24를 활용하여 실증 분석을 하였다. 실증분석 결과는 다음과 같다. 첫째, 외국인 근로자의 성취욕구, 언어적응능력, 상사 및 동료 관계, 직업의 미래비전, 사회적 지지는 조직몰입에 유의한 정(+)의 영향이 있는 것으로 나타났다. 반면, 문화적응능력은 유의한 영향관계가 검정되지 않았다. 둘째, 조직몰입도에 유의한 영향을 미치는 요인의 크기는 사회적 지지, 상사 및 동료 관계, 직업의 미래비전, 언어적응능력, 성취욕구 순으로 나타났다. 이러한 연구 결과를 바탕으로 학술적인 시사점을 제시하였고 아울러 외국인 근로자의 조직몰입도를 높이기 위한 실무적인 시사점을 제시하였다.

딥러닝 기반 비디오 캡셔닝의 연구동향 분석 (Analysis of Research Trends in Deep Learning-Based Video Captioning)

  • 려치;이은주;김영수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제13권1호
    • /
    • pp.35-49
    • /
    • 2024
  • 컴퓨터 비전과 자연어 처리의 융합의 중요한 결과로서 비디오 캡셔닝은 인공지능 분야의 핵심 연구 방향이다. 이 기술은 비디오 콘텐츠의 자동이해와 언어 표현을 가능하게 함으로써, 컴퓨터가 비디오의 시각적 정보를 텍스트 형태로 변환한다. 본 논문에서는 딥러닝 기반 비디오 캡셔닝의 연구 동향을 초기 분석하여 CNN-RNN 기반 모델, RNN-RNN 기반 모델, Multimodal 기반 모델, 그리고 Transformer 기반 모델이라는 네 가지 주요 범주로 나누어 각각의 비디오 캡셔닝 모델의 개념과 특징 그리고 장단점을 논하였다. 그리고 이 논문은 비디오 캡셔닝 분야에서 일반적으로 자주 사용되는 데이터 집합과 성능 평가방안을 나열하였다. 데이터 세트는 다양한 도메인과 시나리오를 포괄하여 비디오 캡션 모델의 훈련 및 검증을 위한 광범위한 리소스를 제공한다. 모델 성능 평가방안에서는 주요한 평가 지표를 언급하며, 모델의 성능을 다양한 각도에서 평가할 수 있도록 연구자들에게 실질적인 참조를 제공한다. 마지막으로 비디오 캡셔닝에 대한 향후 연구과제로서 실제 응용 프로그램에서의 복잡성을 증가시키는 시간 일관성 유지 및 동적 장면의 정확한 서술과 같이 지속해서 개선해야 할 주요 도전과제와 시간 관계 모델링 및 다중 모달 데이터 통합과 같이 새롭게 연구되어야 하는 과제를 제시하였다.

Deep-Learning Approach for Text Detection Using Fully Convolutional Networks

  • Tung, Trieu Son;Lee, Gueesang
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.1-6
    • /
    • 2018
  • Text, as one of the most influential inventions of humanity, has played an important role in human life since ancient times. The rich and precise information embodied in text is very useful in a wide range of vision-based applications such as the text data extracted from images that can provide information for automatic annotation, indexing, language translation, and the assistance systems for impaired persons. Therefore, natural-scene text detection with active research topics regarding computer vision and document analysis is very important. Previous methods have poor performances due to numerous false-positive and true-negative regions. In this paper, a fully-convolutional-network (FCN)-based method that uses supervised architecture is used to localize textual regions. The model was trained directly using images wherein pixel values were used as inputs and binary ground truth was used as label. The method was evaluated using ICDAR-2013 dataset and proved to be comparable to other feature-based methods. It could expedite research on text detection using deep-learning based approach in the future.

사회적 자본이 이동학습자의 지식공유행위에 미치는 영향 (The influence of social capital on knowledge sharing behavior of mobile learners)

  • 진영;이경락;이상준
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권9호
    • /
    • pp.647-658
    • /
    • 2018
  • 현대사회는 복잡하고 빠르게 변화하고 있고, 지식을 습득하고 창출하기 위해 지식 공유가 필요하다. 지식공유는 동료들과 협력하거나 이들을 돕기 위해 자신의 정보 지식, 노하우를 제공하는 행동이다. 본 연구는 가상커뮤니티 구성원의 모바일 지식공유행위를 설명하기 위해 사회적 자본이론을 이용하여 연구모형을 제시했다. 선행연구를 기반으로 사회적 자본이론을 구조적, 관계적 그리고 인지적 측면으로 구분하였다. 구조적 측면의 척도로 사회적 유대, 인지적 측면의 척도로 공유 언어와 공유비전, 그리고 관계적 측면의 척도로 신뢰로 구성했다. 설문 자료를 수집한 후 SPSS 22를 이용하여 요인분석과 회귀분석을 실시하였다. 사회적 자본의 세부 요인이 정보 공유 행위에 어떠한 영향을 미치는지, 그리고 지식공유의 정도가 커뮤니티 촉진에 어떠한 영향을 미치는가를 실증 분석하였다. 분석 결과 사회적 유대 관계, 공유된 언어, 공유된 비전, 신뢰가 지식 공유에 영향을 미치는 것으로 나타났다. 지식 공유는 커뮤니티 촉진에 긍정적 영향을 끼쳤다.