• 제목/요약/키워드: large-language model

검색결과 294건 처리시간 0.024초

Meme Analysis using Image Captioning Model and GPT-4

  • Marvin John Ignacio;Thanh Tin Nguyen;Jia Wang;Yong-Guk Kim
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.628-631
    • /
    • 2023
  • We present a new approach to evaluate the generated texts by Large Language Models (LLMs) for meme classification. Analyzing an image with embedded texts, i.e. meme, is challenging, even for existing state-of-the-art computer vision models. By leveraging large image-to-text models, we can extract image descriptions that can be used in other tasks, such as classification. In our methodology, we first generate image captions using BLIP-2 models. Using these captions, we use GPT-4 to evaluate the relationship between the caption and the meme text. The results show that OPT6.7B provides a better rating than other LLMs, suggesting that the proposed method has a potential for meme classification.

한국어 방송 음성 인식에 관한 연구 (A Study on the Korean Broadcasting Speech Recognition)

  • 김석동;송도선;이행세
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.53-60
    • /
    • 1999
  • 이 논문은 한국 방송 음성 인식에 관한 연구이다. 여기서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 주요 관점은 언어 모델과 탐색 방법이다. 사용된 음성 모델은 기본음소 Semi-continuous HMM이고 언어 모델은 N-gram 방법이다. 탐색 방법은 음성과 언어 정보를 최대한 활용하기 위해 3단계의 방법을 사용하였다. 첫째로, 단어의 끝 부분과 그에 관련된 정보를 만들기 위한 순방향 Viterbi Beam탐색을 하였으며, 둘째로 단어 의 시작 부분과 그에 관련된 정보를 만드는 역방향 Viterbi Beam탐색, 그리고 마지막으로 이들 두 결과와 확률적인 언어 모델을 결합하여 최종 인식결과를 얻기 위해 A/sup */ 탐색을 한다. 이 방법을 사용하여 12,000개의 단어에 대한 화자 독립으로 최고 96.0%의 단어 인식률과 99.2%의 음절 인식률을 얻었다.

  • PDF

Dynamic characteristics analysis of CBGSCC bridge with large parameter samples

  • Zhongying He;Yifan Song;Genhui Wang;Penghui Sun
    • Steel and Composite Structures
    • /
    • 제52권2호
    • /
    • pp.237-248
    • /
    • 2024
  • In order to make the dynamic analysis and design of improved composite beam with corrugated steel web (CBGSCC) bridge more efficient and economical, the parametric self-cyclic analysis model (SCAM) was written in Python on Anaconda platform. The SCAM can call ABAQUS finite element software to realize automatic modeling and dynamic analysis. For the CBGSCC bridge, parameters were set according to the general value range of CBGSCC bridge parameters in actual engineering, the SCAM was used to calculate the large sample model generated by parameter coupling, the optimal value range of each parameter was determined, and the sensitivity of the parameters was analyzed. The number of diaphragms effects weakly on the dynamic characteristics. The deck thickness has the greatest influence on frequency, which decreases as the deck thickness increases, and the deck thickness should be 20-25 cm. The vibration frequency increases with the increase of the bottom plate thickness, the web thickness, and the web height, the bottom plate thickness should be 17-23mm, the web thickness should be 13-17 mm, and the web height should be 1.65-1.7 5 m. Web inclination and Skew Angle should not exceed 30°, and the number of diaphragms should be 3-5 pieces. This method can be used as a new method for structural dynamic analysis, and the importance degree and optimal value range of each parameter of CBGSCC bridge can be used as a reference in the design process.

생성-선정을 통한 텍스트 증강 프레임워크 (TAGS: Text Augmentation with Generation and Selection)

  • 김경민;김동환;조성웅;오흥선;황명하
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.455-460
    • /
    • 2023
  • 텍스트 증강은 자연어처리 모델의 성능 향상을 목적으로 원본 텍스트의 변환, 생성을 통하여 새로운 증강 텍스트를 생성하는 방법론이다. 기존 연구된 기법들은 표현적 다양성 부족, 의미 왜곡 , 한정적인 양의 증강 텍스트와 같은 한계점이 존재한다. 거대언어모델과 few-shot learning을 활용한 텍스트 증강은 이러한 한계점의 극복이 가능하지만, 잘못된 생성으로 인한 노이즈 발생의 위험성이 존재한다. 본 논문에서는 여러 후보 텍스트를 생성하고 적합한 텍스트를 증강 텍스트로 선정하는 TAGS를 제안한다. TAGS는 기존 텍스트 few shot learning을 통해 다양한 표현을 생성하면서 대조 학습과 유사도 비교를 통해 원본 텍스트가 적더라도 적합한 데이터를 효과적으로 선정한다. 이를 텍스트 증강이 필수적인 업무용 챗봇 데이터에 적용하여 60배 이상의 양적 향상을 달성하였다. 또한 증강 텍스트의 질적 향상을 확인하기 위해 실제 생성된 텍스트를 분석하여 원본 텍스트에 비해 의미론적, 표현적으로 다양한 텍스트를 생성함을 확인하였으며, 증강 텍스트로 실제 분류 모델을 학습하고 실험하여 실질적으로 자연어처리 모델 성능 향상에 도움이 되는 것을 확인하였다.

기능점수 기반 소프트웨어 공식 (Software Equation Based on Function Points)

  • 이상운
    • 정보처리학회논문지D
    • /
    • 제17D권5호
    • /
    • pp.327-336
    • /
    • 2010
  • 본 논문은 기능점수 소프트웨어 규모에 기반하여 개발노력과 일정과의 관계를 유도하는 소프트웨어 공식을 제안하였다. 기존의 소프트웨어 공식은 라인수에 기반을 두고 있다. 라인수는 개발언어에 따라 큰 차이를 보여 소프트웨어 규모 추정에 어려움이 많이 지적되고 있다. 먼저 라인수를 기능점수로 변환하는 방법을 고려하였다. 그러나 이 방법은 개발언어별로 라인수와 기능점수간 변환비율이 명확히 결정되지 않고 있고, 또한 특정 개발언어에 대해서는 변환비율이 제시되어 있지 않아 소프트웨어 공식을 유도하는데 실패하였다. 따라서 기능점수에 기반하여 개발된 대용량의 프로젝트 데이터를 대상으로 소프트웨어 공식을 직접 유도하였다. 첫 번째로 개발 프로젝트들 중에서 타당한 개발기간이 설정된 데이터들을 분류하였다. 두 번째로, 이 데이터에 대해 회귀분석을 통해 기능점수와 개발노력, 기능점수와 개발기간과의 관계를 유도하였다. 마지막으로 이들 관계로부터 소프트웨어 공식을 유도하였다. 제안된 모델은 라인수 기반의 모델이 갖고 있는 적용상 문제점들을 해결하여 실무에 쉽게 적용이 가능한 장점을 갖고 있다.

CORBA상에서의 그룹객체의 구현에 관한 연구 (An Implementation of Group Objects in CORBA)

  • 류기열;이정태;변광준
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.234-246
    • /
    • 1999
  • 분산 환경에서 개발되는 응용 소프트웨어의 규모가 커짐에 따라, 생성되는 객체의수가 기하 급수적으로 증가하게 되었고 객체간의 인터페이스 또한 매우 복잡하게 되었다. TINA에서 제안된 그룹객체 개념은 관련 있는 객체들을 하나의 그룹으로 묶어 캡슐화 하여 그룹객체를 만들고, 그룹객체 내의 인터페이스를 체계적으로 제어하여 객체들 사이의 인터페이스 복잡도를 줄여 주는 일종의 고급 추상화 개념이다. 본 논문에서는 현재 분산 응용소프트웨어의 개발을 위한 표준 미들웨어로 정착되는 가는 CORBA상에서 이러한 그룹객체 개념을 지원하기 위한 구현 모델을 제안한다. 이를 이해 TINA에서 제안한 그룹객체 개념을 수정하여 간략화하고, 이러한 그룹객체를 지원하기 위해 기존의 CORBA ORB 구조를 그대로 유지하면서 자연스럽게 확장한다. 또한 그룹객체를 CORBA에서와 같이 언어-독립적으로 기술하기 위하여CORBA이 IDL을 확장한다. 마지막으로 이러한 구현방법을 검증하기 위해 하나의 상용 CORBA 제품(JAVA 언어지원)을 선택하여 제안한 구현모델을 적용해 본다.

  • PDF

ChatGPT, 생성형 AI 시대 도서관의 데이터 리터러시 교육에 대한 연구 (A Study on the Data Literacy Education in the Library of the Chat GPT, Generative AI Era)

  • 이정미
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.303-323
    • /
    • 2023
  • 본 연구의 목적은 ChatGPT와 같은 생성형 AI 시대를 맞아 이와 같은 언어모델에 대해 소개하고, 이를 활용한 도서관의 데이터 리터러시 교육 구성요소를 고민하고 방향을 제시하고자 하는 연구이다. 이를 위해 다음과 같은 세 가지 연구 문제를 제시하였다. 먼저 ChatGPT 유사 언어모델의 기술적 특징을 살펴보고, 이후 생성형 인공지능 기술 기반 서비스 플랫폼을 활용하여 적합한, 정확한 정보를 유용하게 활용하기 위한 이용자의 데이터 리터러시 역량 교육의 필요성을 주창하였다. 마지막으로 ChatGPT 시대 도서관 데이터 리터러시 교육을 위해 데이터에 대한 이해, 데이터 생성, 데이터 수집, 데이터 검증, 데이터 관리, 데이터 이용 및 공유, 데이터 윤리와 같은 7개 구성항목을 포함한 데이터 리터러시 교육 구성안을 제안하였다. 결론적으로 ChatGPT와 같은 생성형 인공지능 기술이 이용자의 정보 활용에 많은 영향을 미치게 될 것이라 예상되는 만큼 도서관은 이러한 기술의 장단점, 문제점 등에 대해 한발 먼저 고민하고 이를 통해 도서관의 정보서비스를 한층 개선할 수 있는 토대로 삼아야 할 것을 강조하며 마무리했다.

자연어처리 기법을 적용한 무기체계의 상호운용성 평가방법 (Evaluation method for interoperability of weapon systems applying natural language processing techniques)

  • 김용균;이동현
    • 한국국방기술학회 논문지
    • /
    • 제5권3호
    • /
    • pp.8-17
    • /
    • 2023
  • 현재의 무기체계는 다양한 표준과 프로토콜이 적용된 복합무기체계가 운용되어서 전장에서 연합 및 합동작전시 원활한 정보교환 실패의 위험이 있다. 무기체계간 신속한 상황판단으로 핵심표적에 대한 정밀타격을 수행하기 위한 무기체계들의 상호운용성은 전쟁수행의 핵심요소이다. 한국군은 전력화 이후 다수의 소프트웨어 및 하드웨어의 형상변경과 성능개선 소요가 발생하고 있으나, 상호운용성에 미치는 영향에 대한 검증제도가 없으며, 관련 시험 도구 및 시설도 전무한 실정이다. 또한 연합 및 합동훈련시 무기 / 전력지원체계의 세부 운용방식과 소프트웨어를 임의로 변경한 후 이에 따른 사용자 간 오류가 빈번히 발생하고 있다. 그래서 주기적인 무기체계간 상호운용성 검증이 필요하다. 이러한 문제를 해결하기 위하여 사람이 평가기간을 잡아서 1번 평가를 진행하는것이 아니라, AI가 24시간 무기 / 전력지원 체계간 상호운용성을 지속적으로 평가하여 전쟁수행능력을 고도화해야 한다, 이러한 문제점을 해결하기 위하여 자연어 처리기법(①Word2Vec 모델 ②FastText 모델 ③Swivel 모델)을 적용(공개된 알고리즘과 소스코드 사용)하여 국방상호운용성 능력향상을 위한 사전연구를 수행하였다. 이 실험의 결과를 바탕으로 사람에 의존하지 않고, 자동화된 국방상호운용성 평가도구를 구현하기 위한 방법론(자연어 처리 모델을 통한 상호운용성 소요평가 / 수준측정의 자동화된 평가)을 향후 제시하고자 한다.

  • PDF

객체지향 데이타베이스를 이용한 주식데이타 관리에 관한 연구 (A Study on the Management of Stock Data with an Object Oriented Database Management System)

  • 허순영;김형민
    • 한국경영과학회지
    • /
    • 제21권3호
    • /
    • pp.197-214
    • /
    • 1996
  • Financial analysis of stock data usually involves extensive computation of large amount of time series data sets. To handle the large size of the data sets and complexity of the analyses, database management systems have been increasingly adaopted for efficient management of stock data. Specially, relational database management system is employed more widely due to its simplistic data management approach. However, the normalized two-dimensional tables and the structured query language of the relational system turn out to be less effective than expected in accommodating time series stock data as well as the various computational operations. This paper explores a new data management approach to stock data management on the basis of an object-oriented database management system (ODBMS), and proposes a data model supporting times series data storage and incorporating a set of financial analysis functions. In terms of functional stock data analysis, it specially focuses on a primitive set of operations such as variance of stock data. In accomplishing this, we first point out the problems of a relational approach to the management of stock data and show the strength of the ODBMS. We secondly propose an object model delineating the structural relationships among objects used in the stock data management and behavioral operations involved in the financial analysis. A prototype system is developed using a commercial ODBMS.

  • PDF

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF