• 제목/요약/키워드: 대규모 언어모델

검색결과 84건 처리시간 0.022초

최대 엔트로피 분포를 이용한 퍼지 관측데이터의 분석법에 관한 연구 (An Analysis of Fuzzy Survey Data Based on the Maximum Entropy Principle)

  • 유재휘;유동일
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권2호
    • /
    • pp.131-138
    • /
    • 1998
  • 통상 통계적인 데이터 해석에서 취급되는 데이터는 확정된 값으로서 통계 처리를실시한다. 그러나 복잡˙대규모화하는 현대의 시스템에 있어서는 정확하게 측정된 데이터만을 취급하는 것은 곤란하며 인간의 주관적인 판단에 따른 데이터를 수집하는 경우가 발생하게 된다. 본 연구에서는 이러한 인간의 주관적인 판단에 따른 데이터를 퍼지 관측 데이터로하여(언어 변수에 의해 Membership 함수를 정의한다.) 최대 엔트로피 원리를 이용한 새로운 분석 방법을 제안한다. 또한 보다 현실적인 상황 아래 시뮬레이션을 실시함으로서 제안모델의 유효성을 검증한다.

  • PDF

중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법 (Resampling Feedback Documents Using Overlapping Clusters)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.247-256
    • /
    • 2009
  • 대부분의 잠정적 적합피드백기법들은 질의에 대해 검색된 상위검색문서들이 적합하다고 가정하고, 그 문서들을 질의 확장을 위한 피드백 문서로 이용하고 있다. 그러나 초기검색결과에는 상당한 양의 부적합 문서를 포함하고 있는 것이 현실이다. 이 논문에서는 보다 좋은 피드백 문서를 선택하기 위해서 중첩클러스터를 이용한 피드백문서의 재샘플링 기법을 제안한다. 주요 아이디어는 질의 중심적인 초기검색문서집합에 대해서 중첩이 허용된 문서클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백 하여 질의가 내포하는 핵심 주제를 강조하는 것이다. 대규모 실험집합인 TREC GOV2와 WT10g에 대한 실험비교에서, 최근 잠정적 적합피드백 기법들 중에서 가장 좋은 성능을 보이고 있는 적합모델보다 재샘플링기법이 우수한 성능향상을 보였다. 제안기법에 대한 검증을 위해서 피드백문서에 포함된 적합문서의 정도를 나타내는 적합밀도를 측정하였다. 재샘플링 기법이 TREC 실험집합에 대해서 적합모델에 비해 높은 적합밀도를 보였고, 이 결과 적합피드백에서 검색성능을 향상시키게 되었다. 이는 제안 기법이 잠정적 적합피드백에서 유효한 방법임을 알 수 있다.

검색 증강 LLM을 이용한 치과 상담용 챗봇 개발 (Development of Dental Consultation Chatbot using Retrieval Augmented LLM)

  • 박종진
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.87-92
    • /
    • 2024
  • 본 논문에서는 치과 상담용 챗봇을 개발하기 위해 기존의 대규모 언어 모델(LLM)과 랭체인 라이브러리를 이용하여 검색 증강 생성(RAG) 시스템을 구현하였다. 이를 위해 국내 치과 대학병원의 웹페이지 게시판에 있는 내용을 수집하고 치과 전문의의 자문과 감수를 받아 상담 데이터를 구축하였다. 입력된 상담용 데이터를 적절한 크기로 분할하기 위해 청크 크기와 각 청크의 겹치는 텍스트의 크기는 각각 1001과 100으로 하였다. 시뮬레이션 결과 검색 증강 LLM은 사용자 입력과 가장 유사한 상담 내용을 검색하여 출력하였다. 구축된 챗봇을 통해 치과 상담의 접근성과 상담 내용의 정확성을 높일 수 있음이 확인되었다.

Python 기반 AI 프로젝트에서 예외 제안을 위한 자동화 접근 방식 (An Automated Approach for Exception Suggestion in Python-based AI Projects)

  • 강민구;김순태;류덕산
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.73-79
    • /
    • 2022
  • Artificial intelligence (AI) 프로젝트에 널리 사용되는 Python 언어는 Interpreter 언어로 Runtime 시에 오류가 발생한다. 오류로 인한 프로젝트의 실패를 방지하기 위해서는 사전에 예외적인 상황이 발생할 수 있는 코드에 대한 예외 처리가 필요하다. 특히, 많은 리소스를 필요로 하는 AI 프로젝트에서, 오랜 실행 후 발생하는 예외는 큰 리소스 낭비를 초래한다. 하지만, 예외 처리는 개발자의 경험에 의존하기 때문에 개발자들은 잡아야 할 적절한 예외를 결정하는데 어려움을 가진다. 이러한 필요성을 해결하기 위해 기존 예외 처리문을 학습하여 개발 중에 개발자에게 잡아야 할 예외를 제안해주는 접근 방법을 제안한다. 제안 방법은 try 블록의 소스 코드를 입력으로 받아 except 블록에서 처리되어야 할 예외들을 제안해준다. 우리는 2개의 프레임워크로 구성된 대규모 프로젝트에 대해 접근 방법을 평가한다. 우리의 평가 결과에 따르면, 예외 제안을 수행할 때 평균 AUPRC는 0.92 이상을 나타낸다. 연구 결과는 제안된 방법이 비교 모델들을 능가하는 예외 제안 성능으로 개발자의 예외 처리를 지원할 수 있음을 보여준다.

웹 기반의 동적 웹 서버 페이지 생성기 설계 및 구현 (Design and Implementation of Dynamic Web Server Page Builder on Web)

  • 신용민;김병기
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.147-154
    • /
    • 2008
  • 인터넷이 대중화 되면서 내부 데이터베이스로 관리되고 있는 정보를 동적 웹 서버 페이지를 작성하여 웹으로 제공하는 다양한 웹 어플리케이션 개발이 수행되고 있으나, 대부분의 경우 체계적인 개발 방법론의 채택 없이 직접 프로그램을 작성하거나, 규모에 맞지 않는 대규모 개발 방법론을 적용하여 개발의 효율성을 떨어뜨리고 있다. 웹 어플리케이션이 체계적인 개발 방법론을 따르지 않고 스크립트 언어를 사용하여 임의개발 됨에 따라 프로그램 개발의 생산성, 유지 보수성, 그리고 재 사용성을 저하시키게 된다. 본 논문에서는 빠르고 효과적인 스크립트 기반의 웹 어플리케이션 개발을 위하여 데이터베이스를 이용한 동적 웹 서버 페이지 자동 작성 도구를 설계하고 이를 구현하였다. 데이터베이스를 이용한 동적 웹 서버 페이지 패턴을 분석하여 정형화된 스크립트 모델을 제시하고 데이터 바운드 컨트롤 태그 생성기를 표준 스크립트로 작성하여 웹 어플리케이션 개발과 유지보수에 활용되어 생산성 향상에 기여할 수 있다.

사용 관점 중심의 컴포넌트 모델링 (Component Modeling Focusing on View-point of Component Use)

  • 김태웅;김경민;김태공
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.181-190
    • /
    • 2007
  • 컴포넌트 기반 개발은 시스템을 이해하고 분석하기 위한 컴포넌트 모델링 방법이 중요한 부분을 차지하고 재사용성을 높이는 방안으로써 받아들여지고 있다. 컴포넌트는 일반적으로 컴포넌트를 개발하는 사람과 그것을 조립하여 사용하는 사람의 관점이 다르며 이에 따른 내용과 목적이 다르기 때문에 대규모의 컴포넌트 시스템을 개발하는데 있어서 그 역할에 따라 두 가지 유형으로 구분하는 것이 중요하다. 이것이 현실화 되기 위해서는 명확한 컴포넌트와 인터페이스 명제가 필요하며 조립자와 개발자 간의 서로 다른 관점에서의 컴포넌트 모델이 필요하다. 이에 본 논문에서는 조립자 관점과 생성자 관점이라는 서로 다른 역할에 따라 두 가지 유형의 컴포넌트 모델을 제안하며 이를 위해 UML을 확장한다. 또한 제안한 모델을 작성, 관리하며 모델간의 자동변환을 위한 툴을 개발하여 적용해 봄으로써 그 효율성을 검증한다.

ChatGPT 기반 소프트웨어 요구공학 (ChatGPT-based Software Requirements Engineering)

  • 최종명
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.45-50
    • /
    • 2023
  • 소프트웨어 개발에서 요구사항 도출 및 분석은 매우 중요한 단계이며, 다양한 이해관계자가 관여하기 때문에 많은 시간과 노력을 필요로 한다. ChatGPT는 다양한 문서를 학습한 대규모 언어 모델로서 코드 생성, 디버깅 등의 능력은 물론 소프트웨어 분석 설계 영역에서도 활용할 수 있는 능력을 갖고 있는 것으로 연구되고 있다. 본 논문에서는 ChatGPT의 이러한 능력을 활용하여 소프트웨어 요구사항 도출, 시스템 목표에 적합한 요구사항 분석, 유스케이스 형태로 문서화하는 요구공학 방법을 제안한다. 소프트웨어 요구공학에서 이해관계자, 분석가, ChatGPT는 협업 모델을 가져야 하며, 요구사항 도출, 분석, 명세화에서 ChatGPT의 결과를 초기 요구사항으로 하여 분석가와 이해관계자가 점검 및 내용을 추가하는 형태로 요구공학이 진행하는 것을 제안한다. ChatGPT의 성능이 향상될수록 요구사항의 도출 및 분석이 점차 정확도를 높일 수 있을 것이며, 소프트웨어 요구공학에서 시간 및 비용을 절감할 수 있을 것이다.

BIM 운용 전문가 시험을 통한 ChatGPT의 BIM 분야 전문 지식 수준 평가 (Evaluating ChatGPT's Competency in BIM Related Knowledge via the Korean BIM Expertise Exam)

  • 최지원;구본상;유영수;정유정;함남혁
    • 한국BIM학회 논문집
    • /
    • 제13권3호
    • /
    • pp.21-29
    • /
    • 2023
  • ChatGPT, a chatbot based on GPT large language models, has gained immense popularity among the general public as well as domain professionals. To assess its proficiency in specialized fields, ChatGPT was tested on mainstream exams like the bar exam and medical licensing tests. This study evaluated ChatGPT's ability to answer questions related to Building Information Modeling (BIM) by testing it on Korea's BIM expertise exam, focusing primarily on multiple-choice problems. Both GPT-3.5 and GPT-4 were tested by prompting them to provide the correct answers to three years' worth of exams, totaling 150 questions. The results showed that both versions passed the test with average scores of 68 and 85, respectively. GPT-4 performed particularly well in categories related to 'BIM software' and 'Smart Construction technology'. However, it did not fare well in 'BIM applications'. Both versions were more proficient with short-answer choices than with sentence-length answers. Additionally, GPT-4 struggled with questions related to BIM policies and regulations specific to the Korean industry. Such limitations might be addressed by using tools like LangChain, which allow for feeding domain-specific documents to customize ChatGPT's responses. These advancements are anticipated to enhance ChatGPT's utility as a virtual assistant for BIM education and modeling automation.

LLM 애플리케이션 아키텍처를 활용한 생성형 AI 서비스 구현: RAG모델과 LangChain 프레임워크 기반 (Generative AI service implementation using LLM application architecture: based on RAG model and LangChain framework)

  • 정천수
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.129-164
    • /
    • 2023
  • 최근 생성형 AI 기술의 발전으로 인해 대형 언어 모델(Large Language Model, LLM)의 활용 및 도입이 확대되고 있는 상황에서 기존 연구들은 기업내부 데이터의 활용에 대한 실제 적용사례나 구현방법을 찾아보기 힘들다. 이에 따라 본 연구에서는 가장 많이 이용되고 있는 LangChain 프레임워크를 이용한 LLM 애플리케이션 아키텍처를 활용하여 생성형 AI 서비스를 구현하는 방법을 제시한다. 이를 위해 LLM의 활용을 중심으로, 정보 부족 문제를 극복하는 다양한 방법을 검토하고 구체적인 해결책을 제시하였다. 이를 위해 파인튜닝이나 직접 문서 정보를 활용하는 방법을 분석하며, 이러한 문제를 해결하기 위한 RAG 모델을 활용한 정보 저장 및 검색 방법에 대해 주요단계에 대해 자세하게 살펴본다. 특히, RAG 모델을 활용하여 정보를 벡터저장소에 저장하고 검색하기 위한 방법으로 유사문맥 추천 및 QA시스템을 활용하였다. 또한 구체적인 작동 방식과 주요한 구현 단계 및 사례를 구현소스 및 사용자 인터페이스까지 제시하여 생성형 AI 기술에 대한 이해를 높였다. 이를 통해 LLM을 활용한 기업내 서비스 구현에 적극적으로 활용할 수 있도록 하는데 의미와 가치가 있다.

융통성 있는 스레드 분할 시스템 설계와 평가 (Design and Evaluation of Flexible Thread Partitioning System)

  • 조선문
    • 인터넷정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.75-83
    • /
    • 2007
  • 다중스레드 모델은 긴 메모리 참조 지체 시간과 동기화의 문제점을 해결할 수 있다는 점에서 대규모 병렬 시스템에 매우 효과적이다. 다중스레드 병렬기계를 위하여 Non-Strict 함수 프로그램을 번역할 때 가장 중요한 것은 순차적으로 수행될 수 있는 부분을 찾아내어 스레드로 분할하는 것이다. 기존의 분할 알고리즘은 조건식의 판단식, 참실행식, 거짓실행식을 기본 블록으로 나누고 각각에 대하여 지역 분할을 적용한다. 이러한 제약은 스레드의 정의를 약간 수정하여 스레드 내에서의 분기를 허용한다면 좀더 좋은 분할을 얻을 수 있다. 스레드 내에서의 분기는 병렬성을 감소시키거나 동기화의 횟수를 증가 시키거나 또는 교착상태를 발생시키는 등 스레드 분할의 기본 원칙을 어기지 않으며 오히려 스레드 길이를 증가시키거나 동기화 횟수를 줄이는 장점을 가질 수 있다. 본 논문에서는 조건식의 세 가지 기본 블록을 하나 또는 두 개의 기본 블록으로 병합함으로서 스레드 분할을 향상시키는 방법을 제안한다.

  • PDF