• 제목/요약/키워드: 언어 이해 생성 모델

검색결과 77건 처리시간 0.034초

한국어 및 영어 이미지 캡션이 가능한 범용적 모델 및 목적에 맞는 텍스트를 생성해주는 기법 (A general-purpose model capable of image captioning in Korean and Englishand a method to generate text suitable for the purpose)

  • 조수현;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1111-1120
    • /
    • 2022
  • Image Captioning은 이미지를 보고 이미지를 언어로 설명하는 문제이다. 해당 문제는 이미지 처리와 자연어 처리 두 가지의 분야를 하나로 묵고 이해하고 하나로 묶어 해결할 수 있는 중요한 문제이다. 또한, 이미지를 자동으로 인식하고 텍스트로 설명함으로써 시각 장애인을 위해 이미지를 텍스트로 변환 후 음성으로 변환하여 주변 환경을 이해하는 데 도움을 줄 수 있으며, 이미지 검색, 미술치료, 스포츠 경기 해설, 실시간 교통 정보 해설 등 많은 곳에 적용할 수 있는 중요한 문제이다. 지금까지의 이미지 캡션 구 방식은 이미지를 인식하고 텍스트화시키는 데에만 집중하고 있다. 하지만 실질적인 사용을 하기 위해 현실의 다양한 환경이 고려되어야 하며 뿐만 아니라 사용하고자 하는 목적에 맞는 이미지 설명을 할 수 있어야 한다. 본 논문에서는 범용적으로 사용 가능한 한국어 및 영어 이미지 캡션 모델과 이미지 캡션 목적에 맞는 텍스트 생성 기법을 제한한다.

ChatGPT 기반 소프트웨어 요구공학 (ChatGPT-based Software Requirements Engineering)

  • 최종명
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.45-50
    • /
    • 2023
  • 소프트웨어 개발에서 요구사항 도출 및 분석은 매우 중요한 단계이며, 다양한 이해관계자가 관여하기 때문에 많은 시간과 노력을 필요로 한다. ChatGPT는 다양한 문서를 학습한 대규모 언어 모델로서 코드 생성, 디버깅 등의 능력은 물론 소프트웨어 분석 설계 영역에서도 활용할 수 있는 능력을 갖고 있는 것으로 연구되고 있다. 본 논문에서는 ChatGPT의 이러한 능력을 활용하여 소프트웨어 요구사항 도출, 시스템 목표에 적합한 요구사항 분석, 유스케이스 형태로 문서화하는 요구공학 방법을 제안한다. 소프트웨어 요구공학에서 이해관계자, 분석가, ChatGPT는 협업 모델을 가져야 하며, 요구사항 도출, 분석, 명세화에서 ChatGPT의 결과를 초기 요구사항으로 하여 분석가와 이해관계자가 점검 및 내용을 추가하는 형태로 요구공학이 진행하는 것을 제안한다. ChatGPT의 성능이 향상될수록 요구사항의 도출 및 분석이 점차 정확도를 높일 수 있을 것이며, 소프트웨어 요구공학에서 시간 및 비용을 절감할 수 있을 것이다.

문맥 및 어휘 그룹 기반 지능형 영어 어휘 학습 시스템 설계 (A Design of an Intelligent English Vocabulary Learning System based on Context and Vocabulary Group)

  • 김도현;옥준혁;장홍준;황요한;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.88-90
    • /
    • 2022
  • 영어 교육 시장이 증대되면서 영어 학습을 효과적으로 지원하는 다양한 학습 시스템들이 개발되고 있다. 영어문장을 구성하는 기본적인 단위는 어휘로 문장 전체의 의미를 파악하기 위해서는 어휘의 의미를 이해하는 것이 필수적이다. 따라서 영어 어휘 능력 향상을 위한 다양한 영어 어휘 학습 시스템들이 개발되고 있으나, 어휘가 사용되는 문맥을 고려하거나 동시에 학습하면 효과적인 어휘 등 어휘 학습에 효과적인 교수학습 방법의 원리가 적용된 영어 어휘 학습 시스템에 대한 연구는 미비한 상황이다. 본 논문에서는 n 개의 영어 단어가 하나의 그룹으로 동시에 제시되면서 그 n개의 영어 단어가 모두 포함된 예문을 제공하는 지능형 영어 어휘 학습 시스템을 설계한다. 임의로 n 개의 영어 어휘가 주어졌을 경우 문맥에 맞게 영어 예문을 자동으로 생성하는 지능형 영어 문장 생성 모델이 본 연구의 핵심이다. 또한, 어휘 능력 평가에서 기존 어휘 학습 시스템과 같이 단순히 어휘를 얼마나 암기하고 있는지에 대한 평과 결과만을 제시하는 것이 아니라, 그룹별 취약 어휘 분석을 통해 효과적인 그룹 어휘 선택 규칙을 파악할 수 있는 기반을 마련하고자 한다. 본 논문에서 제안한 지능형 영어 어휘 학습 시스템을 통해 영어 어휘 학습자들의 학습 능력 향상에 도움이 될 것으로 기대한다.

CORBA상에서의 그룹객체의 구현에 관한 연구 (An Implementation of Group Objects in CORBA)

  • 류기열;이정태;변광준
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.234-246
    • /
    • 1999
  • 분산 환경에서 개발되는 응용 소프트웨어의 규모가 커짐에 따라, 생성되는 객체의수가 기하 급수적으로 증가하게 되었고 객체간의 인터페이스 또한 매우 복잡하게 되었다. TINA에서 제안된 그룹객체 개념은 관련 있는 객체들을 하나의 그룹으로 묶어 캡슐화 하여 그룹객체를 만들고, 그룹객체 내의 인터페이스를 체계적으로 제어하여 객체들 사이의 인터페이스 복잡도를 줄여 주는 일종의 고급 추상화 개념이다. 본 논문에서는 현재 분산 응용소프트웨어의 개발을 위한 표준 미들웨어로 정착되는 가는 CORBA상에서 이러한 그룹객체 개념을 지원하기 위한 구현 모델을 제안한다. 이를 이해 TINA에서 제안한 그룹객체 개념을 수정하여 간략화하고, 이러한 그룹객체를 지원하기 위해 기존의 CORBA ORB 구조를 그대로 유지하면서 자연스럽게 확장한다. 또한 그룹객체를 CORBA에서와 같이 언어-독립적으로 기술하기 위하여CORBA이 IDL을 확장한다. 마지막으로 이러한 구현방법을 검증하기 위해 하나의 상용 CORBA 제품(JAVA 언어지원)을 선택하여 제안한 구현모델을 적용해 본다.

  • PDF

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.35-46
    • /
    • 2023
  • 본 연구에서는 문서 분류기의 정확도를 높이기 위해 문맥 정보와 키워드 정보를 모두 사용하는 이중 접근(Dual Approach) 방법론을 제안한다. 우선 문맥 정보는 다양한 자연어 이해 작업(Task)에서 뛰어난 성능을 나타내고 있는 사전학습언어모델인 Google의 BERT를 사용하여 추출한다. 구체적으로 한국어 말뭉치를 사전학습한 KoBERT를 사용하여 문맥 정보를 CLS 토큰 형태로 추출한다. 다음으로 키워드 정보는 문서별 키워드 집합을 Autoencoder의 잠재 벡터를 통해 하나의 벡터 값으로 생성하여 사용한다. 제안 방법을 국가과학기술정보서비스(NTIS)의 국가 R&D 과제 문서 중 보건 의료에 해당하는 40,130건의 문서에 적용하여 실험을 수행한 결과, 제안 방법이 문서 정보 또는 단어 정보만을 활용하여 문서 분류를 진행하는 기존 방법들에 비해 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

LLM 사용자의 민감정보 유출 방지를 위한 지식그래프 기반 챗봇 (A Knowledge Graph-based Chatbot to Prevent the Leakage of LLM User's Sensitive Information)

  • 유기동
    • 지식경영연구
    • /
    • 제25권2호
    • /
    • pp.1-18
    • /
    • 2024
  • 거대언어모델(LLM)에 대한 수요와 활용 사례가 증가함에 따라 사용자의 민감정보가 LLM 사용 과정 중에 입력 및 유출되는 위험성 또한 증가하고 있다. 일반적으로 LLM 환각 문제의 해결을 위한 도구로 알려진 지식그래프는, LLM과는 별개로 구축되어 사용자의 민감정보를 별도로 보관 및 관리할 수 있으므로, 민감정보의 유출 가능성을 최소화하는 하나의 방법이 될 수 있다. 따라서 본 연구는 사용자로부터 입력된 자연어 기반의 질문을 LLM을 통해 지식그래프 유형에 맞는 쿼리문으로 변환하고 이를 이용하여 쿼리 실행과 결과 추출을 진행하는 지식그래프 기반 챗봇을 제시한다. 또한 본 연구에서 개발된 지식그래프 기반 챗봇의 기능적 유효성 판단을 위하여, 기존 지식그래프에 대한 이해도와 적응력, 새로운 개체 클라스 생성 능력, 그리고 지식그래프 콘텐츠에 대한 LLM의 접근 가능성 여부를 판단하는 성능 테스트를 수행한다.

검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델 (A Term Cluster Query Expansion Model Based on Classification Information of Retrieval Documents)

  • 강현수;강현규;박세영;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-12
    • /
    • 1999
  • 정보 검색 시스템은 사용자 질의의 키워드들과 문서들의 유사성(similarity)을 기준으로 관련 문서들을 순서화하여 사용자에게 제공한다. 그렇지만 인터넷 검색에 사용되는 질의는 일반적으로 짧기 때문에 보다 유용한 질의를 만들고자 하는 노력이 지금까지 계속되고 있다. 그러나 키워드에 포함된 정보가 제한적이기 때문에 이에 대한 보완책으로 사용자의 적합성 피드백을 이용하는 방법을 널리 사용하고 있다. 본 논문에서는 일반적인 적합성 피드백의 가장 큰 단점인 빈번한 사용자 참여는 지양하고, 시스템에 기반한 적합성 피드백에서 배제한 사용자 참여를 유도하는 검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델(Term Cluster Query Expansion Model)을 제안한다. 이 방법은 검색 시스템에 의해 검색된 상위 n개의 문서에 대하여 분류기를 이용하여 각각의 문서에 분류 정보를 부여하고, 문서에 부여된 분류 정보를 이용하여 분류 정보의 수(m)만큼으로 문서들을 그룹을 짓는다. 적합성 피드백 알고리즘을 이용하여 m개의 그룹으로부터 각각의 용어 클러스터(Term Cluster)를 생성한다. 이 클러스터가 사용자에게 문서 대신에 피드백의 자료로 제공된다. 실험 결과, 적합성 알고리즘 중 Rocchio방법을 이용할 때 초기 질의보다 나은 성능을 보였지만, 다른 연구에서 보여준 성능 향상은 나타내지 못했다. 그 이유는 분류기의 오류와 문서의 특성상 한 영역으로 규정짓기 어려운 문서가 존재하기 때문이다. 그러나 검색하고자 하는 사용자의 관심 분야나 찾고자 하는 성향이 다르더라도 시스템에 종속되지 않고 유연하게 대처하며 검색 성능(retrieval effectiveness)을 향상시킬 수 있다.사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

사용 관점 중심의 컴포넌트 모델링 (Component Modeling Focusing on View-point of Component Use)

  • 김태웅;김경민;김태공
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.181-190
    • /
    • 2007
  • 컴포넌트 기반 개발은 시스템을 이해하고 분석하기 위한 컴포넌트 모델링 방법이 중요한 부분을 차지하고 재사용성을 높이는 방안으로써 받아들여지고 있다. 컴포넌트는 일반적으로 컴포넌트를 개발하는 사람과 그것을 조립하여 사용하는 사람의 관점이 다르며 이에 따른 내용과 목적이 다르기 때문에 대규모의 컴포넌트 시스템을 개발하는데 있어서 그 역할에 따라 두 가지 유형으로 구분하는 것이 중요하다. 이것이 현실화 되기 위해서는 명확한 컴포넌트와 인터페이스 명제가 필요하며 조립자와 개발자 간의 서로 다른 관점에서의 컴포넌트 모델이 필요하다. 이에 본 논문에서는 조립자 관점과 생성자 관점이라는 서로 다른 역할에 따라 두 가지 유형의 컴포넌트 모델을 제안하며 이를 위해 UML을 확장한다. 또한 제안한 모델을 작성, 관리하며 모델간의 자동변환을 위한 툴을 개발하여 적용해 봄으로써 그 효율성을 검증한다.

유사도 기반 이미지 캡션을 이용한 시각질의응답 연구 (Using similarity based image caption to aid visual question answering)

  • 강준서;임창원
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.191-204
    • /
    • 2021
  • 시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용 하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질 문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시 각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을 때 성능 향상을 확인하였다.

2차원 중성자수송모델 합성법에 의한 노외계측기 교정법

  • 하창주;성기봉;이해찬;유상근;정선교;이덕중;김윤호;김용배
    • 한국원자력학회:학술대회논문집
    • /
    • 한국원자력학회 1997년도 추계학술발표회논문집(1)
    • /
    • pp.335-341
    • /
    • 1997
  • 운전중 노심의 출력변화를 감시하는 노외계측기(Excore Detector)는 노내계측기(Incore Detector)를 통하여 측정되어진 축방향 출력편차(Axial Offset)를 이용하여 교정되고 있다. 노외 계측기의 전류와 축방향출력편차의 선형적인 관계를 가정하여 노내계측기로 최소한 4회 노심출력을 측정한후 최소자승법(Least Square Method)으로 비례상수들을 구하는 기존의 방법을 대신하여, 단순 노외계측기 교정법은 노내계측기로 1회 측정되어진 자료들을 이용하여 계측기 반응상수(Detector Response Factor)를 계산한 후 비례상수를 계산한다. 계측기반응상수는 2차원 중성자수송모델로부터 계산된 weighting factor와 3차원 확산이론으로부터 구한 노심출력을 이용하여 계산된다. 중성자수송계산은 (R-Z)와 (R-$ heta$)모델을 합성하여 3차원 weighting factor를 계산하므로 축방향 영향뿐만 아니라 집합체별 영향을 고려하였다. 또한 노심의 복잡한 구조로 인하여 근사적인 weighting (actor와 노심출력분포의 사용은 노외계측기의 전류와 계측기반응율의 불일치를 초래하며, 이를 해결하는 상수를 소개하여 보다 정확한 교정결과를 얻도록하였다. 이와 같은 방법을 고리 3호기 9, 10주기 전주기와 11주기초에 적용하여 노심의 연소분포, 냉각수의 온도분포, 노심의 연소도, 노심출력준위등에 대한 단순 노외계측기 교정법의 오차를 분석하여 최적의 노외계측기 교정모델을 제시하였다. 2차원 중성자수송모델 합성법에 의한 단순노외계측기 교정법은 2차원 (R-Z) 중성자수송모델보다 개선된 결과와 평균오차 0.179% 최대 오차 0.624%를 보여주고 있다.하면 조사 후의 조직안정성에도 크게 기여할 것으로 기대된다.EX>O가 각각 첨가된 경우, Ar-4vol.%H$_2$ 분위기보다 H$_2$분위기에서 소결했을 때 밀도가 더 높았다. 그러나, 결정립은 $UO_2$$UO_2$-Li$_2$O의 경우, 수소분위기에서 소결했을 때, (U,Ce)O$_2$와 (U,Ce)O$_2$-Li$_2$O에서는 Ar-4vol.%H$_2$분위기에서 소결했을 때 더욱 성장하였다.설명해 줄 수 있다. 넷째, 불규칙적이며 종잡기 힘들고 단편적인 것으로만 보이던 중간언어도 일정한 체계 속에서 변화한다는 사실을 알 수 있다. 다섯째, 종전의 오류 분석에서는 지나치게 모국어의 영향만 강조하고 다른 요인들에 대해서는 다분히 추상적인 언급으로 끝났지만 이 분석을 통 해서 배경어, 목표어, 특히 중간규칙의 역할이 괄목할 만한 것임을 가시적으로 관찰할 수 있 다. 이와 같은 오류분석 방법은 학습자의 모국어 및 관련 외국어의 음운규칙만 알면 어느 학습대상 외국어에라도 적용할 수 있는 보편성을 지니는 것으로 사료된다.없다. 그렇다면 겹의문사를 [-wh]의리를 지 닌 의문사의 병렬로 분석할 수 없다. 예를 들어 누구누구를 [주구-이-ν가] [누구누구-이- ν가]로부터 생성되었다고 볼 수 없다. 그러므로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지

  • PDF