• 제목/요약/키워드: 자연어

검색결과 1,207건 처리시간 0.027초

생성형 AI 이해 및 활용을 위한 대학 교양교과목 교육과정 개발 (Development of university liberal arts curriculum for understanding and utilizing generative AI)

  • 박지현;박종진
    • 문화기술의 융합
    • /
    • 제10권5호
    • /
    • pp.645-650
    • /
    • 2024
  • 본 논문은 챗GPT를 중심으로 생성형 AI를 활용한 대학 교양교육을 위해 지방 소재의 두 대학에서 교양교과목 교육과정을 공동으로 설계하고 개발하였다. 개발된 교육과정은 기존 연구에서 제시된 대학 챗GPT 통합 활용 수업 설계를 위한 개념적 구성요소를 고려하여 챗GPT의 기반을 이루는 언어모델과 인공지능을 이해하고 챗GPT을 포함하는 생성형 AI를 다양한 도메인에 활용하는 내용으로 개발하였다. 개발된 교육과정은 다양한 전공의 수강생을 대상으로 챗GPT의 기반인 자연어처리 언어모델과 인공지능의 개념 및 변화양상을 소개하고, 생성 AI 및 대형언어모델(LLM)인 챗GPT와 다양한 오픈소스 생성 모델을 이용하여 나만의 AI 서비스를 구현하며, 대학 교양교육에서 혁신적인 교육방법으로서, 대학간 공유협력 공동교육과정운영을 위한 사례를 제시하고자 한다.

BERT를 이용한 협업 필터링 강화 추천 시스템 (Collaborative Filtered Enhanced Recommendation System Using BERT)

  • 김진배;김영곤;박정민
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.61-67
    • /
    • 2024
  • 최근 인공지능과 딥러닝 기술은 크게 발전하였으며, 그 중에서도 BERT 모델은 트랜스포머 아키텍처를 기반으로 한 자연어 처리 분야에서 문맥 이해 능력이 뛰어나다는 평가를 받고 있다. 이러한 성능은 전통적인 추천 시스템을 한 단계 더 발전시킬 수 있는 잠재력을 지니고 있다. 본 연구에서는 추천 시스템의 성능 향상을 위해 협업 필터링 방식에 딥러닝 모델을 결합하는 접근 방식을 채택하였다. 구체적으로, BERT를 활용해 사용자 리뷰의 감정 분석을 수행하고, 이러한 리뷰 감정을 기반으로 사용자를 임베딩함으로써 유사한 취향을 가진 사용자를 찾아내어 추천하는 시스템을 구현하였다. 또한 이 과정에서 오픈소스 검색 엔진인 Elasticsearch를 활용하여 빠른 검색, 추천 결과를 검색할 수 있다. 사용자의 텍스트 데이터를 분석하여 추천의 정확도와 개인화 수준을 높이는 접근 방식은 향후 다양한 온라인 서비스에서의 사용자 경험 개선에 중요한 역할을 할 것이다.

스마트폰 사진들의 지식 그래프 (Knowledge Graph of Smartphone Photos)

  • 서예원;배연서;정유정;황기태
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.203-209
    • /
    • 2024
  • 스마트폰은 사진을 비롯한 방대한 양의 개인 데이터를 저장하고 있지만, 이들이 조직화되어 있지 않아 사용자는 필요한 정보를 신속하게 찾는데 많은 어려움이 있다. 이에 본 논문은 스마트폰 내 사진들을 지식 그래프로 만들고 사진을 쉽게 검색하는 시스템 Visualize Me By Photo를 제안하고 구현하였다. 인공지능 기술을 활용하여 사진들로부터 최대 53가지의 지식들을 추출하고 이들로부터 사진과 사진 속의 지식들의 관계를 설정하는 식으로 지식 그래프를 생성하였다. 또한 본 논문은 사용자의 용이한 검색을 위해 자연어 검색과 이미지의 특정 영역에 원을 표시하여 다른 사진을 검색하는 포커싱 검색 기능을 구현하였다. 결론적으로 본 연구는 사진들을 지식 그래프로 만듦으로써 사진 검색을 매우 용이하게 하였으며 스마트폰 내 사진 관리 또한 쉬워지는 결과를 낳았다.

검색 증강 생성(RAG) 기술의 최신 연구 동향에 대한 조사 (A Survey on the Latest Research Trends in Retrieval-Augmented Generation)

  • 이은빈;배호
    • 정보처리학회 논문지
    • /
    • 제13권9호
    • /
    • pp.429-436
    • /
    • 2024
  • Large Language Model(LLM)의 급격한 발전은 자연어 처리 분야에 혁신을 불러 일으켜 이를 적절하게 활용하는 것이 중요한 주제로 떠오르고 있다. 방대한 데이터로 훈련된 LLM은 다양한 주제에 대한 텍스트 생성이 가능하여 콘텐츠 생성, 기계 번역, 챗봇 등 여러 방식으로 적용이 가능하나 특정 유형이나 전문적 지식이 부족할 수 있어 일반화하기 어렵다는 단점이 존재한다. 모델 훈련이 완료된 이후의 최신 정보로 즉각 업데이트되기도 어려우며, 모델이 실제로 존재하지 않는 정보나 오류에 대해 그럴 듯하게 답변하는 환각 현상(Hallucination) 역시 주요 문제점이다. 이를 극복하기 위해 지속적으로 업데이트되는 최신 정보를 포함한 외부 데이터베이스에서 정보를 검색해 응답을 생성하는 Retrieval-Augmented Generation(RAG, 검색 증강 생성) 모델을 도입하여 LLM의 환각 현상을 최소화하고 효율성과 정확성을 향상하기 위한 연구가 활발히 이루어지고 있다. 본 논문에서는 RAG의 기본 아키텍처를 소개하고, LLM에 RAG를 적용하기 위한 연구 및 최적화의 최신 동향을 분석한다. RAG를 평가하기 위한 다양한 기법들을 소개하고, 실제 산업에서 RAG를 활용하기 위해 성능을 최적화하거나 응용한 사례들을 분석한다. 이를 바탕으로 향후 RAG 모델이 발전할 수 있는 연구 방향성을 제시하고자 한다.

대형 언어 모델: 영상의학 전문가를 위한 종합 안내서 (Large Language Models: A Comprehensive Guide for Radiologists)

  • 김선규;이충근;김승섭
    • 대한영상의학회지
    • /
    • 제85권5호
    • /
    • pp.861-882
    • /
    • 2024
  • 대형 언어 모델은 자연어 처리 분야에 국한되지 않고 기술 산업의 거의 모든 분야에서부터 일상생활에 이르기까지, 전 지구적인 혁신을 가져왔다. 방대한 데이터셋에 대한 광범위한 사전 훈련 덕분에 현대의 대형 언어 모델들은 일반적인 작업뿐 아니라 의료 영상과 같은 전문적인 분야의 작업까지 수행 가능하게 되었다. 업체들은 매우 빠른 속도로 버전 업데이트 및 신규 모델 출시를 발표하고 있고, 그로 인해 초기에 지적되었던 여러 문제점과 한계점들이 하나씩 해결되어 가고 있다. 또한 초기의 스케일링 업 방식의 발전 방향성에서 탈피하여 최근에는 작아진, 온프레미스 오픈 소스 대형 언어 모델의 개념이 주목받고 있고, 이로 인해 전문 의료지식에 대한 미세조정, 훈련 효율성 제고, 개인정보 문제 해결, 성능 변동 관리 등의 이슈들이 해결되어 가고 있다. 본 종설은 대형 언어 모델을 활용하려는 영상의학 전문가에게, 관련 기술에 대한 개념적 지식과 실용적인 지침, 그리고 현재의 기술 지형과 미래 방향성 등을 통합적으로 제공하고자 작성되었다.

LLM 기반 ChatGPT를 활용한 컴퓨터 분야 면접 준비용 AI 모의 면접 시스템의 설계 및 구현에 대한 연구 (A Study on the Design and Implementation of an AI Mock Interview System for Computer Science Interview Preparation Using LLM-based ChatGPT)

  • 천재성;장희권;김지혜;배창민;이동규;문일영
    • 실천공학교육논문지
    • /
    • 제16권5_spc호
    • /
    • pp.643-651
    • /
    • 2024
  • 본 연구는 LLM(Large Language Model) 기반 ChatGPT를 활용하여 Computer Science(CS) 면접 준비를 위한 AI 모의 면접 시스템을 설계하고 구현하는 것을 목표로 한다. 이 시스템은 AI의 자연어 처리와 음성 인식 기능을 통해 면접자의 답변을 실시간으로 분석하고 피드백을 제공하여, 면접 준비 과정에서 학습자의 취약점을 개선할 수 있도록 지원한다. 설문조사 결과, 사용자의 90%가 실시간 피드백 기능이 면접 준비에 실질적인 도움을 주었다고 평가하였다. 주요 기능으로는 GPT 프롬프트 생성, 음성 데이터를 텍스트로 변환하는 Speech-to-Text 기능이 포함된다. 시스템은 응답 시간과 피드백의 정확성 면에서 긍정적인 평가를 받았으며, 향후 연구는 질문 유형의 확장과 다양한 산업 분야로의 적용 가능성을 모색할 예정이다.

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

군(軍) 보고서 등장 문장과 관련 법령 간 비교 시스템 구축 방안 연구 (A Study on the Establishment of Comparison System between the Statement of Military Reports and Related Laws)

  • 정지인;김민태;김우주
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.109-125
    • /
    • 2020
  • 군(軍)에서 방위력개선사업(이하 방위사업)은 매우 투명하고 효율적으로 이루어져야 함에도, 방위사업 관련 법 및 규정의 과도한 다양화로 많은 실무자들이 원활한 방위사업 추진에 어려움을 겪고 있다. 한편, 방위사업 관련 실무자들이 각종 문서에서 다루는 법령 문장은 문장 내에서 표현 하나만 잘못되더라도 심각한 문제를 유발하는 특징을 가지고 있으나, 이를 실시간으로 바로잡기 위한 문장 비교 시스템 구축에 대한 노력은 미미했다. 따라서 본 논문에서는 Siamese Network 기반의 자연어 처리(NLP) 분야 인공 신경망 모델을 이용하여 군(軍)의 방위사업 관련 문서에서 등장할 가능성이 높은 문장과 이와 관련된 법령 조항의 유사도를 비교하여 위법 위험 여부를 판단·분류하고, 그 결과를 사용자에게 인지시켜 주는 '군(軍) 보고서 등장 문장과 관련 법령 간 비교 시스템' 구축 방안을 제안하려고 한다. 직접 제작한 데이터 셋인 모(母)문장(실제 법령에 등장하는 문장)과 자(子)문장(모(母)문장에서 파생시킨 변형 문장) 3,442쌍을 사용하여 다양한 인공 신경망 모델(Bi-LSTM, Self-Attention, D_Bi-LSTM)을 학습시켰으며 1 : 1 문장 유사도 비교 실험을 통해 성능 평가를 수행한 결과, 상당히 높은 정확도로 자(子)문장의 모(母)문장 대비 위법 위험 여부를 분류할 수 있었다. 또한, 모델 학습에 사용한 자(子)문장 데이터는 법령 문장을 일정 규칙에 따라 변형한 형태이기 때문에 모(母)·자(子)문장 데이터만으로 학습시킨 모델이 실제 군(軍) 보고서에 등장하는 문장을 효과적으로 분류한다고 판단하기에는 제한된다는 단점을 보완하기 위해, 실제 군(軍) 보고서에 등장하는 형태에 보다 더 가깝고 모(母)문장과 연관된 새로운 문장 120문장을 추가로 작성하여 모델의 성능을 평가해본 결과, 모(母)·자(子)문장 데이터만으로 학습시킨 모델로도 일정 수준 이상의 성능을 확인 할 수 있었다. 결과적으로 본 연구를 통해 방위사업 관련 군(軍) 보고서에서 등장하는 여러 특정 문장들이 각각 어느 관련 법령의 어느 조항과 가장 유사한지 살펴보고, 해당 조항과의 유사도 비교를 통해 위법 위험 여부를 판단하는 '실시간 군(軍) 문서와 관련 법령 간 자동화 비교 시스템'의 구축 가능성을 확인할 수 있었다.