• 제목/요약/키워드: 인공지능 모델링

검색결과 210건 처리시간 0.028초

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링 (Topic Modeling on Research Trends of Industry 4.0 Using Text Mining)

  • 조경원;우영운
    • 한국정보통신학회논문지
    • /
    • 제23권7호
    • /
    • pp.764-770
    • /
    • 2019
  • 본 연구에서는 "4차 산업"과 관련된 논문들의 세부 연구 주제를 파악하기 위하여 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 이를 위하여 2016년부터 2019년까지 한국학술지인용색인(KCI)에서 "4차 산업"이라는 키워드로 논문을 검색하여 총 685편의 논문을 수집하였다. 논문 수집을 위해서는 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 수집된 논문들에 대한 Perplexity 분석 결과, 9가지 토픽이 최적으로 결정되었고 수집된 논문들의 9가지 대표 토픽들을 Gibbs 샘플링 방법을 사용하여 추출하였다. 분석 결과, 인공지능, 빅데이터, 사물인터넷, 디지털, 네트워크 등이 상위 주요 기술들로 나타났으며, 산업, 정부, 교육 현장, 일자리 등 4차 산업과 관련한 다양한 분야에서 주요 기술들로 인한 변화에 대한 연구들이 이루어져 왔음을 확인할 수 있었다.

토픽모델링을 활용한 대학생의 중도탈락 데이터 분석 (Data Analysis of Dropouts of University Students Using Topic Modeling)

  • 정도헌;박주연
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.88-95
    • /
    • 2021
  • 본 연구의 목적은 대학생의 중도탈락 현상 데이터를 실증적으로 분석하여 대학의 학생지원정책을 수립하기 위한 시사점을 제공하는 데 있다. 이를 위해 D대학의 2017~2019년 입학생 데이터를 토픽모델링 LDA(Latent Dirichlet Allocation)를 활용하여 재학생과 제적생으로 나누어 분석하였다. 연구결과 제적생에서 특징있게 나타난 토픽은 '학적'관련하여 '학기등록 1회', '전공'관련하여 '어문계열학과', '학점'관련하여 '학사경고'이고, '대학생활'관련하여 '비교과 프로그램'에 대한 토픽은 나타나지 않았다. 다음으로 '재학생 토픽'과 '제적생 토픽'의 상호 식별 성능을 측정한 결과, SVM(Support Vector Machines)이 가장 우수한 식별 성능을 보여주었다. 이러한 실험을 통해 기계학습을 활용한 인공지능 기반의 학생 데이터 분류 기법 연구의 가능성을 확인할 수 있었다.

인공면역계의 자기-인식 알고리즘 (Self-Recognition Algorithm of Artificial Immune System)

  • 심귀보;선상준
    • 한국지능시스템학회논문지
    • /
    • 제11권9호
    • /
    • pp.801-806
    • /
    • 2001
  • 최근 컴퓨터의 사용이 보편화되면서 악의적 사용자에 의해 발생하는 컴퓨터 바이러스와 해킹에 의한 피해가 급속히 증가하고 있다. 남의 컴퓨터에 침입하는 해킹이나 데이터를 파괴하는 컴퓨터 바이러스에 의한 피해를 막기 위해 최근에 생명체의 면역시스템의 특징을 이용해 인공면역계를 구성해 시스템 침입탐지와 바이러스 탐지 및 치료에 대한 연구가 활발히 진행 중에 있다. 생체 면역계는 외부에서 침입해 세포나 장기에 피해를 주는 물질인 항원을 스스로 자기세포와 구분해 인식, 제거하는 기능이 있다. 이러한 면역계의 특징인 항원을 인식하는 기능은 자기세포의 확실한 인식을 가지고 있는 상태에서 다른 물질을 구분하는 자기/비자기(self/non-self) 인식방법으로 볼 수 있다. 본 논문에서는 생체 면역계에서 세포독성 T세포의 생성과정의 하나인 Positive Selection을 모델링하여 침입에 의한 데이터 변경과 바이러스에 의한 데이터 감염 등을 탐지할 때 가장 중요한 요소인 자기-인식 알고리즘을 구현하였다. 제안한 알고리즘은 큰 파일에서의 Detection을 구성하기 용이한 점을 가지며 극소변경과 블록변경에 대한 자기인식률을 통해 알고리즘을 유효성을 검증한다.

  • PDF

지능형 교통 시스템을 위한 Graph Neural Networks 기반 교통 속도 예측 (Traffic Speed Prediction Based on Graph Neural Networks for Intelligent Transportation System)

  • 김성훈;박종혁;최예림
    • 한국ITS학회 논문지
    • /
    • 제20권1호
    • /
    • pp.70-85
    • /
    • 2021
  • 최근 활발히 연구되는 딥러닝 방법론은 인공지능의 성능을 급속도로 향상시켰고, 이에 따라 다양한 산업 분야에서 딥러닝을 활용한 시스템이 제시되고 있다. 교통 시스템에서는 GNN을 활용한 공간-시간 그래프 모델링이 교통 속도 예측에 효과적인 것으로 밝혀졌지만, 이는 메모리 병목 현상을 유발하기 때문에 모델이 비효율적으로 학습된다는 단점이 있다. 따라서 본 연구에서는 그래프 분할 방법을 통해 도로 네트워크를 분할하여 메모리 병목 현상을 완화함과 동시에 우수한 성능을 달성하고자 한다. 제안 방법론을 검증하기 위해 인천시 UTIC 데이터 분석 결과를 바탕으로 Jensen-Shannon divergence를 사용하여 도로 속도 분포의 유사도를 측정하였다. 그리고 측정된 유사도를 바탕으로 스펙트럴 클러스터링을 수행하여 도로 네트워크를 군집화하였다. 성능 측정 결과, 도로 네트워크가 7개의 네트워크로 분할되었을 때 MAE 기준 5.52km/h의 오차로 비교 모델 대비 가장 우수한 정확도를 보임과 동시에 메모리 병목 현상 또한 완화되는 것을 확인할 수 있었다.

디지털 휴먼 은행원 발화의 의인화 수준이 사용자 경험에 미치는 영향: 사회적 실재감, 친밀감, 신뢰도, 인지된 지능, 유용성을 중심으로 (Effect of Anthropomorphism Level of Digital Human Banker Speech on User Experience: Focusing on Social Presence, Affinity, Trust, Perceived Intelligence, and Usefulness)

  • 최보미;장서진;강현민
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.469-476
    • /
    • 2022
  • 3D 모델링 기술과 대화 인공지능 알고리즘의 발달로 인해 다양한 분야에서 디지털 휴먼이 활용되고 있고, 신한 은행, 농협 은행 등 주요 은행을 중심으로 은행에서도 가상 은행원이 등장하기 시작했다. 그러나 디지털 휴먼과 관련된 연구는 주로 외형 위주이며, 로봇 의인화 과정에서 고려되어야 하는 퍼소나 설정에 대한 연구는 미비하다. 본 연구에서는 은행 업무라는 구체적인 맥락에서 발화 전략의 의인화 수준과 개인정보 활용 수준이 다른 3가지 시나리오(학생증 수령, 입출금 통장 개설, 전세 자금 대출 상담)에 대한 사용자 경험을 알아보기 위해 실험을 진행하였다. 연구 결과, 사회적 실재감과 유용성은 시나리오와 의인화 수준에 대해 상호작용 효과가 있었다. 친밀감, 신뢰도, 인지된 지능에는 상호작용 효과가 없었지만 경향성을 확인 할 수 있었다.

객체 탐지를 활용한 근로자 충돌 안전관리 시스템 (Worker Collision Safety Management System using Object Detection)

  • 이태준;김성재;황철현;정회경
    • 한국정보통신학회논문지
    • /
    • 제26권9호
    • /
    • pp.1259-1265
    • /
    • 2022
  • 최근 인공지능, 빅데이터, 사물인터넷 기술이 안전사고 예방을 위한 화재 감지, 가스나 유해 물질 감지 등 다양한 솔루션에서 활용되고 있다. 2021년 고용노동부에서 발간한 산업 재해 발생 현황에 따르면, 2020년과 비교해 재해율, 재해자 수, 사망자 수가 증가하였으며 최근에는 중대재해 처벌 등에 관한 법률과 같은 안전조치를 강화하는 등 제도적, 사회적 관심이 높아지고 있다. 본 논문에서는 한국지능정보사회진흥원(NIA)에서 제공한 데이터셋 구축 가이드라인을 참고하여 현장에서 직접 수집해 데이터셋을 직접 구축하고 YOLOv4로 학습하여 객체 탐지를 통해 충돌위험 객체 탐지 시스템을 제안하고자 한다. 위험 상황 규칙 위반에 대한 정확도는 실내 88%, 실외 92%의 탐지 성능을 보였다. 이러한 시스템을 통해 산업 현장에서 발생하는 안전사고를 사전에 분석해 지능형 플랫폼 연구에 활용이 가능할 것으로 사료된다.

학습률 적용에 따른 흉부영상 폐렴 유무 분류 비교평가 (Comparative Evaluation of Chest Image Pneumonia based on Learning Rate Application)

  • 김지율;예수영
    • 한국방사선학회논문지
    • /
    • 제16권5호
    • /
    • pp.595-602
    • /
    • 2022
  • 본 연구는 딥러닝을 이용한 흉부 X선 폐렴 영상에 대하여 정확하고 효율적인 의료영상의 자동진단을 위해서 가장 효율적인 학습률을 제시하고자 하였다. Inception V3 딥러닝 모델에 학습률을 0.1, 0.01, 0.001, 0.0001로 각각 설정한 후 3회 딥러닝 모델링을 수행하였다. 그리고 검증 모델링의 평균 정확도 및 손실 함수 값, Test 모델링의 Metric을 성능평가 지표로 설정하여 딥러닝 모델링의 수행 결과로 획득한 결과값의 3회 평균값으로 성능을 비교 평가하였다. 딥러닝 검증 모델링 성능평가 및 Test 모델링 Metric에 대한 성능평가의 결과, 학습률 0.001을 적용한 모델링이 가장 높은 정확도와 우수한 성능을 나타내었다. 이러한 이유로 본 논문에서는 딥러닝 모델을 이용한 흉부 X선 영상에 대한 폐렴 유무 분류 시 학습률을 0.001로 적용할 것을 권고한다. 그리고 본 논문에서 제시하는 학습률의 적용을 통한 딥러닝 모델링 시 흉부 X선 영상에 대한 폐렴 유무 분류에 대한 인력의 보조적인 역할을 수행할 수 있을 거라고 판단하였다. 향후 딥러닝을 이용한 폐렴 유무 진단 분류 연구가 계속해서 진행될 시, 본 논문의 논문 연구 내용은 기초자료로 활용될 수 있다고 여겨지며 나아가 인공지능을 활용한 의료영상 분류에 있어 효율적인 학습률 선택에 도움이 될 것으로 기대된다.

다이내믹 토픽 모델링의 의미적 시각화 방법론 (Semantic Visualization of Dynamic Topic Modeling)

  • 연진욱;부현경;김남규
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.131-154
    • /
    • 2022
  • 최근 방대한 양의 텍스트 데이터에 대한 분석을 통해 유용한 지식을 창출하는 시도가 꾸준히 증가하고 있으며, 특히 토픽 모델링(Topic Modeling)을 통해 다양한 분야의 여러 이슈를 발견하기 위한 연구가 활발히 이루어지고 있다. 초기의 토픽 모델링은 토픽의 발견 자체에 초점을 두었지만, 점차 시기의 변화에 따른 토픽의 변화를 고찰하는 방향으로 연구의 흐름이 진화하고 있다. 특히 토픽 자체의 내용, 즉 토픽을 구성하는 키워드의 변화를 수용한 다이내믹 토픽 모델링(Dynamic Topic Modeling)에 대한 관심이 높아지고 있지만, 다이내믹 토픽 모델링은 분석 결과의 직관적인 이해가 어렵고 키워드의 변화가 토픽의 의미에 미치는 영향을 나타내지 못한다는 한계를 갖는다. 본 논문에서는 이러한 한계를 극복하기 위해 다이내믹 토픽 모델링과 워드 임베딩(Word Embedding)을 활용하여 토픽의 변화 및 토픽 간 관계를 직관적으로 해석할 수 있는 방안을 제시한다. 구체적으로 본 연구에서는 다이내믹 토픽 모델링 결과로부터 각 시기별 토픽의 상위 키워드와 해당 키워드의 토픽 가중치를 도출하여 정규화하고, 사전 학습된 워드 임베딩 모델을 활용하여 각 토픽 키워드의 벡터를 추출한 후 각 토픽에 대해 키워드 벡터의 가중합을 산출하여 각 토픽의 의미를 벡터로 나타낸다. 또한 이렇게 도출된 각 토픽의 의미 벡터를 2차원 평면에 시각화하여 토픽의 변화 양상 및 토픽 간 관계를 표현하고 해석한다. 제안 방법론의 실무 적용 가능성을 평가하기 위해 DBpia에 2016년부터 2021년까지 공개된 논문 중 '인공지능' 관련 논문 1,847건에 대한 실험을 수행하였으며, 실험 결과 제안 방법론을 통해 다양한 토픽이 시간의 흐름에 따라 변화하는 양상을 직관적으로 파악할 수 있음을 확인하였다.

SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상 (Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection)

  • 김종훈;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.455-464
    • /
    • 2022
  • 제조업의 공정에서 생성되는 데이터셋은 크게 두 가지 특징을 가진다. 타겟 클래스의 심각한 불균형과 지속적인 Out-of-Distribution(OoD) 샘플의 발생이다. 클래스 불균형은 SMOTE 및 다양한 샘플링 전략을 통해서 대응할 수 있다. 그러나, OoD 탐색은 현재까지 인공신경망 영역에서만 다뤄져 왔다. OoD 탐색의 적용이 가능한 인공신경망은 제조공정 데이터셋에 대해서 만족스러운 성능을 발현하지 못한다. 원인은 제조공정의 데이터셋이 인공신경망에서 일반적으로 다루는 이미지, 텍스트 데이터셋과 비교해서 크기가 매우 작고, 노이즈가 심하다는 것이다. 또한 인공신경망의 과적합(overfitting) 문제도 제조업 데이터셋에서 인공신경망의 성능을 저하하는 원인으로 지적된다. 이에 현재까지 시도된 바 없는 SVM 알고리즘과 OoD 탐색의 접목을 시도하였다. 또한 예측모델의 정밀도 향상을 위해 배깅(Bagging) 알고리즘을 모델링에 반영하였다.