• 제목/요약/키워드: Generative artificial intelligence (AI)

검색결과 88건 처리시간 0.022초

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

Reddit 소셜미디어를 활용한 ChatGPT에 대한 사용자의 감정 및 요구 분석 (Analysis of Users' Sentiments and Needs for ChatGPT through Social Media on Reddit)

  • 나혜인;이병희
    • 인터넷정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.79-92
    • /
    • 2024
  • ChatGPT는 생성형 인공지능(Generative AI) 기술을 활용한 대표적인 챗봇으로서 과학기술 영역뿐만 아니라 사회, 경제, 산업, 문화 등 당양한 분야에서 유용하게 활용되고 있다. 본 연구는 글로벌 소셜미디어 레딧(Reddit)을 활용해 ChatGPT에 대한 사용자의 감정과 요구에 대한 탐색적인 분석을 수행한다. 이를 위해, 2022년 12월부터 2023년 8월까지의 댓글 10,796건을 수집하여 키워드 분석, 감성 분석, 니드마이닝(Needmining) 기반 토픽모델링을 실시하였다. 분석 결과, ChatGPT에 대한 댓글에서 출현 빈도가 가장 높은 단어는 "time"으로 답변의 신속성, 시간 효율성, 생산성 향상을 강조한 것으로 나타났다. 사용자들은 ChatGPT에 대해 신뢰와 기대의 감정과 동시에 사회적 영향에 대한 두려움과 분노의 감정을 표현하였다. 또한, 토픽모델링 분석을 통해 잠재적 니즈(Needs)를 포함한 14개의 주제를 도출하였고, 사용자들이 특히 ChatGPT에 대한 교육적 활용과 사회적 영향에 많은 관심을 보였다. 또한, ChatGPT와 관련된 언어모델, 직업, 정보, 의료, 서비스, 게임, 규제, 에너지, 윤리적 문제 등 다양한 주제들이 논의된 것을 알 수 있었다. 분석 결과를 바탕으로 사용자들의 요구를 반영하여 향후 실행계획의 방향을 제시하였다. 본 연구는 향후 ChatGPT를 이용하여 제품과 서비스를 개선하고, 새로운 서비스 플랫폼 기획 단계에서 유용한 정보를 제공할 것으로 기대된다.

챗GPT 리터러시가 학업열의에 미치는 영향: 학업자신감과 지각된 학업역량의 이중매개효과를 중심으로 (The Influence of ChatGPT Literacy on Academic Engagement: Focusing on the Serial Mediation Effect of Academic Confidence and Perceived Academic Competence)

  • 이은성;전용철
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.565-574
    • /
    • 2024
  • 챗GPT는 우리 사회의 모든 분야에 커다란 반향을 일으키고 있으며, 이는 교육 분야에서도 마찬가지이다. 하지만 학교 현장에서의 챗GPT에 관한 학계 및 사회적 논의는 주로 표절과 같은 부정행위에 초점이 맞춰져있으며, 학생들의 인공지능 기술 활용으로 인한 긍정적인 효과에 대해서는 상대적으로 연구가 부족한 실정이다. 그와 더불어, 코로나 시대의 교육 위기 속에서 학업열의를 증진시키는 연구의 필요성이 제기되고 있다. 이러한 문제인식에 따라 우리는 학생들의 챗GPT 리터러시 수준에 따라 학업열의가 어떻게 나타나는지에 대해 알아보고, 그 과정에서 학생들의 학업 자신감 및 지각된 학업역량이 매개효과를 나타내는지를 확인했다. 이를 위해 406명의 대학생을 대상으로 수집한 데이터를 SPSS로 분석했다. 그 결과, 챗GPT 리터러시는 학업열의에 긍정적인 영향을 미치는 것이 확인되었으며, 학업자신감은 챗GPT 리터러시와 학업열의 사이를 매개했다. 또한 학업자신감과 지각된 학업역량은 이중으로 매개되었을 때 유의한 결과를 도출했다. 이러한 결과를 바탕으로 우리는 챗GPT 리터러시와 학업열의 사이의 이론적 매커니즘을 명확히 규명할 수 있다는 이론적 함의를 논하였다. 또한 이와 관련하여 챗GPT 리터러시 교육의 중요성에 관한 실용적 함의에 대해도 기술하였다.

GPT를 활용한 개인정보 처리방침 안전성 검증 기법 (Safety Verification Techniques of Privacy Policy Using GPT)

  • 심혜연;권민서;윤다영;서지영;이일구
    • 정보보호학회논문지
    • /
    • 제34권2호
    • /
    • pp.207-216
    • /
    • 2024
  • 4차 산업혁명으로 인해 빅데이터가 구축됨에 따라 개인 맞춤형 서비스가 급증했다. 이로 인해 온라인 서비스에서 수집하는 개인정보의 양이 늘어났으며, 사용자들의 개인정보 유출 및 프라이버시 침해 우려가 높아졌다. 온라인 서비스 제공자들은 이용자들의 프라이버시 침해 우려를 해소하기 위해 개인정보 처리방침을 제공하고 있으나, 개인정보 처리방침은 길이가 길고 복잡하여 이용자가 직접 위험 항목을 파악하기 어려운 문제로 인해 오남용되는 경우가 많다. 따라서 자동으로 개인정보 처리방침이 안전한지 여부를 검사할 수 있는 방법이 필요하다. 그러나 종래의 블랙리스트 및 기계학습 기반의 개인정보 처리방침 안전성 검증 기법은 확장이 어렵거나 접근성이 낮은 문제가 있다. 본 논문에서는 문제를 해결하기위해 생성형 인공지능인 GPT-3.5 API를 이용한 개인정보 처리방침 안전성 검증 기법을 제안한다. 새로운 환경에서도 분류 작업을 수행할 수 있고, 전문 지식이 없는 일반인이 쉽게 개인정보 처리방침을 검사할 수 있다는 가능성을 보인다. 실험에서는 블랙리스트 기반 개인정보 처리방침과 GPT 기반 개인정보 처리방침이 안전한 문장과 안전하지 않은 문장의 분류를 얼마나 정확하게 하는지와 분류에 소요된 시간을 측정했다. 실험 결과에 따르면, 제안하는 기법은 종래의 블랙리스트 기반 문장 안전성 검증 기법보다 평균적으로 10.34% 높은 정확도를 보였다.

딥 러닝 기반 코로나19 흉부 X선 판독 기법 (A COVID-19 Chest X-ray Reading Technique based on Deep Learning)

  • 안경희;엄성용
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.789-795
    • /
    • 2020
  • 전 세계적으로 유행하는 코로나19로 인해 많은 사망자가 보고되고 있다. 코로나19의 추가 확산을 막기 위해서는 의심 환자에 대해 신속하고 정확한 영상판독을 한 후, 적절한 조치를 취해야 한다. 이를 위해 본 논문은 환자의 감염 여부를 의료진에게 제공해 영상판독을 보조할 수 있는 딥 러닝 기반 코로나19 흉부 X선 판독 기법을 소개한다. 우선 판독모델을 학습하기 위해서는 충분한 데이터셋이 확보되어야 하는데, 현재 제공하는 코로나19 오픈 데이터셋은 학습의 정확도를 보장하기에 그 영상 데이터 수가 충분하지 않다. 따라서 누적 적대적 생성 신경망(StackGAN++)을 사용해 인공지능 학습 성능을 저하하는 영상 데이터 수적 불균형 문제를 해결하였다. 다음으로 판독모델 개발을 위해 증강된 데이터셋을 사용하여 DenseNet 기반 분류모델 학습을 진행하였다. 해당 분류모델은 정상 흉부 X선과 코로나 19 흉부 X선 영상을 이진 분류하는 모델로, 실제 영상 데이터 일부를 테스트데이터로 사용하여 모델의 성능을 평가하였다. 마지막으로 설명 가능한 인공지능(eXplainable AI, XAI) 중 하나인 Grad-CAM을 사용해 입력 영상의 질환유무를 판단하는 근거를 제시하여 모델의 신뢰성을 확보하였다.

Pix2Pix의 수용 영역 조절을 통한 전통 고궁 이미지 복원 연구 (A Study on the Restoration of Korean Traditional Palace Image by Adjusting the Receptive Field of Pix2Pix)

  • 황원용;김효관
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권5호
    • /
    • pp.360-366
    • /
    • 2022
  • 본 논문은 흑백 사진으로만 남아 있는 한국의 전통 고궁 사진을 적대적 생성 신경망 기법의 하나인 Pix2Pix를 활용하여 컬러 사진으로 복원하기 위한 학습 모델 구조를 제시한다. Pix2Pix는 합성 이미지를 생성기와 합성 여부를 판정하는 판별기의 학습 모델 조합으로 구성된다. 본 논문은 판별기의 수용 영역을 조절하여 인공지능 모델을 학습하고 그 결과를 고궁 사진이 가지는 특성을 고려하여 분석하는 내용을 다룬다. 기존에 흑백 사진 복원에 사용하는 Pix2Pix의 수용 영역은 주로 고정된 크기로 사용하였으나 이미지의 변화가 다양한 고궁 사진을 복원함에 있어서는 고정된 수용 영역을 일률적으로 적용하기에 적합하지 않다. 본 논문에서는 고궁의 특성을 반영할 수 있는 판별기의 수용 영역을 확인하기 위해 기존의 고정된 수용 영역의 크기를 변화시켜 나타나는 결과를 관찰하였다. 실험은 사전에 준비한 고궁 사진을 기반으로 판별기의 수용 영역을 조정하고 모델의 학습을 진행하였다. 판별기의 수용 영역 변화에 따른 모델의 손실을 측정하고 최종 학습한 학습 모델을 복원 대상 흑백 사진에 대입하여 복원 결과를 확인한다.

비접촉 데이터 사회와 아카이브 재영토화 (Contactless Data Society and Reterritorialization of the Archive )

  • 조민지
    • 기록학연구
    • /
    • 제79호
    • /
    • pp.5-32
    • /
    • 2024
  • 한국 정부가 UN의 2022년 전자정부 발전 지수에서 UN가입 193개국 중 3위에 랭크됐다. 그동안 꾸준히 상위국으로 평가된 한국은 분명 세계 전자정부의 선도국이라 할 수 있다. 전자정부의 윤활유는 데이터다. 데이터는 그 자체로 정보가 아니고 기록도 아니지만 정보와 기록의 원천이며 지식의 자원이다. 전자적 시스템을 통한 행정 행위가 보편화된 이후 당연히 데이터에 기반한 기록의 생산과 기술이 확대되고 진화하고 있다. 기술은 가치중립적인 듯 보이지만 사실 그 자체로 특정 세계관을 반영하고 있다. 더구나 비물질적 유통을 기반으로 하는 디지털 세계, 온라인 네트워크의 또 다른 아이러니는 반드시 물리적 도구를 통해서만 접속하고 접촉할 수 있다는 점이다. 디지털 정보는 논리적 대상이지만 반드시 어떤 유형이든 그것을 중계할 장치 없이는 디지털 자원을 읽어 내거나 활용할 수 없다. 초연결, 초지능을 무기로 하는 새로운 기술의 디지털 질서는 전통적인 권력 구조에 깊은 영향력을 끼칠 뿐만 아니라 기존의 정보 및 지식 전달 매개체에도 마찬가지의 영향을 미치고 있다. 더구나 데이터에 기반한 생성형 인공지능을 비롯해 새로운 기술과 매개가 단연 화두다. 디지털 기술의 전방위적 성장과 확산이 인간 역능의 증강과 사유의 외주화 상황까지 왔다고 볼 수 있을 것이다. 여기에는 딥 페이크를 비롯한 가짜 이미지, 오토 프로파일링, 사실처럼 생성해 내는 AI 거짓말(hallucination), 기계 학습데이터의 저작권 침해에 이르기까지 다양한 문제점 또한 내포하고 있다. 더구나 급진적 연결 능력은 방대한 데이터의 즉각적 공유를 가능하게 하고 인지 없이 행위를 발생시키는 기술적 무의식에 의존하게 된다. 그런 점에서 지금의 기술 사회의 기계는 단순 보조의 수준을 넘어서고 있으며 기계의 인간 사회 진입은 고도의 기술 발전에 따른 자연적인 변화 양상이라고 하기에는 간단하지 않은 지점이 존재한다. 시간이 지나며 기계에 대한 관점이 변화하게 될 것이기 때문이다. 따라서 중요한 것은 기계를 통한 커뮤니케이션, 행위의 결과로서의 기록이 생산되고 사용되는 방식의 변화가 의미하는 사회문화적 함의에 있다. 아카이브 영역에서도 초지능, 초연결사회를 향한 기술의 변화로 인해 데이터 기반 아카이브 사회는 어떤 문제에 직면하게 될 것인지, 그리고 그 속에서 누가 어떻게 기록과 데이터의 지속적 활동성을 입증하고 매체 변화의 주요 동인이 될 것인가에 대한 연구가 필요한 시점이다. 본 연구는 아카이브가 행위의 결과인 기록뿐만 아니라 데이터를 전략적 자산으로 인식할 필요성에서 시작했다. 이를 통해 전통적 경계를 확장하고 데이터 중심 사회에서 어떻게 재영토화를 이룰 수 있을지를 알아보았다.

Generative Adversarial Network-Based Image Conversion Among Different Computed Tomography Protocols and Vendors: Effects on Accuracy and Variability in Quantifying Regional Disease Patterns of Interstitial Lung Disease

  • Hye Jeon Hwang;Hyunjong Kim;Joon Beom Seo;Jong Chul Ye;Gyutaek Oh;Sang Min Lee;Ryoungwoo Jang;Jihye Yun;Namkug Kim;Hee Jun Park;Ho Yun Lee;Soon Ho Yoon;Kyung Eun Shin;Jae Wook Lee;Woocheol Kwon;Joo Sung Sun;Seulgi You;Myung Hee Chung;Bo Mi Gil;Jae-Kwang Lim;Youkyung Lee;Su Jin Hong;Yo Won Choi
    • Korean Journal of Radiology
    • /
    • 제24권8호
    • /
    • pp.807-820
    • /
    • 2023
  • Objective: To assess whether computed tomography (CT) conversion across different scan parameters and manufacturers using a routable generative adversarial network (RouteGAN) can improve the accuracy and variability in quantifying interstitial lung disease (ILD) using a deep learning-based automated software. Materials and Methods: This study included patients with ILD who underwent thin-section CT. Unmatched CT images obtained using scanners from four manufacturers (vendors A-D), standard- or low-radiation doses, and sharp or medium kernels were classified into groups 1-7 according to acquisition conditions. CT images in groups 2-7 were converted into the target CT style (Group 1: vendor A, standard dose, and sharp kernel) using a RouteGAN. ILD was quantified on original and converted CT images using a deep learning-based software (Aview, Coreline Soft). The accuracy of quantification was analyzed using the dice similarity coefficient (DSC) and pixel-wise overlap accuracy metrics against manual quantification by a radiologist. Five radiologists evaluated quantification accuracy using a 10-point visual scoring system. Results: Three hundred and fifty CT slices from 150 patients (mean age: 67.6 ± 10.7 years; 56 females) were included. The overlap accuracies for quantifying total abnormalities in groups 2-7 improved after CT conversion (original vs. converted: 0.63 vs. 0.68 for DSC, 0.66 vs. 0.70 for pixel-wise recall, and 0.68 vs. 0.73 for pixel-wise precision; P < 0.002 for all). The DSCs of fibrosis score, honeycombing, and reticulation significantly increased after CT conversion (0.32 vs. 0.64, 0.19 vs. 0.47, and 0.23 vs. 0.54, P < 0.002 for all), whereas those of ground-glass opacity, consolidation, and emphysema did not change significantly or decreased slightly. The radiologists' scores were significantly higher (P < 0.001) and less variable on converted CT. Conclusion: CT conversion using a RouteGAN can improve the accuracy and variability of CT images obtained using different scan parameters and manufacturers in deep learning-based quantification of ILD.