• 제목/요약/키워드: 대규모 언어모델

검색결과 83건 처리시간 0.02초

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

생성형 AI의 의료적 활용과 개인정보보호 (A Study on the Medical Application and Personal Information Protection of Generative AI)

  • 이수경
    • 의료법학
    • /
    • 제24권4호
    • /
    • pp.67-101
    • /
    • 2023
  • 생성형 AI의 활용은 교육계를 넘어서 이미 의료계에서도 의료 기기에 임상 소프트웨어 등의 도입 등으로 연구되고 있다. 생성형 AI는 대규모 대화형 언어모델을 활용하여 방대한 데이터를 이해하고 자료를 선별하는 시간과 에너지를 줄여주면서 사용자와 끊임없는 대화를 통한 정보의 전달이 가능하다. 바로 이러한 점이 인류에게 생성형 AI가 혁신적인 기술의 등장으로 인정받고 있는 점이기도 하다. 그러나 반면 사용자에게 제공되는 컨텐츠의 정합성은 출처나 근거 없이 사용자에게 판단의 영역으로 맡겨지고 있다. 그러나 이 글에서는 생성형 AI를 활용함에 있어서 가장 직접적으로 발생할 수 있는 쟁점을 우선적으로 살펴보기로 한다. 따라서 이 글에서는 생성형 AI의 대표적인 프로그램인 Chat GPT의 발전과 이용자의 활용에 대비하여 특히 개인정보 보호의 쟁점에 대하여 논의하였다. 이를 위하여 먼저 생성형 AI의 기술적인 특성을 살펴본 뒤에 발생 가능한 민사적 쟁점 가운데에서도 개인정보 보호에 관한 문제를 우선적으로 살펴보았다. 생성형 AI는 그 자체로서 학습 데이터의 편향이나 출처 없는 결과값의 제공 등 여러 문제점이 제기되고 있으나, 이러한 문제점은 윤리적 문제를 내포하는 것으로 당장 임상 소프트웨어로서 의료기기에서 활용될 경우 개인정보 보호법제와 보건의료데이터의 활용 가이드로 환자 혹은 이용자의 개인정보를 보호할 수 있을 것인가에 대한 의문에 대한 논의가 시급하다고 판단되었다. 우리나라의 개인정보 보호법제는 특히 보건의료데이터의 활용에서 특정 개인의 개인정보를 가명처리하고 비식별조치를 취하는 데에 적절한 프로세스를 갖추고 있는 것으로 보이나, 생성형 AI이 소프트웨어로서 의료기기에 적용되었을 경우에도 이 법제로서 개인정보 보호의 목적을 이루기에는 어려운 점이 있다. 임상 소프트웨어에서 활용될 생성형 AI의 기능을 대비하기 위해서는 생성형 AI에 걸맞는 개인정보 보호의 법제가 필요할 것으로 보인다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.