• 제목/요약/키워드: 토픽 모델링

검색결과 575건 처리시간 0.023초

Crunchbase를 바탕으로 한 Generative AI 영향 분석: ChatGPT 등장 전·후를 중심으로 (Analysis of the Impact of Generative AI based on Crunchbase: Before and After the Emergence of ChatGPT)

  • 김나윤;금영정
    • 벤처창업연구
    • /
    • 제19권3호
    • /
    • pp.53-68
    • /
    • 2024
  • Generative AI는 전 세계적으로 많은 관심을 받고 있으며, 이를 비즈니스 환경에서 효과적으로 활용하기 위한 방안이 모색되고 있다. 특히 OpenAI사에서 개발한 Large Language Model인 GPT-3.5 모델을 적용한 ChatGPT 서비스의 대중 공개 이후 더욱 주목받으며 전반적인 산업 분야에 큰 영향을 미치고 있다. 이 연구는 Generative AI, 특히 그 중에서도 OpenAI사의 GPT-3.5 모델을 적용한 ChatGPT의 등장에 초점을 맞춰 스타트업 업계에 미치는 영향을 조사하고 등장 이전과 이후에 일어난 변화를 비교하였다. 본 연구는 스타트업 업계에서 Generative AI가 어떻게 활용되고 있는지를 상세히 조사하고 ChatGPT의 등장이 업계에 미친 영향을 분석함으로써 비즈니스 환경에서 Generative AI의 실제 적용과 영향력을 밝히는 것을 목표로 한다. 이를 위해 ChatGPT 발표 전후에 등장한 Generative AI 관련 스타트업의 기업 정보를 수집하여 산업군, 사업 내용, 투자 정보 등의 변화를 분석하였다. 키워드 분석, 토픽 모델링, 네트워크 분석을 통해 스타트업 업계의 동향과 Generative AI의 도입이 스타트업 업계에 어떤 혁신을 가져왔는지 파악하였다. 연구 결과, ChatGPT의 등장 이후 Generative AI 관련 스타트업의 창업이 증가한 것을 알 수 있었으며 특히 Generative AI 관련 스타트업의 자금 조달 총액과 평균 금액이 크게 증가한 것을 확인할 수 있었다. 또한, 다양한 산업군에서 Generative AI 기술을 적용하고자 하는 시도를 보이고 이를 활용한 기업용 애플리케이션, SaaS 등 서비스와 제품의 개발이 활발해지며 새로운 비즈니스 모델의 등장에 영향을 미치고 있음을 확인하였다. 본 연구 결과를 통해 Generative AI가 스타트업 업계에 미치는 영향을 확인하였으며, 이러한 혁신적인 신기술의 등장이 비즈니스 생태계에 어떠한 변화를 가져다 줄 수 있는 지 이해하는데 이바지할 수 있다.

  • PDF

디지털 리터러시 교육 연구 현황 분석 -과학교육에서의 디지털 위험 대응을 위한 함의 도출 - (An Analysis of Research Trends in Digital Literacy Education: Implications for Responding to Digital Risks in Science Education)

  • 김가은;장원빈;김민철
    • 한국과학교육학회지
    • /
    • 제44권5호
    • /
    • pp.433-451
    • /
    • 2024
  • 디지털 기술의 급속한 발전은 디지털 위험을 수반하여 현대 사회를 디지털 위험 사회로의 진입으로 이끌었다. 특히 디지털 기술의 교육적 활용이 활발해짐에 따라 교육계에서의 디지털 위험에 대한 논의도 진행되고 있다. 그중 과학 교과는 교육환경의 디지털 전환이 활발하게 이루어진 교과로, 디지털 위험 교육에 대한 방안을 마련할 필요가 있다. 따라서 본 연구는 디지털 리터러시 교육을 과학 교과의 디지털 위험 교육의 방안으로써 탐색하기 위해서 디지털 리터러시 교육에서 논의되는 디지털 위험 유형과 그 연구 현황을 분석하였다. 이를 위해 'Digital Risk'를 키워드로 지난 10년간(2014-2023) 출판된 415편의 SSCI 논문을 수집하여 토픽 모델링과 계층적 군집화를 통해 디지털 위험 유형을 도출하였으며, 이를 활용하여 'Digital Literacy Education'을 키워드로 지난 10년간 출판된 110편의 KCI 논문을 연도별, 학교급별로 분석하고 교과별로 비교 분석하여 과학 교과에서 디지털 위험에 대한 논의의 특징을 파악하였다. 연구 결과, 디지털 위험 유형으로는 지적재산권 침해, 허위정보 유포, 정보 프라이버시 침해, 사이버 금융 범죄, 디지털 리터러시 격차, 디지털 과의존, 사회 구조적 위험이 확인되었다. 또한 연도별로 논문 빈도를 분석한 결과 COVID-19로 인해 전반적인 디지털 위험에 대한 논의가 활성화되었으며, 그중에서도 디지털 리터러시 격차에 대한 연구가 가장 높은 빈도로 이루어졌음을 확인할 수 있었다. 학교급별로 분석한 결과 중등교육보다 초등교육 분야에서 디지털 위험을 다루는 디지털 리터러시 교육 연구가 더 활발하게 이루어졌음을 확인할 수 있었다. 또한 교과별로 비교 분석한 결과 과학 교과에서는 디지털 리터러시 교육 연구 논문 빈도 대비 디지털 위험을 다루는 연구의 비중이 가장 낮음을 확인할 수 있었고, 과학 교과에서 논의되는 디지털 위험으로는 '지적재산권 침해', '허위정보 유포', '디지털 리터러시 격차'를 확인할 수 있었다. 이를 통해 본 연구는 과학 교육에서의 디지털 위험에 대한 논의의 필요성을 제언하고 이를 위한 기초자료를 제공한다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.