• 제목/요약/키워드: 상황적 텍스트

검색결과 295건 처리시간 0.023초

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

음성 데이터의 내재된 감정인식을 위한 다중 감정 회귀 모델 (Multi-Emotion Regression Model for Recognizing Inherent Emotions in Speech Data)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.81-88
    • /
    • 2023
  • 최근 코로나19로 인한 비대면 서비스의 확산으로 온라인을 통한 소통이 증가하고 있다. 비대면 상황에서는 텍스트나 음성, 이미지 등의 모달리티를 통해 상대방의 의견이나 감정을 인식하고 있다. 현재 다양한 모달리티를 결합한 멀티모달 감정인식에 관한 연구가 활발하게 진행되고 있다. 그중 음성 데이터를 활용한 감정인식은 음향 및 언어정보를 통해 감정을 이해하는 수단으로 주목하고 있으나 대부분 단일한 음성 특징값으로 감정을 인식하고 있다. 하지만 대화문에는 다양한 감정이 복합적으로 존재하기 때문에 다중 감정을 인식하는 방법이 필요하다. 따라서 본 논문에서는 복합적으로 존재하는 내재된 감정인식을 위해 음성 데이터를 전처리한 후 특징 벡터를 추출하고 시간의 흐름을 고려한 다중 감정 회귀 모델을 제안한다.

텍스트 마이닝 기법을 이용한 정보시스템 분야 연구 동향 분석 (Exploring Dynamics of Information Systems Research Trend Using Text Mining Approach)

  • 안정국;김소담;김희웅
    • 경영정보학연구
    • /
    • 제18권3호
    • /
    • pp.73-96
    • /
    • 2016
  • 최근 정보통신기술(Information and Communication Technology) 및 사물인터넷 시대가 도래함에 따라 융복합 환경에 따른 다양한 기술의 발전이 이루어지고 있다. 이에 따라 관련 학문에 대한 이론 및 활용 기술에 대한 관심이 고조되고 있는 상황이다. 이러한 패러다임의 변화는 학문들 간의 급격한 융복합 현상을 초래하였으며, 특히 정보시스템학(Information Systems)은 이러한 변화를 선도해 왔다. 정보시스템학은 다른 학문들과의 관계에 있어서 분화적(Divergence) 역할에서 나아가 융합적(Convergence) 역할까지 수행하고 있으나, 이러한 연구 동향에 관한 연구는 부족한 실정이다. 따라서, 본 연구에서는 시간 경과에 따른 정보시스템의 연구동향을 비교 분석하여 핵심 개념들을 살펴봄으로써 향후 정보시스템학 연구의 방향에 대한 시사점을 찾고자 한다. 구체적으로, 1980년부터 2015년까지의 경영 정보학의 상위 국제저널 48,102개의 논문제목, 저자, 초록, 키워드 분석을 통해 저자들의 공동 연구 네트워크 분석 및 연구 토픽 추출 결과를 연대별로 비교 분석하여 시각화하였다. 본 연구의 결과가 정보시스템 분야의 연구자들에게 정보시스템의 정체성에 대한 폭넓은 이해와 향후 연구 방향에 대한 새로운 시사점을 주기를 기대한다.

Scheme 프로그래밍 모바일 앱 구현과 인터프리터 성능 평가 (Implementation of a Scheme Mobile Programming Application and Performance Evaluation of the Interpreter)

  • 김동섭;한상곤;우균
    • 정보처리학회 논문지
    • /
    • 제13권3호
    • /
    • pp.122-129
    • /
    • 2024
  • 최근 프로그래밍 교육의 중요성이 강조되고 있지만, 초·중·고교 학생들은 프로그래밍 교육에 어려움을 겪고 있다. 대부분의 프로그래밍 환경이 블록 코딩을 바탕으로 이루어지고 있는데 이는 텍스트 코딩으로의 이행에 방해가 된다. 전통적인 PC 환경도 유지 관리 문제 등 어려움이 있다. 이러한 상황에서 모바일 앱은 대안적 프로그램 교육환경으로 생각해 볼 수 있다. 이 논문에서는 이동형 기기에서 프로그램을 작성할 수 있는 모바일 앱 설계하고 구현하였다. 첫 사례로 Scheme 인터프리터 모바일 앱을 구현하였는데, Scheme은 다중 패러다임 프로그래밍을 지원하는 교육용 언어로 MIT의 프로그래밍 교과에 사용되고 있다. 구현된 앱은 독립형 앱으로 설계되어 네트워크를 사용하지 않아도 된다는 장점이 있다. 벤치마크 수행결과, PC 수행 시간에 대한 안드로이드 기기 수행 시간은 Derivative 벤치마크 131%와 Tak 벤치마크 157%로 나타났다. 또한, 안드로이드 기기에서 벤치마크 프로그램의 수행 시간 최댓값은 Derivative 벤치마크 19.8ms, Tak 벤치마크 131.15ms로 나타났다. 이는 안드로이드 기기를 프로그래밍 교육용으로 선택 시 실습에 큰 제약이 되지 않음을 나타낸다.

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.

문헌동시인용 분석을 통한 한국학 지식구조 파악: 주체 인식과 타자 인식의 차이 (Detection of Knowledge Structure of Korean Studies Using Document Co-citation Analysis: the Difference between Self-perception and Others' Perception)

  • 김혜진
    • 한국도서관정보학회지
    • /
    • 제51권1호
    • /
    • pp.179-200
    • /
    • 2020
  • 한국학의 연구 범위는 한국의 역사, 문학, 정치, 사회, 경제, 종교 등 한국과 관련된 모든 영역을 망라하고 있다. 본 연구는 문헌동시인용 분석과 텍스트마이닝 기법을 사용하여 한국학 지식구조를 정의하였다. 그리고 한국학을 다룬 주체에 따라 한국에서 논의된 한국 연구를 주체 인식 한국학, 한국 이외의 지역에서 논의된 한국 연구를 타자 인식 한국학으로 나누어 하위영역을 비교·분석하였다. 이를 위해서 SCOPUS 데이터베이스에서 'Korea' 또는 'Korean' 이라는 단어를 키워드로 포함하고 있는 인문·사회 분야 문헌 10,929건을 수집하였다. 분석결과 주체 인식 한국학의 지식구조에서는 총 20개의 하위영역이 발견되었고, 타자 인식 한국학의 지식구조에서는 총 14개의 하위영역이 발견되었다. 주체 인식의 한국학과 타자 인식의 한국학의 하위영역 구성에 있어서 차이점은 첫째, 주체 인식 한국학의 하위영역이 타자 인식 한국학의 하위영역보다 더 다양한 영역으로 세분되어 있다는 것, 둘째, 주체 인식 한국학은 마케팅/소비자와 서비스, 산업화, 다문화, 정신건강, 관광, 한국어, 환경과 도시 등이 주요 영역을 차지하고 있고, 타자 인식 한국학은 크게 한국 대내외의 상황, 한국 대중문화, 미국 이민자로서의 한국인, 한국어/한국어 습득이 주요 영역을 차지하고 있는 것으로 나타났다. 마지막으로 주체 인식과 타자 인식에서 공통적으로 보이는 영역은 정신건강, 관광, 한국어, 탈주민, 청소년 비행 등이었다.

위치 기반 서비스에 따른 모바일 광고 효과에 관한 연구 - 제품 관여도와 모바일 광고의 표현 형태를 중심으로 - (A Study on Mobile Advertising Effects for Location-Based Advertisement - Focuse on both of Product Involvement and Forms of Advertising Expression -)

  • 이종호
    • 경영과정보연구
    • /
    • 제31권4호
    • /
    • pp.109-137
    • /
    • 2012
  • 본 연구는 위치기반의 모바일 광고가 해당 제품의 관여도와 메시지의 표현형태에 따라 어떠한 광고효과가 있는지를 살펴보고자 하였다. 이를 본 연구에서는 구체적으로 위치기반을 유와 무로 구분, 관여도의 경우 고관여와 저관여 그리고, 표현형태에 있어서는 텍스트 형식과 이미지 형식으로 구분하였다. 또한 광고효과를 측정하기 위하여 선행연구들의 검토를 통한 광고태도, 브랜드 태도, 구매의도를 본 연구의 종속변수로 선정하였다. 본 연구의 실증분석의 결과를 살펴보면 다음과 같다. 첫째, 저관여 제품의 경우 상대적으로 고관여 제품의 경우보다 더 낮은 광고효과가 있는 것으로 나타났는데, 이는 소비자들이 모바일 광고 그 자체에 대해서 아직은 저관여 상태에 있기 때문에 기인하지 않아나 사료된다. 둘째, 단순한 문자 형식의 텍스트 광고보다는 다소 그림을 이용한 이미지 형식의 모바일 광고의 효과가 더 높은 것으로 나타났으며, 이는 다른 선행연구들과도 일맥상통하는 부분이라 할 수 있다. 셋째, 본 연구의 주요 효과의 검증이라 할 수 있는 위치기반의 유/무에 따른 모바일 광고의 효과와 관련해서는 위치기반을 이용한 모바일 광고가 그렇지 않은 광고 보다 더 효과적인 것으로 실증분석 결과 나타났다. 이는 이러한 위치기반의 상황이 해당 소비자들의 즉각적인 반응과 더 밀접한 관련이 있다는 것으로 유추해 볼 수 있다. 끝으로, 본 연구는 해당 마케팅 관리자 및 연구자들을 위한 시사점이 제시되고 있다.

  • PDF

비정형 빅데이터를 이용한 COVID-19 주요 이슈 분석 (Analysis of Major COVID-19 Issues Using Unstructured Big Data)

  • 김진솔;신동훈;김희웅
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.145-165
    • /
    • 2021
  • 2019년 12월 말, 전 세계를 혼란에 빠트린 코로나바이러스감염증-19(COVID-19)의 팬데믹이 시작되었다. 이러한 위기를 극복하고 피해를 최소화하기 위해 정부와 기관에서는 기존의 정책지원 효과를 극대화하고 변화하는 사회를 반영한 전방위적 대응책 마련이 필요하다. 사회적으로 부각되는 논제와 관심사항의 주제를 파악하기 위해, 본 연구는 소셜미디어의 빅데이터를 통해 코로나19와 관련된 주요 생각, 태도, 감정 등을 파악한다. 특히 정부의 대응에 관한 대중의 견해를 알기 위해 '정부 대응방향'을 기준으로 시기를 나누어 분석을 진행했다. 분석에 활용한 데이터는 네이버를 통해 2019년 12월 31일부터 2020년 12월 12일까지 수집되었다. 또한, 분석을 위해 텍스트마이닝 기법 중 TF-IDF 키워드 추출과 LDA 토픽모델링을 활용하였다. 그 결과, 8개의 코로나19 관련 주요 이슈가 도출되었으며, 이러한 이슈 사항과 주요 키워드를 기반으로 해당 분야에서의 코로나19 및 감염병 대응 정책 전략을 제시하였다. 본 연구는 코로나19 팬데믹과 같은 위기상황에 정부와 관련 기관이 국민의 필요와 요구에 따른 정확한 대응책을 마련하는 데 기초자료를 제공했다는 점에서 의의를 가진다.

코로나 19 하에서 재난문자 내의 정보유형 및 특성: 서울특별시 재난문자를 중심으로 (Information types and characteristics within the Wireless Emergency Alert in COVID-19: Focusing on Wireless Emergency Alerts in Seoul)

  • 윤성욱;남기환
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.45-68
    • /
    • 2022
  • 대한민국 중앙부처, 지방자치단체는 코로나 19가 급속도로 확산하는 팬데믹 상황에서 재난상황 극복을 위해 재난대응에 필요한 정보를 재난문자를 통해 제공하였다. 재난문자는 국민들이 가장 많이 접하는 재난정보 전달수단으로서, 휴대폰에 직접 방송하는 CBS(Cell Broadcast Service) 방식을 채택하고 있어 직접 찾아보는 수고스러움 없이 휴대폰을 통해 쉽게 정보를 접할 수 있다는 장점이 있다. 본 연구는 지난 1년 1개월간(2020년 1월~2021년 1월) 서울특별시에 발송된 재난문자의 특성을 다양한 텍스트마이닝 방법론 등을 통해 도출하고 재난문자에 포함된 다양한 유형의 정보가 국민들의 이동 행태에 어떠한 영향을 미쳤는지를 서울특별시 지역구의 연령별 유동인구의 이동성을 통해 확인하였다. 각 문자에 포함된 주요 단어와 포함된 정보를 분류하는 과정을 거치고 포함된 단어를 기반으로 하는 문서 군집 분석 기법을 적용해 개별 발송 문자를 분석 단위로써 활용할 수 있도록 텍스트 분석을 시행하였다. 이후, 텍스트마이닝을 통해 추출한 재난문자의 특성이 지역별, 연령별 인구이동성에 미친 영향을 규명하였다. 구조화된 모형을 활용하여 재난정보가 인구이동성에 미치는 영향을 기본효과, 누적효과로 구분하여 측정하였다. 지자체가 보유한 재난문자 발송권한으로 인해 재난문자 발송 특성은 지자체별로 상이함을 계량 분석에 활용하였다. 분석 결과 인구이동성에 변화를 유발하는 정보유형은 연령별로 상이함을 확인할 수 있었다. 날짜와 순서에 관련된 정보는 60-70대의 인구이동성을 유의미하게 감소시키는 것을 확인할 수 있었다. 온라인 정보는 20대의 이동성을 감소시켰고, 증상과 관련된 정보는 30대의 인구이동성을 감소시켰다. 한편, 방역 정책 준수를 당부하는 의미를 포함하는 규범적 단어 등은 전 연령의 인구이동성에 유의미한 변화를 불러일으키지 못함을 확인할 수 있었다. 이는 재난대응에 도움이 되는 유의미한 정보들만 재난문자에 포함되어야 함을 의미한다. 한편, 인구이동성에 유의미한 변화를 불러일으키는 정보유형 또한 재난문자가 반복됨에 따라 효과가 상쇄함을 음의 누적효과 추정 결과를 통해 확인할 수 있었다.

교도소 컨텍스트속에서 서비스 디자인 방법을 통한 지속가능 서비스 혁신에 관한 연구 - "Yu Fu Bao" 금융 서비스를 중심으로 (A service design approach to sustainable service innovation in prison contexts - Taking the Service Design of "Yu Fu Bao" as an Example)

  • 진섭;반영환
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.131-144
    • /
    • 2021
  • 중국은 최근 몇 년 사이 디지털기술을 활용하여 정부의 통치체계와 통치능력을 현대화하겠다는 결정을 내렸다. 스마트 감옥은 국가의 형벌 기관으로서 기술개혁은 스마트 감옥의 지속가능한 발전을 위한 관건이다. 기술에 의존한다고 해서 반드시 더 나은 서비스 경험을 가져다 줄 수는 없다. 서비스 디자인적 사고는 기술과 사회의 지속가능한 발전을 위하여 조율 역할을 하면서 스마트 감옥 건설의 기술융합에 새로운 서비스 디자인 사고를 적용하고 교도소 콘텍스트속의 서비스의 디자인 수요에 대응해야 한다. 그리하여 본문은 스마트 감옥의 12개 서브시스템 중 옥부보 금융서비스 시스템 개발을 중심으로 스마트 감옥의 지속가능한 서비스 구현을 위한 서비스 디자인 방법의 특징과 부족함을 탐구하고 이에 따라 감옥의 특수한 상황적 요구에 부합하는 경험에 기초하여 시너지를 유도하는 설계이념(EBLCD)을 제시했다. 이를 바탕으로 장래 스마트 감옥의 혁신 문화, 창의력 및 혁신 방법에 대한 심도 있는 연구를 통해 궁극적으로 스마트 감옥 건설의 프레임을 마련했다.