• 제목/요약/키워드: 텍스트 데이터

검색결과 1,765건 처리시간 0.031초

텍스트와 음성의 앙상블을 통한 다중 감정인식 모델 (Multi-Emotion Recognition Model with Text and Speech Ensemble)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제11권8호
    • /
    • pp.65-72
    • /
    • 2022
  • COVID-19로 인해 대면으로 이루어지던 상담 방식이 비대면으로 진행되면서 비대면 상담의 중요성이 높아지고 있다. 비대면 상담은 온라인으로 언제 어디서든 상담할 수 있고, COVID-19에 안전하다는 장점이 있다. 그러나 비언어적 표현의 소통이 어려워 내담자의 마음을 이해하기 어렵다. 이에 비대면 상담 시 내담자의 마음을 잘 알기 위해서는 텍스트와 음성을 정확하게 분석하여 감정을 인식하는 것이 중요하다. 따라서 본 논문에서는 텍스트 데이터는 자음을 분리한 후 FastText를 사용하여 벡터화하고, 음성 데이터는 Log Mel Spectrogram과 MFCC를 사용하여 각각 특징을 추출하여 벡터화한다. 벡터화된 데이터를 LSTM 모델을 활용하여 5가지 감정을 인식하는 다중 감정인식 모델을 제안한다. 다중 감정인식은 RMSE을 활용하여 계산한다. 실험 결과 텍스트와 음성 데이터를 각각 사용한 모델보다 제안한 모델의 RMSE가 0.2174로 가장 낮은 오차를 확인하였다.

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

  • 장우솔;김예은;손원
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.739-754
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

남도 문화 축제 멀티미디어 컨텐츠 데이터베이스 설계 (The Design of Constructing Multimedia Database System ; Focused on Namdo's Culture Festival)

  • 최훈;김광석;최석원
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2000년도 추계공동학술대회논문집
    • /
    • pp.431-439
    • /
    • 2000
  • 현재 웹(Web)환경에서 운영되고 있는 많은 데이터베이스 중 대부분은 텍스트를 기반으로 운영되고 있다. 이러한 데이터베이스들은 많은 정보들을 제공한다는 장점을 가지고 있지만 텍스트를 기반으로 하고 있기 때문에 사용자들에게 지루함을 제공하고 있고, 하이퍼링크로 정보를 제공하고 있어 사용자들이 직접 원하는 정보들을 찾아다녀야만 한다는 단점을 가지고 있다. 현재 데이터베이스의 흐름은 텍스트 위주의 데이터베이스에서 멀티미디어 컨텐츠 데이터베이스로 변해가고 있고, 직접 정보를 찾는 하이퍼링크 방식에서 질의(Query)를 이용하여 사용자들이 원하는 정보를 검색하는 방식을 채택하고 있다. 본 논문에서는 남도 문화 축제를 중심으로 기존의 텍스트 데이터베이스와 더불어 동영상, 음향 등의 멀티미디어 데이터를 제공하는 멀티미디어 컨텐츠 데이터베이스를 설계하고자 한다. 본 연구에서는 먼저 텍스트 기반의 데이터베이스를 비교ㆍ분석한 후에, 이를 토대로 하여 남도 문화축제의 멀티미디어 컨텐츠 데이터베이스 설계를 제안하였다.

  • PDF

모바일 앱을 위한 동적 텍스트 편집 저작도구 설계 (Design of Dynamic Text Authoring Tool for Mobile Applications)

  • 강용희;이은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.319-322
    • /
    • 2014
  • 모바일 디바이스 보급이 확산되고 다양한 앱을 보다 쉽게 만들 수 있게 도와주는 저작도구들이 발표 되었으나 모바일 앱을 위한 텍스트의 디자인과 효과를 편집할 수 있는 저작도구는 부족하다. 본 논문에서는 상호작용과 시각적 효과를 높일 수 있는 텍스트 편집 기능을 가지면서 설계 결과를 앱에 통합하기 위한 저작도구를 제안한다. 이 저작도구를 통하여 사용자는 보다 편리하게 텍스트를 편집하고 실행 화면을 미리 확인할 수 있다. 설계된 결과는 xml 데이터로 저장되고 이를 모바일 디바이스에서 실행하기 위하여 실행환경의 텍스트 처리 라이브러리 클래스를 제공하고 이것을 앱의 개발자 코드에 통합하는 방법을 제시한다.

생성적 적대 네트워크를 활용한 텍스트와 스케치 기반 이미지 생성 기법 (Image Generation based on Text and Sketch with Generative Adversarial Networks)

  • 이제훈;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2018
  • 생성적 적대 네트워크를 활용하여 텍스트, 스케치 등 다양한 자원으로부터 이미지를 생성하기 위한 연구는 활발하게 진행되고 있으며 많은 실용적인 연구가 존재한다. 하지만 기존 연구들은 텍스트나 스케치 등 각 하나의 자원을 통해 이미지를 생성하기 때문에 설명이 부족한 텍스트, 실제 이미지와 상이한 스케치와 같이 자원의 정보가 불완전한 경우에는 제대로 된 이미지를 생성하지 못한다는 한계가 있다. 본 논문에서는 기존 연구의 한계점올 극복하기 위해 텍스트와 스케치 두 개의 자원을 동시에 활용하여 이미지를 생성하는 새로운 생성 기법 TS-GAN 을 제안한다. TS-GAN 은 두 단계로 이루어져 있으며 각 단계를 통해 더욱 사실적인 이미지를 생성한다. 본 논문에서 제안한 기법은 컴퓨터 비전 분야에서 많이 활용되는 CUB 데이터세트를 사용하여 이미지 생성 결과의 우수성을 보인다.

복합색인어 기반 단문텍스트 감정 인식 기법 (Short Text Emotion Recognition based on Complex Keywords)

  • 한기현;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.520-522
    • /
    • 2013
  • 스마트 폰의 확산으로 대화의 개념이 음성에서 텍스트로 확대 되고 있다. 방대하게 누적되고 있는 메신저의 텍스트 데이터로부터 유용한 정보들을 찾아 사용자에게 추천서비스를 제공할 수 있다. 이를 뒷받침 해주기 위해서는 텍스트 감정 인식이 중요하다. 기존에는 PMI기법과 감정키워드를 이용하여 감정을 분류 하였다. 그러나 특정단어로 감정을 분류하기 때문에 정확도가 낮았다. 본 논문에서는 복합색인어 기반 텍스트 감정 인식 기법을 제안한다. 문장에서 동사와 복합색인어를 추출하여 음운으로 분해한다. 그리고 스트링커널에서 벡터 값을 추출하여 기계학습 알고리즘(SVM)으로 4가지 감정(행복, 슬픔. 화남, 평범)으로 분류하는 방법이다. 동사와 감정에 영향을 주는 색인어를 추출하여 감정을 인식하는 기법으로 실험결과 정확도는 기존에 동사만 사용했을 때 보다 15%향상됨을 보였다.

강화학습 기반의 제로샷 텍스트 분류 (Zero-shot Text Classification based on Reinforced Learning)

  • 장송밍 ;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.439-441
    • /
    • 2023
  • 전통적인 텍스트 분류 방법은 상당량의 라벨링된 데이터와 미리 정의된 클래스가 필요해서 그 적용성과 확장성이 제한된다. 그래서 이런 한계를 극복하기 위해 제로샷 러닝(Zero-shot Learning)이 등장했다. 텍스트 분류 분야에서 제로샷 텍스트 분류는 모델이 대상 클래스의 샘플을 미리 접하지 않고도 인스턴스를 분류할 수 있도록 하는 중요한 주제이다. 이 문제를 해결하기 위해 정책 네트워크를 활용한 심층 강화 학습(DRL) 기반 접근법을 제안한다. 이러한 방법을 통해 모델이 새로운 의미 공간에 효과적으로 적응하면서, 다른 모델들과 비교하여 제로샷 텍스트 분류의 정확도를 향상시킬 수 있었다. XLM-R 과 비교하면 최대 15.9%의 정확도 향상이 나타났다.

빅데이터 기반의 텍스트를 활용한 개인 행복도 분석 모니터링 시스템 아키텍쳐 설계 (Peronsal Happiness Analysis using Big Data Based Text Design Monitoring System Architecture Design)

  • 심종성;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.504-506
    • /
    • 2019
  • 전 세계의 수많은 SNS의 텍스트와 일기의 데이터가 업로드 되지만 그 데이터들을 내용을 공유하고 기록하는 것에 미치지 않는다. 일반적으로 소셜빅데이터는 취향, 관심사 파악에 사용되고 있다. 하지만 자신의 상태와 정보를 분석하고 나타내주는 시스템이 필요하다. 따라서 본 논문에서는 행복 다이어리 시스템은 SNS의 데이터와 자체의 일기를 적어 그것들을 빅데이터 시스템에 저장하고 감성분석을 이용하여 자신의 일기와 SNS데이터를 통해 행복도를 나타낼 수 있는 시스템 설계를 다룬다.

  • PDF