• Title/Summary/Keyword: 텍스트 벡터화

Search Result 39, Processing Time 0.036 seconds

Multi-Emotion Recognition Model with Text and Speech Ensemble (텍스트와 음성의 앙상블을 통한 다중 감정인식 모델)

  • Yi, Moung Ho;Lim, Myoung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.11 no.8
    • /
    • pp.65-72
    • /
    • 2022
  • Due to COVID-19, the importance of non-face-to-face counseling is increasing as the face-to-face counseling method has progressed to non-face-to-face counseling. The advantage of non-face-to-face counseling is that it can be consulted online anytime, anywhere and is safe from COVID-19. However, it is difficult to understand the client's mind because it is difficult to communicate with non-verbal expressions. Therefore, it is important to recognize emotions by accurately analyzing text and voice in order to understand the client's mind well during non-face-to-face counseling. Therefore, in this paper, text data is vectorized using FastText after separating consonants, and voice data is vectorized by extracting features using Log Mel Spectrogram and MFCC respectively. We propose a multi-emotion recognition model that recognizes five emotions using vectorized data using an LSTM model. Multi-emotion recognition is calculated using RMSE. As a result of the experiment, the RMSE of the proposed model was 0.2174, which was the lowest error compared to the model using text and voice data, respectively.

Scene Text Detection Using Color-Based Binarization and Text Region Verification Using Support Vector Machine (색기반 이진화를 이용한 장면 텍스트 추출과 써포트 벡터머신을 이용한 텍스트 영역 검증)

  • Jang, Dae-Geun;Kim, Eui-Jeong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.161-163
    • /
    • 2007
  • 기존의 텍스트 추출을 위한 이진화 방법은 입력 이미지를 명도 이미지로 변환한 뒤 이진화 하는 방법을 사용하였다. 이러한 방법은 칼라 이미지에서는 극명히 구분되는 색이라 할지라도 명도 이미지로 변환하는 과정에서 같은 밝기를 같게 되는 경우(예를 들어, 배경은 붉은색, 텍스트는 초록색), 텍스트를 추출하는 데 어려움이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 입력 이미지를 R, G, B로 분리하고 각각을 이진화 하여 텍스트를 추출하고 다해상도 웨이블릿(Wavelet) 변환을 이용하여 텍스트의 획 특징을 추출하여 추출된 특징들을 SVM(Support Vector Machine) 분류기로 검증하여 최종 텍스트 영역을 확정한다. 제안한 방법을 적용함으로써 명도 정보만으로는 추출하기 어려웠던 텍스트 영역을 효과적으로 추출하고 텍스트와 구별하기 어려운 영역을 획수준으로 검증할 수 있었다.

  • PDF

A text-based emergency situation classification method (텍스트 기반 119 신고전화 상황 분류)

  • Kwak, Semin;Lim, Yoonseob;Choi, JongSuk
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2016.11a
    • /
    • pp.304-306
    • /
    • 2016
  • 본 논문에서는 기계학습 방법에 기반을 둔 119 긴급 신고 전화 전사 데이터에 대한 구급, 구조, 화재 상황 분류 알고리즘을 개발하였다. 신고전화에서 빈번하게 발생하는 비정형 발화 패턴을 효율적으로 정규화하고 자연어 문장 처리 기법에서 일반적으로 사용하는 방법을 적용하여 신고전화 텍스트 데이터를 기계학습에서 사용할 수 있는 특징 벡터로 재구성하였다. 2743개의 신고전화에 대해 선형 서포트 벡터 머신을 이용하여 상황 분류를 수행한 결과, 92% 의 정확도를 얻을 수 있었다.

  • PDF

Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization (차원감소 단어벡터 시각화를 통한 어휘별 관계 분석)

  • Ko, Kwang-Ho;Paik, Juryon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

Design of a Waste Generation Model based on the Chat-GPT and Diffusion Model for data balance (데이터 균형을 위한 Chat-GPT와 Diffusion Model 기반 폐기물 생성모델 설계)

  • Siung Kim;Junhyeok Go;Jeonghyeon Park;Nammee Moon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.667-669
    • /
    • 2023
  • 데이터의 균형은 객체 인식 분야에서 영향을 미치는 요인 중 하나이다. 본 논문에서는 폐기물 데이터 균형을 위해 Chat-GPT와 Diffusion model 기반 데이터 생성 모델을 제안한다. Chat-GPT를 사용하여 폐기물의 속성에 해당하는 단어를 생성하도록 질문하고, 생성된 단어는 인코더를 통해 벡터화시킨다. 이 중 폐기물과 관련 없는 단어를 삭제 후, 남은 단어들을 결합하는 전처리 과정을 거친다. 결합한 벡터는 디코더를 통해 텍스트 데이터로 변환 후, Stable Diffusion model에 입력되어 텍스트와 상응하는 폐기물 데이터를 생성한다. 이 데이터는 AI Hub의 공공 데이터를 활용하며, 객체 인식 모델인 YOLOv5로 학습해 F1-score와 mAP로 평가한다.

Study of the text analysis and feature selection performance for emotional inference (텍스트 기반 감정 추정을 위한 특징 추출 및 선택기법에 따른 성능 연구)

  • Kim, Hanjoo;Ha, Heonseok;Park, Seunghyun;Yoon, Sungroh
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.876-878
    • /
    • 2014
  • 인터넷 사용량이 급증하고 사용자들이 생성하는 데이터의 양이 증가함에 따라 사용자 데이터 분석은 객관적인 정보 탐색과 분석을 넘어 주관적인 감정을 분석하는 데까지 시도되고 있다. 이러한 감정 분석은 사업, 행정, 외교 등의 다양한 분야에 걸쳐 용용 될 수 있다. 본 연구에서는 텍스트 데이터를 주요 분석 대상으로 하여 문장 구성의 다양한 요소를 특징화하고, 특징화된 문장에 대해 다양한 서포트 벡터머신을 통한 학습을 시도함으로써 텍스트가 내포한 감정을 추측한다. 다양한 특징화 방법을 적용하되, 낮은 밀도가 될 것으로 추측되는 데이터 매트릭스의 차원 감쇄를 위해 정보엔트로피 기반의 특징 선택기법을 적용한다.

A Study on Research Trends of Graph-Based Text Representations for Text Mining (텍스트 마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향)

  • Chang, Jae-Young
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.13 no.5
    • /
    • pp.37-47
    • /
    • 2013
  • Text Mining is a research area of retrieving high quality hidden information such as patterns, trends, or distributions through analyzing unformatted text. Basically, since text mining assumes an unstructured text, it needs to be represented as a simple text model for analyzing it. So far, most frequently used model is VSM(Vector Space Model), in which a text is represented as a bag of words. However, recently much researches tried to apply a graph-based text model for representing semantic relationships between words. In this paper, we survey research trends of graph-based text representation models for text mining. Additionally, we also discuss about future models of graph-based text mining.

Mean Shift Clustering을 이용한 영상 검색결과 개선

  • Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Young-Rae;Kim, Eun-Yi
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2009.05a
    • /
    • pp.138-143
    • /
    • 2009
  • 본 논문에서는 감성 공간에서 mean shift clustering과 user feedback을 이용하여 영상 검색 결과를 개선하기 위한 시스템을 제안한다. 제안된 시스템은 사용자 인터페이스, 감성 공간 변환, 검색결과 순위 재지정(re-ranking)으로 구성된다. 사용자 인터페이스는 텍스트 형태의 질의 입력과 감성 어휘 선택에 따른 user feedback에 의해 개선된 검색결과를 보인다. 사용된 감성 어휘는 고바야시가 정의한 romantic, natural, casual, elegant, chic, classic, dandy, modern 등의 8개 어휘를 사용한다. 감성 공간 변환 단계에서는 입력된 질의에 따라 웹 영상 검색 엔진(Yahoo)에 의해 검색된 결과 영상들에 대해 컬러와 패턴정보의 특징을 추출하고, 이를 입력으로 하는 8개의 각 감성별 분류기에 의해 각 영상은 8차원 감성 공간으로의 특징 벡터로 변환된다. 이때 감성 공간으로 변환된 특징 벡터들은 mean shift clustering을 통해 군집화 되고, 그 결과로써 대표 클러스터를 찾게 된다. 검색결과 순위 재지정 단계에서는 user feedback 유무에 따라 대표 클러스터의 평균 벡터와 user feedback에 의해 생성된 사용자 감성 벡터에 의해 검색 결과를 개선할 수 있다. 이때 각 기준에 따라 유사도가 결정되고 검색결과 순위가 재지정 된다 제안된 시스템의 성능을 검증하기 위해 7개의 질의의 각 400장, 총 2,800장에 대한 Yahoo 검색 결과와 제안된 시스템을 개선된 검색 결과를 비교하였다.

  • PDF

Analysis of deep learning-based deep clustering method (딥러닝 기반의 딥 클러스터링 방법에 대한 분석)

  • Hyun Kwon;Jun Lee
    • Convergence Security Journal
    • /
    • v.23 no.4
    • /
    • pp.61-70
    • /
    • 2023
  • Clustering is an unsupervised learning method that involves grouping data based on features such as distance metrics, using data without known labels or ground truth values. This method has the advantage of being applicable to various types of data, including images, text, and audio, without the need for labeling. Traditional clustering techniques involve applying dimensionality reduction methods or extracting specific features to perform clustering. However, with the advancement of deep learning models, research on deep clustering techniques using techniques such as autoencoders and generative adversarial networks, which represent input data as latent vectors, has emerged. In this study, we propose a deep clustering technique based on deep learning. In this approach, we use an autoencoder to transform the input data into latent vectors, and then construct a vector space according to the cluster structure and perform k-means clustering. We conducted experiments using the MNIST and Fashion-MNIST datasets in the PyTorch machine learning library as the experimental environment. The model used is a convolutional neural network-based autoencoder model. The experimental results show an accuracy of 89.42% for MNIST and 56.64% for Fashion-MNIST when k is set to 10.

The Method of Document Comparison using Document Hierarchy (문서의 계층화를 이용한 문서비교 방법)

  • Hwang, Myung-Gwon;Kong, Hyun-Jang;Hwang, Kwang-Su;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.143-147
    • /
    • 2006
  • 오늘날 웹의 비약적인 성장으로 텍스트, 이미지, 비디오, 그리고 사운드 등의 다양한 데이터 형식의 많은 정보가 축적되었으며 날마다 늘어나고 있다. 이들 정보의 효율적 검색을 위해 많은 연구가 이루어졌으며, 특히 텍스트 문서의 효율적인 검색을 위해 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다. 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 사용자가 원하는 문서와 비슷한 문서를 의미적으로 찾아내기 위한 방법을 제안한다. 본 방법론은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두어 각 문서들의 계층들의 도메인 비중과 도메인 내의 개념 일치도를 이용하여 문서들 간에 유사도를 구한다.

  • PDF