• 제목/요약/키워드: Text-based classification

검색결과 461건 처리시간 0.025초

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류 (Document classification using a deep neural network in text mining)

  • 이보희;이수진;최용석
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.615-625
    • /
    • 2020
  • 문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

속성선택방법을 이용한 전기자동차 소셜미디어 데이터의 감성분석 연구 (Exploring the Sentiment Analysis of Electric Vehicles Social Media Data by Using Feature Selection Methods)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.249-259
    • /
    • 2020
  • 본 연구는 전기자동차(EV)에 대한 소셜미디어 데이터를 기반으로 감성분석 (SA)과 속성선택 (FS)방법을 적용하여 전기자동차에 대한 일반 사람들의 의견을 보다 효과적이고 정확히 예측할 수 있는 새로운 방법론을 제안한다. 구체적인 방법은 다음과 같다. 첫째, 유튜브에 있는 전기자동차에 대한 일반 사람들의 의견을 추출하였다. 둘째, 분석의 효과성을 증대하기 위하여 카이 스퀘어, 정보획득량, 릴리프에프 등 세가지 속성선택 방법을 적용하였다. 그 결과 로지스틱 회귀분석 및 서포트 벡터 머신 분류 기법에서 가장 의미있는 결과를 얻을 수 있다는 것이 확인되었다.

오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론 (Methodology for Classifying Hierarchical Data Using Autoencoder-based Deeply Supervised Network)

  • 김윤하;김남규
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.185-207
    • /
    • 2022
  • 최근 딥 러닝 기술의 발전으로 인해, 텍스트, 이미지 등 비정형 데이터 분석에 딥 러닝 알고리즘을 적용하는 연구가 활발히 수행되고 있다. 그중 텍스트 분류는 학계 및 업계에서 오랜 기간 연구되어 온 분야로, 분류의 성능을 향상시키기 위해 계층형 레이블 등 데이터 자체의 특성을 활용하기 위한 다양한 시도가 이루어지고 있다. 하지만 계층적 분류를 위해 주로 사용되는 하향식 접근법은 상위 레벨의 오분류가 하위 레벨의 정분류 기회를 차단한다는 한계가 있다. 따라서, 본 연구에서는 레이블의 계층적인 관계를 고려하면서도 상위 레벨의 분류가 하위 레벨의 분류를 차단하지 않도록 하여 분류 성능을 향상시키기 위해, 오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론을 제안한다. 제안 방법론은 오토인코더의 잠재변수에 하위 레이블을 예측하는 주 분류기를 추가하고, 인코더의 은닉층에 상위 레벨의 레이블 예측하는 보조 분류기를 추가하여 End-to-End 학습을 진행한다. 제안 방법론의 성능을 평가하기 위하여 국내 논문 데이터 총 22,512건에 대한 실험을 수행한 결과, 제안 모델이 기존의 지도 오토인코더 및 DNN 모델에 비해 분류 정확도와 F1-Score에서 우수한 성능을 나타냄을 확인하였다.

한국어 언어 모델을 활용한 보이스피싱 탐지 기능 개선 (Exploiting Korean Language Model to Improve Korean Voice Phishing Detection)

  • ;박동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권10호
    • /
    • pp.437-446
    • /
    • 2022
  • 보이스피싱 통화 내용을 탐지하고 분류하는데 핵심 엔진으로 최신 머신러닝(ML) 및 딥러닝(DL) 알고리즘과 결합된 자연어 처리(NLP)의 텍스트 분류 작업이 널리 사용된다. 비대면 금융거래의 증가와 더불어 보이스피싱 통화 내용 분류에 대한 많은 연구가 진행되고 양호한 성과를 보이고 있지만, 최신 NLP 기술을 활용한 성능 개선의 필요성이 여전히 존재한다. 본 논문은 KorCCVi라는 레이블이 지정된 한국 보이스 피싱 데이터의 텍스트 분류를 기반으로 여러 다른 최신 알고리즘과 비교하여 사전 훈련된 한국어 모델 KoBERT의 한국 보이스 피싱 탐지 성능을 벤치마킹한다. 실험 결과에 따르면 KoBERT 모델의 테스트 집합에서 분류 정확도가 99.60%로 다른 모든 모델의 성능을 능가한다.

A Classification Model for Illegal Debt Collection Using Rule and Machine Learning Based Methods

  • Kim, Tae-Ho;Lim, Jong-In
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.93-103
    • /
    • 2021
  • 금융당국의 채권추심 가이드라인, 추심업자에 대한 직접적인 관리 감독 수행 등의 노력에도 불구하고 채무자에 대한 불법, 부당한 채권 추심은 지속되고 있다. 이러한 불법, 부당한 채권추심행위를 효과적으로 예방하기 위해서는 비정형데이터 기계학습 등 기술을 활용하여 적은 인력으로도 불법 추심행위에 대한 점검 등에 대한 모니터링을 강화 할 수 있는 방법이 필요하다. 본 연구에서는 대부업체의 추심 녹취 파일을 입수하여 이를 텍스트 데이터로 변환하고 위법, 위규 행위를 판별하는 규칙기반 검출과 SVM(Support Vector Machine) 등 기계학습을 결합한 불법채권추심 분류 모델을 제안하고 기계학습 알고리즘에 따라 얼마나 정확한 식별을 하였는지를 비교해 보았다. 본 연구는 규칙기반 불법 검출과 기계학습을 결합하여 분류에 활용할 경우 기존에 연구된 기계학습만을 적용한 분류모델 보다 정확도가 우수하다는 것을 보여 주었다. 본 연구는 규칙기반 불법검출과 기계학습을 결합하여 불법여부를 분류한 최초의 시도이며 후행연구를 진행하여 모델의 완성도를 높인다면 불법채권 추심행위에 대한 소비자 피해 예방에 크게 기여할 수 있을 것이다.

텍스트 마이닝 기법을 이용한 컴퓨터 네트워크의 침입 탐지 (Using Text Mining Techniques for Intrusion Detection Problem in Computer Network)

  • 오승준;원민관
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.27-32
    • /
    • 2005
  • 최근 들어 데이터 마이닝 기법을 컴퓨터 네트워크의 침입 탐지에 적용하려는 많은 연구가 진행되고 있다. 본 논문에서는 침입 탐지 분야에서 프로그램 행위가 정상적인지 비정상적인지를 분류하기 위한 방법을 연구한다. 이를 위해, 택스트 마이닝 기법중의 하나인 k 최근접 이웃 (kNN) 분류기를 이용한 새로운 방법을 제안한다. 본 논문에서는 택스트 분류 기법을 적용하기 위해 각각의 시스템 호출을 단어로 간주하고, 시스템 호출의 집합들을 문서로 간주한다. 이러한 문서들은 kNN 분류기를 이용하여 분류된다. 간단한 예제를 통하여 제안하는 절차를 소개한다.

  • PDF

Text-to-Speech 변환 시스템을 위한 회귀 트리 기반의 음소 지속 시간 모델링 (Regression Tree based Modeling of Segmental Durations For Text-to-Speech Conversion System)

  • 표경란;김형순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.191-195
    • /
    • 1999
  • 자연스럽고 명료한 한국어 Text-to-Speech 변환 시스템을 위해서 음소의 지속 시간을 제어하는 일은 매우 중요하다. 음소의 지속 시간은 여러 가지 문맥 정보에 의해서 변화하므로 제어 규칙에 의존하기 보다 방대한 데이터베이스를 이용하여 통계적인 기법으로 음소의 지속 시간에 변화를 주는 요인을 찾아내려고 하는 것이 지금의 추세이다. 본 연구에서도 트리기반 모델링 방법중의 하나인 CART(classification and regression tree) 방법을 사용하여 회귀 트리를 생성하고, 생성된 트리에 기반하여 음소의 지속 시간 예측 모델과, 자연스러운 끊어 읽기를 위한 휴지 기간 예측 모델을 제안하고 있다. 실험에 사용한 음성코퍼스는 550개의 문장으로 구성되어 있으며, 이 중 428개 문장으로 회귀 트리를 학습시켰고, 나머지 122개의 문장으로 실험하였다. 모델의 평가를 위해서 실제값과 예측값과의 상관관계를 구하였더니 음소의 지속 시간을 예측하는 회귀 트리에서는 상관계수가 0.84로 계산되었고, 끊어 읽는 경계에서의 휴지 기간을 예측하는 회귀 트리에서는 상관계수가 0.63으로 나타났다.

  • PDF

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링 (SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.24-29
    • /
    • 2018
  • 딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법과 딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

Spam Image Detection Model based on Deep Learning for Improving Spam Filter

  • Seong-Guk Nam;Dong-Gun Lee;Yeong-Seok Seo
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.289-301
    • /
    • 2023
  • Due to the development and dissemination of modern technology, anyone can easily communicate using services such as social network service (SNS) through a personal computer (PC) or smartphone. The development of these technologies has caused many beneficial effects. At the same time, bad effects also occurred, one of which was the spam problem. Spam refers to unwanted or rejected information received by unspecified users. The continuous exposure of such information to service users creates inconvenience in the user's use of the service, and if filtering is not performed correctly, the quality of service deteriorates. Recently, spammers are creating more malicious spam by distorting the image of spam text so that optical character recognition (OCR)-based spam filters cannot easily detect it. Fortunately, the level of transformation of image spam circulated on social media is not serious yet. However, in the mail system, spammers (the person who sends spam) showed various modifications to the spam image for neutralizing OCR, and therefore, the same situation can happen with spam images on social media. Spammers have been shown to interfere with OCR reading through geometric transformations such as image distortion, noise addition, and blurring. Various techniques have been studied to filter image spam, but at the same time, methods of interfering with image spam identification using obfuscated images are also continuously developing. In this paper, we propose a deep learning-based spam image detection model to improve the existing OCR-based spam image detection performance and compensate for vulnerabilities. The proposed model extracts text features and image features from the image using four sub-models. First, the OCR-based text model extracts the text-related features, whether the image contains spam words, and the word embedding vector from the input image. Then, the convolution neural network-based image model extracts image obfuscation and image feature vectors from the input image. The extracted feature is determined whether it is a spam image by the final spam image classifier. As a result of evaluating the F1-score of the proposed model, the performance was about 14 points higher than the OCR-based spam image detection performance.

사망사고와 부상사고의 산업재해분류를 위한 기계학습 접근법 (Machine Learning Approach to Classifying Fatal and Non-Fatal Accidents in Industries)

  • 강성식;장성록;서용윤
    • 한국안전학회지
    • /
    • 제36권5호
    • /
    • pp.52-60
    • /
    • 2021
  • As the prevention of fatal accidents is considered an essential part of social responsibilities, both government and individual have devoted efforts to mitigate the unsafe conditions and behaviors that facilitate accidents. Several studies have analyzed the factors that cause fatal accidents and compared them to those of non-fatal accidents. However, studies on mathematical and systematic analysis techniques for identifying the features of fatal accidents are rare. Recently, various industrial fields have employed machine learning algorithms. This study aimed to apply machine learning algorithms for the classification of fatal and non-fatal accidents based on the features of each accident. These features were obtained by text mining literature on accidents. The classification was performed using four machine learning algorithms, which are widely used in industrial fields, including logistic regression, decision tree, neural network, and support vector machine algorithms. The results revealed that the machine learning algorithms exhibited a high accuracy for the classification of accidents into the two categories. In addition, the importance of comparing similar cases between fatal and non-fatal accidents was discussed. This study presented a method for classifying accidents using machine learning algorithms based on the reports on previous studies on accidents.