• Title/Summary/Keyword: 텍스트기반 분류

Search Result 351, Processing Time 0.03 seconds

Text Classification using Cloze Question based on KorBERT (KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류)

  • Heo, Jeong;Lee, Hyung-Jik;Lim, Joon-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

Automatic Harmful Website Rating System Based on Hyperlink Relationship (하이퍼링크 연관성을 이용한 유해사이트의 자동분류)

  • Jang, Young-Hun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.1573-1576
    • /
    • 2005
  • 인터넷의 발전과 함께 유해사이트의 급속한 증가로 유해사이트 분류의 신뢰도를 높일 필요성이 높아지고 있다. 기존의 유해사이트 분류방식에는 텍스트 기반의 분류방식과 Skin-Color Detection 알고리즘을 이용한 이미지 기반 방식이 있으며, 현재 텍스트 기반의 사이트 분류방식이 보편적으로 사용되고 있다. 본 논문은 기존 유해사이트 분류의 신뢰도를 높이기 위하여 유해사이트에 포함된 링크 정보를 기반으로 유해사이트 분류의 정확성을 검증할 수 있음을 증명하였다.

  • PDF

Zero-shot Text Classification based on Reinforced Learning (강화학습 기반의 제로샷 텍스트 분류)

  • Zhang Songming;Inwhee Joe
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.439-441
    • /
    • 2023
  • 전통적인 텍스트 분류 방법은 상당량의 라벨링된 데이터와 미리 정의된 클래스가 필요해서 그 적용성과 확장성이 제한된다. 그래서 이런 한계를 극복하기 위해 제로샷 러닝(Zero-shot Learning)이 등장했다. 텍스트 분류 분야에서 제로샷 텍스트 분류는 모델이 대상 클래스의 샘플을 미리 접하지 않고도 인스턴스를 분류할 수 있도록 하는 중요한 주제이다. 이 문제를 해결하기 위해 정책 네트워크를 활용한 심층 강화 학습(DRL) 기반 접근법을 제안한다. 이러한 방법을 통해 모델이 새로운 의미 공간에 효과적으로 적응하면서, 다른 모델들과 비교하여 제로샷 텍스트 분류의 정확도를 향상시킬 수 있었다. XLM-R 과 비교하면 최대 15.9%의 정확도 향상이 나타났다.

Research Paper Classification Scheme based on Word Embedding (워드 임베딩 기반 연구 논문 분류 기법)

  • Dipto, Biswas;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.494-497
    • /
    • 2021
  • 텍스트 분류(text classification)는 원시 텍스트 데이터로부터 정보를 추출할 수 있는 기술에 기반하여 많은 양의 텍스트 데이터를 관심 영역으로 분류하는 것으로 최근에 각광을 받고 있다. 본 논문에서는 워드 임베딩(word embedding) 기법을 이용하여 특정 분야의 연구 논문을 분류하고 추천하는 기법을 제안한다. 워드 임베딩으로 CBOW(Continuous Bag-of-Word)와 Sg(Skip-gram)를 연구 논문의 분류에 적용하고 기존 방식인 TF-IDF(Term Frequency-Inverse Document Frequency)와 성능을 비교 분석한다. 성능 평가 결과는 워드 임베딩에 기반한 연구 논문 분류 기법이 TF-IDF에 기반한 연구 논문 분류 기법보다 좋은 성능을 가진다는 것을 나타낸다.

The Effectiveness of High-level Text Features in SOM-based Web Image Clustering (SOM 기반 웹 이미지 분류에서 고수준 텍스트 특징들의 효과)

  • Cho Soo-Sun
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.121-126
    • /
    • 2006
  • In this paper, we propose an approach to increase the power of clustering Web images by using high-level semantic features from text information relevant to Web images as well as low-level visual features of image itself. These high-level text features can be obtained from image URLs and file names, page titles, hyperlinks, and surrounding text. As a clustering engine, self-organizing map (SOM) proposed by Kohonen is used. In the SOM-based clustering using high-level text features and low-level visual features, the 200 images from 10 categories are divided in some suitable clusters effectively. For the evaluation of clustering powers, we propose simple but novel measures indicating the degrees of scattering images from the same category, and degrees of accumulation of the same category images. From the experiment results, we find that the high-level text features are more useful in SOM-based Web image clustering.

Emotion Recognition based on Short Text using Semantic Orientation Analysis (의미 지향성 분석을 통한 단문 텍스트 기반 감정인지)

  • Kim, Hyun-Woo;Lee, Sung-Young;Chung, Tae-Choong;Yoon, Suk-Hwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.375-377
    • /
    • 2012
  • 스마트폰과 같은 모바일 기기가 발전함에 따라 SNS, 모바일 메신저, SMS와 같은 단문 기반 메시지는 자신의 감정을 가장 잘 표현하는 매체이다. 그럼에도 불구하고 기존 연구는 주로 장문의 텍스트로부터 긍정, 부정 분류나 문서의 성향을 분석하는 것에 그치는 경우가 많다. 의미지향(Semantic Orientation)방법은 검색엔진을 통해 감정 키워드와 인지하고자 하는 단어의 동시 빈출 정도를 PMI로 계산한 것으로 WordNet과 같은 의미 사전이 존재하지 않는 한국어의 특성에서 적용 가능한 방법이다. 본 논문에서는 의미 지향성 및 다른 텍스트 기반 감정 분류 기술에 대해 비교하고 이들을 활용하여 한국어로 구성된 단문 텍스트에서 효율적인 감정 분류 기법을 제안하고자 한다.

Short Text Emotion Recognition based on Complex Keywords (복합색인어 기반 단문텍스트 감정 인식 기법)

  • Han, Ki-Hyun;Lee, Sungyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.520-522
    • /
    • 2013
  • 스마트 폰의 확산으로 대화의 개념이 음성에서 텍스트로 확대 되고 있다. 방대하게 누적되고 있는 메신저의 텍스트 데이터로부터 유용한 정보들을 찾아 사용자에게 추천서비스를 제공할 수 있다. 이를 뒷받침 해주기 위해서는 텍스트 감정 인식이 중요하다. 기존에는 PMI기법과 감정키워드를 이용하여 감정을 분류 하였다. 그러나 특정단어로 감정을 분류하기 때문에 정확도가 낮았다. 본 논문에서는 복합색인어 기반 텍스트 감정 인식 기법을 제안한다. 문장에서 동사와 복합색인어를 추출하여 음운으로 분해한다. 그리고 스트링커널에서 벡터 값을 추출하여 기계학습 알고리즘(SVM)으로 4가지 감정(행복, 슬픔. 화남, 평범)으로 분류하는 방법이다. 동사와 감정에 영향을 주는 색인어를 추출하여 감정을 인식하는 기법으로 실험결과 정확도는 기존에 동사만 사용했을 때 보다 15%향상됨을 보였다.

Implementation of Pen-based Editing System using Rule-based Text Selection Technique (규칙기반 텍스트 영역 선택 기법을 이용한 펜기반 교정 시스템의 구현)

  • 정한상;김재경;손원성;임순범;최윤철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.203-206
    • /
    • 2002
  • 최근 웹을 기반으로 한 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 변화하고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 일반 문서와 달리 웹 문서의 구조정보를 고려한 편집이 지원되어야 하며 또한 교정 부호와 텍스트 간의 정확한 영역 인식이 이루어져야 한다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정 부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

An Algorithm for Text Image Watermarking based on Word Classification (단어 분류에 기반한 텍스트 영상 워터마킹 알고리즘)

  • Kim Young-Won;Oh Il-Seok
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.8
    • /
    • pp.742-751
    • /
    • 2005
  • This paper proposes a novel text image watermarking algorithm based on word classification. The words are classified into K classes using simple features. Several adjacent words are grouped into a segment. and the segments are also classified using the word class information. The same amount of information is inserted into each of the segment classes. The signal is encoded by modifying some inter-word spaces statistics of segment classes. Subjective comparisons with conventional word-shift algorithms are presented under several criteria.

Modeling and Implementation of Intelligent Pen-based Online Editing System (지능형 펜기반 온라인 교정 시스템의 설계 및 구현)

  • 김재경;손원성;정한상;임순범;최윤철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.178-180
    • /
    • 2002
  • 최근 종이 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 구축되고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 교정 부호와 텍스트 간의 정확한 영역 인식이 중요하며 이를 위해 교정 부호의 특성과 텍스트 영역의 분석이 필요하다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF