• Title/Summary/Keyword: 텍스트 정보

Search Result 3,216, Processing Time 0.036 seconds

Text Classification using Cloze Question based on KorBERT (KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류)

  • Heo, Jeong;Lee, Hyung-Jik;Lim, Joon-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

Global Text & Local Text Integration Method for Aspect-Based Sentiment Analysis (개체단위 감정분석을 위한 글로벌 텍스트&로컬 텍스트 통합 방법)

  • Lin, Te;Joe, Inwhee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.414-416
    • /
    • 2022
  • 개체단위 감정분석(Aspect-Based Sentiment Analysis)는 자연어 처리에서 중요한 연구분야이다. 이는 입력 문장중에 존재하는 aspect term 의 감정 극성을 분석하는 것이 목적이다. 이 분야에서 현재 많이 사용되는 모델은 대부분 로컬 텍스트 또는 로컬 덱스트와 aspect term 사이의 관계에 주목하고 있다. 로켈 텍스트에 비해 글로벌 텍스트는 로컬 텍스트 뒤에 aspect term 내용을 추가해서 문장중에 있는 aspect term 내용을 더 깊게 학습할 수 있다고 생각한다. 본 논문에서는 새로운 masked attention 메커니즘을 사용하고 attention 메커니즘의 입력으로 글로벌 텍스트중에 있는 로컬 텍스트를 가로채어 전체 글로벌 텍스트의 내용과 융합한다. 이 방법은 semeval2014 데이터 셋에서 매우 좋은 결과를 얻었다.

100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models (100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 )

  • Li Fei;Yejee Kang;Seoyoon Park;Yeonji Jang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

An Overview of Hypertext and Its Applications (하이퍼텍스트의 개념과 응용에 관한 고찰)

  • 정영미
    • Journal of the Korean Society for information Management
    • /
    • v.6 no.2
    • /
    • pp.3-20
    • /
    • 1989
  • Hypertext system is a new type of electronic information system which offers users great freedom in writing and reading electronic documents. Hypertext means non-linear or non-sequential text, which consists of a collection of nodes connected by links. Nodes may contain segments of text, video images, and sound. In this paper, the concept and characteristics of hypertext are reviewed, components of hypertext are explored in detail, and Guide is illustrated with application examples.

  • PDF

Efficient Document Classification for Web Document Collection (웹 문서 수집을 위한 효율적인 문서 분류)

  • Lee, Jung-Hun;Cheon, Suh-Hyun;Kim, Sun-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

Extraction of Text Alignment by Tensor Voting and its Application to Text Detection (텐서보팅을 이용한 텍스트 배열정보의 획득과 이를 이용한 텍스트 검출)

  • Lee, Guee-Sang;Dinh, Toan Nguyen;Park, Jong-Hyun
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.11
    • /
    • pp.912-919
    • /
    • 2009
  • A novel algorithm using 2D tensor voting and edge-based approach is proposed for text detection in natural scene images. The tensor voting is used based on the fact that characters in a text line are usually close together on a smooth curve and therefore the tokens corresponding to centers of these characters have high curve saliency values. First, a suitable edge-based method is used to find all possible text regions. Since the false positive rate of text detection result generated from the edge-based method is high, 2D tensor voting is applied to remove false positives and find only text regions. The experimental results show that our method successfully detects text regions in many complex natural scene images.

Unpaired Korean Text Style Transfer with Masked Language Model (마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환)

  • Bae, Jangseong;Lee, Changki;Noh, Hyungjong;Hwang, Jeongin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.391-395
    • /
    • 2021
  • 텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

  • PDF

Location Mapping Techniques of Textual Spatial Information for Spatial Semantic Web (공간 시멘틱 웹을 위한 텍스트 공간정보의 위치 맵핑 기법)

  • Ha, Tae-Seok;Ha, Su-Wook;Nam, Kwang-Woo
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2010.06a
    • /
    • pp.71-73
    • /
    • 2010
  • 웹에서 다양한 웹 지리 지역 정보를 검색할 수 있는 시스템에 대한 요구가 증가하고 있다. 그러나 현재의 웹 검색 시스템은 사용자가 키워드로 지역 웹 문서를 검색하고 해당 웹 문서를 지도와 비교하여 공간정보를 취득하며, 다른 관련 정보를 얻기 위해서는 검색과 비교를 반복해야 하는 어려움이 있다. 따라서 본 논문에서는 비구조화 된 텍스트 웹 자원으로부터 지리정보 온툴로지(geo-ontology)를 확장할 수 있는 통합된 검색시스템을 제안한다. 이를 위해 문서의 정보에서 위치 정보를 추출하고 공간정보 위치 맵핑 기법을 적용하여 텍스트의 공간정보를 추출한다.

  • PDF

Analyzing insurance image using text network analysis (텍스트 네트워크 분석을 이용한 보험 이미지 분석)

  • Park, Kyungbo;Ko, Haeree;Hong, Jong-Yi
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.8 no.3
    • /
    • pp.531-541
    • /
    • 2018
  • This study researched text mining and text network analysis to analyze the images of Nonghyup Insurance for consumers. With the recent development of social media, many texts are being produced and reproduced, and texts of social media provide important information to companies. Text mining and text network analysis are used in many studies to identify image of company and product. As a result of the text analysis, the positive image of the Nonghyup Insurance is safety and stability. Negative images of the Nonghyup Insurance is concern and anxiety. As a result of the textual network analysis, Centered mage of Nonghyup Insurance is safety and concern. This paper allows researchers to extract several lessons learned that are important for the text mining and text network analysis.

Supporting Media Messages on a Text based Chatting (텍스트 기반 채팅에서 미디어 메시지의 지원)

  • 김경덕;여재욱;조우찬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.283-285
    • /
    • 2001
  • 본 논문은 텍스트 기반 채팅에서 다양한 미디어 메시지를 대화 행위에 지원하는 방법을 제안한다. 기존 텍스트 기반 채팅은 단순한 텍스트 기반 메시지를 사용함으로써, 미디어의 전송 및 공유 뷰(view)의 지원이 어렵다. 그러므로, 본 논문에서는 XML과 XSLT를 이용하여 텍스트 및 미디어 메시지를 생성하며, 미디어에 대해서는 앵커를 사용하여 웹브라우저에 프레젠테이션을 지원한다. 그리고, XML 태그의 확장 및 변경으로 다양한 효과의 생성과 변경이 용이하다. 이러만 미디어 메시지의 지원으로 다양한 대화 행위의 지원이 가능하며, 응용 분야는 온라인 교육, 게임 등이다.

  • PDF