• Title/Summary/Keyword: 텍스트 처리

Search Result 1,343, Processing Time 0.037 seconds

A Text-based Similarity Measure for Scientific Literature (논문 데이터베이스를 위한 텍스트 기반 유사도 계산 방안)

  • Yoon, Seok-Ho;Kim, Sang-Wook
    • The KIPS Transactions:PartD
    • /
    • v.18D no.5
    • /
    • pp.317-322
    • /
    • 2011
  • This paper addresses computing of similarity among papers using text-based measures. First, we analyze the accuracy of the similarities computed using different parts of a paper, and propose a method of Keyword-Extension, which is very useful when text information is incomplete. Via a series of experiments, we verify the effectiveness of Keyword-Extension.

Reproducing Fairy Tales for Plot Identification (사건의 흐름 분석을 위한 동화의 재구성)

  • An, Seungjoo;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.3-8
    • /
    • 2011
  • 텍스트의 스토리를 자동으로 이해하기 위해 텍스트에서 기술된 사건(event)을 파악하고 이들을 조합하여 스토리가 어떻게 구성되어 있는지를 파악하는 연구들이 진행되어 왔다. 하지만 이는 스토리의 깊은 의미론적 이해를 요구하는 것 이외에도 텍스트마다 상황과 일어나는 사건들이 다양하기 때문에 언어 자원이 부족한 환경에서의 처리에는 한계가 있다. 이러한 문제는 사건들을 추상화 하여 단순하게 표현할 수 있다면 스토리 이해의 자연스러움을 저해하지 않고 해결 할 수 있다. 본 논문에서는 사건들의 추상화 과정을 위한 기초 연구로서 텍스트 속 등장인물이 행하거나 당하는 사건들을 추출하여 PMI기법을 통해 사건의 흐름을 파악하고 언어학적 단서를 참조하여 스토리 이해 과정에 누락될 수 있는 사건들을 추가하여 보완하였다. 이러한 접근을 통해 등장인물이 행할 수 있는 사건들을 재구성하여 단순화하는 방법을 제시한다.

  • PDF

A Personalized Learning System Using Social Data and Text Classification Techniques (소셜 데이터와 텍스트 분류 기술을 이용한 개인 맞춤형 학습 시스템)

  • Kim, Sun-Pyo;Kim, Eun-Sang;Jeon, Young-Ho;Lee, Ki-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.718-720
    • /
    • 2014
  • 정보통신 기기의 발달에 따라 스마트 러닝으로 교육방법이 진화하고 있다. 스마트 러닝에 있어서 학습자의 관심분야에 맞는 적절한 콘텐츠의 제공이 필수적이다. 본 논문에서는 텍스트 분류 기술을 이용하여 학습자의 SNS 데이터로부터 관심분야를 자동적으로 파악해내는 시스템을 제안한다. 텍스트 분류를 위해 카테고리 별로 기 분류되어있는 데이터를 수집하여 기계 학습을 수행하였다. 텍스트 분류의 정확도 향상을 위해 카테고리 분류 단위 크기를 변화시키면서 정확도를 측정하고 분석하여 실제 서비스에 적용 가능한 수준으로 판단되는 82.5%의 정확도를 얻었다.

Sentimental Analysis using the Phoneme-level Embedding Model (음소 단위 임베딩 모형을 이용한 감성 분석)

  • Hyun, Kyeongseok;Choi, Woosung;Jung, Soon-young;Chung, Jaehwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1030-1032
    • /
    • 2019
  • 형태소 분석을 통하여 한국어 문장을 형태소 단위의 임베딩 및 학습 관련 연구가 되었으나 최근 비정형적인 텍스트 데이터의 증가에 따라 음소 단위의 임베딩을 통한 신경망 학습에 대한 요구가 높아지고 있다. 본 논문은 비정형적인 텍스트 감성 분석 성능 향상을 위해 음소 단위의 토큰을 생성하고 이를 CNN 모형을 기반으로 다차원 임베딩을 수행하고 감성분석을 위하여 양방향 순환신경망 모델을 사용하여 유튜브의 비정형 텍스트를 학습시켰다. 그 결과 텍스트의 긍정 부정 판별에 있어 90%의 정확도를 보였다.

Design of Fairy Tale Illustrations Automatic Generation System (동화 삽화 자동 생성 시스템 설계)

  • Moon, Young-Ju;Hong, SunGi;Lee, HwaMin;Kim, HyunBin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1121-1124
    • /
    • 2013
  • 프로그램 실행 시 동화(텍스트)를 읽을 수 있게 하는 입력 파일을 받을 수 있게 만든다. 이렇게 받은 텍스트를 프로그램이 읽어 들여 알고리즘으로 대입한다. 알고리즘은 읽은 텍스트 중에 중요 단어를 뽑아내어 DB에 이에 알맞은 삽화를 요청하게 된다. 요청을 받은 데이터베이스는 다시 프로그램에 이미지를 보내주고, 프로그램은 이 삽화를 그 텍스트에 출력시키게 된다. 이 과정이 한 페이지를 만드는 과정이며, 원하지 않는 페이지는 건너 뛸 수 있게 한다. 이러한 작업을 반복하여 새로운 책 한권이 완성이 된다.

Context Visualizing SMS Based on Decision Tree (의사결정트리 기반의 컨텍스트 시각화 SMS)

  • Gahng, Shinwook;Oh, Jehwan;Lee, Eunseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.515-518
    • /
    • 2009
  • 이동단말기가 보급이 확산됨에 따라 많은 사용자들이 이동단말기를 사용하고 필연적으로 많은 통신행동을 하고 있다. 특히 SMS 는 시간과 장소의 제한이 적어 사용자들의 통신행동 중 큰 비중을 차지하고 있다. SMS 통신행동에서 이모티콘의 사용이 많이 나타나고 있으며 이는 텍스트 기반의 의사소통의 한계를 극복하기 위한 방안으로 볼 수 있다. SMS 로부터 사용자의 감정을 추론하려는 기존의 연구가 있었지만 SMS 텍스트에 국한된다는 문제점이 있다. 본 논문에서는 최근 휴대폰, PDA, 스마트폰 등 이동단말기의 발전에 따라 통신행동 기록, 위치 정보와 같은 컨텍스트 정보를 수집하고 이용할 수 있음에 착안하여 SMS 텍스트와 함께 이동단말기의 컨텍스트 정보를 추론에 사용하였다. 의사결정트리를 이용하여 가용한 컨텍스트 정보로부터 추론한 정황 정보를 SMS 통신에서 사용하여 기존의 텍스트 기반의 의사소통의 한계를 극복할 수 있는 Visual SMS 를 제안한다. 사전에 정의한 훈련 데이터 집합을 통하여 의사결정트리를 생성하고 이를 기반으로 Visual SMS 를 구현, 시뮬레이션하여 추론 결과를 통해 그 기대효과를 확인한다.

Development of Matching Algorism for System Recognizing Text in the Construction Field (건설분야 텍스트 인식시스템의 매칭알고리즘 개발)

  • Song, Jong-Kwan;Jeong, Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1525-1527
    • /
    • 2011
  • 현재 모든 분야에 IT산업이 융합되어 있지만 건설분야에서는 IT산업과의 융합이 많이 시도되고 있음에도 불구하고 타 산업에 비해 미비한 실정이다. 특히, 설계단계 공사비정보는 설계자의 의사결정을 지원하는 중요한 자료원임에도 불구하고 작성자에 따라 내역서에 쓰이는 작업항목 및 규격의 표현방식이 다르고 외래어 표음 및 오타, 그리고 부가정보 표기로 인해 단가축적의 시스템 및 DB화 가 이루어지지 않고 있다. 따라서 본 연구는 시공단계에서 발생된 실적단가를 설계단계에서 효과적으로 활용하기 위해 동일한 작업항목의 상이한 표현을 동일하게 인식할 수 있는 텍스트 인식시스템의 알고리즘을 제시한다. 텍스트 인식알고리즘에는 "유사어 및 단어테이블", "기준작업항목 테이블", "인식된 작업항목 테이블" 등으로 구성된 DB, 최소의미단위 단어를 비교 분절하기 위한 문자열 매칭 알고리즘, 그리고 동일하지 않은 텍스트를 인식하고 사용자의 의사결정을 지원하기 위한 유사도 계산으로 구성하였다.

A Chrome Plug-in for Harmful Text Filtering based on CNN-LSTM (CNN-LSTM 기반 유해 텍스트 필터링 크롬 플러그인)

  • Hwang, Hyun-Bin;Kim, Han-Kyum;Chung, Jinwoo;Chung, Hyuk-Soon;Seo, Choong-Won;Lee, Soowon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.543-546
    • /
    • 2021
  • 최근 온라인 매체에서 무분별한 비속어나 욕설 사용이 늘어남에 따라 유해한 텍스트를 자동으로 필터링하는 시스템의 필요성이 증가하고 있다. 유해 텍스트 필터링 관련 기존의 접근방법은 채팅 프로그램 등 특정 프로그램에 한하여 적용이 되거나 특정 포탈의 웹페이지에 국한되어 적용이 되는 한계가 있다. 따라서 본 연구에서는 AI를 활용하여 모든 웹 페이지의 유해 텍스트를 필터링할 수 있는 Chrome Extension을 구현하고 그 유효성을 검증한다.

Text Style Transfer of Non-parallel Data using Transformer and Discriminator (트랜스포머와 판별기를 이용한 비병렬 데이터의 텍스트 스타일 변환)

  • Park, Da-Sol;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.64-68
    • /
    • 2020
  • 텍스트 스타일 변환은 문장 내 컨텐츠는 유지하면서 문장의 스타일을 변경하는 것이다. 스타일의 정의가 모호하기 때문에 텍스트 스타일 변환에 대한 연구는 대부분 지도 학습으로 진행되어왔다. 본 논문에서는 병렬 데이터 구축이 되지 않은 데이터를 학습하기 위해 비병렬 데이터를 이용하여 스타일 변환을 시도한다. 트랜스포머 기반의 문장 생성기를 이용하여 문장을 생성하고, 해당 스타일을 분류하는 판별기로 이루어진 모델을 제안한다. 제안 모델을 통해, 감정 변환의 성능은 정확도(Accuracy) 56.9%, self-BLEU 0.393(긍정→부정), 0.366(부정→긍정), 유창성(fluency) 798.23(긍정→부정), 1381.05(부정→긍정)을 보였다. 본 연구는 비병렬 데이터에 대해 스타일 변환을 적용함으로써, 병렬 데이터가 없는 다양한 도메인에도 적용가능 할 것이다.

  • PDF

Research Trends of Adversarial Attack Techniques in Text (텍스트 분야 적대적 공격 기법 연구 동향)

  • Kim, Bo-Geum;Kang, Hyo-Eun;Kim, Yongsu;Kim, Ho-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.420-422
    • /
    • 2022
  • 인공지능 기술이 문서 분류, 얼굴 인식, 자율 주행 등 실생활 전반에 걸쳐 다양한 분야에 적용됨에 따라, 인공지능 모델에 대한 취약점을 미리 파악하고 대비하는 기술의 중요성이 높아지고 있다. 이미지 영역에서는 입력 데이터에 작은 섭동을 추가해 신경망을 속이는 방법인 적대적 공격 연구가 활발하게 이루어졌지만, 텍스트 영역에서는 텍스트 데이터의 이산적인 특징으로 인해 연구에 어려움이 존재한다. 본 논문은 텍스트 분야 인공지능 기술에 대한 적대적 공격 기법을 분석하고 연구의 필요성을 살펴보고자 한다.