• 제목/요약/키워드: 텍스트 처리

검색결과 1,355건 처리시간 0.026초

감정의 표현을 휘한 마크업 (Mark-up for Representing Emotion)

  • 박성은;이용규
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.487-490
    • /
    • 2004
  • 이메일과 같은 텍스트 기반의 서비스 둥이 점차 대중화되고 있지만, 이러한 텍스트 기반의 서비스에서는 메시지를 전달할 때 수신자가 필자의 감정 상태를 정확하게 파악하기 어려운 문제가 있다. 이러한 문제를 단편적으로 해결하기 위하여 감정 상태를 나타내는 이모티콘(emoticon)을 사용하기도 하지만 이는 보편적이지 않아서 사용하기에 불편한 점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위한 방안으로 일반 텍스트 문서에 감정 태그를 삽입하여 필자의 감정을 표현할 수 있도록 새로운 마크업 언어인 EmoXML(Emotion XML)을 정의한다. 그리고 문장 내에 포함되어 있는 감정 어휘를 인식하여, 관련 감정 태그를 자동으로 생성하고 처리할 수 있는 시스템을 설계한다.

  • PDF

이진 문서 영상을 위한 특징 기반 텍스트 워터마킹 (Feature based Text Watermarking for Binary Document Image)

  • 추현곤;김회율
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.151-156
    • /
    • 2005
  • 본 논문에서는 영문자의 형태적 특성에 기반한 텍스트 워터마킹 방법을 제안한다. 제안하는 방법은 높은 데이터 용량을 유지하면서 문서 변환 과정 중 일어날 수 있는 여러 형태의 왜곡에 대해 강인한 검출률을 유지할 수 있도록, 문자의 형태적 특성에 따라 서로 다근 워터마킹 방법을 이용한다. 문자의 개별적인 특징에 따라 라인의 연결 구조의 변화 또는 글자의 경계 픽셀의 특성 차이 및 내부 혼의 넓이 변화를 통해 워터마크 메시지를 삽입하고 검출한다. 실험 결과론 통해 회전 및 확대, 축소 변환과 흐려짐, 노이즈 등의 왜곡에 대해 제안된 방법이 논은 데이터 용량을 유지하면서도 $90\%$ 이상의 높은 검출률을 유지함을 알 수 있었다.

Generative Adversarial Network 학습을 통한 감정 텍스트 생성에 관한 연구 (A Study on the Emotional Text Generation using Generative Adversarial Network)

  • 김우성;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.380-382
    • /
    • 2019
  • GAN(Generative Adversarial Network)은 정해진 학습 데이터에서 정해진 생성자와 구분자가 서로 각각에게 적대적인 관계를 유지하며 동시에 서로에게 생산적인 관계를 유지하며 가능한 긍정적인 영향을 주며 학습하는 기계학습 분야이다. 전통적인 문장 생성은 단어의 통계적 분포를 기반으로 한 마르코프 결정 과정(Markov Decision Process)과 순환적 신경 모델(Recurrent Neural Network)을 사용하여 학습시킨다. 이러한 방법은 문장 생성과 같은 연속된 데이터를 기반으로 한 모델들의 표준 모델이 되었다. GAN은 표준모델이 존재하는 해당 분야에 새로운 모델로써 다양한 시도가 시도되고 있다. 하지만 이러한 모델의 시도에도 불구하고, 지금까지 해결하지 못하고 있는 다양한 문제점이 존재한다. 이 논문에서는 다음과 같은 두 가지 문제점에 집중하고자 한다. 첫째, Sequential 한 데이터 처리에 어려움을 겪는다. 둘째, 무작위로 생성하기 때문에 사용자가 원하는 데이터만 출력되지 않는다. 본 논문에서는 이러한 문제점을 해결하고자, 부분적인 정답 제공을 통한 조건별 생산적 적대 생성망을 설계하여 이 방법을 사용하여 해결하였다. 첫째, Sequence to Sequence 모델을 도입하여 Sequential한 데이터를 처리할 수 있도록 하여 원시적인 텍스트를 생성할 수 있게 하였다. 둘째, 부분적인 정답 제공을 통하여 문장의 생성 조건을 구분하였다. 결과적으로, 제안하는 기법들로 원시적인 감정 텍스트를 생성할 수 있었다.

BERT 기반 혐오성 텍스트 필터링 시스템 - 대학 청원 시스템을 중심으로 (BERT-based Hateful Text Filtering System - Focused on University Petition System)

  • 문태진;배현빈;이현수;박상욱;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.714-715
    • /
    • 2023
  • 최근들어 청원 시스템은 사람들의 다양한 의견을 반영하고 대응하기 위한 중요한 수단으로 부상하고 있다. 그러나 많은 양의 청원 글들을 수작업으로 분류하는 것은 매우 시간이 많이 소요되며, 인적 오류가 발생할 수 있는 문제점이 존재한다. 이를 해결하기 위해 자연어처리(NLP) 기술을 활용한 청원 분류 시스템을 개발하는 것이 필요하다. 본 연구에서는 BERT(Bidirectional Encoder Representations from Transformers)[1]를 기반으로 한 텍스트 필터링 시스템을 제안한다. BERT 는 최근 자연어 분류 분야에서 상위 성능을 보이는 모델로, 이를 활용하여 청원 글을 분류하고 분류된 결과를 이용해 해당 글의 노출여부를 결정한다. 본 논문에서는 BERT 모델의 이론적 배경과 구조, 그리고 미세 조정 학습 방법을 소개하고, 이를 활용하여 청원 분류 시스템을 구현하는 방법을 제시한다. 우리가 제안하는 BERT 기반의 텍스트 필터링 시스템은 청원 글 분류를 자동화하고, 이에 따른 대응 속도와 정확도를 향상시킬 것으로 기대된다. 또한, 이 시스템은 다양한 분야에서 응용 가능하며, 대용량 데이터 처리에도 적합하다. 이를 통해 대학 청원 시스템에서 혐오성 발언 등 부적절한 내용을 사전에 방지하고 학생들의 의견을 효율적으로 수집할 수 있는 기능을 제공할 수 있다는 장점을 가지고 있다.

유머텍스트 처리에서 스키마의 활성화 과정 (The Course of Schema Activation in Processing of Humor Text)

  • 최영건;신현정
    • 한국콘텐츠학회논문지
    • /
    • 제15권9호
    • /
    • pp.425-435
    • /
    • 2015
  • 유머를 유발하는 핵심요인이 불합치라는 것에서는 많은 연구자들의 견해가 일치하지만, 불합치를 유발하는 상이한 스키마들의 활성화에서는 다른 견해를 보인다. 스키마의 활성화와 관련된 견해들 중에서 대비되는 두 견해에는 동시 활성화 견해(concurrent activation view)와 선택적 활성화 견해(selective activation view)가 있다. 이 연구에서는 유머텍스트 처리에서 상이한 두 스키마들이 어떻게 활성화 되는지를 경험적으로 검증함으로써 대비되는 두 견해를 살펴보고자 하였다. 실험은 유머 텍스트를 기저-도입-불합치-해소의 4단계로 구분하여 시행하였고, 불합치는 존재하되 해소부분을 조작한 대조텍스트를 사용하였다. 실험에서는 문맥에 부합하는 스키마를 S1, 부합하지 않고 유머의 참 뜻을 나타내는 스키마를 S2라 명명하였다. 실험결과 불합치 단계에서 활성화된 스키마들이 해소 단계에서도 여전히 활성화되고, 불합치 단계에서의 S1, S2 모두 해소단계의 S1, S2와 통계적으로 유의한 차이를 보였다. 이는 불합치 단계에서는 하나의 스키마가 다른 스키마를 억제할 것이라고 가정하는 선택적 활성화 견해와는 모순되는 것이다. 이 연구의 결과는 유머 텍스트를 처리하는 과정에서 상이한 스키마들은 동시에 활성화됨을 시사한다.

정보처리 관점에서의 서사 텍스트 분석에 관한 연구 - 네 가지 전산적 방법론을 중심으로 (A study on narrative text analysis from the perspective of information processing - focusing on four computational methodologies)

  • 권호창
    • 트랜스-
    • /
    • 제13권
    • /
    • pp.141-169
    • /
    • 2022
  • 서사 텍스트에 대한 분석은 학술적으로나 실용적으로 중요하게 여겨져 왔으며 여러 관점과 방법으로 이루어져 왔다. 이 논문에서는 정보처리 관점에서의 전산적 서사 분석 방법론을 살펴보았다. 정보처리 관점에서 서사의 창작과 수용은 서사 텍스트에 의해 매개된 양방향적 코딩 과정이고, 서사 텍스트는 다층적으로 구조화된 코드라고 할 수 있다. 이 논문에서는 이런 관점을 공유하는 네 가지 방법론 - 캐릭터 네트워크 분석, 텍스트 마이닝과 감성 분석, 사건 구성의 연속성 분석, 서사 에이전트의 지식 분석 -을 사례와 함께 살펴보았다. 이를 통해 서사 분석에 있어 전산적 방법론의 메커니즘과 가능성을 확인하였다. 결론에서는 전산적 서사 분석의 의의와 부작용을 살펴보고, 인문학과 과학기술 통섭에 바탕한 인간-컴퓨터 협업 모델 설계의 필요성을 논의하였다. 이를 통해 미적으로 창의적이고, 윤리적으로 선하며, 정치적으로 진보적이고, 인지적으로 정교한 서사를 보다 효과적으로 만들어 나갈 수 있음을 주장하였다.

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

프레임넷을 통한 디비피디아 온톨로지 인스턴스 생성의 커버리지 개선 (DBpedia Ontology Population Coverage Enhancement with FrameNet)

  • 함영균;서지우;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.32-37
    • /
    • 2014
  • 비구조 텍스트로부터 지식을 추출하여 온톨로지 기반 지식베이스를 구축하는 연구가 최근 국내외로 다양하게 진행되고 있다. 이러한 목적을 달성하기 위해서는 자연어 텍스트에서 나타난 지식요소들의 다양한 속성들을 표현할 수 있는 온톨로지를 필요로 한다. 디비피디아 역시 위키피디아의 지식들을 표현하기 위하여 디비피디아 온톨로지를 사용한다. 그러나 디비피디아 온톨로지는 위키피디아의 인포박스에 기반한 온톨로지로서, 요약된 정보를 설명하기에는 적합할 수 있으나 자연어 텍스트로 표현된 다양한 지식표현을 충분히 커버하는 것은 보증되지 않는다. 본 논문에서는 자연어 텍스트로 쓰여진 지식을 디비피디아 온톨로지가 충분히 표현할 수 있는지를 검토하고, 또한 그 불완전성을 프레임넷이 어느정도까지 보완할 수 있는지를 살핀다. 이를 통해 한국어 텍스트로부터 지식베이스를 자동구축하는 온톨로지 인스턴스 자동생성 연구의 방향으로서 디비피디아 온톨로지와 프레임넷의 효용성을 전망한다.

  • PDF

한글 하이퍼텍스트 자동변환시스팀의 설계 및 구현 (The Design & Implementation of Korean Hypertext Automatic Translator)

  • 안병익;김재군;김영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.91-98
    • /
    • 1993
  • 하이퍼텍스트는 문서검색 전산화의 새로운 대안을 제시하고 있으나 저작에 많은 시간과 노력이 요구되는 단점이 있다. 본 연구에서는 기존의 한글문서를 하이퍼텍스트 문서로 자동 변환하는 변환시스팀을 설계, 구현하였다. 문서는 사용자가 제공한 부제목형식의 정규표현식(regular expression)으로부터 논리적 구조가 분석되며 문서분할, 형태소분석, 대표카드결정 및 링크생성의 과정을 거쳐 하이퍼텍스트 문서로 변환된다. 시험운용 결과 본 시스팀은 대량의 한글문서를 적은 노력으로 실용성있는 하이퍼텍스트 문서로 자동 변환할 수 있음을 입증하였다.

  • PDF

관계 추출 데이터를 이용한 그래프-투-텍스트 생성 (Graph-to-Text Generation Using Relation Extraction Datasets)

  • 양기수;장윤나;이찬희;서재형;장환석;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.597-601
    • /
    • 2021
  • 주어진 정보를 자연어로 변환하는 작업은 대화 시스템의 핵심 모듈임에도 불구하고 학습 데이터의 제작 비용이 높아 공개된 데이터가 언어에 따라 부족하거나 없다. 이에 본 연구에서는 텍스트-투-그래프(text-to-graph) 작업인 관계 추출에 쓰이는 데이터의 입출력을 반대로 지정하여 그래프-투-텍스트(graph-to-text) 생성 작업에 이용하는 역 관계 추출(reverse relation extraction, RevRE) 기법을 소개한다. 이 기법은 학습 데이터의 양을 늘려 영어 그래프-투-텍스트 작업의 성능을 높이고 지식 묘사 데이터가 부재한 한국어에선 데이터를 재생성한다.

  • PDF