• Title/Summary/Keyword: 텍스트 판별

Search Result 61, Processing Time 0.024 seconds

Native Language Identification for Korean Learner Corpus (한국어 학습자 말뭉치의 모어 판별)

  • Hur, Heuijung;Chung, Seung Yeon;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.300-304
    • /
    • 2021
  • 모어 판별이란 제 2 언어를 습득하는 학습자들이 생산한 목표 언어에 기반하여 학습자들의 제 1 언어를 자동적으로 확인하는 작업을 말한다. 모여 판별 과제를 성공적으로 수행하기 위한 방법을 다룬 다양한 연구들이 진행되어 왔으나, 한국어를 대상으로 진행된 모어 판별 연구는 그 수가 극히 적다. 본 연구에서는 한국어 학습자 텍스트를 대상으로 머신 러닝, 딥 러닝의 다양한 문서 분류 모델을 실험하고, 이를 통해 한국어 학습자 텍스트 모어 판별을 위해 적합한 모델을 구축하기 위해 필요한 조건을 찾아보고자 하였다.

  • PDF

Authorship Attribution in Korean Using Chosun Ilbo Column Texts (빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로)

  • Han, Na-Rae
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.29-34
    • /
    • 2008
  • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

  • PDF

Text Style Transfer of Non-parallel Data using Transformer and Discriminator (트랜스포머와 판별기를 이용한 비병렬 데이터의 텍스트 스타일 변환)

  • Park, Da-Sol;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.64-68
    • /
    • 2020
  • 텍스트 스타일 변환은 문장 내 컨텐츠는 유지하면서 문장의 스타일을 변경하는 것이다. 스타일의 정의가 모호하기 때문에 텍스트 스타일 변환에 대한 연구는 대부분 지도 학습으로 진행되어왔다. 본 논문에서는 병렬 데이터 구축이 되지 않은 데이터를 학습하기 위해 비병렬 데이터를 이용하여 스타일 변환을 시도한다. 트랜스포머 기반의 문장 생성기를 이용하여 문장을 생성하고, 해당 스타일을 분류하는 판별기로 이루어진 모델을 제안한다. 제안 모델을 통해, 감정 변환의 성능은 정확도(Accuracy) 56.9%, self-BLEU 0.393(긍정→부정), 0.366(부정→긍정), 유창성(fluency) 798.23(긍정→부정), 1381.05(부정→긍정)을 보였다. 본 연구는 비병렬 데이터에 대해 스타일 변환을 적용함으로써, 병렬 데이터가 없는 다양한 도메인에도 적용가능 할 것이다.

  • PDF

Authorship Attribution in Korean Using Frequency Profiles (빈도 정보를 이용한 한국어 저자 판별)

  • Han, Na-Rae
    • Korean Journal of Cognitive Science
    • /
    • v.20 no.2
    • /
    • pp.225-241
    • /
    • 2009
  • This paper presents an authorship attribution study in Korean conducted on a corpus of newspaper column texts. Based on the data set consisting of a total of 160 columns written by four columnists of Chosun Daily, the approach utilizes relative frequencies of various lexical units in Korean such as fully inflected words, morphemes, syllables and their bigrams in an attempt to establish authorship of a blind text selected from the set. Among these various lexical units, "the morpheme" is found to be most effective in predicting who among the four potential candidates authored a text, reporting accuracies of over 93%. The results indicate that quantitative and statistical techniques in authorship attribution and computational stylistics can be successfully applied to Korean texts.

  • PDF

Detection of Soft 404 Errors based on Visual Characteristics of Web Page (웹 문서의 형태적 특징 인식에 기반한 SOFT 404 오류 판별)

  • Im, Jaehyeong;Choo, Seung-Hwa
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.382-385
    • /
    • 2018
  • Dead Link의 노출 최소화는 웹 검색 서비스의 품질 유지에 있어 매우 중요하다. 따라서 색인 내 Soft 404 오류의 정확한 판별은 필수적이지만, 리다이렉션 정보에 의존하거나 텍스트 혹은 HTML 자질 만을 고려하는 기존 방법의 활용만으로는 판별 가능한 Soft 404 오류의 유형이 한정될 수 있다는 문제가 있다. 이에 본 연구에서는 보다 범용성이 높은 Soft 404 오류 판별 기술의 개발을 위해, 404 오류 안내 페이지 고유의 형태적 특성을 오류 판별에 사용할 것을 제안한다. 제안 방법은 오류 안내 문서의 형태적 특성을 이미지 인식 모형에 기반해 학습한 후 이를 Soft 404 오류 판별에 사용하며, 리다이렉션 등 특정 정보에 의존하는 기존 방법에 비해 보다 폭넓게 적용 가능하다는 장점이 있다. 실험에서 제안 방법은 87.6%의 정확률과 92.7%의 재현율을 기록하는 등 높은 인식 성능을 보였다.

  • PDF

A Study on Automated HoMokDan Structure Determination in Table (테이블 내의 호목단 구조 판별 자동화에 대한 연구)

  • Cho, Sung-Soo;Kim, Myung Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.295-297
    • /
    • 2012
  • 현재 법률과 관련된 문서들은 변경 사항 에 대한 공표와 기록의 중요성을 가지고 있다. 따라서 변경사항을 자동으로 인지하고 공표할 수 있는 자동화 시스템에 대한 관심과 연구가 진행되고 있다. 그러나 대부분의 문서들은 복잡한 구조이기 때문에 자동화에 어려움이 많다. 이로 인해 복잡한 구조의 문서를 자동으로 판별할 수 있는 방법에 관한 관심이 증대되고 있다. 현재 국내외에서는 전자 문서 파일의 텍스트 및 테이블을 판별해서 분류 하는 자동화에 대한 연구가 진행되고 있다. 하지만 이전 연구에서는 호목단 구조를 갖는 계층적인 테이블을 판별하지 않는다. 그래서 본 논문에서는 호목단을 정의하고, 테이블의 호목단 구조를 패턴 별로 분류 하며, 테이블의 호목단 구조 판별 방법을 제시한다.

The Off-line Verification System of Signature of Handwrite (필적 및 서명에 대한 Off-line 자동분석시스템)

  • Kim, Sei-Hoon;Ha, Jeung-Yo;Kim, Gye-Young;Choi, Hyung-Il
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02c
    • /
    • pp.189-193
    • /
    • 2007
  • 필적 감정은 개인의 고유한 필적 개성을 이용하여 임의의 두 필기 문장 또는 텍스트가 동일인에 의해 작성되었는지를 판별하는 기술로 유서대필 및 보안수사, 서명의 검증, 범죄 수사 등에 활용되어지고 있다. 이러한 작업은 감정 전문가의 판단기준에 의해 필적의 유사성을 판별하기 때문에 객관성 결여 및 과도한 소요 시간, 과도한 처리비용의 문제를 내포하게 된다. 이러한 문제를 해결하여 판별의 객관성과 업무의 신속한 처리를 가능하게 하기 본 논문에서는 컴퓨터를 통한 패턴 분석을 적용하여 두 필적의 유사성을 판별하는 방법을 본 논문에서는 제안한다. 이를 위하여 본 논문은 학습단계와 자동분석단계로 나뉘며, 학습단계에서는 입력된 문서영상에서 필적의 영역을 추출한 후, 특징을 추출하고 DTW연산을 통하여 학습을 한다. 자동분석단계에서는 대조할 문서영상에서의 특징을 추출하고 입력된 문서영상과 대조할 문서영상간의 마할라노비스 거리(Mahalanobis Distance)를 구하여 서명 및 필적에 대한 유사도를 도출한다. 실험은 4명의 필적을 이용하여 비교하였으며, 우수한 결과를 보였다.

  • PDF

Sentimental Analysis using the Phoneme-level Embedding Model (음소 단위 임베딩 모형을 이용한 감성 분석)

  • Hyun, Kyeongseok;Choi, Woosung;Jung, Soon-young;Chung, Jaehwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1030-1032
    • /
    • 2019
  • 형태소 분석을 통하여 한국어 문장을 형태소 단위의 임베딩 및 학습 관련 연구가 되었으나 최근 비정형적인 텍스트 데이터의 증가에 따라 음소 단위의 임베딩을 통한 신경망 학습에 대한 요구가 높아지고 있다. 본 논문은 비정형적인 텍스트 감성 분석 성능 향상을 위해 음소 단위의 토큰을 생성하고 이를 CNN 모형을 기반으로 다차원 임베딩을 수행하고 감성분석을 위하여 양방향 순환신경망 모델을 사용하여 유튜브의 비정형 텍스트를 학습시켰다. 그 결과 텍스트의 긍정 부정 판별에 있어 90%의 정확도를 보였다.

Improvement of Encoding Detection Algorithm for Multi-byte Encoded Data with Errors (오류가 발생한 멀티바이트 인코딩 데이터의 인코딩 기법 판별 알고리즘 개선)

  • Bae, Junwoo;Kim, Seonbeom;Park, Heejin
    • The Journal of Korean Institute of Next Generation Computing
    • /
    • v.13 no.2
    • /
    • pp.18-25
    • /
    • 2017
  • In computer science, an encoding is a standardization of converting information to one format for audio, video or text. Therefore, the encoding information of the data should be known to open and read it and there are algorithms detecting encoder of the data. However, some informations of data could be disappeared by packet loss when transmitted on network, especially, if the data is snatched by packet sniffing or eavesdropping from wireless communications. In this paper, we improve the performance of encoding detection algorithm of 'uchardet' program for multi-byte encoded data with errors based on bit-shift algorithm. To simulate the performance, we generated Korean and Japanese text data with errors that is removed some random bits at random positions. Then the detection algorithm are tested using the data and 'uchardet-bitshift' showed better performance than 'uchardet'. When Korean texts are used, 'uchardet' could detect perfectly with ≤0.005% errors but it showed 0% detection rate with ≥1% errors while 'uchardet-bitshift' detected perfectly with ≤0.05% errors and it showed correct detection cases with ≥1% errors. Japanese texts with errors tend to report falsely as Chinese encoding because Japanese texts include lots of Chinese characters. As a results, we improved encoding detection algorithms by applying bit shift operation.

A Distinction Technology for Harmful Web Documents by Rates (등급에 따른 웹 유해 문서 분류 기술)

  • Kim, Yong-Soo;Nam, Taek-Yong;Won, Dong-Ho
    • The KIPS Transactions:PartC
    • /
    • v.13C no.7 s.110
    • /
    • pp.859-864
    • /
    • 2006
  • The openness of the Web allows any user to access almost any type of information easily at any time and anywhere. However, with function of easy access for useful information, internet has dysfunctions of providing users with harmful contents indiscriminately. Some information, such as adult content, is not appropriate for all users, notably children. Additionally for adults, some contents included in abnormal porn sites can do ordinary people's mental health harm. In the meantime, since Internet is a worldwide open network it has a limit to regulate users providing harmful contents through each countrie's national laws or systems. Additionally it is not a desirable way of developing a certain system-specific classification technology for harmful contents, because internet users can contact with them in diverse way, for example, porn sites, harmful spams, or peer-to-peer networks, etc. Therefore, it is being emphasized to research and develop context-based core technologies for classifying harmful contents. In this paper, we propose an efficient text filter for blocking harmful texts of web documents using context-based technologies.