• 제목/요약/키워드: 텍스트 전처리

검색결과 150건 처리시간 0.026초

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법 (Translation Pre-processing Technique for Improving Analysis Performance of Korean News)

  • 이지민;정다운;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

OCR 시스템에서 YOLOv4를 활용한 텍스트 이미지 전처리 연구 (A Study on Preprocessing Image Text Using Yolov4 in OCR System)

  • 김하윤;유상인;주혜경;최여진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.964-966
    • /
    • 2022
  • 본 연구는 유료 OCR 서비스를 이용하여 야외 촬영 이미지의 텍스트를 검출하는 프로젝트에서 야외 촬영 텍스트를 학습시킨 Yolov4 모델을 통한 전처리 작업을 제안한다. 텍스트 감지를 통한 이미지 텍스트 전처리 진행은 불필요한 OCR 실행을 줄여 리소스를 절약하고 유료 서비스의 경우 비용 절감 효과까지 도모할 수 있다는 장점이 있다.

딥러닝을 위한 텍스트 전처리에 따른 단어벡터 분석의 차이 연구 (Study on Difference of Wordvectors Analysis Induced by Text Preprocessing for Deep Learning)

  • 고광호
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.489-495
    • /
    • 2022
  • 언어모델(Language Model)을 구축하기 위한 딥러닝 기법인 LSTM의 경우 학습에 사용되는 말뭉치의 전처리 방식에 따라 그 결과가 달라진다. 본 연구에서는 유명한 문학작품(기형도의 시집)을 말뭉치로 사용하여 LSTM 모델을 학습시켰다. 원문을 그대로 사용하는 경우와 조사/어미 등을 삭제한 경우에 따라 상이한 단어벡터 세트를 각각 얻을 수 있다. 이러한 전처리 방식에 따른 유사도/유추 연산 결과, 단어벡터의 평면상의 위치 및 언어모델의 텍스트생성 결과를 비교분석했다. 문학작품을 말뭉치로 사용하는 경우, 전처리 방식에 따라 연산된 단어는 달라지지만, 단어들의 유사도가 높고 유추관계의 상관도가 높다는 것을 알 수 있었다. 평면상의 단어 위치 역시 달라지지만 원래의 맥락과 어긋나지 않았고, 생성된 텍스트는 원래의 분위기와 비슷하면서도 이색적인 작품으로 감상할 수 있었다. 이러한 분석을 통해 문학작품을 객관적이고 다채롭게 향유할 수 있는 수단으로 딥러닝 기법의 언어모델을 활용할 수 있다고 판단된다.

텍스트 요약을 위한 스파크 기반 대용량 데이터 전처리 (Spark-Based Big Data Preprocessing for Text Summarization)

  • 지동준;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.383-385
    • /
    • 2022
  • 텍스트 요약(Text Summarization)은 자연어 처리(NLP) 분야의 주요 작업 중 하나이다. 높은 정확성을 보이는 문서 요약 딥 러닝 모델을 만들기 위해서 대용량 학습 데이터가 필요한데, 대용량 데이터 전처리 과정에서 처리 시간, 메모리 관리 등과 같은 문제가 발생한다. 본 논문에서는 대규모 병렬처리 플랫폼 Apache Spark 를 사용해 추상 요약 딥 러닝 모델의 데이터 전처리 과정을 개선하는 방법을 제안한다. 실험 결과 제안한 방법이 기존 방법보다 데이터 전처리 시간이 개선된 결과를 보이고 있다.

명도 정보를 이용한 자연 영상에서의 기울기 보정 및 텍스트 추출 (Text Extraction and Skew Compensation in Natural Scenes using Gray-level Information)

  • 최규담;김성동;최기호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.215-218
    • /
    • 2004
  • 본 논문은 실내외에서 얻어진 자연 영상으로부터 기울어진 영상을 바로 보정하고 텍스트를 추출하는 방법을 제안한다. 본 연구는 명도 이미지를 대상으로 모든 과정이 4단계로 이루어진다. 첫째 자연 영상에서 에지 검출 처리를 위한 전처리 및 Canny 에지 추출을 수행하며, 둘째 영상의 기울기를 추출하기 위해 허프변환에 대한 전처리와 후처리를 한 후, 셋째로 잡음영상과 선을 제거하고 텍스트 특징을 이용한 후보영역 검출을 한다. 마지막으로 텍스트 후보영역 안에서 지역적 이진화를 수행하여 불필요한 비텍스트 연결 요소를 추려내기 위해 두 가지 텍스트 추출 방법을 수행한다. 본 연구는 게시판, 교통표지판, 책 표지 등 100장의 자연영상을 대상으로 실험한 결과 텍스트 추출에서 90.3% 추출 정확도를 가졌으며, 기울어진 각도 추출에서도 94.3%의 높은 추출률을 보였다.

  • PDF

음성 인식 기반 쇼핑 어플리케이션 개발을 위한 데이터 전처리 알고리즘 (Data Preprocessing Algorithm for Developing Voice Recognition-based Shopping Applications)

  • 구연우;박은비;추서연;김유정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.1006-1008
    • /
    • 2022
  • 시각장애인이 이미지로 구성된 온라인 쇼핑몰에서 정보를 얻기 어려운 문제를 해결하기 위해, 본 논문에서는 이미지 텍스트 변환 알고리즘 연구를 진행하였다. 해당 연구를 기반으로 개발한 어플리케이션 <들리네>는 쇼핑몰 홈페이지로부터 정보를 수집하고, 이미지 속 텍스트를 추출하여 전처리 및 음성 변환 과정을 거쳐 사용자에게 제공한다. <들리네>는 사용자가 이미지 정보로 이루어진 온라인 쇼핑몰에서 명확한 정보를 편리하게 얻는 것을 목표로 한다.

자연 영상에서의 텍스트 추출 및 기울기 추출 (Text Extraction and Skew Detection in Natural Scenes)

  • 최규담;김성동;최기호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.346-349
    • /
    • 2003
  • 본 논문은 실내외에서 얻어진 자연 영상으로부터 텍스트를 추출하는 방법과 추출되어진 텍스트가 기울어져 있을 경우 기울기 각도를 추정하고 보정하는 방법을 제안한다 이런 모든 과정은 4단계로 수행된다. 명도 이미지를 대상으로 첫째 자연 영상에서 에지 검출 처리를 위한 전처리 단계와 둘째 에지 검출과 세선화를 통한 잡음영상 및 선 제거, 텍스트 특징을 이용한 후보영역 검출단계로 이루어지고 셋째 그 텍스트 후보영역 안에서 이진화를 수행하고 불필요한 비텍스트 연결 요소를 추려내어 제거 함으로써 텍스트를 추출한다. 마지막은 후처리로써 추출된 텍스트의 기울기 각도를 추정하고 추정 된 각도만큼 회전함으로써 기울어진 텍스트를 보정한다 본 연구는 다양한 자연 영상을 대상으로 실험한 결과, 본 논문의 유용성과 정확한 텍스트추출을 확인하였다.

  • PDF

텍스트 영역에 대한 단어 단위 분할 시스템 (A System for the Decomposition of Text Block into Words)

  • 정창부;곽희규;정선화;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

형태 모멘트를 이용한 텍스트 이미지 경사 측정 및 교정 (Skew Estimation and Correction in Text Images using Shape Moments)

  • Choo, Moon-Won;Chin, Seong-Ah
    • 한국콘텐츠학회논문지
    • /
    • 제3권1호
    • /
    • pp.14-20
    • /
    • 2003
  • 문서 이미지 처리에서 텍스트 블록의 수평화 프로세스는 문서 인식 솔루션을 위한 전처리 단계로서 많은 연구가 진행되고 있다. 이 논문에서는 텍스트 이미지 블록의 직교각 속성과 형태 모멘트에 후프 변환을 적용하여 경사진 텍스트 블록을 원래 문서의 텍스트와 수평화된 텍스트 이미지로 변환하는 효율적인 방식을 제안한다. 실험을 통하여 제안된 방식의 비교 성능 결과를 보인다.

  • PDF

NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출 (Text Assocation Pattern Extraction using NFP-tree Algorithm)

  • 유수경;김교정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF