• Title/Summary/Keyword: 텍스트 전처리

Search Result 151, Processing Time 0.025 seconds

Seal Detection in Scanned Documents (스캔된 문서에서의 도장 검출)

  • Yu, Kyeonah;Kim, Kyung-Hye
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.12
    • /
    • pp.65-73
    • /
    • 2013
  • As the advent of the digital age, documents are often scanned to be archived or to be transmitted over the network. The largest proportion of documents is texts and the next is seal images indicating the author of the documents. While a lot of research has been conducted to recognize texts in scanned documents and commercialized text recognizing products are developed as highlighted the importance of the scanned document, information about seal images is discarded. In this paper, we study how to extract the seal image area from the color or black and white document containing the seal image and how to save the seal image. We propose a preprocessing step to remove other components except for the candidate outlines of the seal imprint from scanned documents and a method to select the final region of interest from these candidates by using the feature of seal images. Also in case of a seal imprint overlapped with texts, the most similar image among those stored in the database is selected through the template matching process. We verify the implemented system for a various type of documents produced in schools and analyze the results.

Analysis of the National Police Agency business trends using text mining (텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석)

  • Sun, Hyunseok;Lim, Changwon
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.2
    • /
    • pp.301-317
    • /
    • 2019
  • There has been significant research conducted on how to discover various insights through text data using statistical techniques. In this study we analyzed text data produced by the Korean National Police Agency to identify trends in the work by year and compare work characteristics among local authorities by identifying distinctive keywords in documents produced by each local authority. A preprocessing according to the characteristics of each data was conducted and the frequency of words for each document was calculated in order to draw a meaningful conclusion. The simple term frequency shown in the document is difficult to describe the characteristics of the keywords; therefore, the frequency for each term was newly calculated using the term frequency-inverse document frequency weights. The L2 norm normalization technique was used to compare the frequency of words. The analysis can be used as basic data that can be newly for future police work improvement policies and as a method to improve the efficiency of the police service that also help identify a demand for improvements in indoor work.

Suggestions on how to convert official documents to Machine Readable (공문서의 기계가독형(Machine Readable) 전환 방법 제언)

  • Yim, Jin Hee
    • The Korean Journal of Archival Studies
    • /
    • no.67
    • /
    • pp.99-138
    • /
    • 2021
  • In the era of big data, analyzing not only structured data but also unstructured data is emerging as an important task. Official documents produced by government agencies are also subject to big data analysis as large text-based unstructured data. From the perspective of internal work efficiency, knowledge management, records management, etc, it is necessary to analyze big data of public documents to derive useful implications. However, since many of the public documents currently held by public institutions are not in open format, a pre-processing process of extracting text from a bitstream is required for big data analysis. In addition, since contextual metadata is not sufficiently stored in the document file, separate efforts to secure metadata are required for high-quality analysis. In conclusion, the current official documents have a low level of machine readability, so big data analysis becomes expensive.

A Case Study on Text Analysis Using Meal Kit Product Review Data (밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구)

  • Choi, Hyeseon;Yeon, Kyupil
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.5
    • /
    • pp.1-15
    • /
    • 2022
  • In this study, text analysis was performed on the mealkit product review data to identify factors affecting the evaluation of the mealkit product. The data used for the analysis were collected by scraping 334,498 reviews of mealkit products in Naver shopping site. After preprocessing the text data, wordclouds and sentiment analyses based on word frequency and normalized TF-IDF were performed. Logistic regression model was applied to predict the polarity of reviews on mealkit products. From the logistic regression models derived for each product category, the main factors that caused positive and negative emotions were identified. As a result, it was verified that text analysis can be a useful tool that provides a basis for maximizing positive factors for a specific category, menu, and material and removing negative risk factors when developing a mealkit product.

Development of big data based Skin Care Information System SCIS for skin condition diagnosis and management

  • Kim, Hyung-Hoon;Cho, Jeong-Ran
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.3
    • /
    • pp.137-147
    • /
    • 2022
  • Diagnosis and management of skin condition is a very basic and important function in performing its role for workers in the beauty industry and cosmetics industry. For accurate skin condition diagnosis and management, it is necessary to understand the skin condition and needs of customers. In this paper, we developed SCIS, a big data-based skin care information system that supports skin condition diagnosis and management using social media big data for skin condition diagnosis and management. By using the developed system, it is possible to analyze and extract core information for skin condition diagnosis and management based on text information. The skin care information system SCIS developed in this paper consists of big data collection stage, text preprocessing stage, image preprocessing stage, and text word analysis stage. SCIS collected big data necessary for skin diagnosis and management, and extracted key words and topics from text information through simple frequency analysis, relative frequency analysis, co-occurrence analysis, and correlation analysis of key words. In addition, by analyzing the extracted key words and information and performing various visualization processes such as scatter plot, NetworkX, t-SNE, and clustering, it can be used efficiently in diagnosing and managing skin conditions.

Query Analysis of Color-Term for Image Retrieval (이미지검색을 위한 색상어 질의 분석)

  • Hur, Jeong;Kim, Hyun-Jin;Park, Sung-Hee;Choi, Jae-Hun;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.48-53
    • /
    • 2001
  • 인터넷 환경의 급속한 성장과 더불어 기존의 텍스트 정보들이 다양한 형태의 멀티미디어 정보(소리, 이미지, 동영상 등)로 대체되었다. 이로 인해 멀티미디어 정보검색의 필요성이 대두되기 시작했다. 멀티미디어 정보검색 중 이미지검색은 크게 주석기반과 특징기반 (color, shape, texture 등) 검색으로 나눌 수 있다. 본 고는 이미지 검색 중 전처리에 해당하는 색상어 질의처리의 한 방법을 제안한다. 즉, 사용자에게 익숙한 자연어 질의로부터 이미지의 특징에 해당하는 색상 정보와 주석에 해당하는 키워드 정보를 중심어 후위원칙기반으로 파싱트리를 구성한 후, 후위순회방식에 의해 불리언 검색을 수행하는 방법을 제안한다.

  • PDF

A novel on Context Information Analysis and Prediction Process using Text Mining (텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구)

  • Jung, Se-hoon;Kang, Joo-hee;Kim, Jong-chan;Sim, Chun-bo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.10a
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF

Product Planning using Similarity Analysis Technique Based on Word2Vec Model (Word2Vec 모델 기반의 유사도를 이용한 상품기획 모델)

  • Ahn, Yeong-Hwi;Park, Koo-Rack
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.11-12
    • /
    • 2021
  • 소비자가 남긴 댓글이나 상품평은 상품기획의 주요 정보가 될 수 있다. 본 논문에서는 버티컬 무소음 마우스 7,300개에 대한 온라인 댓글을 딥러닝 기술인 Word2Vec을 이용하여 유사도 분석을 시행하였다. 유사도 분석결과 클릭 키워드에 대한 장점으로 소리(.975), 버튼(.972), 무게(.971)가 분석되었으며 단점은 가볍다(.959)이었다. 이는 구매 상품에 대한 소비자의 의견, 태도, 성향 및 서비스에 대한 포괄적인 의견들을 데이터화 하여 상품의 특징을 분석할 수 있는 의미있는 과정 이라고 볼 수 있다. 상품기획 프로세스에 딥러닝 기술을 통한 소비자의 감성분석자료 포함시키는 전략을 적용한다면 상품기획의 시간과 비용투자의 경제성을 높일 수 있고 나아가 빠르게 변화하는 소비자의 요구사항을 적기에 반영할 수 있을 것으로 생각된다.

  • PDF

A Study on Korean Fake news Detection Model Using Word Embedding (워드 임베딩을 활용한 한국어 가짜뉴스 탐지 모델에 관한 연구)

  • Shim, Jae-Seung;Lee, Jaejun;Jeong, Ii Tae;Ahn, Hyunchul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.199-202
    • /
    • 2020
  • 본 논문에서는 가짜뉴스 탐지 모델에 워드 임베딩 기법을 접목하여 성능을 향상시키는 방법을 제안한다. 기존의 한국어 가짜뉴스 탐지 연구는 희소 표현인 빈도-역문서 빈도(TF-IDF)를 활용한 탐지 모델들이 주를 이루었다. 하지만 이는 가짜뉴스 탐지의 관점에서 뉴스의 언어적 특성을 파악하는 데 한계가 존재하는데, 특히 문맥에서 드러나는 언어적 특성을 구조적으로 반영하지 못한다. 이에 밀집 표현 기반의 워드 임베딩 기법인 Word2vec을 활용한 텍스트 전처리를 통해 문맥 정보까지 반영한 가짜뉴스 탐지 모델을 본 연구의 제안 모델로 생성한 후 TF-IDF 기반의 가짜뉴스 탐지 모델을 비교 모델로 생성하여 두 모델 간의 비교를 통한 성능 검증을 수행하였다. 그 결과 Word2vec 기반의 제안모형이 더욱 우수하였음을 확인하였다.

  • PDF

Automatic knowledgebase extraction based smishing SMS detection (자동 지식베이스 추출 기반 스미싱 SMS 탐지)

  • Baek, Seong-Bin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.564-567
    • /
    • 2021
  • 스미싱은 SMS 문자를 통해 피해자를 현혹시켜 개인정보나 금전 등을 갈취하는 범죄이다. 발전하는 스미싱 범죄 수법에 대응하기 위해선 새로운 스미싱 범죄 사례에서 데이터를 추출하고, 추출한 데이터를 기존 시스템에 통합하여 빠르게 대응할 수 있어야 한다. 본 연구에서는 빠른 스미싱 대응을 위해 전처리를 하지 않은 SMS 문자 텍스트에서 지식베이스를 자동으로 추출하고 저장하는 자동 지식베이스 추출 모듈을 제안하며, 추출 시스템 지식베이스를 바탕으로 입력된 SMS가 스미싱인지 판별하는 스미싱 SMS 탐지 모듈을 통합한 자동 지식베이스 추출 기반 스미싱 SMS 탐지 시스템을 제시한다. 제시된 스미싱 SMS 탐지 모델은 UCI SMS Spam Collection Dataset을 기준으로 90.9 (F1 score)의 성능을 보여주었다.

  • PDF