• Title/Summary/Keyword: 정규화 텍스트

Search Result 36, Processing Time 0.028 seconds

A Case Study on Text Analysis Using Meal Kit Product Review Data (밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구)

  • Choi, Hyeseon;Yeon, Kyupil
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.5
    • /
    • pp.1-15
    • /
    • 2022
  • In this study, text analysis was performed on the mealkit product review data to identify factors affecting the evaluation of the mealkit product. The data used for the analysis were collected by scraping 334,498 reviews of mealkit products in Naver shopping site. After preprocessing the text data, wordclouds and sentiment analyses based on word frequency and normalized TF-IDF were performed. Logistic regression model was applied to predict the polarity of reviews on mealkit products. From the logistic regression models derived for each product category, the main factors that caused positive and negative emotions were identified. As a result, it was verified that text analysis can be a useful tool that provides a basis for maximizing positive factors for a specific category, menu, and material and removing negative risk factors when developing a mealkit product.

A study on the improving and constructing the content for the Sijo database in the Period of Modern Enlightenment (계몽기·근대시조 DB의 개선 및 콘텐츠화 방안 연구)

  • Chang, Chung-Soo
    • Sijohaknonchong
    • /
    • v.44
    • /
    • pp.105-138
    • /
    • 2016
  • Recently with the research function, "XML Digital collection of Sijo Texts in the Period of Modern Enlightenment" DB data is being provided through the Korean Research Memory (http://www.krm.or.kr) and the foundation for the constructing the contents of Sijo Texts in the Period of Modern Enlightenment has been laid. In this paper, by reviewing the characteristics and problems of Digital collection of Sijo Texts in the Period of Modern Enlightenment and searching for the improvement, I tried to find a way to make it into the content. This database has the primary meaning in the integrating and glancing at the vast amounts of Sijo in the Period of Modern Enlightenment to reaching 12,500 pieces. In addition, it is the first Sijo data base which is provide the variety of search features according to literature, name of poet, title of work, original text, per period, and etc. However, this database has the limits to verifying the overall aspects of the Sijo in the Period of Modern Enlightenment. The title and original text, which is written in the archaic word or Chinese character, could not be searched, because the standard type text of modern language is not formatted. And also the works and the individual Sijo works released after 1945 were missing in the database. It is inconvenient to extract the datum according to the poet, because poets are marked in the various ways such as one's real name, nom de plume and etc. To solve this kind of problems and improve the utilization of the database, I proposed the providing the standard type text of modern language, giving the index terms about content, providing the information on the work format and etc. Furthermore, if the Sijo database in the Period of Modern Enlightenment which is prepared the character of the Sijo Culture Information System could be built, it could be connected with the academic, educational contents. For the specific plan, I suggested as follow, - learning support materials for the Modern history and the national territory recognition on the Modern Age - source materials for studying indigenous animals and plants characters creating the commercial characters - applicability as the Sijo learning tool such as Sijo Game.

  • PDF

Neural Predictive Coding for Text Compression Using GPGPU (GPGPU를 활용한 인공신경망 예측기반 텍스트 압축기법)

  • Kim, Jaeju;Han, Hwansoo
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.3
    • /
    • pp.127-132
    • /
    • 2016
  • Several methods have been proposed to apply artificial neural networks to text compression in the past. However, the networks and targets are both limited to the small size due to hardware capability in the past. Modern GPUs have much better calculation capability than CPUs in an order of magnitude now, even though CPUs have become faster. It becomes possible now to train greater and complex neural networks in a shorter time. This paper proposed a method to transform the distribution of original data with a probabilistic neural predictor. Experiments were performed on a feedforward neural network and a recurrent neural network with gated-recurrent units. The recurrent neural network model outperformed feedforward network in compression rate and prediction accuracy.

Wine Label Recognition System using Image Similarity (이미지 유사도를 이용한 와인라벨 인식 시스템)

  • Jung, Jeong-Mun;Yang, Hyung-Jeong;Kim, Soo-Hyung;Lee, Guee-Sang;Kim, Sun-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.5
    • /
    • pp.125-137
    • /
    • 2011
  • Recently the research on the system using images taken from camera phones as input is actively conducted. This paper proposed a system that shows wine pictures which are similar to the input wine label in order. For the calculation of the similarity of images, the representative color of each cell of the image, the recognized text color, background color and distribution of feature points are used as the features. In order to calculate the difference of the colors, RGB is converted into CIE-Lab and the feature points are extracted by using Harris Corner Detection Algorithm. The weights of representative color of each cell of image, text color and background color are applied. The image similarity is calculated by normalizing the difference of color similarity and distribution of feature points. After calculating the similarity between the input image and the images in the database, the images in Database are shown in the descent order of the similarity so that the effort of users to search for similar wine labels again from the searched result is reduced.

Corpus-based evaluation of French text normalization (코퍼스 기반 프랑스어 텍스트 정규화 평가)

  • Kim, Sunhee
    • Phonetics and Speech Sciences
    • /
    • v.10 no.3
    • /
    • pp.31-39
    • /
    • 2018
  • This paper aims to present a taxonomy of non-standard words (NSW) for developing a French text normalization system and to propose a method for evaluating this system based on a corpus. The proposed taxonomy of French NSWs consists of 13 categories, including 2 types of letter-based categories and 9 types of number-based categories. In order to evaluate the text normalization system, a representative test set including NSWs from various text domains, such as news, literature, non-fiction, social-networking services (SNSs), and transcriptions, is constructed, and an evaluation equation is proposed reflecting the distribution of the NSW categories of the target domain to which the system is applied. The error rate of the test set is 1.64%, while the error rate of the whole corpus is 2.08%, reflecting the NSW distribution in the corpus. The results show that the literature and SNS domains are assessed as having higher error rates compared to the test set.

Word Segmentation Algorithm for Handwritten Documents based on k-means Clustering (k-평균 클러스터링을 이용한 필기 문서 영상의 단어 분리법)

  • Ryu, Jewoong;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.06a
    • /
    • pp.38-41
    • /
    • 2014
  • 본 논문에서는 필기 문서 영상을 분석하여 단어 단위로 요소들을 분할하는 방법을 제안한다. 일반적으로 인쇄 문서에 비하여 필기 문서에서는 글자 간 간격이 일정하지 않을 뿐만 아니라 필기자 또는 작성된 언어에 따라 특성이 매우 다르게 나타나기 때문에 단어를 분리하는 것은 어려운 문제로 간주되었고 많은 연구가 진행되었다. 제안하는 방법은 이 문제를 해결하기 위하여 글자 획의 두께를 고려하여 정규화시킨 각 연결 요소간 간격과 간격 안에 존재하는 글자 픽셀의 수로 구성된 2 차원의 특징값을 추출하였다. 이 특징값을 바탕으로, 제안하는 방법은 k-평균 클러스터링을 이용하여 각 텍스트라인을 구성하는 연결 요소간 간격을 단어 사이의 간격과 단어 내부 글자간의 간격으로 분류하였다. ICDAR 2013 Handwriting Segmentation Contest 데이터베이스에 대한 실험 결과 제안하는 방법은 가장 우수한 성능을 나타내었다.

  • PDF

Processing of Morphological Transformation for Korean Continuous Speech Recognition (한국어 연속음성 인식을 위한 형태론적 변형 처리)

  • 정경석;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.489-491
    • /
    • 2003
  • 한국어는 형태론적 변형 현상이 자주 일어나게 되어 최종적으로 음성인식의 성능에 졸지 않은 영향을 끼친다. 본 논문에서는 연속음성 인식의 성능 개선을 위해 형태론적 변형을 처리하는 방법을 제시하고 짧은 형태소를 결합하여 의사형태소를 추출하고자 한다. 이 방법은 음성인식의 성능 개선을 위하여 품사세트와 사전을 다시 정의하고 텍스트 정규화를 수행한다. 그리고 불규칙 용언 처리의 규칙을 작성하고 나머지 형태론적 변형현상은 에러 패턴을 분석하여 빈출 어휘 중심 및 다단계로 규칙 처리하였다. 마지막으로, 단음절 형태소들을 결합함으로써 최종적으로 원하는 의사형태소를 구할 수 있었다. 제안된 시스템은 오 인식률이 높은 단음절 형태소들을 결합하여 성능 향상이 기대됨은 물론, 형태론적 변형현상에서는. 9~10%의 높은 성능 향상을 가져올 수 있었다.

  • PDF

Sign Language Shape Recognition Using SOFM Neural Network (SOFM 신경망을 이용한 수화 형상 인식)

  • Park, Kyung-Woo
    • Journal of Integrative Natural Science
    • /
    • v.3 no.1
    • /
    • pp.38-42
    • /
    • 2010
  • 인간은 정보전달을 위하여 언어 이외에 동작, 표정과 같은 비언어적인 수단을 이용한다. 이러한 비언어적인 수단을 정확히 분석 할 수 있다면 인간과 컴퓨터간의 자연스럽고 지적인 인터페이스를 구축할 수 있게 된다. 본 논문은 별도의 센서를 부착하지 않은 단일 카메라 환경에서 손 형상을 입력정보로 사용하여 손 영역만을 분할한 후 자기 조직화 특징 지도(SOFM: Self Organized Feature Map) 신경망 알고리즘을 이용하여 손 형상을 인식함으로서 수화인식을 위한 보다 안정적이며 강인한 인식 시스템을 구현하고자 한다. 제안 방법으로는 피부색 정보를 이용하여 배경으로부터 손 영역만을 추출한 후 추출된 손 영역의 형상을 인식한다(전처리과정으로 모델이미지의 사이즈와 압축 및 컬러에 대한 정보를 정규화 시켰다). 또한 인식 효율을 높이기 위해 SOFM 신경망 알고리즘을 적용함으로서 보다 안정적으로 손 형상을 인식할 수 있게 되었으며, 손 형상 인식률에 대한 안전성과 정확성을 향상시킬 수 있었다. 그리고 인식된 손 형상의 의미를 텍스트로 보여줌으로서 사용자의 의사를 정확하게 전달할 수 있다.

Pronunciation Generation Based on Morphophonological Analysis in Korean TTS (한글 TTS시스템에서 형태 음운론적 분석에 기반 한 발음열 생성)

  • Jeong, Kyung-Seok;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.559-562
    • /
    • 2001
  • 한국어 TTS시스템에서 한 가지 모듈로써의 발음열 생성기는 한국어의 특성상 음운적 조건과 형태론적 조건 등에 의해 다양한 방법과 예외처리를 요구하고 한국어의 음운현상에 대한 체계적인 분석과 처리가 필요하다. 그래서 이 논문은 형태 음운론적 분석을 통한 발음열 자동 생성기법을 소개한다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자 등을 정규화하고 복합명사 분해 사전을 이용한 복합명사 분해와 추가 조건을 통해 ㄴ-첨가 규칙을 전 처리한다. 그리고 음운 변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 형태소 분석되지 않은 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 텍스트는 7$\sim$8%정도의 나은 발음열을 생성찬 수 있었다. 그 결과, 발음열 생성기는 한국어 TTS 시스템의 한국어 처리라는 고질적인 문제 해결에 좋은 방향과 결과를 기여할 수 있다.

  • PDF

Enhancement of Text Classification Method (텍스트 분류 기법의 발전)

  • Shin, Kwang-Seong;Shin, Seong-Yoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2019.05a
    • /
    • pp.155-156
    • /
    • 2019
  • Traditional machine learning based emotion analysis methods such as Classification and Regression Tree (CART), Support Vector Machine (SVM), and k-nearest neighbor classification (kNN) are less accurate. In this paper, we propose an improved kNN classification method. Improved methods and data normalization achieve the goal of improving accuracy. Then, three classification algorithms and an improved algorithm were compared based on experimental data.

  • PDF