• Title/Summary/Keyword: 텍스트 처리

Search Result 1,343, Processing Time 0.025 seconds

Automatic Word-Segmentation at Line-Breaks for Korean Text Processing (한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원)

  • 정영미;이재윤
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.21-24
    • /
    • 1999
  • 한국어 텍스트의 줄 경계에서의 띄어쓰기 복원을 위해 음절쌍 통계를 이용한 복원 기법을 설계하고 신문기사를 대상으로 통계 정보원과 음절쌍 위치에 따른 가중치를 달리하는 실험을 수행하였다. 실험 결과 처리 대상 기사를 포함하는 1개월 분 기사를 통계 정보원으로 하고 가중치는 균등하게 할 때 가장 높은 성공률을 얻었다. 이 결과는 디지털 원문을 텍스트 방식으로 소급하여 구축하는 경우에 적용될 수 있을 것이다.

  • PDF

A Comparison of Text Mining Algorithms for Product Review Analysis (상품 리뷰 분석을 위한 텍스트 마이닝 기법의 비교)

  • Lee, Ji-Woong;Jin, Young-Taek
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.882-884
    • /
    • 2019
  • 오늘날 정보화 시대에서는 온라인 쇼핑의 상품리뷰 등 대용량의 텍스트 문서가 존재하며 제품에 대한 정서적인 의견뿐만 아니라 제품 선호도 및 상품 비교와 같은 유용한 정보를 제공한다. 본 논문에서는 사용자가 작성한 상품 리뷰로부터 제품의 특성을 비교하는 비교의견을 추출하기 위해 적용한 다양한 텍스트 마이닝 기법의 비교 결과를 제시한다.

Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images (카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화)

  • Song Young-Ja;Choi Yeong-Woo
    • The KIPS Transactions:PartB
    • /
    • v.13B no.3 s.106
    • /
    • pp.205-214
    • /
    • 2006
  • Texts in images have significant and detailed information about the scenes, and if we can automatically detect and recognize those texts in real-time, it can be used in various applications. In this paper, we propose a new text detection method that can find texts from the various camera-captured images and propose a text segmentation method from the detected text regions. The detection method proposes color variance as a detection feature in RGB color space, and the segmentation method suggests an improved K-means color clustering in RGB color space. We have tested the proposed methods using various kinds of document style and natural scene images captured by digital cameras and mobile-phone camera, and we also tested the method with a portion of ICDAR[1] contest images.

Design of the Signature File Method for Hangul Text (한글 텍스트를 위한 요약 화일 기법의 설계)

  • Chang, Jae-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.247-256
    • /
    • 1991
  • 텍스트를 이용하는 새로운 데이타베이스 응용을 효율적으로 지원하기 위해 여러 가지 텍스트 검색 기법이 연구되었으며, 이러한 연구 가운데 효율적인 검색 기법으로 요약 화일 (signature file) 방법이 제안되었다. 그러나 이러한 연구는 모두 영문 텍스트를 위한 연구이며, 한글 텍스트를 위한 요약 화일 기법에 관한 연구는 거의 전무한 상태이다. 따라서 본 논문에서는 한글의 특성에 맞는 요약 화일 기법을 설계하고 아울러 제안한 기법의 실용성과 타당성을 검토한다.

  • PDF

A Study on Implementation of treatment of Korean in multi-Language Corpus Analyzer (다국어 말뭉치 분석기의 한국어 처리 구현에 관한 연구)

  • Huh, Hyun-Gue;Chung, Hye-Myoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.118-121
    • /
    • 2009
  • 말뭉치 분석기는 언어 연구에 필요한 도구로써 망뭉치 분석을 통한 언어 정보의 추출, 적용 및 확인용으로 사용할 수 있다. 본 논문에서는 언어 기술을 국부 문법에 의한 그래픽적인 기술방법으로 처리하는 말뭉치 분석기를 이용하여 한국어 텍스트를 연구하기 위하여 기존의 굴절어 중심으로 구현되어진 다국어 말뭉치 분석기에 한국어와 같은 교착어들의 텍스트 처리를 위한 기능을 구현한다.

A Study on Improvement of Image Classification Accuracy Using Image-Text Pairs (이미지-텍스트 쌍을 활용한 이미지 분류 정확도 향상에 관한 연구)

  • Mi-Hui Kim;Ju-Hyeok Lee
    • Journal of IKEEE
    • /
    • v.27 no.4
    • /
    • pp.561-566
    • /
    • 2023
  • With the development of deep learning, it is possible to solve various computer non-specialized problems such as image processing. However, most image processing methods use only the visual information of the image to process the image. Text data such as descriptions and annotations related to images may provide additional tactile and visual information that is difficult to obtain from the image itself. In this paper, we intend to improve image classification accuracy through a deep learning model that analyzes images and texts using image-text pairs. The proposed model showed an approximately 11% classification accuracy improvement over the deep learning model using only image information.

A Novel VLSI Architecture for Parallel Adaptive Dictionary-Base Text Compression (가변 적응형 사전을 이용한 텍스트 압축방식의 병렬 처리를 위한 VLSI 구조)

  • Lee, Yong-Doo;Kim, Hie-Cheol;Kim, Jung-Gyu
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.6
    • /
    • pp.1495-1507
    • /
    • 1997
  • Among a number of approaches to text compression, adaptive dictionary schemes based on a sliding window have been very frequently used due to their high performance. The LZ77 algorithm is the most efficient algorithm which implements such adaptive schemes for the practical use of text compression. This paperpresents a VLSI architecture designed for processing the LZ77 algorithm in parallel. Compared with the other VLSI architectures developed so far, the proposed architecture provides the more viable solution to high performance with regard to its throughput, efficient implementation of the VLSI systolic arrays, and hardware scalability. Indeed, without being affected by the size of the sliding window, our system has the complexity of O(N) for both the compression and decompression and also requires small wafer area, where N is the size of the input text.

  • PDF

Efficient Emotion Classification Method Based on Multimodal Approach Using Limited Speech and Text Data (적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법)

  • Mirr Shin;Youhyun Shin
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.4
    • /
    • pp.174-180
    • /
    • 2024
  • In this paper, we explore an emotion classification method through multimodal learning utilizing wav2vec 2.0 and KcELECTRA models. It is known that multimodal learning, which leverages both speech and text data, can significantly enhance emotion classification performance compared to methods that solely rely on speech data. Our study conducts a comparative analysis of BERT and its derivative models, known for their superior performance in the field of natural language processing, to select the optimal model for effective feature extraction from text data for use as the text processing model. The results confirm that the KcELECTRA model exhibits outstanding performance in emotion classification tasks. Furthermore, experiments using datasets made available by AI-Hub demonstrate that the inclusion of text data enables achieving superior performance with less data than when using speech data alone. The experiments show that the use of the KcELECTRA model achieved the highest accuracy of 96.57%. This indicates that multimodal learning can offer meaningful performance improvements in complex natural language processing tasks such as emotion classification.

Implementation of Voice Support Calendar Management System Using TTS (TTS를 이용한 음성지원 일정관리 시스템의 구현)

  • Lee Se-Hwan;Kim Bong-Hyun;Kim Seung-Youn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.501-504
    • /
    • 2006
  • 본 논문에서는 텍스트로 구성된 문서에 대한 음성 변환 시스템의 각 분야에 대해 기술하고, 음성합성 기술인 TTS기반의 음성지원 일정관리 시스템 설계 및 구현 부분에 대하여 설계한다. 이를 위해서 음성합성 기술의 개념 및 원리와 구조 등을 이해하고, 시스템 설계 및 구현을 하고자 한다. 시스템 설계 구현부에는 Speech SDK 5.1(음성합성엔진)을 사용하여 음성합성 기술부분을 처리하고, 이를 바탕으로 C# 언어를 사용하여 구현한다. 기존 텍스트기반의 일정관리 시스템 설계 부분에다가 음성합성 기능을 추가하여 텍스트의 지루함을 탈피하고, 음성 기술을 접목시켰다. 본 논문에 사용되는 엔진은 영문위주의 음성합성이므로 시스템 설계 부분에 있어 음성처리 부분을 영문으로 하여 결과물을 산출하였다. 최종적으로 실험에 의해 제안한 방법의 유용성을 입증한다.

  • PDF

A Cognitive Pragmatic Approach to Contextual Effects in Modern Korean Poetry (한국 현대시 텍스트의 맥락 효과에 관한 인지.화용론적 연구)

  • Lee, Hyon-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.227-240
    • /
    • 1993
  • 본 연구의 목적은 한국 현대시 텍스트가 독자에게 전달하는 시적 효과를 담화 텍스트 언어학 및 인지적 화용론의 관점에서 분석하는 것이다. 담화 텍스트 언어학은 텍스트의 언어 자료 자체보다는 이를 생산하고 수용하는 인지 과정에 주목하는 인지과학의 한 분야이며, 적합성 원리로 되는 인지적 화용론은 텍스트 언어학에서 규명하는 바 여러 인지적 조작 절차들의 심리학적 근거가 된다. 많은 인지적 책략 및 조작 절차들이 집약되어 있는 한국 현대시 텍스트를 인지 화용론적 관점에서 분석한 결과, 이제까지 모호하게 개진되어 오던 많은 시적 효과가 텍스트 언어학 및 인지적 화용론의 분석 장치들에 의해서 명쾌하게 설명될 수 있음이 밝혀졌다. 즉, 정보성의 격상 및 격하, 각별한 결속구조의 사용 및 그 수용 과정, 작가의 상황점검과 상황관리 과정에 의한 전국적 인지 패턴의 활성화 및 수정 등의 인지적 절차를 통해서 독자의 맥락이 수정, 확장되는 효과가 일어나고 바로 이것이 궁극적으로는 시적 효과를 낳는다는 점을 설명할 수 있다.

  • PDF