• Title/Summary/Keyword: 텍스트 구성

Search Result 865, Processing Time 0.038 seconds

Study of the text analysis and feature selection performance for emotional inference (텍스트 기반 감정 추정을 위한 특징 추출 및 선택기법에 따른 성능 연구)

  • Kim, Hanjoo;Ha, Heonseok;Park, Seunghyun;Yoon, Sungroh
    • Annual Conference of KIPS
    • /
    • 2014.11a
    • /
    • pp.876-878
    • /
    • 2014
  • 인터넷 사용량이 급증하고 사용자들이 생성하는 데이터의 양이 증가함에 따라 사용자 데이터 분석은 객관적인 정보 탐색과 분석을 넘어 주관적인 감정을 분석하는 데까지 시도되고 있다. 이러한 감정 분석은 사업, 행정, 외교 등의 다양한 분야에 걸쳐 용용 될 수 있다. 본 연구에서는 텍스트 데이터를 주요 분석 대상으로 하여 문장 구성의 다양한 요소를 특징화하고, 특징화된 문장에 대해 다양한 서포트 벡터머신을 통한 학습을 시도함으로써 텍스트가 내포한 감정을 추측한다. 다양한 특징화 방법을 적용하되, 낮은 밀도가 될 것으로 추측되는 데이터 매트릭스의 차원 감쇄를 위해 정보엔트로피 기반의 특징 선택기법을 적용한다.

Feature Selection for a Hangul Text Document Classification System (한글 텍스트 문서 분류시스템을 위한 속성선택)

  • Lee, Jae-Sik;Cho, You-Jung
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2003.05a
    • /
    • pp.435-442
    • /
    • 2003
  • 정보 추출(Information Retrieval) 시스템은 거대한 양의 정보들 가운데 필요한 정보의 적절한 탐색을 도와주기 위한 도구이다. 이는 사용자가 요구하는 정보를 보다 정확하고 보다 효과적이면서 보다 효율적으로 전달해주어야만 한다. 그러기 위해서는 문서내의 무수히 많은 속성들 가운데 해당 문서의 특성을 잘 반영하는 속성만을 선별해서 적절히 활용하는 것이 절실히 요구된다. 이에 본 연구는 기존의 한글 문서 분류시스템(CB_TFIDF)[1]의 정확도와 신속성 두 가지 측면의 성능향상에 초점을 두고 있다. 기존의 영문 텍스트 문서 분류시스템에 적용되었던 다양한 속성선택 기법들 가운데 잘 알려진 세가지 즉, Information Gain, Odds Ratio, Document Frequency Thresholding을 통해 선별적인 사례베이스를 구성한 다음에 한글 텍스트 문서 분류시스템에 적용시켜서 성능을 비교 평가한 후, 한글 문서 분류시스템에 가장 적절한 속성선택 기법과 속성 선택에 대한 가이드라인을 제시하고자 한다.

  • PDF

Opinion Mining on Movie Reviews using SNS Text Data (SNS 텍스트 데이터를 이용한 영화평 분석)

  • Cha, Soyun;Lee, Bong Gi;Lee, Ho;Wi, Seokcheol;Lee, Soowon
    • Annual Conference of KIPS
    • /
    • 2012.11a
    • /
    • pp.441-444
    • /
    • 2012
  • 오늘날 스마트폰의 보급으로 SNS는 급속도로 성장하였고, 매일 엄청난 분량의 텍스트 데이터가 생성되고 있다. 본 연구에서는 다른 매체에 비해 개인의 의견이 좀 더 거침없이 올라오는 SNS의 특징에 주목해 SNS의 텍스트 데이터를 대상으로 하는 평판 분석 기법을 제안한다. 제안 방법은 분석하고자 하는 대상에 대한 SNS 데이터를 수집하여 DB에 저장한 다음, 광고 제거 과정과 자동 띄어쓰기 과정 및 형태소 분석을 거친 후 감성 포함 여부 확인 과정과 극성 분류 과정으로 구성된다. 평판 분석을 위해 본 연구에서는 감성 단어 사전의 쾌-불쾌 수치와 활성화 수치를 사용한다. 분석 결과 모든 문서에 대한 극성 분류 정확도는 55%였고, 감성 포함 여부 확인 과정이 올바르게 수행된 문서에 대한 극성 분류 정확도는 82%였다.

Template-based Auto Social Magazine and Video Creation Service (템플릿 기반의 자동 소셜 매거진 및 영상 합성 서비스)

  • Lee, Jae-Won;Jang, Dal-Won;Kim, Mi-Ji;Kim, Ji-Su;Kim, Seo-Yul;Lee, Jong-Seol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.129-132
    • /
    • 2019
  • 최근 자연어 처리 기술에 대한 중요도가 높아지고, 발전 속도가 빨라지면서, 산업 전반에 걸쳐 챗봇에 대한 수요가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포, 그리고 이를 활용하여 사용자에게 텍스트를 음성으로 변환하여 동영상의 형태로 전달해 주는 시스템을 다루고 있다. 챗봇이 사용자 대화를 수집, 분석하여 상황에 맞는 키워드를 추출하고, 중복 콘텐츠 제거, 텍스트 요약 등 일련의 과정을 거쳐 소셜 매거진을 생성 및 배포하는 서비스와, 매거진의 각 콘텐츠를 구성하는 이미지, 텍스트 정보를 가지고 음성 합성, 자막 생성, 영상 효과 등을 이용하여 영상을 합성하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.

  • PDF

A Mobile Spam SMS Filtering System using Machine learning about syllable and the features of caller ID (발신번호 특징 및 음절단위 기계학습을 통한 모바일 스팸 SMS 필터링 시스템)

  • You, Hwan-il;Chae, Dong Kyu;Im, Eul-Gyu
    • Annual Conference of KIPS
    • /
    • 2011.11a
    • /
    • pp.219-222
    • /
    • 2011
  • 본 논문에서는 스팸 SMS 발신번호와 메시지 텍스트의 특징을 기계학습한 스팸 필터링 시스템을 논한다. 최근 변화하는 스팸SMS에 대한 적응력을 위해서, 각 트레이닝 셋의 수신 텍스트를 음절단위로 분석 할 것을 제안한다. 그리고 기존의 분류기는 성능이 미흡하거나 구현의 복잡성으로 인해 실제로 스펨 필터엔진으로 활용되지 않는 점을 극복하기 위해서 보다 단순한 분류기를 사용한다. 제안하는 시스템은 트레이닝 셋의 발신번호 및 수신 텍스트의 음절단위를 빈도수와 묶어 학습데이터를 구성하고, 테스트 셋을 스팸적 논스팸적으로 분석하여 스팸일 확률을 계산한다. 또한 Naive baysian를 바탕으로 한 경계값 기반 분류기를 통해, 타 분류기에 비해 구현 및 활용면에서 실용성이 높으면서도 성능이 뒤처지지 않는 시스템을 제안한다.

AI Announcer : Information Transfer Software Using Artificial Intelligence Technology (AI 아나운서 : 인공지능 기술을 이용한 정보 전달 소프트웨어)

  • Kim, Hye-Won;Lee, Young-Eun;Lee, Hong-Chang
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.937-940
    • /
    • 2020
  • 본 논문은 AI 기술을 기반으로 텍스트 스크립트를 자동으로 인식하고 영상 합성 기술을 응용하여 텍스트 정보를 시각화하는 AI 아나운서 소프트웨어 연구에 대하여 기술한다. 기존의 AI 기반 영상 정보 전달 서비스인 AI 앵커는 텍스트를 인식하여 영상을 합성하는데 오랜 시간이 필요하였으며, 특정 인물 이미지로만 영상 합성이 가능했기 때문에 그 용도가 제한적이었다. 본 연구에서 제안하는 방법은 Tacotron 으로 새로운 음성을 학습 및 합성하여, LRW 데이터셋으로 학습된 모델을 사용하여 자연스러운 영상 합성 체계를 구축한다. 단순한 얼굴 이미지의 합성을 개선하고 다채로운 이미지 제작을 위한 과정을 간략화하여 다양한 비대면 영상 정보 제공 환경을 구성할 수 있을 것으로 기대된다.

Self-reflexivity in Animation Media -focusing on exposure of production process and intertexuality- (애니메이션의 매체적 자기반영성 -생산과정의 노출과 상호텍스트성을 중심으로-)

  • Suh., Yong
    • Cartoon and Animation Studies
    • /
    • s.34
    • /
    • pp.81-104
    • /
    • 2014
  • Self-reflexivity means consciousness turning back on itself and breaks with art as illusionism and exposes their own factitiousness as textual construct. Self-reflexivity in media deals with the media's condition and process itself and tends to pull viewers out of the reality represented on screen by reminding them that is a media's construction or illusion on the screen. Representation aesthetics has been recognized with an essential theory of the art since Ancient Greek, but it has encountered crisis with the invention of the photography and the cinema in the early 1900s. The supreme transparency of the new media induced a new perspective for the representation aesthetics, which had dominated the art world. The art derived from the representation stood on the crossroad of changing direction. Modernism aesthetics wanted to search for the self-referentiality in order to the replace the past principal. This essay focuses on self-reflexivity in animation and their methodology. First, the change of representation aesthetics in visual arts will be discussed. Second, animations exposing their process of production and components will be analyzed, and lastly, intertextuality in animation will be dealt. I hope to provide the vision of the expanded animation media with this study.

Discussion of the procedures and contents of Gangneung Danoje as a county festival (고을축제로서 강릉단오제의 절차와 내용에 대한 검토)

  • Han, Yang-Myong
    • (The) Research of the performance art and culture
    • /
    • no.18
    • /
    • pp.563-598
    • /
    • 2009
  • Gangneung Danoje is a local festival that has its origin in the county festival handed down premodern society. It was designated as an important intangible cultural asset in 1966, and has appreciated as a representative traditional festival of Korea since UNESCO designated it as 'the Oral and Intangible Heritage of Humanity' in 2005. Generally, it is known as a festival which it keeps up the premodern tradition. However, we can know that it is different from the festival performed in the 19 century in its framework and contents if we pay attention to the texts of festival performed in Gangneung today. I think that this change is a result of cultural adaptation by the change of transmission situation, and especially today texts of festival is an result of the pursuit, restoration and reproduction of its traditional form so as to be designated as a cultural asset. In this paper, after I have an accurate grasp of the traditional form of Gangneung Danoje from the present data related to Gangneung Danoje, I will compare its traditional text with the existing text which was reconstructed at the time of being designated as an important intangible cultural asset. To do this work, I verified the composition method of a county festival by investigating a general aspect of county festival in the $Chos{\breve{o}}n$ dynasty, brought out the aspect of its change by comparing its existing text with the procedures and contents of Gangneung Danoje before the Japanese occupation by force, and discussed the matter of its some changes. As a result of my work, I ascertained that the present Gangneung Danoje is very different from the festival transmitted in premodern society in the structure, time and space of festival, and the contents of performance containing the procedures of meeting god, seeing god off, and enjoying god.

A Knowledge-based System for Analyzing Sophisticated Geometric Structure of Document Images (문서 영상의 정교한 기하적 구조분석을 위한 지식베이스 시스템)

  • Lee, Kyong-Ho;Choy, Yoon-Chul;Cho, Sung-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.11
    • /
    • pp.795-813
    • /
    • 2001
  • Sophisticated geometric structure analysis must be preceded to create electronic document from logical components extracted from document image. this paper presents a knowledge-based method for sophisticated geometric structure analysis of technical journal pages. The proposed knowledge base encodes geometric characteristics that are not only common in technical journals but also publication-specific in the form rules. The method takes the hybrid of top-down and bottom-up techniques and consists of two phases: region segmentation and identification. Generally, the result of segmentation process does not have a one-to-one matching with composite layout components. Therefore, the proposed method identifies non-text objects such as image, drawing and table, as well as text objects such as text line and equation by splitting or grouping segmented regions into composite layout components. Experimental results with 372 images scanned from the IEEE Transactions on Pattern Analysis and Machine Intelligence show that the proposed method has performed geometrical structure analysis successfully on more than 99% of the test images, resulting in sophisticated performance compared with previous works.

  • PDF

Korean Information Summary System for National R&D Projcet Information Summary (국가R&D과제정보 요약을 위한 한국어 정보요약 시스템)

  • Lee, Jong-Won;Kim, Tae-Hyun;Shin, Dong-Gu;Jo, Woo-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.72-74
    • /
    • 2022
  • The National Science and Technology Knowledge Information Service (NTIS) provides information on national R&D projects. Project information consists of meta-information such as 'project name', 'project performance institution', 'research manager name', and text explaining projects such as 'research goal', 'research content', and 'expected effect'. There is a problem that it takes a lot of time to find the desired project information by checking all of the "research goals" or "research contents" in the list of results of searching for 1 million project information. To solve this problem, this paper proposes a project information summary system that summarizes the parts consisting of long texts within the national R&D project information. By analyzing the linguistic characteristics of the Korean language, a preprocessor was built and a project information summary model based on natural language processing technology was developed to process preprocessed text information. Through this, project information composed of long sentences is provided in a compressed and summarized form, which will help users to easily and quickly infer the overall content with the summary information alone.

  • PDF