• 제목/요약/키워드: text generation

검색결과 367건 처리시간 0.027초

딥러닝을 위한 텍스트 전처리에 따른 단어벡터 분석의 차이 연구 (Study on Difference of Wordvectors Analysis Induced by Text Preprocessing for Deep Learning)

  • 고광호
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.489-495
    • /
    • 2022
  • 언어모델(Language Model)을 구축하기 위한 딥러닝 기법인 LSTM의 경우 학습에 사용되는 말뭉치의 전처리 방식에 따라 그 결과가 달라진다. 본 연구에서는 유명한 문학작품(기형도의 시집)을 말뭉치로 사용하여 LSTM 모델을 학습시켰다. 원문을 그대로 사용하는 경우와 조사/어미 등을 삭제한 경우에 따라 상이한 단어벡터 세트를 각각 얻을 수 있다. 이러한 전처리 방식에 따른 유사도/유추 연산 결과, 단어벡터의 평면상의 위치 및 언어모델의 텍스트생성 결과를 비교분석했다. 문학작품을 말뭉치로 사용하는 경우, 전처리 방식에 따라 연산된 단어는 달라지지만, 단어들의 유사도가 높고 유추관계의 상관도가 높다는 것을 알 수 있었다. 평면상의 단어 위치 역시 달라지지만 원래의 맥락과 어긋나지 않았고, 생성된 텍스트는 원래의 분위기와 비슷하면서도 이색적인 작품으로 감상할 수 있었다. 이러한 분석을 통해 문학작품을 객관적이고 다채롭게 향유할 수 있는 수단으로 딥러닝 기법의 언어모델을 활용할 수 있다고 판단된다.

국내 걸그룹 외모에 나타난 사회문화적 의미 분석 - 세대별 걸그룹 외모 변화를 중심으로 - (An Analysis of the Social-Cultural Meaning of Korean Girl Groups' Appearances -Focusing on the Change of Girl Groups' Appearances across Generations-)

  • 한자영
    • 패션비즈니스
    • /
    • 제21권1호
    • /
    • pp.12-31
    • /
    • 2017
  • Korean commercial-organized girl groups were remarkable in the late 1990's. However, by the late 2000's, girl groups had an even more profound effect on Korean popular music compare to past influences. This study aimed to analyze the social-cultural meaning of the changing appearance of girl group between the first and second-generations. For this purpose, this study analyzed media image and text, based on a social-cultural context, about 13 girl groups. The results are as follows. First, while the first -generation girl group tended to maintain girlish/sexy images trying to the male desire, the second -generation girl group strategically showed various sexual identities such as femininity, masculinity, masculinity and androgyny along with contextual sexual images. The reason why girl groups increased the number of strategic images featuring various sexual identities was in order to appeal to a wide, diverse audience. Second, the second generation girl groups had - slim bodies with great athleticism, basically due to trainee system. Because of this, their semiotic body images have been commercially used to promote the consumption. Third, the second generation girl groups - were the bigger stars than first generation girl groups - because the members worked in many different fields. Therefore, the group members' images were successful consumed directly and then reproduced symbolically. Fourth, each member of the second -generation girl groups characterized by appearing in diverse, yet familiar images, through various media sources. Although the intention of this was to have recognition and popularity, it became difficult for them to change their image once one particular image was deemed popular.

AJFCode: An Approach for Full Aspect-Oriented Code Generation from Reusable Aspect Models

  • Mehmood, Abid;Jawawi, Dayang N.A.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1973-1993
    • /
    • 2022
  • Model-driven engineering (MDE) and aspect-oriented software development (AOSD) contribute to the common goal of development of high-quality code in reduced time. To complement each approach with the benefits of the other, various methods of integration of the two approaches were proposed in the past. Aspect-oriented code generation, which targets obtaining aspect-oriented code directly from aspect models, offers some unique advantages over the other integration approaches. However, the existing aspect-oriented code generation approaches do not comprehensively address all aspects of a model-driven code generation system, such as a textual representation of graphical models, conceptual mapping, and incorporation of behavioral diagrams. These problems limit the worth of generated code, especially in practical use. Here, we propose AJFCode, an approach for aspect-oriented model-driven code generation, which comprehensively addresses the various aspects including the graphical models and their text-based representation, mapping between visual model elements and code, and the behavioral code generation. Experiments are conducted to compare the maintainability and reusability characteristics of the aspect-oriented code generated using the AJFCode with the most comprehensive object-oriented code generation approach. AJFCode performs well in terms of all metrics related to maintainability and reusability of code. However, the most significant improvement is noticed in the separation of concerns, coupling, and cohesion. For instance, AJFCode yields significant improvement in concern diffusion over operations (19 vs 51), coupling between components (0 vs 6), and lack of cohesion in operations (5 vs 9) for one of the experimented concerns.

Randomized Block Size (RBS) Model for Secure Data Storage in Distributed Server

  • Sinha, Keshav;Paul, Partha;Amritanjali, Amritanjali
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4508-4530
    • /
    • 2021
  • Today distributed data storage service are being widely used. However lack of proper means of security makes the user data vulnerable. In this work, we propose a Randomized Block Size (RBS) model for secure data storage in distributed environments. The model work with multifold block sizes encrypted with the Chinese Remainder Theorem-based RSA (C-RSA) technique for end-to-end security of multimedia data. The proposed RBS model has a key generation phase (KGP) for constructing asymmetric keys, and a rand generation phase (RGP) for applying optimal asymmetric encryption padding (OAEP) to the original message. The experimental results obtained with text and image files show that the post encryption file size is not much affected, and data is efficiently encrypted while storing at the distributed storage server (DSS). The parameters such as ciphertext size, encryption time, and throughput have been considered for performance evaluation, whereas statistical analysis like similarity measurement, correlation coefficient, histogram, and entropy analysis uses to check image pixels deviation. The number of pixels change rate (NPCR) and unified averaged changed intensity (UACI) were used to check the strength of the proposed encryption technique. The proposed model is robust with high resilience against eavesdropping, insider attack, and chosen-plaintext attack.

$\ll$소문차주집소(素問次注集疏)$\gg$ 대(對) $\ll$소문(素問)$\gg$ 연구적공헌(硏究的貢獻) (The Contribution of The Research on "Somunchajujipso(素問次注集疏)" and "Somun(素問)")

  • 곽수매
    • 대한한의학원전학회지
    • /
    • 제22권4호
    • /
    • pp.51-54
    • /
    • 2009
  • While we study the book "Somun(素問)", we have to take Wangbing(王冰) Note as reference, which has to be understood by later generation on reading the book Sin-gyojeong(新校正) of Imeok(林億) from Song dynasty. At the final period of Edo in Japan, the famous Han medical expert, Yamada(山田) Gyoukou(業廣) sought a complete new way to compile a book named "Somunchajujipso(素問次注集疏)", a notes and commentaries work combined the original text of "Somun(素問)", Wangbing(王冰) Note and Sin-gyojeong(新校正) by taking the reference of generations medical books and notes both China and Japan. There have been many books to give notes on "Somun(素問)" in many generations, but less of them giving notes to the original text, but to Wangbing Note a little bit at most. In "Somunchajujipso", textual research and notes are given as a special example to the forward, original text and explanation part of "Somun", Song dynasty edition. Especially the detail explanation to the forward part of Imeok(林億), no one has done better than Gyoukou(業廣) until now. It sufficiently shows Gyoukou's(業廣) enriched knowledge accumulated by years hard research in Confucian classics, history and medical books, which enable it a worthy reference statement. The issued of the book "Somunchajujipso(素問次注集疏)" expands a new area for the research of "Somun" and present new research improvement of "Somun" in Japan.

  • PDF

예외 단어 선별 작업을 이용한 자동 발음열 생성 시스템 (Automatic Pronunciation Generator Using Selection Procedure for Exceptional Pronunciation Words)

  • 안주은;김순협;김선희
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.248-252
    • /
    • 2004
  • 실제 언어생활에 있어서 여러 다양한 경제적 문화적 사회적 환경에 따라 다른 어휘가 사용되고, 각각의 다양한 환경에서 새롭게 신조어가 추가되는 등 어휘의 양적인 변화가 일어난다. 이러한 역동적인 언어 현실을 자동 발음열 생성기에 반영하기 위하여, 본 논문은 추가된 텍스트로부터 예외발음사전을 구축하는 방법을 제안하고, 이러한 방법으로 구축된 예외발음사전을 이용한 자동 발음열 생성 시스템의 성능을 실험하였다. 본 시스템에 대하여 ETRI에서 출시된 음성인식용 텍스트 코퍼스 가운데 한 달 동안의 신문기사를 모은 53,750문장 (740,497 어절)을 이용하여 실험한 결과 100%의 성능을 얻었다.

스타크래프트에 관한 기호학적 분석 : 그레마스의 기호 사각형을 응용한 의미분석 (A Semiotic Analysis of Starcraft : Sense Analysis by Greimas's Carre Semiotique)

  • 박태순
    • 한국게임학회 논문지
    • /
    • 제7권1호
    • /
    • pp.21-29
    • /
    • 2007
  • 그레마스의 기호 사각형과 구조생성기호학은 언어는 물론 비언어 텍스트 분석에도 유용하기에, 이를 활용하여 스타크래프트를 분석해보고자 하였다. 가장 1차적으로 필요한 작업이 게임 텍스트에 대한 분절이었는데, 본고에서는 크리스티앙 메츠의 거대 통합체 이론과 원칙을 차용하여 게임 텍스트 분절의 기준을 삼았다. 스타크래프트의 기호 사각형을 도출한 결과 스타크래프트는 전쟁이라는 의미축을 중심으로 하여 생산과 파괴라는 기본적인 의미범주를 통하여 의미를 생성하는 것으로 파악되었다. 이러한 의미작용체계에 대한 분석은 향후의 설화수준, 담화수준에서의 의미작용체계분석과 맞물려 총체적인 스타크래프트의 의미생성과정을 파악하는데 디딤돌이 될 것으로 기대된다.

  • PDF

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리 (Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.521-526
    • /
    • 2017
  • 데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

자연스러운 텍스트 생성을 위한 추계적 텍스트 구조화 (A Stochastic Text Structuring using Simulated Annealing)

  • 노지은;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-206
    • /
    • 2002
  • 언어가 아닌 다양한 지식원으로부터 그것을 설명하는 텍스트를 생성하는 텍스트 생성 (text generation)은 여러 가지 복합적이고 단계적인 과정을 거쳐 이루어진다. 자연스러운 텍스트를 생성하기 위한 여러 단계 중, 지식원으로부터 텍스트에 포함되기 위해 뽑힌 정보들간의 순서를 적절히 결정하는 과정을 텍스트 구조화(text structuring)라고 한다. 텍스트 구조화는 생성될 텍스트의 결속성(coherence)을 크게 좌우하므로, 양질의 텍스트를 생성하기 위해서는 텍스트 구조화를 다루기 위한 정교한 방법론이 요구된다. 본 논문에서는 SA(simulated annealing) 알고리즘을 이용해 추계적 텍스트 구조화 방안을 제안하며 특히, SA의 평가 함수(evaluation function)로서, 총 4가지의 방법론-중심화 이론(centering theory)을 이용한 센터 전이 유형의 선호도, 추론 비용에 근거한 전이 유형간의 선호도, 서두 문장을 결정하기 위한 가중치 할당에 따른 선호도, 인접한 문장간의 유사도에 따른 선호도-을 제안하고 실험을 통해, 그 효용성을 보였다.

  • PDF

COVID-19 recommender system based on an annotated multilingual corpus

  • Barros, Marcia;Ruas, Pedro;Sousa, Diana;Bangash, Ali Haider;Couto, Francisco M.
    • Genomics & Informatics
    • /
    • 제19권3호
    • /
    • pp.24.1-24.7
    • /
    • 2021
  • Tracking the most recent advances in Coronavirus disease 2019 (COVID-19)-related research is essential, given the disease's novelty and its impact on society. However, with the publication pace speeding up, researchers and clinicians require automatic approaches to keep up with the incoming information regarding this disease. A solution to this problem requires the development of text mining pipelines; the efficiency of which strongly depends on the availability of curated corpora. However, there is a lack of COVID-19-related corpora, even more, if considering other languages besides English. This project's main contribution was the annotation of a multilingual parallel corpus and the generation of a recommendation dataset (EN-PT and EN-ES) regarding relevant entities, their relations, and recommendation, providing this resource to the community to improve the text mining research on COVID-19-related literature. This work was developed during the 7th Biomedical Linked Annotation Hackathon (BLAH7).