Weibo Disaster Rumor Recognition Method Based on Adversarial Training and Stacked Structure

  • Diao, Lei;Tang, Zhan;Guo, Xuchao;Bai, Zhao;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • 제16권10호
    • pp.3211-3229
    • 2022
  • To solve the problems existing in the process of Weibo disaster rumor recognition, such as lack of corpus, poor text standardization, difficult to learn semantic information, and simple semantic features of disaster rumor text, this paper takes Sina Weibo as the data source, constructs a dataset for Weibo disaster rumor recognition, and proposes a deep learning model BERT_AT_Stacked LSTM for Weibo disaster rumor recognition. First, add adversarial disturbance to the embedding vector of each word to generate adversarial samples to enhance the features of rumor text, and carry out adversarial training to solve the problem that the text features of disaster rumors are relatively single. Second, the BERT part obtains the word-level semantic information of each Weibo text and generates a hidden vector containing sentence-level feature information. Finally, the hidden complex semantic information of poorly-regulated Weibo texts is learned using a Stacked Long Short-Term Memory (Stacked LSTM) structure. The experimental results show that, compared with other comparative models, the model in this paper has more advantages in recognizing disaster rumors on Weibo, with an F1_Socre of 97.48%, and has been tested on an open general domain dataset, with an F1_Score of 94.59%, indicating that the model has better generalization.

텍스트 데이터의 특성에 따른 성경 시각화 사례 분석 -텍스트의 내용적, 구조적 특성 및 인용 정보를 중심으로- (Case Analysis of Bible Visualization based on Text Data Traits -Focused on Content, Structure, Quotation of Text-)

  • 김효영;박진완
    • 한국콘텐츠학회논문지
    • 제13권8호
    • pp.83-92
    • 2013
  • 텍스트 시각화는 시각적 표현의 재료가 되는 텍스트 자체에 대한 이해에서 시작한다. 임의의 텍스트 데이터를 시각화하기 위해서는 해당 텍스트의 특성에 대한 충분한 이해가 선행되어야하며, 이렇게 도출된 텍스트가 갖는 고유한 특성에 따라 시각화의 목적과 표현적 접근 방법이 결정될 수 있다. 본 연구에서는 동일한 텍스트가 갖는 다양한 특성에 따라 도출된 대표적인 시각화 사례를 분석함으로써 텍스트 시각화에 대한 접근 방식에 대한 이론적 토대를 구축하고자 하였다. 이를 위해 동일 시각화의 대상 텍스트로서 전 세계적으로 가장 널리 알려져 있고, 그 디지털 데이터를 획득하기 용이하며 따라서 텍스트 시각화 사례가 다양하게 존재하는 '성경' 텍스트를 선정하여 사례 분석을 진행하였다. 사례 분석을 위한 기준으로서 텍스트가 갖는 고유한 특성-내용적, 구조적 특성 및 인용정보-를 도출하고, 각 기준에 부합하는 텍스트 시각화 사례들을 2-3가지 이상 선정하여 분석에 대한 타당성을 높였다. 분석결과 성경 텍스트가 갖는 독특한 특성에 따라 시각화의 목표와 표현적 접근법이 결정됨을 파악할 수 있었다. 본 연구를 토대로 향후 더욱 다양한 관점의 사례 분석을 통하여 텍스트 시각화를 위한 재료 선택 및 접근 방법에 대한 이론적 방법론 구축이 가능할 것으로 기대한다.

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • 제12B권6호
    • pp.703-714
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.

본문 데이타베이스 연구에 관한 고찰과 그 전망 (Future and Directions for Research in Full Text Databases)

  • 노정순
    • 한국문헌정보학회지
    • 제17권
    • pp.49-83
    • 1989
  • A Full text retrieval system is a natural language document retrieval system in which the full text of all documents in a collection is stored on a computer so that every word in every sentence of every document can be located by the machine. This kind of IR System is recently becoming rapidly available online in the field of legal, newspaper, journal and reference book indexing. Increased research interest has been in this field. In this paper, research on full text databases and retrieval systems are reviewed, directions for research in this field are speculated, questions in the field that need answering are considered, and variables affecting online full text retrieval and various role that variables play in a research study are described. Two obvious research questions in full text retrieval have been how full text retrieval performs and how to improve the retrieval performance of full text databases. Research to improve the retrieval performance has been incorporated with ranking or weighting algorithms based on word occurrences, combined menu-driven and query-driven systems, and improvement of computer architectures and record structure for databases. Recent increase in the number of full text databases with various sizes, forms and subject matters, and recent development in computer architecture artificial intelligence, and videodisc technology promise new direction of its research and scholarly growth. Studies on the interrelationship between every elements of the full text retrieval situation and the relationship between each elements and retrieval performance may give a professional view in theory and practice of full text retrieval.

SGML을 이용한 특허정보처리 연구 (A Study of Patent Document Processing by SGML)

  • 권영숙
    • 정보관리연구
    • /
    • /
    • pp.44-54
    • 1999
  • SGML(Standard Generalized Markup Language)의 디스크립션은 WIPO(World Intellectual Property Organization) Standard ST.32의 디스크립션과 더불어 자세히 기술되고있다. SGML의 이용에 대한 이점이 강조되고 있으며, 그것은 시스템 독립적이며 특허출판 및 전문 데이터베이스구축에 타당성이 있다는 것이다. WIPO Standard ST.32를 적용한 특허문헌의 내용구조는 ST.32에 따라 작성한 DTD로 표현하고 텍스트 자체는 DTD에 따른 범용 마크업을 사용하여 기술한다. 본고에서는 전체문헌, 특정 서브문서, 문단 등의 계층구조와 표, 도면, 화학구조식 등의 비계층구조로 되어 있는 문서구조를 어떻게 표현하는가에 대하여 예를들어 설명하였다. 그리고 특허 문헌처리에서 SGML의 효과에 대하여 논의하였다.

지식 분류의 기호학적 체계 응용 방안 (The Application way on Semiotic Structure of Knowledge Classification)

  • 윤정기
    • 한국도서관정보학회지
    • /
    • /
    • pp.273-292
    • 2012
  • 본 연구는 지식 분류의 기호학적 특성을 파악하고 지식 분류의 기호학적 구조가 고전이나 정전에 미치는 영향을 논의한다. 이러한 영향의 흐름이 기호학적 체계의 구조적 측면에서 연유한다는 것을 통하여 인터넷 등 전자매체와 금서의 동일성을 사회 문화적 구조주의 시각에서 논의한다. 또한 기호적 해석이 가능한 구조주의 이론 틀을 빌어 대중매체를 포함한 영상 매체 등의 텍스트를 이해하고 해석할 수 있는 방향으로 기호 체계의 이용을 제안하고자 한다.

다중 영상 및 텍스트 동기화를 고려한 Music Player MAF 의 확장 포맷 연구 (A study on Extensions to Music Player MAF for Multiple JPEG images and Text data with Synchronization)

  • 양찬석;임정연;김문철
    • 대한전자공학회:학술대회논문집
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • /
    • 2005
  • The Music Player MAF Player Format of ISO/IEC 23000-2 FDIS consists of MP3 data, MPEG-7 metadata and one optional JPEG image data based on MPEG-4 File Format. However, the current Music Player MAF format does not allow multiple JPEG image data or timed text data. It is helpful to use timed text data and multiple JPEG images in the various multimedia applications. For example, listening material for the foreign language needs an additional book which has text and images, the audio contents which can get image and text data can be helpful to understand the whole story and situations well. In this paper, we propose the detailed file structure in conjunction with MPEG-4 File Format in order to improve the functionalities, which carry multiple image data and text data with synchronization information between MP3 data and other resources.

실내디자인의 문자 정보와 이미지 정보의 통합화에 관한 연구 (Integration of Text and Image Information of Interior Design)

  • 이현수;정선영;오수영;고경진
    • 한국실내디자인학회논문집
    • /
    • /
    • pp.88-94
    • 2001
  • This paper explores idea of the integration of text and image information in interior design. In this paper, we designed a structure of text and image information. Text information includes the information about materials and projects, and image information includes images of interior design. Material information consists of such as name and price of materials. Image information involves images of interior design that have been scanned and categorized into 15 groups according to the building regulation. Project information consists of construction brief and materials relevant to the image of interior design. The interior design information that is based on cases offers various information to designer and customers. In addition, the connection between text information and image information improves the quality of interior design by decreasing the trial and error in interior design processes. Finally, we discuss the method that integrates text and image information of interior design.

고전 텍스트의 계승과 변용에 따른 재창조 텍스트의 지도 방법 연구 -<온달전>과 윤석산의 <온달의 꿈>을 중심으로- (Study of instruction of recreation text according to the inheritance and acculturation of Korean classical literature text -Focused on 'On Dal Jeon' and Yoon seok san's 'On Dal's Dream'-)

  • 이영택
    • 고전문학과교육
    • /
    • /
    • pp.147-179
    • 2008
  • Classical literature texts have been transmitted and recreated as subjective meanings in a wide variety of genres. Authors recreate another world with their own imagination and classical literature texts. This study has been conducted to analysis 'OnDal's Dream' which is an adaptation from 'OnDalJeon' in order to figure out the method of inheritance and the subject and message of the adaptation. The process of inheritance and acculturation appears in the literary world. Some adaptations stick to the genre of the original text, other adaptations change to various genres. There is the process of inheritance and acculturation in the aspect of structure of the adaptation 'OnDal's Dream'. lntertextuality can be found between 'OnDalJeon' and 'OnDal's Dream' in terms of the stages such as 'confrontation' between the ego and the world and 'overcoming' hardships. However, the recreation text has acculturation of the structure that shows the potential desire for elevation of social status at the end part of the work so I could possibly show that the adaptation has limitation because it was far from the dream of common people and laborers at that time. There are different structures and recognition systems between 'OnDal Jeon' and 'OnDal's Dream' because the formal is an epic tale the other is lyric tale. An epic tale has some partial symbols in its story line, while an lyric tale is a symbol as a whole. There is an exhibition of deep emotion which is subjectivized and symbolized against the world in the adaptation 'OnDal's Dream'. And the inheritance of unreality, which is acculturation to the world of dream, from the original text can be found in the adaptation. First of all, study between the original text and the recreation text should be conducted in terms of intertextuality. Secondly, an instruction on the inheritance which is based on intertextuality between the original text and the recreation text should be conducted. Thirdly, an instruction about the structure of a genre and differences of recognition systems according to inheritance or conversion of a genre. It will be helpful for children to stimulate to take an interest in classical literature texts and traditional arts, to learn more recreation texts, and to develop the practical ability to recreate works. Based on above study, an instruction which shows a spiritual value of literature should be conducted.

소설텍스트의 난이도 조정 방안 연구 -이효석의 「메밀꽃 필 무렵」을 중심으로- (This study revises Lee Hyo-seok's The Buckwheat Season, utilizing Novel Corpus, intermediate learners' level)

  • 황혜란
    • 한국어교육
    • /
    • 제29권4호
    • pp.255-294
    • /
  • The Buckwheat Season, evaluated as the best of Lee Hyo-seok's literature, is one of the short stories that represent Korean literature. However, vivid literary expressions such as lyrical and beautiful depictions, figurative expressions and dialects, which show the Korean beauty, rather make learners have difficulty and become a factor that fails in reading comprehension. Thus, it is necessary to revise and present the text modified for the learners' language level. The methods of revising a literary text include the revision of linguistic elements such as cryptic vocabulary or sentence structure and the revision of the composition of the text, e.g. suggestion of characters or plot, or insertion of illustration. The methods of revising the language of the text can be divided into methods of simplification and detailing. However, in the process of revising the text, many depend on the adapter's subjective perception, not revising it with objective criteria. This paper revised the text, utilizing by the Academy of Korean Studies, , and the by the National Institute of Korean Language to secure objectivity in revising the text.