• 제목/요약/키워드: Authorship of a text

검색결과 13건 처리시간 0.023초

Text Categorization for Authorship based on the Features of Lingual Conceptual Expression

  • Zhang, Quan;Zhang, Yun-liang;Yuan, Yi
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.515-521
    • /
    • 2007
  • The text categorization is an important field for the automatic text information processing. Moreover, the authorship identification of a text can be treated as a special text categorization. This paper adopts the conceptual primitives' expression based on the Hierarchical Network of Concepts (HNC) theory, which can describe the words meaning in hierarchical symbols, in order to avoid the sparse data shortcoming that is aroused by the natural language surface features in text categorization. The KNN algorithm is used as computing classification element. Then, the experiment has been done on the Chinese text authorship identification. The experiment result gives out that the processing mode that is put forward in this paper achieves high correct rate, so it is feasible for the text authorship identification.

  • PDF

한의학 고문헌 텍스트에서의 저자 판별 - 기능어의 역할을 중심으로 - (A Comparative Study of Feature Extraction Methods for Authorship Attribution in the Text of Traditional East Asian Medicine with a Focus on Function Words)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제33권2호
    • /
    • pp.51-59
    • /
    • 2020
  • Objectives : We would like to study what is the most appropriate "feature" to effectively perform authorship attribution of the text of Traditional East Asian Medicine Methods : The authorship attribution performance of the Support Vector Machine (SVM) was compared by cross validation, depending on whether the function words or content words, single word or collocations, and IDF weights were applied or not, using 'Variorum of the Nanjing' as an experimental Corpus. Results : When using the combination of 'function words/uni-bigram/TF', the performance was best with accuracy of 0.732, and the combination of 'content words/unigram/TFIDF' showed the lowest accuracy of 0.351. Conclusions : This shows the following facts from the authorship attribution of the text of East Asian traditional medicine. First, function words play an important role in comparison to content words. Second, collocations was relatively important in content words, but single words have more important meanings in function words. Third, unlike general text analysis, IDF weighting resulted in worse performance.

딥러닝을 활용한 웹 텍스트 저자의 남녀 구분 및 연령 판별 : SNS 사용자를 중심으로 (Authorship Attribution of Web Texts with Korean Language Applying Deep Learning Method)

  • 박찬엽;장인호;이준기
    • 한국IT서비스학회지
    • /
    • 제15권3호
    • /
    • pp.147-155
    • /
    • 2016
  • According to rapid development of technology, web text is growing explosively and attracting many fields as substitution for survey. The user of Facebook is reaching up to 113 million people per month, Twitter is used in various institution or company as a behavioral analysis tool. However, many research has focused on meaning of the text itself. And there is a lack of study for text's creation subject. Therefore, this research consists of sex/age text classification with by using 20,187 Facebook users' posts that reveal the sex and age of the writer. This research utilized Convolution Neural Networks, a type of deep learning algorithms which came into the spotlight as a recent image classifier in web text analyzing. The following result assured with 92% of accuracy for possibility as a text classifier. Also, this research was minimizing the Korean morpheme analysis and it was conducted using a Korean web text to Authorship Attribution. Based on these feature, this study can develop users' multiple capacity such as web text management information resource for worker, non-grammatical analyzing system for researchers. Thus, this study proposes a new method for web text analysis.

빈도 정보를 이용한 한국어 저자 판별 (Authorship Attribution in Korean Using Frequency Profiles)

  • 한나래
    • 인지과학
    • /
    • 제20권2호
    • /
    • pp.225-241
    • /
    • 2009
  • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

  • PDF

Identifying Mobile Owner based on Authorship Attribution using WhatsApp Conversation

  • Almezaini, Badr Mohammd;Khan, Muhammad Asif
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.317-323
    • /
    • 2021
  • Social media is increasingly becoming a part of our daily life for communicating each other. There are various tools and applications for communication and therefore, identity theft is a common issue among users of such application. A new style of identity theft occurs when cybercriminals break into WhatsApp account, pretend as real friends and demand money or blackmail emotionally. In order to prevent from such issues, data mining can be used for text classification (TC) in analysis authorship attribution (AA) to recognize original sender of the message. Arabic is one of the most spoken languages around the world with different variants. In this research, we built a machine learning model for mining and analyzing the Arabic messages to identify the author of the messages in Saudi dialect. Many points would be addressed regarding authorship attribution mining and analysis: collect Arabic messages in the Saudi dialect, filtration of the messages' tokens. The classification would use a cross-validation technique and different machine-learning algorithms (Naïve Baye, Support Vector Machine). Results of average accuracy for Naïve Baye and Support Vector Machine have been presented and suggestions for future work have been presented.

작성자 분석 기반의 공격 메일 탐지를 위한 분류 모델 (A Classification Model for Attack Mail Detection based on the Authorship Analysis)

  • 홍성삼;신건윤;한명묵
    • 인터넷정보학회논문지
    • /
    • 제18권6호
    • /
    • pp.35-46
    • /
    • 2017
  • 최근 사이버보안에서 악성코드를 이용한 공격은 메일에 악성코드를 첨부하여 이를 사용자가 실행하도록 유도하여 공격을 수행하는 형태가 늘어나고 있다. 특히 문서형태의 파일을 첨부하여 사용자가 쉽게 실행하게 되어 위험하다. 저자 분석은 NLP(Neutral Language Process) 및 텍스트 마이닝 분야에서 연구되어지고 있는 분야이며, 특정 언어로 이루어진 텍스트 문장, 글, 문서를 분석하여 작성한 저자를 분석하는 방법들은 연구하는 분야이다. 공격 메일의 경우 일정 공격자에 의해 작성되어지기 때문에 메일 내용 및 첨부된 문서 파일을 분석하여 해당 저자를 식별하면 정상메일과 더욱 구별된 특징들을 발견할 수 있으며, 탐지 정확도를 향상시킬 수 있다. 본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는 feature vector 및 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반의 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인할 수 있었다.

18세기 셰익스피어 저자론-말로운의 편집서 중심으로 (Construction of Shakespeare Authorship in the Eighteenth Century: An Example of Edmond Malone's Edition.)

  • 한영림
    • 영어영문학
    • /
    • 제59권4호
    • /
    • pp.645-666
    • /
    • 2013
  • In the history of the study of Shakespeare's texts the eighteenth century marked the emergence of editors, and in the history of Shakespearean editing Edmond Malone's emphasis on documentary evidence inaugurated a new stage. Malone's antiquarian scholarship sought to establish Shakespeare in the theatrical context of his age and a historically informed view of the physical circumstances under which he wrote his plays. Malone's editorial use of historical sources in terms of Shakespeare's past formulated a new mode of ascertaining his authorship: the construction of Shakespeare as a man of the theatre as well as of literature. Malone was the first scholar to recognize Shakespeare's merits as an actor, and to introduce the concept of the theatrical Shakespeare, which has become the scholarly norm since. In this respect this paper is designed to demonstrate that Malone's editorial principle and practice are characteristic of the identification of the factual documents of Shakespeare's biography, the authentication of his material to attain his true text, and the construction of his personal experiences through intensive readings of his plays. In conclusion, Malone's new criteria laid the foundation for the progress towards authorizing Shakespeare, thereby canonizing him as a figure of the theatrical and literary authority.

작성자 분석과 CNN을 적용한 소스 코드 작성자 식별 프레임워크 (The Identification Framework for source code author using Authorship Analysis and CNN)

  • 신건윤;김동욱;홍성삼;한명묵
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.33-41
    • /
    • 2018
  • 최근 인터넷 기술이 발전함에 따라 다양한 프로그램들이 만들어지고 있고 이에 따라 다양한 코드들이 많은 사람들을 통해 만들어진다. 이러한 측면을 이용하여 특정 작성자가 작성한 코드들 그대로 가져가 자신이 작성한 것처럼 보여주거나, 참고한 코드들에 대한 정확한 표기 없이 그대로 사용하여 이에 대한 보호가 점차 어려워지고 있다. 따라서 본 논문에서는 작성자 분석 이론과 합성곱 신경망 기반 자연어 처리 방법을 적용한 작성자 식별 프레임워크룰 제안한다. 작성자 분석 이론을 적용하여 소스 코드에서 작성자 식별에 적합한 특징들을 추출하고 이를 텍스트 마이닝에서 사용하고 있는 특징들과 결합하여 기계학습 기반의 작성자 식별을 수행한다. 그리고 합성곱 신경망 기반 자연어 처리 방법을 소스 코드에 적용하여 코드 작성자 분류를 수행한다. 본 논문에서는 작성자 분석이론과 합성곱 신경망을 적용한 작성자 식별 프레임워크를 통해 작성자를 식별하기 위해서는 작성자 식별만을 위한 특징들이 필요하다는 것과 합성곱 신경망 기반 자연어 처리 방법이 소스 코드등과 같은 특수한 체계를 갖추고 있는 언어에서도 적용이 가능하다. 실험 결과 작성자 분석 이론 기반 작성자 식별 정확도는 95.1%였으며 CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 정확도를 보여줬다.

사람 재식별: 학제간 연구 과제 (People Re-identification: A Multidisciplinary Challenge)

  • 정동선
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권6호
    • /
    • pp.135-139
    • /
    • 2012
  • 인터넷의 확산과 정보 교환, 배포와 수집 기술에 대한 의존도의 증대로 과거와는 비교할 수 없는 대용량의 데이터가 생성되었다. 대용량 데이터를 식별하고 가려내는 작업은 가까운 미래에 오늘날의 컴퓨터 과학의 상당 부분을 새롭게 정의할 것으로 예상된다. 여러 관련 분야에서 반복되는 중요한 과제는 재식별의 문제이다. 광범위한 정의에서, 재식별 문제는 과거에 인식된 객체를 다시 식별하는 문제이다. 예를 들면, 여러 장소에 설치된 감시 카메라에 포착된 어떤 사람을 추적하는 문제가 이에 해당한다. 본 논문에서는 서로 다른 분야에서 이 과제를 어떻게 정의하고, 이 과제를 어떻게 해결하는가에 대해 비교 분석한다. 비디오 감시에서 사람 재식별, 텍스트 샘플에서 저자 식별, 사진 선호도에 따른 사용자 식별 등이 이에 포함된다. 본 논문은 또한 학제간 해결 방안이 장점을 지니는 상황에 대한 비전을 제시한다.

A Symphony of Language

  • Kim, Chin W.
    • 인문언어
    • /
    • 제2권2호
    • /
    • pp.5-50
    • /
    • 2002
  • This paper aims to illustrate and illuminate the relationship between language and its neighbor disciplines, in particular between language and literature, language and religion, and language and music. 1. Language and literature. Literature is an art of language. Therefore, linguistics, the science of language, should be able to explain how the grammar of literature elevates and ordinary language into a literary language. I illustrate poetic syntax with examples from Shelley, Coleridge, and Wordsworth. 2. Language and religion. I show how a linguistic analysis of a religious text can illuminate the background, authorship, chronology, etc., of a religious text with an example from the Book of Daniel. I also illustrate how a misanalysis of a poetic meter led to a mistranslation with an example from the Book of Psalms. 3. Language and music. First I trace an epochal event in the history of the Western music, i.e., the change of the musical style from the liturgical music of Latin in which the rhythm was created by the alternation of syllable duration into the liberated music of German in which the rhythm was generated by the alternation of lexical stress. I then illustrate a parallelism between linguistic and musical structures with several musical pieces including Gregorian chant, the 16th century music of Palestrina, the 17th century music of Schutz, the 18th century music of Mozart, and the 19th century Viennese music. Finally, the importance of text-tune (verse-melody) association is discussed with examples of mismatches in translated Korean hymns and contemporary Korean lyrical songs. In the concluding part, I speculate on some factors that are responsible for the same organizational devices in three different modes of human communication. An answer may be that all are under the same laws of mind that govern the way man perceives and organizes nature, i.e., the same cognitive abilities of man, in particular, the capacity to organize and impose structure on their respective inputs.

  • PDF