• 제목/요약/키워드: Thematic word

검색결과 13건 처리시간 0.022초

Effective Thematic Words Extraction from a Book using Compound Noun Phrase Synthesis Method

  • Ahn, Hee-Jeong;Kim, Kee-Won;Kim, Seung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.107-113
    • /
    • 2017
  • Most of online bookstores are providing a user with the bibliographic book information rather than the concrete information such as thematic words and atmosphere. Especially, thematic words help a user to understand books and cast a wide net. In this paper, we propose an efficient extraction method of thematic words from book text by applying the compound noun and noun phrase synthetic method. The compound nouns represent the characteristics of a book in more detail than single nouns. The proposed method extracts the thematic word from book text by recognizing two types of noun phrases, such as a single noun and a compound noun combined with single nouns. The recognized single nouns, compound nouns, and noun phrases are calculated through TF-IDF weights and extracted as main words. In addition, this paper suggests a method to calculate the frequency of subject, object, and other roles separately, not just the sum of the frequencies of all nouns in the TF-IDF calculation method. Experiments is carried out in the field of economic management, and thematic word extraction verification is conducted through survey and book search. Thus, 9 out of the 10 experimental results used in this study indicate that the thematic word extracted by the proposed method is more effective in understanding the content. Also, it is confirmed that the thematic word extracted by the proposed method has a better book search result.

A Automatic Document Summarization Method based on Principal Component Analysis

  • Kim, Min-Soo;Lee, Chang-Beom;Baek, Jang-Sun;Lee, Guee-Sang;Park, Hyuk-Ro
    • Communications for Statistical Applications and Methods
    • /
    • 제9권2호
    • /
    • pp.491-503
    • /
    • 2002
  • In this paper, we propose a automatic document summarization method based on Principal Component Analysis(PCA) which is one of the multivariate statistical methods. After extracting thematic words using PCA, we select the statements containing the respective extracted thematic words, and make the document summary with them. Experimental results using newspaper articles show that the proposed method is superior to the method using either word frequency or information retrieval thesaurus.

주성분 분석과 비정칙치 분해를 이용한 문서 요약 (Text Summarization using PCA and SVD)

  • 이창범;김민수;백장선;박혁로
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.725-734
    • /
    • 2003
  • 본 논문에서는 통계적 분석 기법인 주성분 분석과 비정칙치 분해를 이용한 문서 방법을 제안한다. 제안한 방법은 문서내의 주제어를 추출한 후, 추출된 주제어와 문장간의 거리가 가장 짧은 문장들을 중요 문장으로 추출하여 요약으로 제시한다. 주제어를 추출하기 위해서는 주성분 분석을 이용하였으며, 이는 문서 자체내의 빈도 정보와 단어간의 연관 정보를 이용한 것이다. 그리고, 중요 문장을 추출하기 위해 비정칙치 분해를 시행하여 문장 벡터와 주제어 벡터론 획득한 후, 두 벡터간의 유클리디언 거리를 계산하였다. 신문 기사를 대상으로 실험한 결과, 제안한 방법이 출현 빈도만을 이용한 방법과 주성분 분석만을 이용한 방법보다 성능이 우수함을 알 수 있었다.

주성분 분석을 이용한 문서 주제어 추출 (Document Thematic words Extraction using Principal Component Analysis)

  • 이창범;김민수;이기호;이귀상;박혁로
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.747-754
    • /
    • 2002
  • 본 논문에서는 문서의 내용을 대표할 수 있는 주제어를 추출하는데 있어 다변량 통계 분석 기법 중의 하나인 주성분 분석을 이용하는 모델을 제안한다. 제안한 모델은 고유값과 고유벡터를 이용하여 문서 자체내의 단어의 흐름을 파악한 후 주제어를 추출하는 방법이다. 제안한 모델을 문서 요약에 적용하여 그 성능을 평가하였다. 신문기사를 대상으로 실험한 결과 제안한 모델이 단어의 출현 빈도를 고려하는 방법, 시소러스를 이용하는 방법 모두에 비해 더 좋은 성능을 보였다. 제안한 모델은 정보검색, 정보추출, 문서요약 등에 이용될 수 있으리라 기대된다.

키워드 가중치 방식에 근거한 도서 본문 주제어 추출 (Thematic Word Extraction from Book Based on Keyword Weighting Method)

  • 안희정;최건희;김승훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

언어성에서 본 포스트모더니즘 실내디자인의 특성연구 (A Study on the Characterization of Post-Modernism Interior Design inAttri Language bute)

  • 이춘섭
    • 디자인학연구
    • /
    • 18호
    • /
    • pp.15-23
    • /
    • 1996
  • 실내 공간은 공간의 특수성으로 인하여 질료로서 결정되는 허공간으로 이 공간이 쓰임새가 가치를 결정한다. 따라서 실내가 형성하는 공간의 추상성과 각 요소들이 연합하여 하나의 공간을 이루는 특이성 있는 공간을 형성한다. 그러므로 표현되는 어휘와 상징체계는 다분히 전체성의 특징을 갖는다. 본 연구는 포스트모더니즘 경향의 실내를 언어의 과학성을 기초로 하여 상징체계를 전체성으로 분석함에 있다. 내용은 크게 3부분으로 나뉘어진다. 제 1장에서는 서론 부분, 제 2장에서는 실내디자인의 특징, 제 3에서는 어휘와 코드의 정의, 어휘가 가지고 있는 상징성과 포스트모더니즘 실내를 성격 짓는 언어학적 은유의 내용을 고찰하였으며, 제 4장에서는 포스트모더니즘 실내디자인의 일반적인 특성과 이 특징을 이루고 있는 실내요소들 중에 근간을 이루는 전통성과 장식성 대중성을 이루는 데 필요한 실내 어휘들의 언어 성을 어휘, 코드, 은유를 중심으로 분류하였다. 끝으로 제 5장에서는 찰스 젱크스(Charles Jencks)의 시 메틱 하우스(Thematic House)서재 실내 공간을 하나의 모델로 선정하여 언어학적 분석하였다.

  • PDF

연관분석을 이용한 효과적인 표절검사 및 문서분류에 관한 연구 (A Study on Plagiarism Detection and Document Classification Using Association Analysis)

  • 황인수
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제23권3호
    • /
    • pp.127-142
    • /
    • 2014
  • Plagiarism occurs when the content is copied without permission or citation, and the problem of plagiarism has rapidly increased because of the digital era of resources available on the World Wide Web. An important task in plagiarism detection is measuring and determining similar text portions between a given pair of documents. One of the main difficulties of this task is that not all similar text fragments are examples of plagiarism, since thematic coincidences also tend to produce portions of similar text. In order to handle this problem, this paper proposed association analysis in data mining to detect plagiarism. This method is able to detect common actions performed by plagiarists such as word deletion, insertion and transposition, allowing to obtain plausible portions of plagiarized text. Experimental results employing an unsupervised document classification strategy showed that the proposed method outperformed traditionally used approaches.

Thematic Analysis for Classifying the E-Learning Challenges and the Suggested Solutions: The Unusual Era of the COVID-19

  • Nazari, Behzad;Hussin, AB Razak Bin Che;Niknejad, Naghmeh
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권4호
    • /
    • pp.79-89
    • /
    • 2021
  • Electronic learning (e-learning) empowers the higher education in providing sustainable instruction during the infrequent circumstance when the wide-spreading disastrous challenge of the COVID-19 results in the closure of various sectors in the society. During this time, e-learning serves the levels of the education sector such as higher education well by delivering and receiving materials from distance with respect to movement restrictions imposed by the government, for example the Movement Control Order (MCO) in Malaysia. In this qualitative survey, the existing e-learning challenges and the recommended solutions to the problems from the senior lecturers' perspectives were collected through an online open-ended questionnaire. A number of five senior lecturers out of eight at the Universiti Teknologi Malaysia (UTM) answered the questionnaire. The UTM has been capable of providing e-learning courses for all of its lecturers and students during the closure of higher education institutions owing to the pernicious health conditions stemmed from the crisis of the COVID-19. The major existing challenges found in the e-learning program at the UTM and the suggested solutions to address them are listed and the main themes are illustrated in the word cloud format using the NVivo software. In the end, the conclusion is paragraphed and the future work is proposed. Overall, the purpose of this study is to address the e-learning challenges and to prepare a list of recommendations that can serve as solutions from the standpoint of the UTM senior lecturers during the MCO in Malaysia.

딥러닝 및 토픽모델링 기법을 활용한 소셜 미디어의 자살 경향 문헌 판별 및 분석 (Examining Suicide Tendency Social Media Texts by Deep Learning and Topic Modeling Techniques)

  • 고영수;이주희;송민
    • 한국비블리아학회지
    • /
    • 제32권3호
    • /
    • pp.247-264
    • /
    • 2021
  • 자살은 전 세계 사망 원인 중 4위이며 사회, 경제적 손실이 큰 난제이다. 본 연구는 자살 예방을 위하여 소셜미디어에 나타난 자살 관련 말뭉치를 구축하고 이를 통해 자살 경향 문헌을 분류할 수 있는 딥러닝 자동분류 모델을 만들고자 하였다. 또한, 자살 요인을 분석하기 위해 주제를 자동으로 추출하는 분석 기법인 토픽모델링을 활용하여 자살 관련 말뭉치를 세부 주제로 분류하고자 하였다. 이를 위해 소셜미디어 중 하나인 네이버 지식iN에 나타난 자살 관련 문헌 2,011개를 수집한 후 자살예방교육 매뉴얼을 기준으로 자살 경향 문헌 및 비경향 문헌 여부를 주석 처리하였으며, 이 데이터를 딥러닝 모델(LSTM, BERT, ELECTRA)로 학습시켜 자동분류 모델을 만들었다. 또한, 토픽모델링 기법의 하나인 LDA 기법으로 주제별 문헌을 분류하여 자살 요인을 발견하였고 이를 심층적으로 분석하기 위해 주제별로 동시출현 단어 분석 및 네트워크 시각화를 진행하였다.

마르셀 프루스트에 관한 디지털인문학적 연구 동향분석 (Digital humanities Research Trends on Marcel Proust)

  • 민진영
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.181-188
    • /
    • 2024
  • 디지털 전환이라는 시대적 배경에 힘입어 마르셀 프루스트의 탄생 150주년을 맞는 2021년과 서거 100주년을 맞는 2022년에는 프루스트에 대한 다양한 디지털인문학적 연구가 진행되었다. 니콜라 라고노는 문학 웹사이트 '프루스트노믹스'를 운영하여 프루스트와 관련한 온/오프라인의 담론들을 아카이빙하여 분석하고, 『프루스트그래프』를 통해서 프루스트와 관련된 이야기와 『잃어버린 시간을 찾아서』를 둘러싼 다양한 자료들을 수치화하여 효과적으로 시각화하였다. 2021년에 프루스트의 삶과 작품에 관한 다양한 자료를 온라인으로 서비스하는 버팔로 프루스트 프로젝트Buffalo Proust project 2021가 진행되었다. 일리노이 대학의 콜브는 그르노블 대학의 프랑수아즈 르리쉬와 함께 프루스트의 서신을 디지털화하여 온라인으로 서비스하는 작업인 Corr-Proust사업을 진행하였다. 국내의 프루스트에 대한 디지털인문학적 연구는 부재한 상황이라서 지난 60년간 출판된 학술논문의 어휘를 분석하여 2000년 전후 주제면이나 양적인 면에서 많은 발전이 있었음을 어휘빈도와 워드클라우드를 통해 시각화해보았다.