• Title/Summary/Keyword: 키워드 주제 정보

Search Result 298, Processing Time 0.03 seconds

Sentence Cohesion & Subject driving Keywords Extraction for Document Classification (문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출)

  • Ahn Heui-Kook;Roh Hi-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

The Method of Deriving Keywords Using Concept Rules (개념 규칙을 이용한 키워드 도출방법)

  • 이태헌;박기홍
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.685-687
    • /
    • 2002
  • 일반적으로 인간이 사용하는 몇 개의 주요단어를 이용하여, 문서의 분야나 주제어가 되는 일본어 키워드를 추출하는 점에 주목한다. 먼저, 학술논문에서 저자 자신이 부여한 키워드 중 분야 명이나 주제어가 문서 중에 출현하지 않는 경우를 분석하고, 단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서 의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새롭게 제안한다. 추출된 키워드의 타당성 검사를 위해 자연.음성언어에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 75%가 되어 제안방법의 유효성을 확인할 수 있었다.

  • PDF

A Comparative Analysis on Keywords of International and Korean Journals in Library and Information Science (국내외 문헌정보학 저널의 키워드 비교 분석)

  • Kim, Eungi
    • Journal of Korean Library and Information Science Society
    • /
    • v.48 no.1
    • /
    • pp.207-225
    • /
    • 2017
  • The aim of this study was to discover various Library and Information Science (LIS) research areas by examining similarities and differences between LIS journals in terms of keyword characteristics. To conduct this study, for the years from 2004 to 2016, the keywords of 6 international journals were downloaded from Scopus database (http://www.scopus.com), and the keywords of 4 Korean journals were downloaded from the RISS database (http://www.riss.co.kr). The characteristics of keywords were investigated by examining frequently used keywords and frequently used distinctive keywords pertaining to international and Korean journals. The distinctive keywords are referred to as the keywords that appear in one domain but not in another. The result of this study indicated the following: a) a frequency analysis of the keywords showed major research themes and unique traits concerning Korea. b) In general, the keywords used in Korean journals frequently reflected the library as a major subject area of research, while keywords used in international journals reflected bibliometrics and information retrieval as major subject areas of research. c) The overarching themes of each created dataset were clearly noticeable in frequently used distinctive keywords. d) Some keywords were bound by a nation or by a region due to their scope of usage. The important implication of this study is that both most frequently used keywords and most frequently used distinctive keywords seemed to adequately represent the LIS subject areas.

Extracting User-Specific Advertising Keywords Based on Textual Data Mining from KakaoTalk (카카오톡에서의 텍스트 데이터 마이닝 기반의 사용자별 적합 광고 키워드 도출 )

  • Yerim Jeon;Dayeong So;Jimin Lee;Eunjin (Jinny) Jo;Jihoon Moon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.368-369
    • /
    • 2023
  • 대화 데이터 기반 광고 추천은 광고 마케팅에서 고객 맞춤형 광고 제공, 마케팅 효과 극대화 등을 위한 중요한 기술로 주목받고 있다. 본 논문에서는 모바일 인스턴스 메신저인 카카오톡 대화창에서 발생한 텍스트 데이터를 기반으로 대화 내용을 분석하여 대화 주제별 적절한 광고 키워드를 제안한다. 이를 위해 주제별 대화 내용을 미용, 식음료, 상거래로 세분하고 KoNLPy 의 Okt 를 이용하여 텍스트 전처리를 수행하고 키워드별로 빈도수를 뽑아 워드 클라우드를 제시한다. 또한, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 기반으로 대화 주제를 세분화한 뒤 라벨링을 통해 주제별 대화 키워드를 분석한다. 실험 결과, 대화 주제를 온라인 쇼핑, 헤어, 뷰티 관리, 음식으로 나눌 수 있었으며, 토픽별 상위 키워드를 Word2Vec 을 통해 특정 단어와 유사한 키워드를 도출하여 적절한 광고 키워드를 제시할 수 있었다.

Keyword Extraction from News Corpus using Modified TF-IDF (TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법)

  • Lee, Sung-Jick;Kim, Han-Joon
    • The Journal of Society for e-Business Studies
    • /
    • v.14 no.4
    • /
    • pp.59-73
    • /
    • 2009
  • Keyword extraction is an important and essential technique for text mining applications such as information retrieval, text categorization, summarization and topic detection. A set of keywords extracted from a large-scale electronic document data are used for significant features for text mining algorithms and they contribute to improve the performance of document browsing, topic detection, and automated text classification. This paper presents a keyword extraction technique that can be used to detect topics for each news domain from a large document collection of internet news portal sites. Basically, we have used six variants of traditional TF-IDF weighting model. On top of the TF-IDF model, we propose a word filtering technique called 'cross-domain comparison filtering'. To prove effectiveness of our method, we have analyzed usefulness of keywords extracted from Korean news articles and have presented changes of the keywords over time of each news domain.

  • PDF

Exploration of Intellectual Structure of Artificial Intelligence Field Using Co-word Analysis (동시출현 단어 분석을 통한 지식 구조의 파악 : 인공지능 분야를 대상으로)

  • 이미경;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.245-251
    • /
    • 2003
  • 이 연구에서는 통제된 색인어를 이용하여 파악한 지식 구조와 통제되지 않은 키워드를 이용한 지식 구조를 비교하여 두 구조가 어떤 차이점을 보이는지를 살펴보았다. 또한 색인효과가 어떻게 나타나는지, 비통제어를 사용한 경우가 실제적으로 더 상세한 하위 영역을 표현하는지를 확인하고자 하였다. 실험 결과 통제된 색인어인 주제명표목을 사용한 영역지도와 비통제 색인어인 키워드를 사용한 영역지도 둘 다 인공지능 분야의 주요 분야들을 비슷하게 나타냈지만, 주제명표목을 사용한 경우에 색인효과가 일부 나타났다. 그리고 대체적으로 주제명표목에 기반한 영역지도보다는 키워드에 기반한 영역지도가 더 상세하게 나타났다.

  • PDF

Thematic Word Extraction from Book Based on Keyword Weighting Method (키워드 가중치 방식에 근거한 도서 본문 주제어 추출)

  • Ahn, Hee-Jeong;Choi, Gun-Hee;Kim, Seung-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.01a
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

Research on Overseas Trends and Emerging Topics in Field of Library and Information Science (문헌정보학분야 해외 연구 동향 및 유망 주제 분석 연구)

  • Bon Jin Koo;Durk Hyun Chang
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.57 no.3
    • /
    • pp.71-96
    • /
    • 2023
  • This study aimed to investigate key research areas in the field of Library and Information Science (LIS) by analyzing trends and identifying emerging topics. To facilitate the research, a collection of 40,897 author keywords from 11,252 papers published in the past 30 years (1993-2022) in five journals was gathered. In addition, keyword analysis, as well as Principal Component Analysis (PCA) and correlation analysis were conducted, utilizing variables such as the number of articles, number of authors, ratio of co-authored papers, and cited counts. The findings of the study suggest that two topics are likely to develop as promising research areas in LIS in the future: machine learning/algorithm and research impact. Furthermore, it is anticipated that future research will focus on topics such as social media and big data, natural language processing, research trends, and research assessment, as they are expected to emerge as prominent areas of study.

Issue summarization scheme based on real-time SNS trend analysis (실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법)

  • Kim, Daeyong;Kim, Daehoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

Keywords and Topic Analysis of Social Issues on Twitter Based on Text Mining and Topic Modeling (텍스트 마이닝과 토픽 모델링을 기반으로 한 트위터에 나타난 사회적 이슈의 키워드 및 주제 분석)

  • Kwak, Soo Jeong;Kim, Hyon Hee
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.1
    • /
    • pp.13-18
    • /
    • 2019
  • In this study, we investigate important keywords and their relationships among the keywords for social issues, and analyze topics to find subjects of the social issues. In particular, we collected twitter data with the keyword 'metoo' which has attracted much attention in these days, and perform keyword analysis and topic modeling. First, we preprocess the twitter data, identified important keywords, and analyzed the relatedness of the keywords. After then, topic modeling is performed to find subjects related to 'metoo'. Our experimental results showed that relatedness of keywords and subjects on social issues in twitter are well identified based on keyword analysis and topic modeling.