• 제목/요약/키워드: 키워드 주제 정보

검색결과 298건 처리시간 0.024초

문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출 (Sentence Cohesion & Subject driving Keywords Extraction for Document Classification)

  • 안희국;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

개념 규칙을 이용한 키워드 도출방법 (The Method of Deriving Keywords Using Concept Rules)

  • 이태헌;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.685-687
    • /
    • 2002
  • 일반적으로 인간이 사용하는 몇 개의 주요단어를 이용하여, 문서의 분야나 주제어가 되는 일본어 키워드를 추출하는 점에 주목한다. 먼저, 학술논문에서 저자 자신이 부여한 키워드 중 분야 명이나 주제어가 문서 중에 출현하지 않는 경우를 분석하고, 단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서 의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새롭게 제안한다. 추출된 키워드의 타당성 검사를 위해 자연.음성언어에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 75%가 되어 제안방법의 유효성을 확인할 수 있었다.

  • PDF

국내외 문헌정보학 저널의 키워드 비교 분석 (A Comparative Analysis on Keywords of International and Korean Journals in Library and Information Science)

  • Kim, Eungi
    • 한국도서관정보학회지
    • /
    • 제48권1호
    • /
    • pp.207-225
    • /
    • 2017
  • 본 연구의 목적은 키워드 특징 면에서 문헌정보 저널에서 나타나는 유사점과 차이점을 조사하여 다양한 문헌 정보학 연구 영역을 발견하는 데 있다. 이 연구를 수행하기 위해 2004 년부터 2016 년까지 네 개의 한국 저널의 키워드가 RISS 데이타베이스에서 수집 되었고(http://www.riss.co.kr) 그리고 여섯 개의 국제저널의 키워드가 SCOPUS 데이타베이스에서 수집 되었다(http://www.scopus.com). 키워드의 특징은 한국 및 국제저널에 관하여서 자주 사용 되었던 키워드와 자주 사용되었던 독특한 키워드를 검증하는 연구이었다. 독특한 키워드란 한 분야에서는 나타나지만 다른 분야에서는 나타나지 않는 키워드를 말한다. 이 연구의 결과는 다음과 같다. 가) 키워드 빈도 분석 결과는 한국의 문헌정보 학의 연구주제와 연구특색을 보여 주는 것으로 나타났다. 나) 일반적으로 한국 저널에서 사용 된 키워드는 도서관과 관련된 주제의 영역을 나타냈고, 국제 저널에 사용되는 키워드는 서지 측정법과 관련된 주제 영역을 나타냈다. 다) 빈번히 사용되었던 독특한 키워드에서도 이러한 전반적인 연구 테마를 명백히 나타냈다. 라) 어떤 키워드는 쓰이는 범위가 한 국가나 지역으로 한정되어 있는 것으로 나타냈다. 이 연구의 중요한 시사점은 가장 자주 사용되는 키워드와 가장 자주 사용되는 독특한 키워드는 둘 다 문헌정보 학의 주제 영역을 적절하게 반영하고 있는 것으로 보인다는 것이다.

카카오톡에서의 텍스트 데이터 마이닝 기반의 사용자별 적합 광고 키워드 도출 (Extracting User-Specific Advertising Keywords Based on Textual Data Mining from KakaoTalk)

  • 전예림;소다영 ;이지민 ;조은진;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.368-369
    • /
    • 2023
  • 대화 데이터 기반 광고 추천은 광고 마케팅에서 고객 맞춤형 광고 제공, 마케팅 효과 극대화 등을 위한 중요한 기술로 주목받고 있다. 본 논문에서는 모바일 인스턴스 메신저인 카카오톡 대화창에서 발생한 텍스트 데이터를 기반으로 대화 내용을 분석하여 대화 주제별 적절한 광고 키워드를 제안한다. 이를 위해 주제별 대화 내용을 미용, 식음료, 상거래로 세분하고 KoNLPy 의 Okt 를 이용하여 텍스트 전처리를 수행하고 키워드별로 빈도수를 뽑아 워드 클라우드를 제시한다. 또한, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 기반으로 대화 주제를 세분화한 뒤 라벨링을 통해 주제별 대화 키워드를 분석한다. 실험 결과, 대화 주제를 온라인 쇼핑, 헤어, 뷰티 관리, 음식으로 나눌 수 있었으며, 토픽별 상위 키워드를 Word2Vec 을 통해 특정 단어와 유사한 키워드를 도출하여 적절한 광고 키워드를 제시할 수 있었다.

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

동시출현 단어 분석을 통한 지식 구조의 파악 : 인공지능 분야를 대상으로 (Exploration of Intellectual Structure of Artificial Intelligence Field Using Co-word Analysis)

  • 이미경;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.245-251
    • /
    • 2003
  • 이 연구에서는 통제된 색인어를 이용하여 파악한 지식 구조와 통제되지 않은 키워드를 이용한 지식 구조를 비교하여 두 구조가 어떤 차이점을 보이는지를 살펴보았다. 또한 색인효과가 어떻게 나타나는지, 비통제어를 사용한 경우가 실제적으로 더 상세한 하위 영역을 표현하는지를 확인하고자 하였다. 실험 결과 통제된 색인어인 주제명표목을 사용한 영역지도와 비통제 색인어인 키워드를 사용한 영역지도 둘 다 인공지능 분야의 주요 분야들을 비슷하게 나타냈지만, 주제명표목을 사용한 경우에 색인효과가 일부 나타났다. 그리고 대체적으로 주제명표목에 기반한 영역지도보다는 키워드에 기반한 영역지도가 더 상세하게 나타났다.

  • PDF

키워드 가중치 방식에 근거한 도서 본문 주제어 추출 (Thematic Word Extraction from Book Based on Keyword Weighting Method)

  • 안희정;최건희;김승훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

문헌정보학분야 해외 연구 동향 및 유망 주제 분석 연구 (Research on Overseas Trends and Emerging Topics in Field of Library and Information Science)

  • 구본진;장덕현
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.71-96
    • /
    • 2023
  • 이 연구는 문헌정보학 분야의 연구 동향 분석을 통해 문헌정보학의 핵심 연구 영역을 파악하고 향후 유망 연구 주제로 부상할 가능성이 있는 주제를 식별하고자 하였다. 이를 위해 문헌정보학 분야의 국외 학술지 5종을 대상으로 지난 30년간 (1993~2022)의 학술논문 11,252건에서 40,897개의 저자 키워드를 수집하였으며, 저자 키워드를 활용한 키워드 분석을 통해 문헌정보학 분야의 핵심 연구 영역을 파악하였다. 이어서 논문수, 저자수, 공저논문 비율, 피인용 수를 활용하여 주성분분석과 상관관계분석을 통해 문헌정보학 분야의 미래 유망 연구 주제를 도출하였다. 분석 결과, 향후 문헌정보학 분야의 유망 연구 주제는 '머신러닝/알고리즘'과 '연구 영향력'이었으며, 이외에도 소셜미디어와 빅데이터분석, 자연어 처리, 연구 트렌드 분석, 연구성과 평가 등이 향후 주요한 연구주제로 성장할 가능성이 있는 것으로 나타났다.

실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법 (Issue summarization scheme based on real-time SNS trend analysis)

  • 김대용;김대훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

텍스트 마이닝과 토픽 모델링을 기반으로 한 트위터에 나타난 사회적 이슈의 키워드 및 주제 분석 (Keywords and Topic Analysis of Social Issues on Twitter Based on Text Mining and Topic Modeling)

  • 곽수정;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.13-18
    • /
    • 2019
  • 본 연구는 커뮤니케이션이 활발한 SNS 속에서 사회적 이슈가 어떤 주제별로 나뉘어져 있고, 어떤 키워드들이 유기적으로 연결되었는지 그 연결 관계를 알아보고자 하였다. '미투'라는 새로운 단어가 생겨남과 동시에 큰 운동으로 번지고 있는 '미투운동'을 사회적 이슈로 간주하였고, 여러 SNS 중 특히 실시간 소통이 가장 활발한 트위터를 중심으로 분석을 실시하였다. 우선 키워드를 '미투'로 하여 관련된 키워드를 각 날짜별로 추출하였고, 주요 키워드를 파악한 후 토픽 모델링을 수행하였다. 이를 통해 사회적 이슈를 둘러싼 키워드들이 시간의 흐름에 따라 어떻게 변화하였는지 파악하고, 각 토픽 내의 키워드를 종합하여 토픽별 사회적 이슈의 다양한 관점을 해석하였다.