• Title/Summary/Keyword: 키워드 가중치

Search Result 112, Processing Time 0.045 seconds

Keyword Extraction based on Style (스타일 기반 키워드 추출)

  • Lee, Joon-Hwi;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1049-1052
    • /
    • 2002
  • 기존의 키워드 추출 방법은 출현회수(frequency)에 기반한 가중치(weight) 부여 방식이 많이 쓰였다. 본 논문에서는 HTML 문서와 같이 스타일이 적용된 문서의 경우 출현회수와 함께 단어에 적용된 스타일을 고려하여 가중치를 부여해 키워드를 추출하는 방법을 제안한다. 가중치를 부여할 스타일 항목과 항목별 가중치 부여방법을 정의하고 이를 단어별로 합산하고 정규화(normalization)하는 방법을 정의하여 스타일에 기반 해 키워드를 추출하였다. 내용이 특정된 도메인으로부터 순위(ranking)가 매겨진 도메인 키워드 리스트를 뽑아서 이를 기준으로 삼아 기존의 출현회수 기반의 키워드 추출 방식과 양적, 질적인 비교를 수행하여 우월함을 보였다.

  • PDF

Analysis of the Spread of Non-face-to-face Educational Environment using Metaverse (메타버스를 이용한 비대면 교육환경의 확산 현황 분석)

  • Hwang, Eui-Chul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.163-164
    • /
    • 2022
  • 본 연구는 최근 2년(2019.12.1.~2021. 11.30)간 빅카인즈를 이용하여 '메타버스 AND 비대면 교육' 키워드가 포함된 뉴스 검색 결과 1148건을 바탕으로 관계도 분석, 연관어 키워드 빈도수 및 연관어 가중치 분석을 하였다. 첫째, 관계도 분석에서 가중치 '5'로 적용한 12개의 키워드 가중치로 코로나19(64), 아바타(43), 코로나(22), 유니버스(21), 게더타운(15), 패러다임(12), 신입사원(12), 로블록스(7)로 나타났다. 둘째, 연관어 키워드 월간 빈도수로는 2019.12~ 2020.9(0건), 2020.10(1건), 2021.3(19건), 2021.4(34건), 2021.6(72건), 2021.9 (196건), 2021.11애는 233건으로 급격하게 증가하였다. 셋째 키워드와의 연관성(가중치/키워드 빈도수)으로 코로나19(113.96/515), 가상세계(67.75/ 344), 메타버스(58.36/103), 메타(49.8/5730), 가상공간(45.57/380) 순이었다. 이 분석 결과에서 위드코로나 시대의 비대면 교육으로 메타버스에 기반을 둔 가상공간 활용 교육은 더욱 증가될 것으로 예상된다.

  • PDF

Keyword Extraction Using Syntactic Information of Question (질의문의 구문정보를 이용한 키워드 추출)

  • 양수정;서영훈
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2003.11a
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

Design of Keyword Extraction System Using TFIDF (TFIDF를 이용한 키워드 추출 시스템 설계)

  • 이말례;배환국
    • Korean Journal of Cognitive Science
    • /
    • v.13 no.1
    • /
    • pp.1-11
    • /
    • 2002
  • In this paper, a test was performed to determine whether words in Anchor Text were appropriate as key words. As a result of the test. there were proper words of high weighting factor, while some others did not even appear in the text. therefore, were not appropriate as key words. In order to resolve this problem. a new method was proposed to extract key words. Using the proposed method, inappropriate key words can be removed so that new key words be set, and then, ranking becomes possible with the TFIDF value as a weighting factor of the key word. It was verified that the new method has higher accuracy compared to the previous methods.

  • PDF

Thematic Word Extraction from Book Based on Keyword Weighting Method (키워드 가중치 방식에 근거한 도서 본문 주제어 추출)

  • Ahn, Hee-Jeong;Choi, Gun-Hee;Kim, Seung-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.01a
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

An XML Keyword Indexing Method Using on Lexical Similarity (단락을 분류에 따른 XML 키워드 가중치 결정 기법)

  • Jeong, Hye-Jin;Kim, Hyoung-Jin
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.05a
    • /
    • pp.205-208
    • /
    • 2008
  • 보다 효과적인 키워드 추출 및 키워드 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 단락별 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 일반적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 자동색인을 위하여, 논문을 구성하는 주요 단락을 세분하고, 단락에서 추출된 용어의 가중치를 갱신해 가면서 최종 색인어 가중치를 계산하는 방법을 제안한다.

  • PDF

Related Service Offers Technology with Keyword Link Method in Ubiquitous Environment (유비쿼터스 환경에서 키워드링크방식을 이용한 관련서비스 제공 기술)

  • Choi, Jae-Hong;Ok, Jee-Woong;Kim, Ung-Mo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.46-49
    • /
    • 2007
  • 유비쿼터스 컴퓨팅 환경에서 사용자가 원하는 데이터를 제공하는 일은 중요한 일이다. 또한, 급격히 늘어나는 정보를 효율적으로 저장하는 것도 중요하다. 그러나 기존의 데이터 제공방식은 사용자의 의도를 파악하지 못한 단순 1차 정보 및 서비스를 제공하고 있다. 그리고 제공되는 정보의 신뢰도는 다수의 사용자가 사용하기엔 부족한 편이다. 따라서 본 논문에서는 더 효율적으로 데이터와 원하는 서비스를 제공하기 위해 키워드링크방식을 이용한 관련서비스 제공 기술을 연구한다. 세부적인 연구내용은 첫째, 데이터를 저장 시에 키워드를 하나씩 3가지로 나누어 가중키워드를 선정하여 part2에 저장시키고 상대적으로 가중치가 낮은 두 개의 키워드는 각각 part1, part3에 저장하여 가중키워드와 가중치가 낮은 키워드를 서로 링크로 연결시키고 둘째, 데이터 마이닝을 통한 정보 및 서비스를 제공할 때 검색한 데이터 외에 키워드링크방식을 통하여 관련된 데이터를 2개 이상 제공하여 다수의 사용자가 원하는 정보 및 서비스를 제공한다. 따라서 본 논문에서는 사용자의 정보를 좀 더 효과적으로 저장하고, 데이터 마이닝 할 수 있는 방법을 제안하고 있다.

  • PDF

Sentence Cohesion & Subject driving Keywords Extraction for Document Classification (문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출)

  • Ahn Heui-Kook;Roh Hi-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

A Movie Recommendation System using Individual Review and Meta Data (개인 리뷰를 이용한 영화추천 시스템)

  • Kim, Min-Jeong;Park, Doo-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1611-1614
    • /
    • 2015
  • 최근 많은 추천 시스템들이 연구 되고 있으며, 사용자들에게 의사결정을 도와주는 추천시스템에 대한 중요도가 급증하고 있다. 기존의 영화 추천시스템에서는 희박성의 문제가 제기된다. 본 논문에서는 이러한 문제를 보완하고자 사용자가 영화에 대해 남긴 리뷰로부터 영화키워드를 분석하고 분석된 키워드로부터 가중치를 활용한다. 즉 사용자들로부터 영화에 대한 리뷰를 수집하고 리뷰로부터 각 영화 키워드를 분석해 키워드별 가중치를 활용해 이를 기반으로 영화를 추천한다. 그 결과 사용자에게 만족할만한 정보를 제공해 효율성을 높이고, 영화에 대한 개인 리뷰를 반영한 영화추천 시스템을 설계 및 구현해 사용자에게 적절한 영화를 추천한다.

XML Document Keyword Weight Analysis based Paragraph Extraction Model (XML 문서 키워드 가중치 분석 기반 문단 추출 모델)

  • Lee, Jongwon;Kang, Inshik;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.11
    • /
    • pp.2133-2138
    • /
    • 2017
  • The analysis of existing XML documents and other documents was centered on words. It can be implemented using a morpheme analyzer, but it can classify many words in the document and cannot grasp the core contents of the document. In order for a user to efficiently understand a document, a paragraph containing a main word must be extracted and presented to the user. The proposed system retrieves keyword in the normalized XML document. Then, the user extracts the paragraphs containing the keyword inputted for searching and displays them to the user. In addition, the frequency and weight of the keyword used in the search are informed to the user, and the order of the extracted paragraphs and the redundancy elimination function are minimized so that the user can understand the document. The proposed system can minimize the time and effort required to understand the document by allowing the user to understand the document without reading the whole document.