• Title/Summary/Keyword: 키워드 추출 방법

Search Result 355, Processing Time 0.028 seconds

Keyword Extraction based on Style (스타일 기반 키워드 추출)

  • Lee, Joon-Hwi;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1049-1052
    • /
    • 2002
  • 기존의 키워드 추출 방법은 출현회수(frequency)에 기반한 가중치(weight) 부여 방식이 많이 쓰였다. 본 논문에서는 HTML 문서와 같이 스타일이 적용된 문서의 경우 출현회수와 함께 단어에 적용된 스타일을 고려하여 가중치를 부여해 키워드를 추출하는 방법을 제안한다. 가중치를 부여할 스타일 항목과 항목별 가중치 부여방법을 정의하고 이를 단어별로 합산하고 정규화(normalization)하는 방법을 정의하여 스타일에 기반 해 키워드를 추출하였다. 내용이 특정된 도메인으로부터 순위(ranking)가 매겨진 도메인 키워드 리스트를 뽑아서 이를 기준으로 삼아 기존의 출현회수 기반의 키워드 추출 방식과 양적, 질적인 비교를 수행하여 우월함을 보였다.

  • PDF

An Efficient Web Image Caption Extraction Method based on Textual and Visual Information (텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법)

  • Hwang Ji-Ik;Park Joo-Hyoun;Nang Jong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

The Method of Deriving Keywords Using Concept Rules (개념 규칙을 이용한 키워드 도출방법)

  • 이태헌;박기홍
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.685-687
    • /
    • 2002
  • 일반적으로 인간이 사용하는 몇 개의 주요단어를 이용하여, 문서의 분야나 주제어가 되는 일본어 키워드를 추출하는 점에 주목한다. 먼저, 학술논문에서 저자 자신이 부여한 키워드 중 분야 명이나 주제어가 문서 중에 출현하지 않는 경우를 분석하고, 단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서 의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새롭게 제안한다. 추출된 키워드의 타당성 검사를 위해 자연.음성언어에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 75%가 되어 제안방법의 유효성을 확인할 수 있었다.

  • PDF

Keyword Extraction for Korean Language Q&A (국어정보 질의응답을 위한 키워드 추출)

  • Jong, Jong-Seok;Lee, Su-In;Lee, Hyun-A
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF

Keyword Abstraction Method to be based in Dependence (의존관계에 근거한 키워드 추출방법)

  • Jung, Kyu-Cheol;Lee, Jin-Kwan;Lee, Tae-Hun;Park, Ki-Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1221-1224
    • /
    • 2001
  • 논문의 키워드는 논문을 읽을지 여부를 알아보는 아주 중요한 요소로 존재이다. 그러나 키워드가 되는 단어가 원문 중에 존재하지 않고, 키워드의 구성 단어로 분리하여 존재하는 경우에는 대처할 수 없다. 본 논문에서는 문서를 읽기 위한 판단의 재료가 되는 키워드의 추출을 목적으로 하고, 특히 복합명사 생성 규칙을 이용하여 키워드의 구성 단어로 분리되어 존재하는 키워드를 추출하는 방법을 제안한다.

  • PDF

Personalized Keyword Extraction using Dialogue History (과거 대화 정보를 사용한 개인화된 대화 키워드 추출)

  • Go, Jun-Ho;Son, Jeong-Woo;Song, Hyun-Je;Park, Se-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.267-269
    • /
    • 2012
  • 본 논문에서는 대화에서 그래프 기반 키워드를 추출하는 방법을 제안한다. 대화의 특성상 길이가 짧고, 생략이 많아 키워드 간의 연결 정도를 판단하기 힘들다. 이를 보완하기 위해 본 논문에서는 과거의 개인 대화 정보를 활용한다. 과거 대화 정보는 시간의 흐름이 반영된 현재 대화가 이뤄지기 전 말하고 듣는 것을 지칭하며, 이를 활용함으로써 개인화된 키워드를 발견할 수 있게 도와준다. 키워드 추출에 있어 현재 대화에서만을 고려하는 기존 연구와 달리, 제안한 방법은 앞서 구축된 과거 정보를 활용하여 그래프를 확장한 후 키워드를 추출한다. 실험을 통해 제안하는 방법이 베이스라인보다 현재 문장을 잘 반영할 수 있는 키워드를 추출함을 보인다.

Keyword Extraction Using Syntactic Information of Question (질의문의 구문정보를 이용한 키워드 추출)

  • 양수정;서영훈
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2003.11a
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

Keyword Extraction in Korean Using Unsupervised Learning Method (비감독 학습 기법에 의한 한국어의 키워드 추출)

  • Shin, Seong-Yoon;Rhee, Yang-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.6
    • /
    • pp.1403-1408
    • /
    • 2010
  • Korean information retrieval uses noun as index terms or keywords of representing the document. and noun and keyword extraction is to find all nouns presented in the document, In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

Noun and Keyword Extraction for Information Processing of Korean (한국어 정보처리를 위한 명사 및 키워드 추출)

  • Shin, Seong-Yoon;Rhee, Yang-Won
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.3
    • /
    • pp.51-56
    • /
    • 2009
  • In a language, noun and keyword extraction is a key element in information processing. When it comes to processing Korean language information, however, there are still a lot of problems with noun and keyword extraction. This paper proposes an effective noun extraction method that considers noun emergence features. The proposed method can be effectively used in areas like information retrieval where large volumes of documents and data need to be processed in a fast manner. In this paper, a category-based keyword construction method is also presented that uses an unsupervised learning technique to ensure high volumes of queries are automatically classified. Our experimental results show that the proposed method outperformed both the supervised learning-based X2 method known to excel in keyword extraction and the DF method, in terms o classification precision.

Keyword Extraction for English for Academic Purposes (학문목적영어(EAP)를 위한 키워드 추출)

  • Lee, Je-Young
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2018.05a
    • /
    • pp.255-256
    • /
    • 2018
  • 영어로 진행하는 전공 수업, 영어로 쓰여진 교재의 사용 등이 빈번한 대학 수준 이상에서의 학업을 위해서는 학문목적영어와 관련된 능력을 갖추는 것이 필수적이다. 영어로 진행되는 공부에 어려움을 경험하는 학생들을 돕기 위해 많은 학자들은 해당 분야의 키워드, 즉 전문어휘 목록 작성을 통해 해당 분야의 어휘 학습을 돕는 것이 중요하다고 강조하고 있다. 이에 본 연구에서는 해당분야의 전문 어휘 추출과 관련한 핵심 개념과 선행연구를 살펴본 후, 각기 상이한 키워드 추출 방법을 채택한 2개의 선행연구를 통해 실제 키워드 추출이 이루어지는 방법 및 각각의 장단점에 대해 살펴보고자 한다.

  • PDF