• 제목/요약/키워드: Keywords Extraction

검색결과 139건 처리시간 0.022초

용어 클러스터링을 이용한 단일문서 키워드 추출에 관한 연구 (A Study on Keyword Extraction From a Single Document Using Term Clustering)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제44권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 이 연구에서는 용어 클러스터링을 이용하여 단일문서의 키워드를 추출하는 알고리즘을 제안하고자 한다. 단락단위로 분할한 단일문서를 대상으로 1차 유사도와 2차 분포 유사도를 산출하여 용어 클러스터링을 수행한 결과, 50단어 단락에서 2차 분포 유사도를 적용했을 때 가장 우수한 성능을 나타냈다. 이후, 용어 클러스터링결과를 이용하여 단일문서의 키워드를 추출하기 위해 단순빈도와 상대빈도의 조합을 통해 다양한 키워드 추출 공식을 도출, 적용한 결과, 단락빈도(pf)와 단어빈도$\times$역단락빈도($tf{\times}ipf$) 조건에서 가장 우수한 결과를 나타냈다. 이 결과를 통해, 본 연구에서 제안한 알고리즘은 좋은 키워드가 가져야 할 두 가지 조건인 주제성과 고른 빈도분포라는 측면에서 단일문서를 대상으로 효과적으로 키워드를 추출할 수 있음을 확인하였다.

Interactive Morphological Analysis to Improve Accuracy of Keyword Extraction Based on Cohesion Scoring

  • Yu, Yang Woo;Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.145-153
    • /
    • 2020
  • 최근 소셜 빅데이터를 대상으로 한 키워드 분석은 고객 관점의 의견이나 불만 사항을 추출하기 위한 목적으로 광범위하게 활용되고 있다. 이와 관련하여, 이전 연구에서는 키워드 분석의 정확도를 높이기 위해 응집도 점수를 활용한 방법을 제안하였으나, 리뷰의 수가 적을 경우 오류율이 증가하는 문제가 있었다. 본 논문에서는 응집도 점수 기반 알고리즘으로부터 추출된 키워드에 대해 간소화된 형태소 분석 단계를 후처리 형태로 적용함으로써 키워드 추출의 정확도를 개선하고자 하였다. 제안 방법은 입력 데이터가 주어질 때마다 필요한 형태소 분석 규칙을 점증적으로 추가할 수 있도록 지원함으로써, 사전의 크기를 최소화하고 분석의 효율을 높이고자 하였다. 또한 대화형 규칙 입력 시스템을 제공하여 분석 규칙 추가에 드는 노력을 최소화하고자 하였다. 제안 방법을 검증하기 위해 온라인에서 수집된 실제 리뷰를 대상으로 실험을 수행하였으며, 제안 방법을 적용할 경우 오류율이 기존 10%에서 1%로 개선되는 동시에, 5,000개의 리뷰 처리에 450ms가 소요되어 실시간 처리가 가능한 수준임을 확인하였다.

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구 (Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels)

  • 유은순;최건희;김승훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.121-129
    • /
    • 2015
  • 도서 상품에 대한 정보량이 폭증하면서 고객이 도서 선택에 어려움을 겪는 상황이 발생하고 있다. 이에 따라 고객에게 적합한 도서 정보를 제공하여 구매를 유도하는 도서 추천시스템의 중요성이 커지고 있다. 하지만 도서의 서지정보나 사용자 정보 등을 이용한 기존의 추천시스템은 추천 결과의 신뢰도에 문제를 드러내고 있기 때문에 도서 본문 텍스트의 의미적 정보를 추천시스템에 반영하는 것이 필요하다. 따라서 본 논문은 이에 대한 선행연구로 TF-IDF기법과 소설의 외형적 구조를 이용한 소설 텍스트의 주제어 추출 방법을 제안하였다. 이를 위해 100권의 소설텍스트를 수집하고 각각의 소설을 머리말, 대화문, 비대화문, 맺음말의 4개의 구조로 분리한 후 TF-IDF 가중치를 계산하였다. 실험결과 본문 텍스트만을 이용했을 때 보다 머리말과 맺음말을 포함하고 대화문에 가중치를 높게 부여하였을 때 주제어의 추출 정확도가 42.1%의 성능 향상을 보였다.

스타일 기반 키워드 추출 및 키워드 마이닝 프로파일 기반 웹 검색 방법 (An Efficient Web Search Method Based on a Style-based Keyword Extraction and a Keyword Mining Profile)

  • 주길홍;이준휘;이원석
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1049-1062
    • /
    • 2004
  • World Wide Web의 대중화로 인해 전자 정보량이 급속하게 증가하였고, 이러한 많은 양의 다양한 정보에 대한 효율적인 검색 시스템의 필요성이 증대되었다. 정확한 검색 결과를 제공하기 위해 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 웹 검색 방법에 있어서 목표 검색어만을 가지고 검색을 수행하는 기존 검색 방법과 달리 검색어가 나타나는 문맥 정보를 추가하여 검색하는 방법을 제안하고 구현하였다. 또한 본 논문에서는 제안된 새로운 키워드 추출 방법으로 추출된 키워드를 기반으로 키워드 마이닝 프로파일에 기반한 웹 검색 시스템을 제안하고 구현하였다. 이는 원하는 정보를 대표하는 목표 검색어만 가지고 검색을 수행하는 기존의 검색방법과 달리 검색어가 포함된 문맥정보를 추가하여 검색하기 때문에 기존의 검색방법보다 정확하고 효율적인 정보를 제공한다. 특정 도메인으로부터 순위가 매겨진 도메인 키워드 리스트를 작성하여 이를 기준으로 기존의 출현빈도기반의 차이를 실험을 통하여 보였으며, 예제 기반 질의를 바탕으로 키워드 마이닝 프로파일을 만들어 검색을 수행하는 검색 방법으로 이의 효용성을 실험을 통해 검증하였다.

KP AGENT를 이용한 기술정보공간의 구축 (ICPIS Construction using KP Agent)

  • 박경우;배상현
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.14-21
    • /
    • 2000
  • 이용자의 학술정보 데이터베이스의 기능을 보충하는 새로운 지식표현 패러다임으로 기술정보공간(ICPIS: Information Communication Papers Intelligent Surveyor)을 제안한다. 이것은 기술정보로부터 자동적으로 구축되어 그 중에서 이용자가 자유롭게 탐방 할 수 있는 정보 공간이다. 구축방법과 탐방기능을 명확히 하여 실 시스템을 구축, 평가하는 것이 연구의 목적이다. 이를 위해 ICPIS는 Keyword로 기술된 논문군을 입력하여 논문내용의 항목별 요약, 유사논문의 시각적 표시와 비교, 인과관계의 추출을 시작으로 논문의 요약정보, Survey정보를 사용자에게 제공한다. ICPIS에서 중심적 역할을 나타내는 것은 KP(Knowledge Piece)로 불리고, 이는 기술정보의 추출법과 구조화법을 일체화한 Domain지식의 패키지이다. ICPIS는 KP별로 기술된 Keyword에서 자연언어처리에 해당되는 기술정보를 논문 중에서 추출하여 KP에서 규정된 요약구조로 생성한다.

  • PDF

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구 (A Study on Keywords Extraction based on Semantic Analysis of Document)

  • 송민규;배일주;이수홍;박지형
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.586-591
    • /
    • 2007
  • 지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

  • PDF

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

국내(國內) 문헌정보(文獻情報) 검색(檢索)을 위한 키워드 자동추출(自動抽出) 시스템 개발(開發) (Automatic Keyword Extraction System for Korean Documents Information Retrieval)

  • 예용희
    • 정보관리연구
    • /
    • 제23권1호
    • /
    • pp.39-62
    • /
    • 1992
  • 본(本) 연구(硏究)는 실제의 데이터 분석(分析)을 통하여 60여개의 조사(助詞)와 출현빈도는 높지만 검색(檢率)에 불필요한 320여개의 불용어(不用語)를 선정하여 좌우절단을 적용한 네 가지 유형으로 분류하고 조사(助詞)와 불용어 테이블을 구성하는 방법(方法)을 제시한다. 한글문헌에서 단어(單語)가 추출되면 조사의 효율적인 절단이 이러우지고, 한자어(漢字語)일 경우 한글로 변환되며, 2단계로 불용어제거(不用語除去) 과정을 거쳐 키워드를 선정하는 시스템을 개발한다. 여기서 추출된 키워드는 정보전문가(情報專門家)에 의해 추출된 색인어(索引語)와는 92.2%의 일치율을 보였다. 그리고 $4{\sim}6$글자로 구성된 복합어(複合語)의 경우 본(本) 연구(硏究)에서 제시한 분리방법에 의해 약 2배의 새로운 단어(單語)를 추가할 수 있었으며 그 중 58.8%가 키워드로 적합했다.

  • PDF

그래프 중심성 분석에 의한 CQI 보고서 핵심어 추출 시스템의 설계 및 개발 (Design and Implementation of Keywords Extraction System from CQI Reports by the Analysis of Graph Centrality)

  • 테이퍼악떠라;임종범;이종혁;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.256-259
    • /
    • 2019
  • 최근 대학교는 CQI(Continuous Quality Improvement) 등의 방대한 교육 관련 데이터를 수집하고 있고 이를 분석하여 교육 및 경영에 활용하고 있다. 핵심어는 텍스트의 내용을 간결하게 표현할 수 있는 단어이다. 그래서 CQI 보고서의 의미를 파악하기 위해서는 먼저 핵심어 추출이 필요하다. CQI 보고서에서 핵심어를 추출하면 이후 정보 검색, 인덱싱, 분류, 클러스터링, 필터링 등과 같은 많은 응용 작업을 용이하게 수행할 수 있다. 따라서 방대한 양의 CQI 보고서로부터 핵심어 추출을 자동화한다면 이후 요약 및 의미 파악에 많은 도움이 될 것이다. 이 논문에서는 CQI 보고서 요약을 위해 자동적으로 핵심어를 추출하는 방법을 제안한다.