• Title/Summary/Keyword: Keyword extraction

검색결과 189건 처리시간 0.026초

TFIDF를 이용한 키워드 추출 시스템 설계 (Design of Keyword Extraction System Using TFIDF)

  • 이말례;배환국
    • 인지과학
    • /
    • 제13권1호
    • /
    • pp.1-11
    • /
    • 2002
  • 본 논문에서는 먼저 Anchor Text의 단어들이 키워드로 적합한지 TFIDF를 이용하여 테스트하였다. 그 결과는 가중치가 높아서 키워드로 적합한 단어가 있었는가 하면. 아예 문서에 나오지도 않는 단어가 있어 키워드로 적합하지 않은 단어도 있었다. 이를 해결하기 위하여 새로운 키워드 추출 방법을 제시하였다. 본 논문에서는 적합하지 않은 키워드를 제거함으로써 새로운 키워드를 만들어 내고 TFIDF값을 각 키워드의 가중치로 이용하여 Ranking이 가능하게 하였다. 이렇게 추출된 키워드는 기존의 방법보다 정확도가 높아졌음 증명했다.

  • PDF

Suffix Tree를 이용한 웹 문서 클러스터의 제목 생성 방법 성능 비교 (Performance Comparison of Keyword Extraction Methods for Web Document Cluster using Suffix Tree Clustering)

  • 염기종;권영식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.328-335
    • /
    • 2002
  • 최근 들어 인터넷 기술의 발달로 웹 상에 많은 자료들이 산재해 있습니다. 사용자가 원하는 정보를 검색하기 위해서 키워드 검색을 이용하고 있는데 이러한 키워드 검색은 사용자들이 입력한 단편적인 정보에 바탕하여 검색하고 검색된 결과들을 자체적인 기준으로 순위를 매겨 나열식으로 제시하고 있다. 이러한 경우 사용자들의 생각과는 다르게 결과가 제시될 수 있다. 따라서 사용자들의 검색 시간을 줄이고 편리하게 검색하기 위한 환경의 필요성이 높아지고 있다. 본 논문에서는 Suffix Tree 알고리즘을 사용하여 관련있는 문서들을 분류하고 각각의 분류된 클러스터에 제목을 생성하기 위하여 문서 빈도수, 단어 빈도수와 역문서 빈도수, 카이 검정, 공통 정보, 엔트로피 방법을 비교 평가하여 제목을 생성하는데 어떠한 방법이 가장 효과적인지 알아보기 위해 비교 평가해본 결과 문서빈도수가 TF-IDF보다 약 10%정도 성능이 좋은 결과를 보여주었다.

  • PDF

과거 대화 정보를 사용한 개인화된 대화 키워드 추출 (Personalized Keyword Extraction using Dialogue History)

  • 고준호;손정우;송현제;박세영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.267-269
    • /
    • 2012
  • 본 논문에서는 대화에서 그래프 기반 키워드를 추출하는 방법을 제안한다. 대화의 특성상 길이가 짧고, 생략이 많아 키워드 간의 연결 정도를 판단하기 힘들다. 이를 보완하기 위해 본 논문에서는 과거의 개인 대화 정보를 활용한다. 과거 대화 정보는 시간의 흐름이 반영된 현재 대화가 이뤄지기 전 말하고 듣는 것을 지칭하며, 이를 활용함으로써 개인화된 키워드를 발견할 수 있게 도와준다. 키워드 추출에 있어 현재 대화에서만을 고려하는 기존 연구와 달리, 제안한 방법은 앞서 구축된 과거 정보를 활용하여 그래프를 확장한 후 키워드를 추출한다. 실험을 통해 제안하는 방법이 베이스라인보다 현재 문장을 잘 반영할 수 있는 키워드를 추출함을 보인다.

퍼지 추론을 이용한 소수 문서의 대표 키워드 추출에 대한 유용성 평가 (Evaluation on the usefulness of Representative Keyword Extraction from Few Documents through Fuzzy Inference)

  • 노순억;김병만;신윤식;임은기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.247-249
    • /
    • 2002
  • 본 논문은 퍼지 추론을 이용하여 소수문서로부터의 대표 용어들을 추출하고 가중치를 부여한 기존 방법의 유용성을 평가하고자 GIS (Generalized Instance Set) 알고리즘에 이를 적용시켜 보았다. GIS 는 학습 문서 집합에 대한 플러스터링 과정을 통해 문서 그룹들을 생성하고 이들에 대한 선형 분류기들을 유도한 뒤 k-NN 알고리즘을 적용하는 방법이다. GIS의 일반화(generalization) 과정에 Rocchio, Widrow-Hoff 및 퍼지 추론을 이용한 방법을 적용시켜 문서 분류 성능을 비교하였다. 긍정적 문서 집합에 대한 실험에서 비교적 우수한 성능 향상을 보여줌으로써 퍼지 추론을 이용한 방법의 유용성을 확인 할 수 있었다.

  • PDF

수식 관계를 이용한 키워드 추출을 통한 검색 과정의 효율성 향상 (Keyword Extraction Using Modifying Relation to Improve Search Experience)

  • 문욱성;이신목
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.228-232
    • /
    • 2007
  • 정보화 시대에 방대한 양의 정보에서 필요한 정보를 효율적으로 찾아내는 것은 그 무엇보다도 중요하다. 이를 위해 많은 검색 엔진이 효율적인 검색 결과 제공을 위해 노력하고 있지만 그 인터페이스의 문제로 인하여 사용자가 검색결과를 효율적으로 받아들이기 어려우며 또한 원하는 정보를 검색하기 위해서는 일정 수준 이상의 검색 능력을 필요로 한다. 이 논문에서는 기존의 검색 엔진의 인터페이스 변경을 통하여 시각적인 연관성 정보를 제공하며 이를 통해 사용자가 검색 능력에 구애받지 않고 정확한 답을 얻을 수 있도록 유도한다. 또한 이 과정에서 기존의 키워드 추출 알고리즘의 문제점을 발견하여 이를 단어간의 수식 관계를 이용하여 해결하였다. 또한 단어간의 수식 관계를 이용하여 효율적으로 문서간의 연관성을 생성할 수 있는 알고리즘을 제시하였다.

  • PDF

N3WS : 키워드 및 요약문장 추출을 이용한 인터랙티브 신문기사 탐색 (N3WS : Interactive Newspaper Article Navigation Using Keyword and Summary Extraction)

  • 조희정;손지연;윤별이;조아현;김명;박은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.694-697
    • /
    • 2017
  • 최근 인터넷 기사 중에는 부정확한 제목이나 자극적인 단어를 사용하는 경우가 많아 구독자에게 불편함을 준다. 본 논문에서는 이러한 기사들의 헤드라인을 삭제하고, 기사의 내용을 3문장으로 요약해 주어, 구독자가 원하는 기사를 효율적으로 파악할 수 있게 하는 시스템을 제안한다. 제안하는 본 시스템은 파이썬 언어의 KoNLPy 패키지를 사용하여 기사의 단어들을 형태소 단위로 분석하며, 추출된 키워드를 토대로 워드 클라우드를 생성한다. 사용자가 클라우드의 특정 단어를 선택하면, 해당 신문기사들의 본문을 분석하여 각 신문 기사만의 핵심적인 문장을 3문장으로 출력해 준다.

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법 (Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document)

  • 송광호;민지홍;김유성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.62-66
    • /
    • 2016
  • 문서의 의미 기반 처리를 위해서 문서의 내용을 대표하는 키워드를 추출하는 것은 정확성과 효율성 측면에서 매우 중요한 과정이다. 그러나 단일문서로부터 키워드를 추출해 내는 기존의 연구들은 정확도가 낮거나 한정된 분야에 대해서만 검증을 수행하여 결과를 신뢰하기 어려운 문제가 있었다. 따라서 본 연구에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 제안한 기법을 활용하여 성능평가를 진행한 결과 기존의 연구들보다 향상된 정확도를 얻을 수 있음을 확인하였다.

  • PDF

국어정보 질의응답을 위한 키워드 추출 (Keyword Extraction for Korean Language Q&A)

  • 전석종;이수인;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF

웹의 개념지식을 위한 Anchor Text에서의 키워드 추출 알고리즘의 구현 (A Implementation of Keyword Extraction Algorithm Using Anchor Text for Web's Conceptual Knowledge)

  • 조남덕;배환국;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.72-74
    • /
    • 2000
  • 인터넷을 효과적으로 검색하기 위하여 검색엔진을 많이 이용하고 있다. 그런데 문서의 키워드를 추출할 적에 지금까지는 Anchor Text를 염두에 두지 않았었다. Anchor Text는 사람이 직접 요약한 것이고(요약성), 하이퍼링크를 포함하는 웹 문서에 반드시 존재하므로(보편성) 그 하이퍼링크가 가리키는 곳의 문서의 키워드를 추출에 적합한 용도가 될 수 있다. 웹 그래프는 이러한 Anchor Text를 이용하여 키워드를 추출함으로써 문서와 문서간, 단어와 단어간의 관계(연관성)까지도 나타내 줄 수 있게 한 검색 엔진 시스템이다. 그러나 Anchor Text 자체가 본문의 내용이 아니고, Anchor Text를 작성한 사람에 따라 다르게 작성되며, 본문의 내용과 무관한 내용도 작성할 수 있다. 따라서 Anchor Text 자체를 어떠한 여과 없이 문서의 키워드로 받아들이긴 힘들다. 본 논문에서는 TFIDF를 통해 좀 더 정확성이 있는 키워드를 추출하였다.

  • PDF

문서의 키워드 추출에 대한 신경망 접근 (Neural Based Approach to Keyword Extraction from Documents)

  • 조태호;서정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.317-319
    • /
    • 2000
  • 문서는 자연어로 구성된 비정형화된 데이터이다. 이를 처리하기 위하여 문서를 정형화된 데이터로 표현하여 저장할 필요가 있는데, 이를 문서 대용물(Document Surrogate)라 한다. 문서 대용물은 대표적으로 인덱싱 과정에 의해 추출된 단어 리스트를 나타낸다. 문서 내의 모든 단어가 내용을 반영하지 않는다. 문서의 내용을 반영하는 중요한 단어만을 선택할 필요가 있다. 이러한 단어를 키워드라 하며, 기존에는 단어의 빈도와 역문서 빈도(Inverse Document Frequency)에 근거한 공식에 의해 키워드를 선택하였다. 실제로 문서내 빈도와 역문서 빈도뿐만 아니라 제목에 포함 여부, 단어의 위치 등도 고려하여야 한다. 이러한 인자를 추가할 경우 이를 수식으로 표현하기에는 복잡하다. 이 논문에서는 이를 단어의 특징으로 추출하여 특징벡터를 형성하고 이를 학습하여 키워드를 선택하는 신경망 모델인 역전파의 접근을 제안한다. 역전파를 이용하여 키워드를 판별한 결과 수식에 의한 경우보다 그 성능이 향상되었음을 보여주고 있다.

  • PDF