• 제목/요약/키워드: 키워드 추출

검색결과 750건 처리시간 0.039초

웹의 개념지식을 위한 Anchor Text에서의 키워드 추출 알고리즘의 구현 (A Implementation of Keyword Extraction Algorithm Using Anchor Text for Web's Conceptual Knowledge)

  • 조남덕;배환국;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.72-74
    • /
    • 2000
  • 인터넷을 효과적으로 검색하기 위하여 검색엔진을 많이 이용하고 있다. 그런데 문서의 키워드를 추출할 적에 지금까지는 Anchor Text를 염두에 두지 않았었다. Anchor Text는 사람이 직접 요약한 것이고(요약성), 하이퍼링크를 포함하는 웹 문서에 반드시 존재하므로(보편성) 그 하이퍼링크가 가리키는 곳의 문서의 키워드를 추출에 적합한 용도가 될 수 있다. 웹 그래프는 이러한 Anchor Text를 이용하여 키워드를 추출함으로써 문서와 문서간, 단어와 단어간의 관계(연관성)까지도 나타내 줄 수 있게 한 검색 엔진 시스템이다. 그러나 Anchor Text 자체가 본문의 내용이 아니고, Anchor Text를 작성한 사람에 따라 다르게 작성되며, 본문의 내용과 무관한 내용도 작성할 수 있다. 따라서 Anchor Text 자체를 어떠한 여과 없이 문서의 키워드로 받아들이긴 힘들다. 본 논문에서는 TFIDF를 통해 좀 더 정확성이 있는 키워드를 추출하였다.

  • PDF

키워드 가중치를 이용한 뉴스 기사에서의 이슈 키워드 자동 추출 시스템 (Automatic Keyword Extraction in News Articles for Trend Tracking)

  • 김미지;이재원;장달원;이종설
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.150-152
    • /
    • 2018
  • 본 논문에서는 포털 사이트에 게재된 뉴스 기사 집합에서 이슈가 된 키워드들을 자동으로 추출하는 시스템을 소개한다. 포털 사이트에서 사용하는 기존의 키워드 추출 시스템은 검색 횟수를 기반으로 하고 있으며, 뉴스 기사에서 단어 간의 상대적 중요성을 반영하지 못하고, 외부로부터 영향을 받아 순위 조작과 같은 문제점을 수반할 수 있다. 제안하는 시스템에선 TF-IDF 모델을 사용하여 단어 간의 상대적인 중요성에 기반하고, 추출된 키워드들의 시각적 변화를 반영하여 이슈 키워드를 추출한다. 제안한 시스템의 효용성 확인을 위해 58,996 개의 정치 뉴스 기사를 수집하였으며, TF-IDF 기반의 제안 방식과 TF 기반의 기존 방식을 비교하였다. 제안한 시스템이 기존 방식보다 시간에 따른 정치 뉴스의 이슈 변화를 분석하는 데 효과적인 것을 확인하였다.

  • PDF

TFIDF를 이용한 키워드 추출 시스템 설계 (Design of Keyword Extraction System Using TFIDF)

  • 이말례;배환국
    • 인지과학
    • /
    • 제13권1호
    • /
    • pp.1-11
    • /
    • 2002
  • 본 논문에서는 먼저 Anchor Text의 단어들이 키워드로 적합한지 TFIDF를 이용하여 테스트하였다. 그 결과는 가중치가 높아서 키워드로 적합한 단어가 있었는가 하면. 아예 문서에 나오지도 않는 단어가 있어 키워드로 적합하지 않은 단어도 있었다. 이를 해결하기 위하여 새로운 키워드 추출 방법을 제시하였다. 본 논문에서는 적합하지 않은 키워드를 제거함으로써 새로운 키워드를 만들어 내고 TFIDF값을 각 키워드의 가중치로 이용하여 Ranking이 가능하게 하였다. 이렇게 추출된 키워드는 기존의 방법보다 정확도가 높아졌음 증명했다.

  • PDF

학문목적영어(EAP)를 위한 키워드 추출 (Keyword Extraction for English for Academic Purposes)

  • 이제영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.255-256
    • /
    • 2018
  • 영어로 진행하는 전공 수업, 영어로 쓰여진 교재의 사용 등이 빈번한 대학 수준 이상에서의 학업을 위해서는 학문목적영어와 관련된 능력을 갖추는 것이 필수적이다. 영어로 진행되는 공부에 어려움을 경험하는 학생들을 돕기 위해 많은 학자들은 해당 분야의 키워드, 즉 전문어휘 목록 작성을 통해 해당 분야의 어휘 학습을 돕는 것이 중요하다고 강조하고 있다. 이에 본 연구에서는 해당분야의 전문 어휘 추출과 관련한 핵심 개념과 선행연구를 살펴본 후, 각기 상이한 키워드 추출 방법을 채택한 2개의 선행연구를 통해 실제 키워드 추출이 이루어지는 방법 및 각각의 장단점에 대해 살펴보고자 한다.

  • PDF

비감독 학습 기법에 의한 한국어의 키워드 추출 (Keyword Extraction in Korean Using Unsupervised Learning Method)

  • 신성윤;이양원
    • 한국정보통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.1403-1408
    • /
    • 2010
  • 한국어 정보검색에서는 문서를 대표하는 색인어 또는 키워드로서 명사를 사용하는데, 이러한 명사 및 키워드 추출이란 문서 내에 존재하는 모든 명사를 찾아내는 작업이다. 본 논문에서는 기 구축된 사전을 이용하여 키워드를 추출하는 방법을 제시한다. 이 방법은 불필요한 연산을 줄여서 수행 시간을 단축시켰다. 그리고 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있다. 본 논문에서는 명사의 출현 특성을 이용한 명사추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.

한국어 정보처리를 위한 명사 및 키워드 추출 (Noun and Keyword Extraction for Information Processing of Korean)

  • 신성윤;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.51-56
    • /
    • 2009
  • 언어에서 명사 및 키워드 추출은 정보처리에서 매우 필수적인 요소이다. 하지만, 한국어 정보처리에서 명사 추출과 키워드 추출은 아직도 많은 문제점을 안고 있다. 본 논문에서는 명사의 등장 특성을 고려한 효율적인 명사 추출 방법에 대해서 제시하였다. 제시한 방법은 대량의 문서를 빠르게 처리해야 하는 정보 검색과 같은 분야에서 유용하게 쓰일 수 있다. 또한 대량의 문제를 자동으로 분류하기 위하여 비감독 학습 기법에 의해 카테고리별 키워드를 구성하기 위한 방법을 제안하였다. 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X2기법과 DF 기법보다 우수한 분류 성능을 보였다.

의존관계에 기초한 일본어 키워드 추출방법 (The Method of Deriving Japanese Keyword Using Dependence)

  • 이태헌;정규철;박기홍
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.41-46
    • /
    • 2003
  • 본 논문에서 일본어 키워드 추출을 목적으로 요약문서 중에 떨어진 문자열을 합성하고, 그 문장에 나타난 규칙을 가지고 단어 정보(표기, 품사)와 구문 정보를 이용하여 복합명사고로 된 키워드 추출 방법을 제안한다. 저자 자신이 부여한 학술 논문의 키워드 중에서 문서 중에 그대로 존재하지 않는 키워드의 특징을 분석한 결과로 의존 관계에 의한 복합명사 생성 규칙을 구축한다. 또 문장의 내용과 다른 키워드의 추출을 억제하기 위해 생성규칙에 대한 제약과 중복 단어를 고려한 중요도 결정법을 제안한다. 자연ㆍ 음성언어처리에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 63%가 되어 추출 방법의 유효성을 확인 할 수가 있었다.

뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축 (Chunking Annotation Corpus Construction for Keyword Extraction in News Domain)

  • 김태영;김정아;김보희;오효정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

생의학 분야 키워드 추출 모델에 대한 비교 연구 (Comparative Study of Keyword Extraction Models in Biomedical Domain)

  • 이동희;권순찬;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.77-84
    • /
    • 2023
  • 생명 공학 및 의학 분야의 논문 수 증가에 따라 문헌 속에서 중요한 정보를 빠르게 찾아 대응하기 위한 키워드 추출의 필요성이 대두되고 있다. 본 논문에서는 생의학 분야에서의 키워드 추출에 대한 다양한 비지도 학습 기반 모델 및 BERT 기반 모델의 성능을 종합적으로 비교하였다. 실험 결과 생의학 분야에 특화된 데이터로 학습된 BioBERT 모델이 가장 높은 성능을 보였다. 이를 통해 생의학 분야의 키워드 추출 연구에서 적절한 실험 환경을 구성하고 다양한 모델을 비교 분석하여, 향후 연구에 필요한 정확하고 신뢰할 수 있는 정보를 제공하였다. 이뿐만 아니라, 다른 분야에서도 키워드 추출에 대한 비교적인 기준과 유용한 지침을 제공할 수 있을 것이라 기대한다.