• 제목/요약/키워드: 키워드 기반

검색결과 1,104건 처리시간 0.025초

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

영화 리뷰 감성 분석을 통한 키워드 추출 및 시각화 (Keyword Extraction and Visualization of Movie Reviews through Sentiment Analysis)

  • 박종찬;김성진;윤영현;백재순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.261-262
    • /
    • 2023
  • 본 연구에서는 감성 분석 기반의 키워드 도출형 영화 리뷰 웹사이트를 개발하였다. 사용자들은 영화에 대한 리뷰를 작성할 때, 자동으로 키워드를 추출하는 기능을 활용하여 다양하면서도 빠르게 정보를 얻을 수 있다. 사용자가 작성한 리뷰를 시스템에 입력하면, 내부적으로 ChatGPT를 활용하여 텍스트를 분석하고 키워드를 추출한다. 이를 통해 사용자는 별다른 노력 없이도 키워드를 통해 영화의 장르, 감독, 배우, 플롯 요소 등 다양한 정보를 빠르게 확인할 수 있다. 추출된 키워드는 저장되어 시각화에 활용되며, 사용자들은 리뷰에 대한 원하는 정보를 쉽게 얻을 수 있다. 개발된 키워드 도출형 영화 리뷰 웹사이트는 사용자들에게 빠르고 다양한 정보를 제공하며, 영화 관련 결정을 내리는 데에 도움을 줄 것으로 기대된다.

  • PDF

온톨로지 기반 개인 미디어 메타데이터 자동 생성 (Ontology-based Metadata Automated Generation for Personal Media)

  • 최정화;서희철;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.340-345
    • /
    • 2006
  • 개인 디지털 콘텐츠 증가에 따른 개인 미디어의 관리를 위해 대량의 메타데이터를 자동으로 생성하는 연구가 반드시 필요하다. 본 논문에서는 온톨로지 기반의 추론을 이용하여 개인 미디어 메타데이터를 자동으로 생성하는 방법을 제안한다. 제안한 방법은 부족한 정보로부터 적합한 의미를 추출하여 메타데이터를 자동 생성하므로 콘텐츠관리의 어려운 문제점을 해결한다. 본 논문에서 제안하는 방법을 사용자가 메모를 부착하기만 하면, 온톨로지 기반 추론을 통해 메타데이터를 자동 생성하는 방법으로 다음과 같은 세가지 기술과 특징을 갖는다. 첫째, 개인 미디어 온톨로지를 정의한다. 둘째, 미디어 메타데이터 표준을 정의한다. 미디어의 종류가 다르더라도 정의한 표준의 키워드만 추출할 수 있다면 미디어의 통합관리가 가능하다. 셋째, 메타데이터 자동 생성 기술을 연구한다. 단순히 온톨로지에 정의된 키워드의 의미만을 보지 않고, 온톨로지 기반의 추론엔진을 이용하여 사용자를 중심으로 관련 키워드의 관계를 고려한 메타데이터 생성의 정확성을 높인다. 이러한 기술을 기반으로 시맨틱 검색도 가능하며, 기존의 메타데이터 저작도구와 비교하여 보다 정확한 메타데이터 자동생성과 검색이 가능하다.

  • PDF

스타일 기반 키워드 추출 및 키워드 마이닝 프로파일 기반 웹 검색 방법 (An Efficient Web Search Method Based on a Style-based Keyword Extraction and a Keyword Mining Profile)

  • 주길홍;이준휘;이원석
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1049-1062
    • /
    • 2004
  • World Wide Web의 대중화로 인해 전자 정보량이 급속하게 증가하였고, 이러한 많은 양의 다양한 정보에 대한 효율적인 검색 시스템의 필요성이 증대되었다. 정확한 검색 결과를 제공하기 위해 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 웹 검색 방법에 있어서 목표 검색어만을 가지고 검색을 수행하는 기존 검색 방법과 달리 검색어가 나타나는 문맥 정보를 추가하여 검색하는 방법을 제안하고 구현하였다. 또한 본 논문에서는 제안된 새로운 키워드 추출 방법으로 추출된 키워드를 기반으로 키워드 마이닝 프로파일에 기반한 웹 검색 시스템을 제안하고 구현하였다. 이는 원하는 정보를 대표하는 목표 검색어만 가지고 검색을 수행하는 기존의 검색방법과 달리 검색어가 포함된 문맥정보를 추가하여 검색하기 때문에 기존의 검색방법보다 정확하고 효율적인 정보를 제공한다. 특정 도메인으로부터 순위가 매겨진 도메인 키워드 리스트를 작성하여 이를 기준으로 기존의 출현빈도기반의 차이를 실험을 통하여 보였으며, 예제 기반 질의를 바탕으로 키워드 마이닝 프로파일을 만들어 검색을 수행하는 검색 방법으로 이의 효용성을 실험을 통해 검증하였다.

웹 사용자 누적 사용정보 기반의 키워드 검색 모델 (A Keyword Search Model based on the Collected Information of Web Users)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.777-782
    • /
    • 2012
  • 본 논문은 웹 검색 시스템의 사용자 질의에 대한 키워드 색인 기반의 검색 과정에서 적합 문서를 선별하기 위해 검색 키워드의 의미정보와 사용자의 누적 사용정보를 사용하여 검색 성능을 향상시키는 방법을 소개한다. 검색 키워드 의미 정보를 이용하는 검색 방법은 검색 결과로서 의미적으로 무관한 많은 문서들을 배제할 수 있고, 사용자의 누적된 사용정보는 관심사에 중심을 둔 검색문서들을 상위에 제시할 수 있다. 검색 키워드의 의미정보 지식베이스를 구축하고, 검색 문서들을 색인어와 해당 의미범주로 분류하며, 사용자의 정답 문서 참조 행위에 대한 누적 정보를 순위 결정에 반영하여 검색 성능을 향상시킬 수 있다.

생의학 분야 키워드 추출 모델에 대한 비교 연구 (Comparative Study of Keyword Extraction Models in Biomedical Domain)

  • 이동희;권순찬;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.77-84
    • /
    • 2023
  • 생명 공학 및 의학 분야의 논문 수 증가에 따라 문헌 속에서 중요한 정보를 빠르게 찾아 대응하기 위한 키워드 추출의 필요성이 대두되고 있다. 본 논문에서는 생의학 분야에서의 키워드 추출에 대한 다양한 비지도 학습 기반 모델 및 BERT 기반 모델의 성능을 종합적으로 비교하였다. 실험 결과 생의학 분야에 특화된 데이터로 학습된 BioBERT 모델이 가장 높은 성능을 보였다. 이를 통해 생의학 분야의 키워드 추출 연구에서 적절한 실험 환경을 구성하고 다양한 모델을 비교 분석하여, 향후 연구에 필요한 정확하고 신뢰할 수 있는 정보를 제공하였다. 이뿐만 아니라, 다른 분야에서도 키워드 추출에 대한 비교적인 기준과 유용한 지침을 제공할 수 있을 것이라 기대한다.

Word2vec을 활용한 문서의 의미 확장 검색방법 (Semantic Extention Search for Documents Using the Word2vec)

  • 김우주;김동희;장희원
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.687-692
    • /
    • 2016
  • 기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

개체명을 이용한 주제기반 웹 문서 클러스터링 (Topic based Web Document Clustering using Named Entities)

  • 성기윤;윤보현
    • 한국콘텐츠학회논문지
    • /
    • 제10권5호
    • /
    • pp.29-36
    • /
    • 2010
  • 종래의 클러스터링 기법은 단순히 키워드를 추출에 기반한 단어간 유사도에 의한 그룹핑 방식을 구사함으로써 비교해야 할 대상 키워드 수 및 종류가 매우 다양하여 계산량이 증가함으로써 속도가 느리고 정확도도 높지 않은 편이다. 본 논문은 이러한 단점을 해소하기 위해 웹 문서를 대상으로 기존 명사 위주의 키워드 뿐 아니라 인명, 지명, 회사명, 물품명 등을 자동으로 인식하는 개체명 인식 결과를 이용하는 웹클러스터링 기법을 제안하고자 한다. 실험을 통해 기존 키워드 기반 클러스터링 결과에 비해 개체명 기반클러스터링의 품질이 우수함을 증명하였으며, 문서 집합 특성에 따른 클러스터링 결과도 비교 분석하였다.

사용자 질의 의미 해석을 위한 온톨로지 지식베이스 스키마 구축 (Ontology Knowledge Base Scheme for User Query Semantic Interpretation)

  • 도하나;이무훈;정훈;최의인
    • 디지털융복합연구
    • /
    • 제11권3호
    • /
    • pp.285-292
    • /
    • 2013
  • 최근의 검색 형태는 키워드 기반 검색에서 보다 더 정확한 결과를 제공하기 위한 시맨틱 검색 방법으로 변화하고 있다. 하지만 일반 사용자들은 여전히 기존의 키워드 기반 검색에 익숙하기 때문에 시맨틱 검색을 위한 형식화된 구조적 질의어를 구성할 수 없다. 따라서 본 논문에서는 이러한 사용자들의 키워드 해석을 위한 온톨로지 지식 베이스 스키마를 제안한다. 제안된 스키마는 서술 논리 추론을 위해 OWL-DL을 기반으로 설계되었으며 최소한의 관계 정의와 추론 규칙 언어인 SWRL(Semantic Web Rule Language)으로 추론함으로써 보다 풍부한 개체 관계의 표현을 제공한다. 마지막으로 논문에서 제안한 사용자 질의 의미 해석 기법의 검증을 위해 키워드 유사도 실험 결과를 설명한다.

노인 재활 헬스케어에 대한 키워드 연결 관계의 그래프 중심성 분석을 통한 계량 정보 분석 (Scientometric Analysis through Centrality Analysis of Graph for Linkage Relation of Keyword for Elder's Rehabilitation and Healthcare)

  • 김명미
    • 한국전자통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.447-452
    • /
    • 2019
  • 현재 노인 문제가 심각한 수준에 이르고 있다. 본 논문에서는 노인의 재활과 운동 문제를 ICT와 헬스케어 관점에서 해결하고자 하는 노력의 일환으로 이 분야에 대한 세계 연구자들의 노력을 키워드를 기반으로 하여 그래프 기반의 계량 정보 분석 수행한다. 이를 위해 먼저 키워드 연계관계 분석을 수행하고 이를 기반으로 네트워크의 차수 분포 분석한 후 매개 중심성, 근접 중심성, 조화 중심성을 기반으로 한 네트워크의 중심성 분석을 수행한다. 이를 통하여 ICT와 헬스케어 분야에서의 핵심 키워드를 통한 지금까지의 연구 동향과 미래의 연구 진행 방향을 알아본다.