• 제목/요약/키워드: 키워드 추출

검색결과 752건 처리시간 0.029초

스톰을 기반으로 한 실시간 SNS 데이터 분석 시스템

  • 이현경;고기철;손영성;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.435-436
    • /
    • 2015
  • 광고 효과 분석과 극대화를 위해 기업들이 SNS를 활용하는 비중이 갈수록 높아지고 있다. 특히 광고 효과의 실질적인 효과 분석을 위해 SNS 이용자를 대상으로 한 하둡 기반의 키워드 추출 분석이 곽광을 받고 있다. 기존 하둡 기반 키워드 추출 분석은 저장된 데이터를 Map Reduce 방식으로 처리하는 것이 대부분이다. 이 때문에 정보가 실시간(Real Time)으로 전파되는 SNS의 특성을 온전히 반영하지 못 하는 한계를 가지고 있다. 본 연구에서는 이러한 기존의 하둡 기반 키워드 자동 추출 모델의 한계점을 지적하고, 이를 개선하기 위해 실시간 데이터 분석이 가능한 스톰을 활용하는 모델을 제시하고자 한다.

  • PDF

텍스트 마이닝을 통한 핀테크 연관 핵심 기술 특허 추출 방법 (Essential Technical Patent Extraction Method Associated with Fintech Based on Text Mining)

  • 이황로;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1219-1222
    • /
    • 2015
  • 금융과 IT가 융합되는 핀테크(Fintech)가 IT산업과 금융산업에 새로운 패러다임으로 급부상하고 있다. 핀테크 기술에 대한 기술동향을 파악하고 유사한 연관 기술을 도출하는 것은 관련 사업자가 시장 경쟁에서 우위를 차지하기 위해 필요한 전략적 방향을 제시해 준다. 하지만 핀테크와 같이 단 기간 내에 기술에 대한 파급 속도가 빠르게 일어나며 산업전반에서 기술선점의 필요성이 크게 대두되는 경우 특허 데이터베이스만으로 유사기술을 검색을 위한 키워드를 선정하는 것이 어렵다는 단점이 있다. 본 논문에서는 새롭게 이슈화되는 기술 중 그 성장세가 급격하게 변화하여 등록된 특허만으로는 연관 기술 영역을 파악하는 일이 번거로운 상황에서 기사 분석을 통해 연관 기술 키워드를 추출 할 수 있는 방법을 제안하고자 한다. 특히 핀테크에서 중요하게 인식되는 결제, 보안, 사용자환경에 대한 연관 기술 키워드를 기사 내용에 포함되는 단어의 빈도 분석을 통해 추출하고자 하였다. 최종적으로 추출된 기술 키워드를 이용하여 실제 특허 검색 데이터베이스에서 관련 특허를 수집하고 분석하여 핀테크와 관련성이 매우 높은 연관 핵심 기술 특허를 도출하였다.

키워드 추출용 구묶음 데이터 구축 및 개선 방법 연구 (Study on Making Chunking Dataset for Keyword Extraction and its Improvement Methods)

  • 이민호;최맹식;김정아;이충희;김보희;오효정;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-517
    • /
    • 2020
  • 구묶음은 문장을 겹치지 않는 문장 구성 성분으로 나누는 과정으로, 구묶음 방법에 따라 구문분석, 관계 추출 등 다양한 하위 태스크에 사용할 수 있다. 본 논문에서는 문장의 키워드를 추출하기 위한 구묶음 방식을 제안하고, 키워드 단위 구묶음 데이터를 구축하기 위한 가이드라인을 제작하였다. 해당 가이드라인을 적용하여 구축한 데이터와 BERT 기반의 모델을 이용하여 학습 및 평가를 통해 구축된 데이터의 품질을 측정하여 78점의 F1점수를 얻었다. 이후 패턴 통일, 형태소 표시 여부 등 다양한 개선 방법의 적용 및 재실험을 통해 가이드라인의 개선 방향을 제시한다.

  • PDF

영상을 이용한 정보검색 (Information Retrieval Using Images)

  • 최윤경;이은애;하석운
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.37-39
    • /
    • 2002
  • 정보 검색 시스템은 인터넷에 존재하는 수많은 정보 중에서 사용자가 필요한 특정 정보만을 포함하는 문서를 검색할 수 있다. 현재 정보 검색 시스템은 텍스트를 입력하는 방식을 이용한다. 검색어를 이용하게 되면 몇 개의 키워드를 통하여 원하는 정보를 신속하게 찾을 수 있지만 언어를 기반으로 하기 때문에 각 나라의 언어와 키워드를 알아야 사용할 수 있다는 단점이 있다. 이런 문제점을 해결하기 위해 본 시스템은 언어와 키워드를 알지 못하더라도 정보 검색이 가능하도록 누구나 쉽게 의미를 알 수 있는 영상을 질의로 하는 시스템을 제안한다. 본 시스템은 데이터베이스 내에 200개의 비교 대상 영상들을 5개의 대분류로 나눈 후 각각 3개의 소분류로 나누어 영상의 특징 및 키워드를 추출하여 영상특징키워드 데이터베이스(IFKDB, Image Feature Keyword DataBase)에 저장하였다. 사용자 인터페이스를 통해 새로운 영상을 만들거나 흑은 기존에 만들어진 영상을 선택하여 질의로 사용하면 질의 영상의 특징 중 에지를 추출하여 IFKDB와 비교하여 유사도가 높은 영상의 키워드 중 적정 개수를 선택하여 정보 검색의 키워드로 사용할 수 있게 하였다. 사용자가 그린 단순한 영상으로 검색이 가능하고 사용자가 원하는 영상과 비슷한 영상을 찾을 수 있으며 영상으로 정보 검색이 가능하므로 검색의 편의성을 제공한다.

  • PDF

키워드 분석에 대한 최신 접근법 비교 연구: 성경 코퍼스를 중심으로 (A Comparative Study of a New Approach to Keyword Analysis: Focusing on NBC)

  • 하명호
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.33-39
    • /
    • 2021
  • 본 연구는 구약 성경 코퍼스와 신약 성경 코퍼스, 그리고 구약과 신약 성경을 통합한 코퍼스에서 추출된 키워드 목록의 어휘적 특징을 분석하고, 또 사용빈도 기반의 키워드 분석보다 분포도 기반 키워드 분석이 더 우수한 분석 방식임을 밝히고자 하였다. 이를 위해 Bible Hub의 NLT 웹사이트에서 성경 파일을 다운받아 약 57만 어절의 구약 성경 코퍼스와 약 20만 어절의 신약 성경 코퍼스를 구축하였다. 목표 코퍼스와 참조 코퍼스의 비교를 통한 키워드 목록을 추출하기 위해서 Scott(2020)의 WordSmith 8.0 프로그램을 사용하였다. 그 결과, 분포도 기반 키워드 분석이 사용빈도 기반의 키워드 분석보다 키워드 목록의 어휘적 특징을 보다 더 잘 나타낼 수 있었고, 또 코퍼스 내용의 대표성과 변별성을 충분히 충족시킬 수 있는 최적의 키워드 목록을 추출하기 위해서는 분포도 기반 키워드 분석이 더 우수한 방식임을 밝혔다.

키워드 가중치 방식에 근거한 도서 본문 주제어 추출 (Thematic Word Extraction from Book Based on Keyword Weighting Method)

  • 안희정;최건희;김승훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가 (A Program Similarity Evaluation using Keyword Extraction on Abstract Syntax Tree)

  • 김영철;최재영
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.109-116
    • /
    • 2005
  • 본 논문에서는 프로그램의 분석 과정에서 생성된 구문트리에서 키워드만을 추출하여 유사도 평가하는 방법을 소개한다. 이 방법은 기존의 구조 기반 방법과 같이 프로그램 구조적 특징에 상관없이 유사도를 평가한 수 있으며, 구문트리의 키워드만을 평가에 이용함으로써 기존 시스템의 단점이었던 속도를 개선할 수 있었다. 따라서 본 논문에서는 유사도 평가 모델을 제시하고, 생성된 구문트리에서 키워드를 추출하는 방법을 제시하였다. 본 논문의 평가 부분에서는 기존 시스템에 비해 본 시스템이 구조적 특징이나 속도 면에서 많이 개선되었다는 것을 보여주었다. 따라서 본 시스템은 향후에 텍스트 위주의 문서의 유사도나 XML과 같은 전자 문서의 유사도 평가에 지대한 영향을 줄 것으로 기대된다.

비감독 학습 기법에 의한 키워드 추출 (Keyword Extraction Using Unsupervised Learning Method)

  • 신성윤;백정욱;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.165-166
    • /
    • 2010
  • 명사 추출이란 문서 내에 존재하는 모든 명사를 찾아내는 작업으로서, 한국어 정보검색에서는 문서를 대표하는 색인어 또는 키워드로서 명사를 사용한다. 본 논문에서는 기 구축된 사전을 이용하여 키워드를 추출하는 방법을 제시한다. 이 방법은 불필요한 연산을 줄여서 수행 시간을 단축시켰다. 그리고 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있다. 본 논문에서는 명사의 출현 특성을 이용한 명사 추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.

  • PDF

FastText 알고리즘을 이용한 사용자 지정 키워드 기반 동영상 요약 시스템 (Keywords-based Video Summary System using FastText Algorithm)

  • 김경민;박승민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.693-694
    • /
    • 2023
  • 본 논문에서는 FastText 알고리즘을 기반으로 한 사용자 지정 키워드 기반 동영상 요약 시스템을 제안한다. 사용자가 키워드를 입력하면 시스템은 해당 키워드와 관련된 단어들을 FastText를 통해 추출하며, 이를 STT (Speech-to-Text)로 변환된 동영상에서 타임 스탬프 기반으로 인식한다. 인식된 키워드와 관련된 내용은 클립 형식으로 요약되어 사용자에게 제공된다. 본 연구의 목적은 숏폼 콘텐츠 환경에서 효과적인 콘텐츠 추출 및 제공을 통해 사용자 경험과 정보 제공의 효율성을 향상시키기 위함이다. 제안된 시스템은 사용자 지정 키워드에 맞춰 다양한 동영상 플랫폼에서 효율적인 영상 요약을 제공함으로써 온라인 동영상 환경에서 큰 혁신을 이끌어낼 것으로 기대된다.

  • PDF

단어 동시출현관계로 구축한 계층적 그래프 모델을 활용한 자동 키워드 추출 방법 (Automatic Keyword Extraction using Hierarchical Graph Model Based on Word Co-occurrences)

  • 송광호;김유성
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.522-536
    • /
    • 2017
  • 키워드 추출은 주어진 문서로부터 문서의 주제나 내용에 관련된 단어들을 추출해내는 방법으로 대량의 문서를 다루는 텍스트마이닝 연구들이 전처리에서 공통적으로 거치는 대표 자질 추출에서 중요하게 활용될 수 있다. 본 논문에서는 하나의 문서의 주제에 적합한 키워드를 추출하기 위해 문서에 출현한 단어들 사이의 동시출현관계, 동시출현 단어 쌍 사이의 출현 종속 관계, 단어들 사이의 공통 부분단어 관계 등의 다양한 관계들을 특징으로 활용하여 구축한 계층적 그래프 모델을 제안하고, 그래프를 구성하는 정점(Vertex)들의 중요도를 평가할 때 입력 간선(Edge)에 의한 영향뿐만 아니라 출력 간선에 의한 영향도 고려한 새로운 중요도 산출 방법을 제안하며, 이를 토대로 점진적으로 키워드를 추출해내는 방안을 제안한다. 그리고 제안한 방법의 정확성과 주제적 포괄성 검증을 위해 다양한 분야의 주제를 가진 문서 데이터에 다양한 평가방법을 적용해 기존의 방법보다 전체적으로 더 나은 성능을 보임을 확인하였다.