• 제목/요약/키워드: 키워드 추출 방법

검색결과 355건 처리시간 0.029초

단어 임베딩(Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로 (A Study on the Deduction of Social Issues Applying Word Embedding: With an Empasis on News Articles related to the Disables)

  • 최가람;최성필
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.231-250
    • /
    • 2018
  • 본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

키워드 네트워크를 이용한 구제역 파급효과의 트렌드 분석 (Trend Analysis of Repercussion Effect of Foot-and-Mouth Disease Using Keyword Network)

  • 노병준;서정순;이종욱;박대희;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.330-333
    • /
    • 2016
  • 최근 구제역의 발생으로 인해 농 축산업계 및 관련 산업분야에 막대한 피해를 야기함에 따라, 구제역의 발병에 따른 다양한 사회적 파급효과의 분석이 필요하다. 본 논문에서는 온라인 뉴스를 대상으로 텍스트 마이닝 방법들을 사용하여 구제역으로 인한 경제적, 환경적, 그리고 정책적 파급효과를 분석하는 공학적 방법론을 제안한다. 제안하는 시스템은 먼저, 구제역 관련 온라인 뉴스를 수집한 후, 토픽 모델링의 대표적인 방법 중 하나인 LDA(Latent Dirichlet Allocation)를 활용하여 뉴스 기사로부터 키워드들을 추출한다. 둘째, 추출된 키워드들로부터 구제역으로 인한 파급효과의 분석을 위해 동시출현 키워드 네트워크를 구성한다. 셋째, 키워드 네트워크 타임라인을 통해 각 파급효과들의 변화를 분석한다. 마지막으로, 사례분석을 통해 2010년 7월부터 2011년 12월까지 한국에서 발생한 구제역으로 인한 사회적 파급효과의 분석을 수행하였다.

유사 단어 커뮤니티 기반의 질의 확장 (Query Expansion based on Word Sense Community)

  • 곽창욱;윤희근;박성배
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1058-1065
    • /
    • 2014
  • 질의 확장은 입력된 질의와 관련된 키워드를 사용자에게 제시하여 검색 활동에 도움을 주는 방법이다. 최근에는 사용자가 검색한 내용에서 군집화 방법을 이용하여 도메인을 찾고 키워드를 제시하는 연구가 많이 이루어졌다. 하지만 군집화 방법은 군집의 개수를 정해야하기 때문에 다양한 도메인을 나타내는데 적절하지 않다. 따라서 본 논문은 커뮤니티 인지 알고리즘으로 검색 문서에서 질의마다 다양한 수의 도메인을 찾고 키워드로 선택하여 제시하는 방법을 제안한다. 이를 위해 사용자가 검색한 결과 중 상위 30개 문서를 대상으로 단어를 추출하여 그래프 기반의 커뮤니티를 만들고, 각 커뮤니티에서 키워드를 추출하여 이를 질의 확장에 이용하였다. 본 논문에서 제안한 방법은 구글 검색 엔진과 검색된 문서의 tf-idf를 이용한 키워드 추천 방법과 비교하였다. 제안한 방법이 다른 비교 대상들에 비해 더 다양한 키워드를 추천할 수 있었다.

국가R&D정보를 활용한 기업 대표 키워드 DB 구축 방법 (Enterprise Representative Keyword Database Construction from National R&D Information Collection)

  • 한희준;김병정;최희석;김재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.279-280
    • /
    • 2014
  • 기업이 원하는 R&D정보를 추출하기 위해서는 R&D정보 검색에 활용할 질의어가 있어야 한다. 먼저 구축되어야 한다. 기업마다 관심있는 제품과 기술 키워드가 각각 다르다. 기업에 적합한 R&D정보를 생성하기 위해 질어어로 사용될 기업을 대표하는 키워드 군을 생성하고자 한다. 본 논문에서는 2002년부터 기업이 수행한 국가 R&D과제정보와 과제에서 도출된 논문, 특허, 연구보고서 등 성과정보로 부터 기업을 대표하는 키워드를 추출하고 이를 웹에서 크롤링한 기업정보와 비교하여 기업 대표 키워드 데이터베이스를 구축하는 방안에 대해 논한다.

  • PDF

FOAF및 소셜 네트워크 분석을 이용한 핫 이슈 추출 기법 (Hot issue extraction method using FOAF and Social Network Analysis)

  • 왕청;손종수;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.531-534
    • /
    • 2010
  • 웹 2.0의 적극적인 도입에 따라 소셜 네트워크 기반 커뮤니티 사이트에서는 관련된 콘텐츠를 적절하게 추천하는 것은 중요한 문제로 부각되고 있으며 이로 인해 사용자들의 동향 및 이슈 추출 기법이 중요하게 작용하고 있다. 이러기 위해서 지금까지의 연구에서는 콘텐츠에 포함된 키워드 매칭 방법을 이용하고 있으나 사용자들 간의 연결 관계와 키워드의 중요도를 고려하지 못하고 있다. 본 논문에서는 FOAF 기반의 소셜 네트워크와 del.icio.us에서 제공하는 소셜 북마크 데이터를 기초로 소셜네트워크 분석을 보이며 이를 통한 사용자들 사이에서 중요하게 부각되는 핫 이슈를 추출하는 방법을 제안한다. 본 논문에서 제안하는 핫 이슈 추출 방법을 활용하면 사용자들의 관심 분야 동향파악을 효율적으로 수행할 수 있으며 이를 통해 맞춤형 마케팅 및 콘텐츠 추천이 가능해 진다.

교육학 분야 국내 학술 논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 관한 연구 (A Study on the Effects of the Appearance Sequence of Author Keyword on the Appearance Frequency of Article Title in the Education)

  • 윤은빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2014년도 제21회 학술대회 논문집
    • /
    • pp.119-122
    • /
    • 2014
  • 본 연구는 교육학 분야에서 국내 학술 논문 저자키워드 출현 순서에 의미가 있는지 알아보기 위하여 저자키워드 출현 순서별로 빈도를 조사하고 동 저자 키워드가 제목에 출현하는지를 살펴본 후, 학술논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 대해 연구하고자 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련해서 효율적인 용어 선정이나 용어 분류 방법을 찾는 것이다. 연구의 목적을 위해 교육학 분야 저자키워드의 출현 빈도수가 1인 것을 제외하고 고빈도 순으로 400개 용어를 추출하였다. 저자키워드의 몇 번째 출현 순서가 저자키워드의 제목 출현에 가장 큰 영향을 미치는지 알아본 결과, 저자키워드의 첫 번째 출현이 아닌 두 번째 출현이 가장 큰 영향을 미친다는 것을 알 수 있었다.

  • PDF

키워드 네트워크 분석을 통한 세계 해운경제의 연구 주제와 동향에 대한 연구 (A Study of Themes and Trends in Research of Global Maritime Economics through Keyword Network Analysis)

  • 장세은;이수호
    • 한국항만경제학회지
    • /
    • 제32권1호
    • /
    • pp.79-95
    • /
    • 2016
  • 본 연구에서는 세계 해운경제관련 국제저널에 게재된 논문을 대상으로 5년 주기의 연도 기간별로 2000년~2004년, 2005년~2009년, 2010년~2014년 세 단계로 나누고 저자키워드를 추출하여 네트워크 분석방법인 연결중심성과 매개중심성 방법론을 활용하여 세계 해운경제의 연구동향을 양적인 관점에서 살펴본다. 빈도로 추출한 본 연구의 자료는 Zipf's의 법칙을 따르고 있으며, 키워드 노드들이 멱함수 분포를 가지므로 해운경제 키워드가 네트워크분석에 적합하다는 것을 보여주었다. 연도시기별로 공유되는 키워드 분석에 설명력을 더해 주기 위하여 Delta-C 알고리즘을 만들어서 시간에 따른 키워드의 변화 경향을 설명하고자 하였다. 본 연구의 결과는 다음과 같다. 해운경제 키워드를 세 개의 연도시기별로 분석한 결과 두 개의 서로 다른 패턴을 발견하였다. 첫 번째 패턴은 세 개의 모든 기간에 공유되는 키워드이고 두 번째 패턴은 두 개 시기에 연속적으로 혹은 불연속적으로 나타나는 키워드였다. 모든 시기에 연속적으로 사용된 키워드는 연결중심성 값이 불규칙하게 변화하는 양상을 보인다. 주기가 연속인 경우는 세 가지이다. 첫 번째 경우는 2000년~2004년과 2005년~2009년 연속으로 걸쳐서 사용된 키워드의 특징은 처음에 사용된 키워드의 중심성이 다음 연도기간에 사용될 때에는 낮은 연결중심성을 가졌다. 두 번째 경우는 2005년~2009년과 2010년~2014년 연속으로 걸쳐서 나타난 키워드에서는 후반기에 사용된 키워드가 더 높은 연결중심성을 보였다. 세 번째 경우는 2000년~2004년과 2010년~2014년의 불연속으로 나타난 경우인데 과거에 사용된 모든 키워드의 연결중심성은 가장 최근에는 모두가 낮은 연결 중심성 값을 가졌다. 매개중심성을 사용한 연도시기별 키워드분석결과 이 방법은 연결중심성에 비해서 더 많은 비공유 키워드를 상위에 나타났다. 이러한 연구의 결과의 의의는 네트워크분석을 통하여 향후 연구동향 예측의 기초 자료로 활용할 수 있다는 점이다. 즉, 연결중심성은 연도 기간별 주요 연구주제를 파악할 수 있는데 도움을 줄 수 있고 매개중심성은 특정기간에 등장하는 특이한 주제 파악에 도움이 된다는 것이다.

복합키워드의 고속검색 알고리즘에 관한 연구 (A Study of High Speed Retrieval Algorithm of Long Component Keyword)

  • 이진관;정규철;이태헌;박기홍
    • 한국정보통신학회논문지
    • /
    • 제8권8호
    • /
    • pp.1769-1776
    • /
    • 2004
  • 효율적인 키워드 추출은 정보검색 시스템에서 중요하지만 많은 키워드 중 적당한 키워드를 결정하기 위한 방법들은 여러 가지가 있다. 그중 단일 키워드만을 검색하는 AC알고리즘을 해결하기 위한 DER구조는 복합키워드 검색이 가능하나 많은 검색시간이 걸린다는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 DER구조의 검색방법을 기반으로 한 독립적인 검색테이블을 확장하여 EDER 구조라는 알고리즘을 구축하였다. 500개의 텍스트 파일을 실험한 결과 키워드의 포스팅 결과가 AC의 DER구조보다 EDER구조가 작았으며, 검색시간 또한 K5에서 DER구조가 0.6초, EDER구조가 0.2초로 더 빠른 검색을 보며주고 있어 제안 방법이 효과적임을 알 수 있었다.

트윗 키워드 네트워크를 이용한 구제역의 감성분석 (Sentiment Analysis of Foot-and-mouth Disease using Tweet Keyword Network)

  • 채희찬;이종욱;최윤아;박대희;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.267-270
    • /
    • 2018
  • 구제역으로 인하여 국내 축산업계 및 관련 산업분야는 매년 막대한 피해를 입고 있다. 구제역과 관련한 다양한 학술적 연구들이 현재 진행되고는 있으나, 구제역의 발병에 따른 사회적 파급효과에 관한 공학적 분석 연구는 매우 제한적이다. 본 연구에서는 구제역에 관한 일반 시민들의 감성적 반응을 텍스트 마이닝 방법론을 사용하여 분석하는 체계적인 방법론을 제안한다. 제안하는 시스템은 먼저, 트위터에 게시된 트윗 중 구제역과 관련된 데이터를 수집한 후, 감성사전을 기반으로 극성탐지 과정을 거친다. 둘째, 토픽 모델링의 대표적인 기법 중 하나인 LDA를 활용하여 트윗으로 부터 키워드들을 추출하고, 추출된 키워드들로부터 극성별 동시출현 키워드 네트워크를 구성한다. 셋째, 키워드 네트워크을 통해 각 구간별 구제역의 사회적 파급효과를 분석한다. 사례 분석으로써, 2010년 7월부터 2011년 12월까지 국내에서 발생한 구제역에 관한 일반 시민들의 감성적 변화를 분석하였다.

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.55-63
    • /
    • 2021
  • 소셜 빅데이터는 신조어나 고유명사를 포함하는 경우가 많으며, 이들을 처리하기 위해 단어별 출현 빈도수를 기반으로 한 통계적인 형태소 분석 방법이 많이 활용되고 있다. 그러나 이들 방법에서는 복합 명사를 제대로 인지하지 못해, 키워드 추출의 정확도가 떨어지는 문제점이 지적되고 있다. 본 논문에서는 소셜 빅데이터의 키워드 분석에 있어 복합 명사를 추출하기 위한 방법을 제안한다. 제안 방법은 형태소 분석 단계를 통해 얻어진 단어를 조합하여 복합 명사 후보군을 만들고, 주어진 리뷰에서 이들의 출현 빈도를 조사하여 얻어진 빈도수를 기반으로 복합 명사를 추출한다. 복합 명사 후보군을 구성하는 방법에 따라 두 가지 알고리즘을 제안하였으며, 각 알고리즘의 성능을 수식으로 표현하고 비교한다. 그리고 온라인에서 수집된 실제 데이터를 대상으로 실험을 통해 비교 결과를 검증하는 동시에, 제안 방법이 실시간 처리에도 적합함을 보여준다.