• 제목/요약/키워드: 토픽 추출

검색결과 213건 처리시간 0.021초

비정형 보안 인텔리전스 보고서 기반 토픽 자동 추출 모델 (Topic Automatic Extraction Model based on Unstructured Security Intelligence Report)

  • 허윤아;이찬희;김경민;임희석
    • 한국융합학회논문지
    • /
    • 제10권6호
    • /
    • pp.33-39
    • /
    • 2019
  • 지능형 사이버 공격 기법이 다양화됨에 따라 보안 침해 사건, 글로벌 범죄 등의 사건 발생이 증가하고 있다. 지능형 공격을 예측하고 대응하기 위해서는 공격 기법의 특성, 수법, 유형을 파악해야 한다. 이를 위해 수많은 보안 기업 회사에서는 다양한 공격 기법을 빠르게 파악하고 더 큰 피해를 막기 위해 보안 인텔리전스 보고서를 배포한다. 하지만 각 기업에서 배포하는 보고서에 대한 형식이 맞춰져 있지 않으며, 대량의 비정형 보안 인텔리전스 보고서가 배포되고 있다. 본 논문은 비정형한 보안 인텔리전스 보고서에 대한 문제점을 고려하여 정형화된 데이터로 추출하는 방안을 제안한다. 또한, 대량의 보안 인텔리전스 보고서를 파악하기 위해 소요되는 시간을 줄이고자 대량의 보고서를 주제별로 분류할 수 있는 보안 인텔리전스 보고서 토픽 자동 추출 모델을 제안한다.

점진적 EM 알고리즘에 의한 잠재토픽모델의 학습 속도 향상 (Accelerated Loarning of Latent Topic Models by Incremental EM Algorithm)

  • 장정호;이종우;엄재홍
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권12호
    • /
    • pp.1045-1055
    • /
    • 2007
  • 잠재토픽모델(latent topic model)은 데이타에 내재된 특징적 패턴이나 데이타 정의 자질들 간의 상호 관련성을 확률적으로 모델링하고 자동 추출하는 모델로서 최근 텍스트 문서로부터의 의미 자질 자동 추출, 이미지를 비롯한 멀티미디어 데이타 분석, 생물정보학 분야 등에서 많이 응용되고 있다. 이러한 잠재토픽모델의 대규모 데이타에 대한 적용 시 그 효과 증대를 위한 중요한 이슈 중의 하나는 모델의 효율적 학습에 관한 것이다. 본 논문에서는 대표적 잠재토픽모델 중의 하나인 PLSA (probabilistic latent semantic analysis) 기법을 대상으로 점진적 EM 알고리즘을 활용한, 기본 EM 알고리즘 기반의 기존 학습에 대한 학습속도 증진 기법을 제안한다. 점진적 EM 알고리즘은 토픽 추론 시 전체 데이타에 대한 일괄적 E-step 대신에 일부 데이타에 대한 일련의 부분적 E-step을 수행하는 특징이 있으며 이전 데이터 일부에 대한 학습 결과를 바로 다음 데이타 학습에 반영함으로써 모델 학습의 가속화를 기대할 수 있다. 또한 이론적인 측면에서 지역해로의 수렴성이 보장되고 기존 알고리즘의 큰 수정 없이 구현이 용이하다는 장점이 있다. 논문에서는 해당 알고리즘의 기본적인 응용과 더불어 실제 적용과정 상에서의 가능한 데이터 분할법들을 제시하고 모델 학습 속도 개선 면에서의 성능을 실험적으로 비교 분석한다. 실세계 뉴스 문서 데이타에 대한 실험을 통해, 제안하는 기법이 기존 PLSA 학습 기법에 비해 유의미한 수준에서 학습 속도 증진을 달성할 수 있음을 보이며 추가적으로 모델의 병렬 학습 기법과의 조합을 통한 실험 결과를 간략히 제시한다.

잠재디리클레할당 분석을 이용한 '노인일자리' 관련 신문기사 토픽분석 (Topic Modeling of Newspaper Articles on Government 'Senior job program' via Latent Dirichlet Allocation.)

  • 이소정
    • 디지털융복합연구
    • /
    • 제18권10호
    • /
    • pp.537-546
    • /
    • 2020
  • 본 연구는 노인일자리사업의 사회적 논의구조를 분석하기 위해 대표적인 대중매체인 신문기사에서 다루어지는 노인일자리 관련 주요 토픽들과 시계열적 특성을 분석하였다. 이를 위해 뉴스 통합 데이터베이스인 빅카인즈에 수록된 11개 중앙지와 8개 경제지의 노인일자리사업 관련 기사 1107개에 대해 잠재디리클레할당 방법을 이용한 토픽분석을 실시해 언론 기사에 내재된 노인일자리사업의 잠재토픽을 추출하였다. 분석결과 노인일자리사업에 대한 일반적 정보전달, 지자체 사업 홍보, 노후생활, 고용효과, 시장연계 등 5개의 잠재토픽이 추출되었는데 2015년까지 대부분의 언론기사가 일반적 정보전달과 지자체 사업홍보에 국한되어 있어 노인일자리사업의 정체성에 대한 사회적 논의가 형성되지 못하였음을 알 수 있었던 반면 2015년 이후부터 노인일자리사업의 소득, 안전 등 노후생활 효과 관련 주제가 다루어지는 비중이 증가했으며 특히 문재인 정부 출범이후 고용효과와 관련된 기사가 압도적인 비중을 차지하게 되었음을 발견할 수 있었다. 본 연구는 이러한 결과에 근거해 향후 노인일자리사업의 질적측면 및 고용효과 측면을 증진시킬 수 있는 방안에 대한 고민의 필요성과 고용프레임 이외의 대안적 프레임 제시의 필요성을 제안하였다.

텍스트 마이닝을 이용한 주제기반의 기업인 네트워크 계층 분석 (Topic Based Hierarchical Network Analysis for Entrepreneur Using Text Mining)

  • 이동훈;김용화;김관호
    • 한국전자거래학회지
    • /
    • 제23권3호
    • /
    • pp.33-49
    • /
    • 2018
  • 다양한 고객의 요구를 만족시키기 위한 신제품 설계 및 개발의 필요성 때문에 중소기업 간의 융합 활동의 중요성은 증대하고 있다. 특히, 최고 의사결정을 가지는 중소기업 대표는 적합한 융합 활동 파트너를 구하기 위해 인맥관리는 필수적이다. 한편 기업인들은 많은 양의 인맥을 형성하는 것이 중요할 뿐만 아니라 유사한 토픽정보를 가진 기업인과의 인맥관계를 이해하는 것이 중요하다. 그러나 중소기업의 현황 부재와 산업분야별 기업인들의 기술과 특성을 나타낼 수 있는 토픽정보를 수집하는데 어려운 한계가 존재한다. 본 논문에서는 토픽 추출기법을 통해 이와 같은 문제점을 해결하고 3가지 측면에서 기업 네트워크를 분석한다. 구체적으로 C, S, T-Layer 모델이 있으며 각각의 모델은 인맥의 양, 인맥 중심성, 토픽 유사성을 분석한다. 실 데이터를 통한 실험 결과, 인맥의 양이 적은 경우 중심성이 높은 기업과 네트워크를 강화하여 인맥 네트워크를 활성화 시켜야 할 필요가 있고, 토픽 유사성이 낮은 경우 주제 기반의 네트워크를 활성화 시켜야 할 필요가 있다는 것을 실험을 통해 확인하였다.

토픽 모델링을 활용한 상담 성과 연구동향 분석 - 「상담학연구」 학술지를 중심으로 (Counseling Outcomes Research Trend Analysis Using Topic Modeling - Focus on 「Korean Journal of Counseling」)

  • 박귀화;이은영;윤소정
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.517-523
    • /
    • 2021
  • 상담의 성과는 상담자와 연구자 모두에게 중요하다. 지금까지 진행되어온 상담의 성과에 대한 연구의 동향을 분석하는 것은 상담의 성과를 종합적으로 구조화하는데 도움을 준다. 본 연구의 목적은 2011~2021년에 국내 상담분야의 저명 학회지 중 하나인 「상담학연구」에 게재된 상담 성과 관련 연구를 중심으로 연구 동향을 분석하여, 국내 상담성과 연구의 지식 구조를 탐색하고 향후 연구방향을 모색하는 것이다. 텍스트 마이닝 기법 중 중심성분석과 토픽 모델링을 활용하였다. 분석에 활용된 연구는 197개로 노드 추출 과정을 거쳐 최종 339개의 키워드가 분석에 활용되었다. LDA 알고리즘을 활용하여 잠재 토픽을 추출한 결과 '상담 성과의 측정과 평가', '대인관계에 영향을 주는 정서와 매개요인', '진로에 대한 스트레스와 대처'가 주요 토픽으로 나타났다. 상담학 연구에 게재된 상담성과 연구의 동향 분석을 통해 주요 토픽을 밝힌 것은 상담성과 연구를 보다 구조화하는 데 기여하였으며, 이후에도 이러한 주제들에 대한 심층적 연구가 지속되어야 할 필요가 있다.

토픽 모델링을 활용한 한국 영어교육 학술지에 나타난 연구동향 분석 (Analysis of Research Trends in Korean English Education Journals Using Topic Modeling)

  • 원용국;김영우
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.50-59
    • /
    • 2021
  • 본 연구는 2000년 이후 최근 20년간 우리나라 영어교육의 연구동향을 파악해보는 것을 목적으로 한다. 이를 위해 영어교육 관련 주요 학술지 12개를 선정하여 해당 기간 동안에 게재된 논문 7,329편의 서지정보를 수집하여 분석하였다. 분석 대상이 된 영어교육 학술지의 논문 게재 현황은 2000년대부터 2010년대 전반기까지 계속 증가하였다가 2010년대 후반기에 다소 감소하였다. 그리고 2010년대 후반기에 학술지별 논문 게재 수도 비슷해졌다. 이와 같은 결과는 양적인 측면에서 영어교육 학술지의 영향력이 전반적으로 감소하면서 평준화된 것이라고 볼 수 있다. 다음으로 논문의 영문 초록을 데이터로 잠재 디리클레 할당(LDA) 토픽 모델링을 적용한 결과 34개 토픽(주제)이 추출되었다. 영어교육 분야에서 많이 연구된 토픽은 교사, 단어, 문화/미디어, 문법 등이었다. 단어, 어휘, 평가 등의 주제는 독특한 키워드를 통해 나타났고, 학습자요인 관련하여 여러 토픽들이 나타나면서 영어교육 연구의 관심 주제가 되었다. 다음으로, 상승 및 하강 토픽을 분석한 결과 상승 토픽으로 질적 연구, 어휘, 학습자요인, 평가요소 등이 있었고, 하강 토픽으로 CALL, 언어, 교수, 문법 등이 있었다. 이런 연구 주제의 변화는 영어교육 분야의 연구 관심사가 정적인 연구 주제에서 데이터 중심적이고 동적인 연구 주제로 이동하고 있음을 보여주는 것이다.

특허 및 뉴스 기사 텍스트 마이닝을 활용한 정책의제 제안 (Policy agenda proposals from text mining analysis of patents and news articles)

  • 이새미;홍순구
    • 디지털융복합연구
    • /
    • 제18권3호
    • /
    • pp.1-12
    • /
    • 2020
  • 본 연구의 목적은 텍스트 마이닝을 활용하여 특허와 뉴스 기사 분석을 통해 블록체인 기술 동향을 탐색하고 사회적 관심을 파악하여 블록체인 정책의제를 제안하는 것이다. 이를 위해 국내 블록체인 특허 요약문 327건과 온라인 뉴스기사 전문 5,941건을 수집하고 전처리 과정을 거쳐 LDA 토픽모델링 방법을 사용하여 특허 토픽 12개와 뉴스 토픽 19개를 추출하였다. 특허 분석을 통해 인증과 거래 관련 토픽이 높은 비중을 차지하였다. 뉴스 기사 분석 결과, 사회적 관심은 암호화폐에 치중되어 있는 것으로 나타났다. 이러한 분석 결과와 의제설정이론에 근거하여 블록체인 관련 정책의제를 도출하였다. 본 연구는 대용량 텍스트 문서 분석의 자동화된 기법을 활용하여 분석을 효율적·객관적으로 수행하였으며, 블록체인 기술 동향과 사회적 관심도를 파악한 실증된 기초 분석 자료를 기반으로 정책의제를 제안하였다. 본 연구에서 제시된 정책의제는 향후 정책 결정과정에의 기초자료로 활용될 수 있을 것이다.

텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링 (Topic Modeling on Research Trends of Industry 4.0 Using Text Mining)

  • 조경원;우영운
    • 한국정보통신학회논문지
    • /
    • 제23권7호
    • /
    • pp.764-770
    • /
    • 2019
  • 본 연구에서는 "4차 산업"과 관련된 논문들의 세부 연구 주제를 파악하기 위하여 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 이를 위하여 2016년부터 2019년까지 한국학술지인용색인(KCI)에서 "4차 산업"이라는 키워드로 논문을 검색하여 총 685편의 논문을 수집하였다. 논문 수집을 위해서는 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 수집된 논문들에 대한 Perplexity 분석 결과, 9가지 토픽이 최적으로 결정되었고 수집된 논문들의 9가지 대표 토픽들을 Gibbs 샘플링 방법을 사용하여 추출하였다. 분석 결과, 인공지능, 빅데이터, 사물인터넷, 디지털, 네트워크 등이 상위 주요 기술들로 나타났으며, 산업, 정부, 교육 현장, 일자리 등 4차 산업과 관련한 다양한 분야에서 주요 기술들로 인한 변화에 대한 연구들이 이루어져 왔음을 확인할 수 있었다.

사용자 리뷰 토픽분석을 활용한 모바일 쇼핑 앱 고객만족도에 관한 연구 (A Study on Customer Satisfaction of Mobile Shopping Apps Using Topic Analysis of User Reviews)

  • 김광국;김용환;김자희
    • 한국전자거래학회지
    • /
    • 제23권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 현재 모바일 쇼핑 시장의 빠른 성장에도 불구하고 주요 사업자들은 심한 경쟁 속에서 지속적인 영업적자를 기록하고 있다. 이 문제를 해결하기 위해서는 모바일 쇼핑 시장은 과도한 경쟁보다는 고객만족도와 고객충성도를 높이기 위한 연구들이 요구된다. 그러나 기존의 연구들은 기술수용 모형과 문헌연구를 기반으로 요인을 추출하고 있어 고객의 직접적인 요구를 반영하는 데 한계가 있다. 본 연구는 모바일 쇼핑 앱 사용자들의 직접적인 요구사항을 도출하기 위하여 사용자 리뷰 토픽분석을 시행하여 고객만족도에 영향을 미치는 구체적이고 다양한 요인들을 도출하였다. 그리고 미국 고객만족도 지표 모형을 참조한 구조방정식 연구모형을 수립하여 도출된 요인들이 고객만족도에 미치는 중요도를 평가하고 고객만족도가 고객 불평과 고객충성도에 주는 영향을 실증 분석하였다. 본 연구에서 제안한 토픽분석과 구조방정식을 연계한 연구 프레임워크는 다른 모바일 서비스의 고객만족도 연구에도 적용될 수 있을 것으로 기대된다.

토픽모델링을 활용한 교통경찰 민원 분석 (An Analysis of Civil Complaints about Traffic Policing Using the LDA Model)

  • 이상엽
    • 한국ITS학회 논문지
    • /
    • 제20권4호
    • /
    • pp.57-70
    • /
    • 2021
  • 본 연구는 민원데이터를 분석함으로써 교통경찰에 대한 국민의 치안 수요를 탐색하고자 하였다. 이를 위해 교통경찰 관련 국민신문고 민원데이터 2,062건을 대상으로, 토픽모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation)을 통해 주요 토픽을 추출하고 높은 비중을 차지한 위반신고에 대해 추가분석을 시도하였다. 이 과정에서 키워드와 대표문서의 일관성과 합치성을 함께 고려하였다. 분석 결과 교통경찰 관련 민원은 시설개선, 신호에 따른 교차로통행방법, 번호판 영치, 개인형 이동장치 등 41개의 토픽으로 분류할 수 있었다. 교차로내 위반과 이륜자동차의 위반에 대한 단속을 강화하고 무인교통단속장비, 횡단보도, 신호등의 설치 및 운영에 대한 선제적인 조치, 최근 개정된 법령과 시행된 정책, 경찰교통민원 사이트, 단속 사후 절차에 대한 더욱 활발한 홍보가 필요한 것으로 판단된다.