• 제목/요약/키워드: 키워드 빈도 분석

검색결과 354건 처리시간 0.026초

XML 문서 키워드 가중치 분석 기반 문단 추출 모델 (XML Document Keyword Weight Analysis based Paragraph Extraction Model)

  • 이종원;강인식;정회경
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2133-2138
    • /
    • 2017
  • 기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.

교육개발협력에 관한 국제 학술지 연구 동향 고찰 : 텍스트 네트워크 분석을 중심으로(2002~2017) (A Study on the International Research Trend in Education Development focused on Text Network Analysis(2002~2017))

  • 김상미;김영환;조원겸
    • 비교교육연구
    • /
    • 제28권1호
    • /
    • pp.1-24
    • /
    • 2018
  • 본 연구는 교육개발협력에 관한 글로벌 연구 동향을 살펴보고, 이를 통해 국내 관련 연구에서의 향후 방향과 시사점을 탐색하는 것을 목적으로 한다. 이를 위해 교육개발협력 분야의 국제 학술지인 "International Journal of Educational Development"를 선정하고, 2002년부터 2017년까지 약 15년간 게재된 연구 논문 966편을 대상으로 연구 초록에 제시된 (저자) 키워드를 텍스트 네트워크 분석하여 시기별, 교육영역별로 연구 주제가 어떻게 변화하고 이에 나타나는 특징이 무엇인지를 알아보았다. 이에 대한 주요 연구 결과는 다음과 같다. 첫째, 분석 대상 전체 논문에 나타난 연구 주제어의 출현 빈도를 살펴본 결과, 교육프로그램관리, 학교수업, 지역공공행정, 교육지원서비스, 초등교육 순으로 높았으며, 빈도 순 상위 20개의 핵심주제어에 대한 네트워크 중앙성 분석 결과는 빈도수 결과와 유사한 상관관계를 나타내었다. 그러나 중등교육, 학습, 교육연구, 교육변화, 교육의질 등의 주제어는 출현 빈도에 비해 높은 중앙성 지수를 나타내고 있어 다른 키워드들과 높은 관계성을 가지고 있었다. 둘째, 시기별 핵심 주제어 분석 결과 MDGs 전기 대비 후기와 SDGs 초기에는 새로운 키워드(초등교육, 초중등학교, 학교수업, 교육의 질, 중등교육, 교육계획)가 다양하게 나타났고, 중앙성 지수에서도 높은 수치를 나타내고 있어 새로운 핵심 연구 주제가 되고 있음을 알 수 있다. 셋째, 교육일반, 기초교육, 중등교육, 고등교육으로 분류한 교육영역별 분석 결과에서는 빈도수와 중앙성이 높은 핵심 주제어가 각각 다소 상이하게 나타나고 있어 영역에 따른 연구 키워드가 구분되고 있다는 특징이 부각되었다. 본 연구는 국제 아젠다로서의 교육개발협력 특성을 고려하여 국제적 수준에서 약 15년간 누적된 연구 논문들을 대상으로 객관적 데이터 분석 프로그램을 활용해 연구 주제의 변화 동향을 조망하였다는데 의의가 있으며, 현재 국내에서 실천적 노력과 더불어 교육개발협력에의 학문적 연구 개발이 지속적으로 강화되어야 할 시점임을 고려할 때, 향후 보다 다양한 분야에서의 연구 개발에서 참고할 만한 시사점을 제공할 수 있을 것이다.

빅데이터 분석을 통한 인터넷 뉴스 포털에서의 탈세 논란이 기업 가치에 미치는 영향 연구 (A study on the effect of tax evasion controversy on corporate values in internet news portals through big data analysis)

  • 이상민;박명호;김병준;박대근
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.51-57
    • /
    • 2021
  • 기업의 세금을 절약 혹은 회피하는 행동은 과세관청에 의해 합법적 절세가 아닌 탈세로 판단될 경우 기업은 조세적 비용뿐 아니라 일련의 탈세관련 보도 기사로 인해 기업이미지 손상 및 주가하락과 같은 비조세적 비용까지 부담하게 된다. 이에 본 연구는 인터넷 뉴스 포털에 나타난 탈세 논란 키워드들의 출현빈도를 해당 사건의 심각성을 측정하는 요인으로 정하고 이러한 출현빈도가 기업가치에 미치는 영향을 분석한다. 우리나라 유가증권시장에서 시가총액기준 상위 업체들을 대상으로 탈세 논란 키워드들을 활용하여 인터넷 뉴스 포털로부터 관련 기사를 크롤링하고, 기업별로 탈세 논란 키워드들의 출현빈도에 대한 시계열을 생성하여 출현빈도가 장부가 대비 시가총액에 미치는 영향을 분석한다. 패널회귀분석과 충격반응분석을 통해 분석한 결과 출현빈도는 기업가치에 부정적인 영향을 미치며 12개월까지 점진적으로 효과가 감소되는 것으로 분석된다. 이 연구는 한국기업들을 대상으로 탈세 논란 사안이 기업가치에 영향을 미치는지를 실증적으로 분석한 연구로서, 경영자는 절세전략을 수립 시 이러한 영향력을 고려하는 것이 필요하다는 것을 시사한다.

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 (Web Document Classification Based on Hangeul Morpheme and Keyword Analyses)

  • 박단호;최원식;김홍조;이석룡
    • 정보처리학회논문지D
    • /
    • 제19D권4호
    • /
    • pp.263-270
    • /
    • 2012
  • 최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

전화통화 빅데이터 분석에 관한 연구 (A Study on Phon Call Big Data Analytics)

  • 김정래;정찬기
    • 정보화연구
    • /
    • 제10권3호
    • /
    • pp.387-397
    • /
    • 2013
  • 본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

키워드 네트워크 분석을 활용한 기후변화 교육 관련 연구동향 분석 (Keyword Network Analysis of Trends in Research on Climate Change Education)

  • 김순식;이상균
    • 대한지구과학교육학회지
    • /
    • 제13권3호
    • /
    • pp.226-237
    • /
    • 2020
  • 본 연구의 목적은 연구제목에서 추출한 키워드를 중심으로 네트워크 분석을 활용하여 기후변화 교육 관련 연구동향을 분석하는 것이다. 이를 위하여 2015년부터 2020년 11월까지 한국연구재단(KCI) 등재(후보)지에 게재된 기후변화 교육 관련 논문의 연도별, 학습지별 동향을 파악하고, 논문에 제시된 키워드에 대한 네트워크 분석을 실시하였다. 분석절차는 분석 대상 선정, 키워드 추출과 정제, 키워드 네트워크 분석 및 시각화의 과정으로 진행되었다. 자료처리는 Textom 분석 프로그램, Ucinet 6.0, NetDraw 프로그램을 활용하였다. 연구결과는 다음과 같다. 첫째, 2011년부터 2020년 사이 총 62편의 기후변화 교육 관련 논문이 게재되었으며, 학술지는 '에너지기후변화 교육'에서 가장 많은 기후변화 교육 관련 논문이 게재된 것으로 나타났다. 둘째, 키워드 '프로그램' 키워드가 가장 높은 빈도를 보였으며, 그 다음으로 '에너지', '분석', '초등학교', '초등학생', '개발', '영향' 등이 높은 빈도를 보였다. 셋째, 연결정도 중심성 분석결과 '프로그램', '초등학생', '초등학교' 지수가 가장 높게 나타났으며, 가장 큰 군집은 '교수·학습 프로그램 개발과 효과'가 형성되었다. 본 연구는 전반적인 기후변화 교육 관련 연구동향을 탐색하고, 향후 연구주제에 대한 방향성을 파악하였다는 데 의의가 있다.

텍스트 마이닝을 통한 핀테크 연관 핵심 기술 특허 추출 방법 (Essential Technical Patent Extraction Method Associated with Fintech Based on Text Mining)

  • 이황로;최은미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1219-1222
    • /
    • 2015
  • 금융과 IT가 융합되는 핀테크(Fintech)가 IT산업과 금융산업에 새로운 패러다임으로 급부상하고 있다. 핀테크 기술에 대한 기술동향을 파악하고 유사한 연관 기술을 도출하는 것은 관련 사업자가 시장 경쟁에서 우위를 차지하기 위해 필요한 전략적 방향을 제시해 준다. 하지만 핀테크와 같이 단 기간 내에 기술에 대한 파급 속도가 빠르게 일어나며 산업전반에서 기술선점의 필요성이 크게 대두되는 경우 특허 데이터베이스만으로 유사기술을 검색을 위한 키워드를 선정하는 것이 어렵다는 단점이 있다. 본 논문에서는 새롭게 이슈화되는 기술 중 그 성장세가 급격하게 변화하여 등록된 특허만으로는 연관 기술 영역을 파악하는 일이 번거로운 상황에서 기사 분석을 통해 연관 기술 키워드를 추출 할 수 있는 방법을 제안하고자 한다. 특히 핀테크에서 중요하게 인식되는 결제, 보안, 사용자환경에 대한 연관 기술 키워드를 기사 내용에 포함되는 단어의 빈도 분석을 통해 추출하고자 하였다. 최종적으로 추출된 기술 키워드를 이용하여 실제 특허 검색 데이터베이스에서 관련 특허를 수집하고 분석하여 핀테크와 관련성이 매우 높은 연관 핵심 기술 특허를 도출하였다.

텍스트마이닝을 활용한 핀테크 및 디지털 금융 서비스 트렌드 분석 (Trend Analysis of FinTech and Digital Financial Services using Text Mining)

  • 김도희;김민정
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.131-143
    • /
    • 2022
  • 본 연구는 핀테크를 중심으로 국내 디지털 금융 서비스 시장의 트렌드를 파악하고자 신문기사와 트위터 데이터를 대상으로 텍스트마이닝 기법을 사용하여 분석을 진행하였다. 핀테크 시장의 성장 과정에 있어서 간편결제 서비스 도입, 인터넷전문은행 출범, 데이터 3법 개정안 통과, 마이데이터 사업 신청 등 중요하게 작용을 한 4가지 시점을 기준으로 빈도분석을 수행하여 핵심 키워드 간의 차이를 살펴보았다. 또한 핀테크 선도 국가인 중국·미국과 미래 키워드를 핀테크 키워드와 결합한 빈도분석 결과를 통해 세계 시장 속에서 국내 핀테크 산업의 현 위치와 미래 시장 전망을 예측하였다. 마지막으로 트위터 트윗을 대상으로 감성분석을 진행하여 핀테크 서비스에 대한 소비자의 기대와 우려를 정량화하였다. 따라서 본 연구는 금융 생태계 변화 과정을 살펴보고, 분석 결과를 종합함으로써 정부와 기업이 향후 핀테크 시장 발전에 있어서 활용할 수 있는 전략적 방향성 및 대응 전략을 제시한 점에서 의의가 있다.

NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구 (A Relation Analysis between NDSL User Queries and Technical Terms)

  • 강남규;조민희;권오석
    • 정보관리연구
    • /
    • 제39권3호
    • /
    • pp.163-177
    • /
    • 2008
  • 본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.

네트워크 분석을 통한 국내 과학교육 질적 연구동향 분석 (Analysis of Qualitative Research on Science Education Trend in Korea Using Semantic Network Analysis)

  • 이상균;김순식;채동현
    • 대한지구과학교육학회지
    • /
    • 제10권3호
    • /
    • pp.290-307
    • /
    • 2017
  • 본 연구는 과학교육 질적 연구와 관련된 연구 동향을 분석하고, 과학교육 질적 연구의 기초 자료를 제공하고, 후속 연구 방향을 선정하는 데 목적이 있다. 연구대상은 한국연구재단의 KCI등재에 등록된 학술지에서 과학교육, 질적 연구를 키워드로 한 학술지 발표 논문을 대상으로 키워드를 중심으로 언어 네트워크 분석 방법을 활용하여 연구 동향을 살펴보았다. 본 연구에서는 기술 통계 분석 방법과 논문 주요 키워드 대한 빈도 분석, 네트워크 분석, 연결중심성 분석을 krkwic과 ucinet6.0을 활용하여 자료처리를 하였다. 연구 결과 첫째, 과학교육 관련 학술지에 발표된 질적 연구 방법을 적용한 논문은 14종 학술지에서 총 138편의 논문이 발표되었다. 둘째, 논문 키워드의 출현 빈도를 분석한 결과 '분석'이 가장 높은 빈도를 나타내었고, '초등교사', '초등학교', '영재학생', '과학교사', '수업' 순으로 나타났다. 셋째, 네트워크 분석 결과 '분석', '초등학교', '수업'이 네트워크 중심에 위치하였으며, 비교, 탐구, 인식, 영재학생 등이 근접하였다. 넷째, 전체 구간에서 공통적으로 출현하는 키워드는 '분석', '영재학생', '초등학생' 등으로 초등학생과 영재학생을 대상으로 한 연구나 수업이나 인식, 특성 등을 분석한 연구는 지속적으로 이루어지고 있음을 알 수 있다. 본 연구의 결과를 기초로 과학교육 질적 연구와 관련된 연구주제의 과거와 현재를 탐색하고 앞으로의 연구 방향에 관한 논의를 하였다.