• Title/Summary/Keyword: 키워드 빈도 분석

Search Result 359, Processing Time 0.024 seconds

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구 (A Study on Keywords Extraction based on Semantic Analysis of Document)

  • 송민규;배일주;이수홍;박지형
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.586-591
    • /
    • 2007
  • 지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

  • PDF

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.55-63
    • /
    • 2021
  • 소셜 빅데이터는 신조어나 고유명사를 포함하는 경우가 많으며, 이들을 처리하기 위해 단어별 출현 빈도수를 기반으로 한 통계적인 형태소 분석 방법이 많이 활용되고 있다. 그러나 이들 방법에서는 복합 명사를 제대로 인지하지 못해, 키워드 추출의 정확도가 떨어지는 문제점이 지적되고 있다. 본 논문에서는 소셜 빅데이터의 키워드 분석에 있어 복합 명사를 추출하기 위한 방법을 제안한다. 제안 방법은 형태소 분석 단계를 통해 얻어진 단어를 조합하여 복합 명사 후보군을 만들고, 주어진 리뷰에서 이들의 출현 빈도를 조사하여 얻어진 빈도수를 기반으로 복합 명사를 추출한다. 복합 명사 후보군을 구성하는 방법에 따라 두 가지 알고리즘을 제안하였으며, 각 알고리즘의 성능을 수식으로 표현하고 비교한다. 그리고 온라인에서 수집된 실제 데이터를 대상으로 실험을 통해 비교 결과를 검증하는 동시에, 제안 방법이 실시간 처리에도 적합함을 보여준다.

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

네트워크분석 방법을 활용한 국내 영재상담 관련 연구동향 분석 (Investigating Trends of Gifted Counseling in Domestic through Sementic Network Analysis)

  • 이상균;김순식
    • 대한지구과학교육학회지
    • /
    • 제11권2호
    • /
    • pp.145-157
    • /
    • 2018
  • 본 연구는 2001년부터 2018년 6월까지 영재상담과 관련된 국내학술지에 게재된 연구논문의 키워드를 추출한 후 언어네트워크분석 방법을 활용하여 연구동향을 분석하였다. 이를 위해 연구대상으로 국내 KCI등재지에 게재된 83편의 논문을 선정하였으며, 이들 논문들을 대상으로 키워드 빈도 및 키워드 네트워크, 연결 중심성을 분석하였다. 연구 결과 첫째, 네트워크 분석결과 영재상담과 관련된 연구는 완벽주의, 진로, 상담, 과학영재의 4가지 키워드가 연구 주제로 주요하게 다루어졌음을 알 수 있다. 둘째, 2001년부터 2018년 6월까지 연도별 추이를 분석한 결과 전체적으로 상위 키워드는 미성취영재, 완벽주의, 과학영재, 영재부모 등으로 나타났다. 상승 키워드는 완벽주의, 이중특수아, 영재부모 등으로 나타났고, 영재학생과 일반학생의 키워드는 하락하는 경향을 보였다. 영재상담 연구가 보다 다양한 관점에서 연구가 이루어져야 할 것으로 해석된다.

장서개발관리 분야 최근 연구동향 분석에 대한 연구 (An Analytical Study on Research Trends of Collection Development and Management)

  • 신유미;박옥남
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.105-131
    • /
    • 2019
  • 본 연구는 장서개발관리 분야의 최근 연구동향을 분석함으로써 핵심 연구주제를 파악하고 학문의 지적구조를 규명하고자 하였다. 2003년부터 2017년까지 15년간 문헌정보학 분야 4개 학회지에 등재된 논문 중 장서개발관리 분야의 키워드를 가진 연구논문을 선정하여 저자키워드를 추출하였다. 추출된 저자키워드를 가지고 NetMiner4 프로그램을 이용하여 키워드 네트워크를 구성한 뒤 빈도분석, 연결중심성 분석, 매개중심성 분석을 수행하였다. 분석은 시간의 흐름에 따른 연구 변화를 살펴보기 위하여 2003년부터 2017년까지 전 구간을 대상으로 한 분석과 5년 단위의 3구간으로 나누어 살펴보았다. 연구결과, '오픈액세스', '기관 레포지터리', '학술지' 등의 장서개발관리 분야의 핵심키워드를 파악하고, '대학도서관' 등의 계속 연구될 분야의 주제어를 파악하였다.

키워드 네트워크 분석을 통한 리터러시 교육 연구 동향 (A Study on Research Trends in Literacy Education through a Key word Network Analysis)

  • 이우진;백혜진
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.53-59
    • /
    • 2022
  • 본 연구는 리터러시의 국내 연구동향 분석을 통해 학습과의 관련 변인을 살펴보고, 리터러시 교육방향에 시사점을 제시하고자 한다. 한국연구정보서비스(RISS)를 활용하여 1993년부터 2022년 2월까지의 연구논문을 수집하였다. 검색 키워드로 '리터러시'와 '교육'을 사용하였으며, 200편의 논문이 분석대상으로 선정되었다. 키워드 네트워크 분석을 활용하여 관련 변인을 분석한 결과, 총 810개의 키워드 중 최소 3회 이상 출현한 키워드는 118개였으며, 가장 높은 빈도를 보인 키워드는 '디지털 리터러시', '미디어 리터러시', '초등학교' 순으로 나타났다. 분석 결과를 통해 다음의 시사점을 제시했다. 첫째, 온라인 교수·학습 자원 플랫폼 구축과 교육정책 연계와의 확대성 연구가 요구된다. 둘째, 리터러시 역량 설정 및 역량 향상 방안이 모색되어야 한다. 셋째, 디지털 기반 융합 교육모델 개발이 이뤄져야 한다. 본 연구는 가장 최근까지의 리터러시 연구를 살펴보고, 이를 통해 리터러시 교육의 방향을 제시하였다는 점에서 의의가 있다고 하겠다.

교과 키워드 분석을 통한 문헌정보학과 교육 주제 연구 - 한국·미국 정보기술관련 교과 중심으로 - (Identifying Topics of LIS Curricula by Keyword Analysis - Focused on Information Technology Classes of US and Korea)

  • 최상희
    • 한국도서관정보학회지
    • /
    • 제50권2호
    • /
    • pp.43-60
    • /
    • 2019
  • 데이터베이스, 네트워크 등 다양한 정보기술이 도서관에 도입되면서 도서관의 업무와 서비스는 크게 변화하고 있다. 이에 문헌정보학과 도서관학을 교육하는 대학에서는 정보기술 발전 동향을 반영하여 교과과정에 수용하는 노력을 꾸준히 해오고 있다. 이 연구에서는 미국과 한국의 문헌정보학과에 개설되어 있는 교과목을 수집하여 정보기술과 관련된 교과를 분석하였다. 수집한 교과목의 내용 분석을 위해서는 교과 제목 키워드와 과목설명 키워드를 추출하여 통계적으로 비교 분석하였다. 분석결과 한국과 미국 모두 유사하게 중요도가 높게 나타나는 키워드는 '시스템', '데이터베이스', '네트워크', '프로그래밍', '웹' 등이 있는 것으로 나타났고 '도서관'은 한국에서만 출현빈도가 높게 나타나는 것으로 조사되었다.

가상·증강현실을 활용한 에듀테크 동향 분석 (Analysis of Edu-Tech Trends Using Virtual and Augmented Reality)

  • 황의철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.115-116
    • /
    • 2021
  • 5세대(5G) 이동통신망의 보급과 코로나19 여파로 비대면 시대가 열리면서 가상 증강현실(VR·AR)을 기반으로 한 '실감(XR·Extended Reality)경제가 본격화 되었다. 가상증강현실의 적용분야로는 게임·영화 등 엔터테인먼트, 제조업, 쇼핑 및 전자상거래, 병원·의료기기, 고객서비스, 지식서비스교육 분야 등이 있다. 본 논문은 VR·AR&교육콘텐츠를 키워드로 최근 3년(2018.1.1.~2020.12.31.)간 중앙지, 경제지 등 54개 언론사 기사를 빅카인즈와 데이터랩을 이용하여 관계도 분석, 월간 키워드 트렌드, 연관어 분석을 하였다. 'VR, AR, 에듀테크'를 키워드로 뉴스 검색결과 63,959건 중 '에듀테크' 검색결과 2018년 632건, 2019년 1043건, 2020년 2389건으로 해마다 급 상승하였다. '(AR+VR)AND 교육콘텐츠'에 대한 검색 결과 연관성(키워드 빈도수)이 높은 키워드로는 증강현실(120), 가상현실(116), 인공지능(114), 에듀테크(100), 코로나19(66), 실감형(65), 아이들(61), VR·AR(56), ICT(35), 빅데이터(25) 순으로 가상·증강현실 기술 발전, 코로나19의 장기화, 교육의 효율성으로 에듀테크 분야의 활용도가 급격히 증가함을 확인할 수 있었다.

  • PDF

텍스트 마이닝 기법을 이용한 환경 분야의 ICT 활용 연구 동향 분석 (A Study on Environmental research Trends by Information and Communications Technologies using Text-mining Technology)

  • 박보영;오관영;이정호;윤정호;이승국;이명진
    • 대한원격탐사학회지
    • /
    • 제33권2호
    • /
    • pp.189-199
    • /
    • 2017
  • 본 연구는 텍스트 마이닝 기법을 활용하여 환경 분야에서 ICT의 활용 연구동향을 정량적으로 분석하였다. 이를 위해 환경 분야 키워드 38개, ICT 관련 키워드 16개를 바탕으로 국가과학기술정보센터(NDSL)에서 최근 20년(1996년-2015년)의 논문 359편을 수집하였다. 해당 논문을 대상으로 환경 분야 및 ICT 관련 자연어를 처리하여 말뭉치(Corpus)단위로 분류체계를 재구성하였다. 전술된 분류체계의 키워드를 바탕으로 텍스트 마이닝 분석 기법인 빈도 분석, 키워드 분석, 키워드 간 연관규칙을 확인하였다. 그 결과 '환경 일반' 및 '기후' 분야의 키워드 출현 빈도가 전체의 77 %, ICT는 '공공융합서비스' 및 '산업융합서비스'가 약 30 %의 비율을 차지하였다. 시계열 분석을 통해 환경 분야에서의 ICT 활용 연구는 최근 5년(2011년-2015년)사이에 급증하여 과거(1996년-2010년)과 비교하여 약 2배 이상 관련 연구가 증가된 것으로 나타났다. 키워드 간 연관 규칙을 생성하여 환경 분야를 기준으로 나타내었을 때, '환경 일반'은 16개, '기후'는 '14'개의 ICT 기반 기술을 주로 활용하고 있는 것으로 확인하였다.

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.