• 제목/요약/키워드: 텍스트 빈도 분석

검색결과 332건 처리시간 0.029초

빅데이터 분석도구 R을 활용한 성경 데이터의 분석 (Analysis of the Bible Data using Big Data Analytics Tools R)

  • 김용수;반재훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.349-352
    • /
    • 2015
  • 빅 데이터가 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 빅 데이터 분석 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. 분석을 통해 신구약, 모세오경, 사복음서별로 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행한다.

  • PDF

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (1) (Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (1))

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제22권1호
    • /
    • pp.113-129
    • /
    • 2020
  • 본 연구는 2020년 한농대 입학생의 비정형 텍스트인 자소서에서 의미 있는 정보 혹은 규칙을 추출하기 위하여 고교 재학 중 '학업 및 학습경험'과 '교내 활동'을 기술한 두 개 문항에 대하여 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 모집 전형을 구분하지 않은 텍스트 마이닝 분석 결과에서 '학업 및 학습 경험' 항목과 관련된 주요 키워드는 '공부', '생각', '노력', '문제', '친구' 등의 순으로 많이 나타났으며, '교내 활동' 항목과 관련된 주요 키워드는 '활동', '생각', '친구', '동아리', '학교' 등의 순으로 빈도가 높게 나타났다. 그러나 도시 인재 전형과 농수산 인재 전형 신입생들의 키워드 빈도 순위는 두 항목 모두 전형 특성에 따른 약간의 차이를 나타냈다. 빈도 분석에 결과는 빈도수 상위 50위까지의 키워드를 워드 클라우드로 시각화하여 키워드를 알기 쉽게 표현하였다. 연관 분석은 apriori() 함수를 사용하였으며 적정한 계산을 위하여 support(지지도)와 confidence(신뢰도)의 기준값을 항목별로 설정하였다. 먼저 '학업' 항목에 대한 연관 규칙은 46개를 추출하였으며, 그 가운데 {공부} => {생각}, {성적} => {공부} 및 {과목} => {공부} 등의 규칙에서 높은 연관성을 볼 수 있었다. 이 규칙을 바탕으로 매개체 역할의 키워드를 평가하는 관계 중심성 평가와 노드에 연결된 edge의 수에 따라 중요도를 파악하는 연결 중심성 평가에서는 '생각', '공부', '노력', '시간' 등의 키워드가 중심적인 역할을 하는 정보를 획득하였다. 다음으로 '교내 활동' 항목에서는 45개의 연관 규칙을 생성하여 {활동} => {생각}, {동아리} => {활동} 등의 규칙에서 높은 연관성을 볼 수 있었으며, 관계 중심성 평가와 연결 중심성 평가에서는 '생각', '활동', '학교', '시간', '친구' 등의 키워드가 중심 키워드라는 결과를 얻었다. 다음 연구에서는 자소서의 나머지 두 개의 문항 '배려·나눔·협력·갈등관리' 항목과 한농대 '지원동기와 향후 진로계획' 항목을 분석한다. 분석에는 '키워드의 빈도'에 '문서 빈도의 역수'를 곱하여 주로 다량의 문서에서 핵심어를 추출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 추가한다.

빅데이터 분석도구 R을 활용한 기상뉴스 데이터분석 (Analysis of Weather News using Big Data Analytics Tools R)

  • 김용수;반재훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.448-450
    • /
    • 2016
  • 정보기술과 디지털 경제의 확산으로 대규모의 데이터가 생산되는 정보화시대에서 빅 데이터의 중요성이 강조되고 있으며 다양한 분야에서 이를 응용하고 있다. 빅 데이터 분석도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 기상뉴스에 나타난 기상관련 빅 데이터를 분석한다. 다양한 뉴스에서 기상 관련 데이터를 수집하고 어떠한 텍스트가 분포되어 있는지 빈도 조사를 수행한다.

  • PDF

교육개발협력에 관한 국제 학술지 연구 동향 고찰 : 텍스트 네트워크 분석을 중심으로(2002~2017) (A Study on the International Research Trend in Education Development focused on Text Network Analysis(2002~2017))

  • 김상미;김영환;조원겸
    • 비교교육연구
    • /
    • 제28권1호
    • /
    • pp.1-24
    • /
    • 2018
  • 본 연구는 교육개발협력에 관한 글로벌 연구 동향을 살펴보고, 이를 통해 국내 관련 연구에서의 향후 방향과 시사점을 탐색하는 것을 목적으로 한다. 이를 위해 교육개발협력 분야의 국제 학술지인 "International Journal of Educational Development"를 선정하고, 2002년부터 2017년까지 약 15년간 게재된 연구 논문 966편을 대상으로 연구 초록에 제시된 (저자) 키워드를 텍스트 네트워크 분석하여 시기별, 교육영역별로 연구 주제가 어떻게 변화하고 이에 나타나는 특징이 무엇인지를 알아보았다. 이에 대한 주요 연구 결과는 다음과 같다. 첫째, 분석 대상 전체 논문에 나타난 연구 주제어의 출현 빈도를 살펴본 결과, 교육프로그램관리, 학교수업, 지역공공행정, 교육지원서비스, 초등교육 순으로 높았으며, 빈도 순 상위 20개의 핵심주제어에 대한 네트워크 중앙성 분석 결과는 빈도수 결과와 유사한 상관관계를 나타내었다. 그러나 중등교육, 학습, 교육연구, 교육변화, 교육의질 등의 주제어는 출현 빈도에 비해 높은 중앙성 지수를 나타내고 있어 다른 키워드들과 높은 관계성을 가지고 있었다. 둘째, 시기별 핵심 주제어 분석 결과 MDGs 전기 대비 후기와 SDGs 초기에는 새로운 키워드(초등교육, 초중등학교, 학교수업, 교육의 질, 중등교육, 교육계획)가 다양하게 나타났고, 중앙성 지수에서도 높은 수치를 나타내고 있어 새로운 핵심 연구 주제가 되고 있음을 알 수 있다. 셋째, 교육일반, 기초교육, 중등교육, 고등교육으로 분류한 교육영역별 분석 결과에서는 빈도수와 중앙성이 높은 핵심 주제어가 각각 다소 상이하게 나타나고 있어 영역에 따른 연구 키워드가 구분되고 있다는 특징이 부각되었다. 본 연구는 국제 아젠다로서의 교육개발협력 특성을 고려하여 국제적 수준에서 약 15년간 누적된 연구 논문들을 대상으로 객관적 데이터 분석 프로그램을 활용해 연구 주제의 변화 동향을 조망하였다는데 의의가 있으며, 현재 국내에서 실천적 노력과 더불어 교육개발협력에의 학문적 연구 개발이 지속적으로 강화되어야 할 시점임을 고려할 때, 향후 보다 다양한 분야에서의 연구 개발에서 참고할 만한 시사점을 제공할 수 있을 것이다.

텍스트마이닝 기법을 활용한 허위·과장광고 관련 기사의 트렌드 분석(1990-2019) (Analyzing the Trend of False·Exaggerated Advertisement Keywords Using Text-mining Methodology (1990-2019))

  • 김도희;김민정
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.38-49
    • /
    • 2021
  • 본 연구는 텍스트마이닝 기법을 사용하여 1990년부터 2019년까지 5,141건의 신문기사에서 '허위·과장광고' 용어의 트렌드를 분석하였다. 우선 전체 신문기사를 대상으로 빈도 분석을 통해 허위·과장광고의 최빈 키워드와 추출된 키워드 간의 맥락을 확인하고자 하였다. 다음으로 허위·과장광고가 어떻게 변화해왔는지에 대해 고찰하기 위해 10년 단위로 기사를 분리하여 빈도 분석을 수행하였고, 연도별 최빈 키워드를 주제로 한학술논문 수와 비교하여 해당 시기에 이슈가 된 키워드가 연구로까지 이어진 경향성을 파악하였다. 마지막으로 토픽모델링 분석을 통해 토픽 내 세부 키워드를 바탕으로 허위·과장광고의 동향을 제시하였다. 연구 결과, 특정 시점에 이슈가 되었던 주제가 최빈 키워드로 추출되었고 시대별 키워드 트렌드는 사회적, 환경적 요인과 연관되어 변화함을 확인하였다. 본 연구는 소비자들이 부당광고에 대한 배경지식을 함양함으로써 현명한 소비를 이어 나갈 수 있도록 도움을 주는 데 의의가 있다. 더욱이 핵심 키워드 추출을 통해 위법행위를 저지른 기업 및 관련 종사자들에게 광고의 참된 목적을 제시하고, 시사점을 전달할 수 있을 것이라 기대한다.

빅데이터 분석도구 R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석 (Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R)

  • 반재훈;하종수;김동현
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.166-171
    • /
    • 2020
  • 데이터를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있으며 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. 성경 중에서 신약성경의 4복음서의 데이터를 분석한다. 먼저 성경데이터를 수집하고 분석을 위한 필터링을 수행한다. 이후 R을 이용하여 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행하며 정확한 데이터의 분석을 위해 한 문장에서 나오는 단어들을 쌍으로 표현하고 단어 간의 관계성을 분석하는 소셜 네트워크 분석을 통해 성경을 분석한다.

텍스트 마이닝을 이용한 리빙랩 연구동향 분석 (Research Trend Analysis on Living Lab Using Text Mining)

  • 김성묵;김영준
    • 디지털융복합연구
    • /
    • 제18권8호
    • /
    • pp.37-48
    • /
    • 2020
  • 본 연구는 텍스트 마이닝을 활용하여 리빙랩 연구의 동향을 파악하고 연구 방향 정립에 필요한 함의를 도출하고자 하였다. 리빙랩 관련 연구가 발표되기 시작한 2011년부터 2019년 11월까지의 논문 166편의 키워드와 초록을 대상으로 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 키워드 중 혁신, 지역, 사회, 기술, 스마트시티 등의 출현빈도가 높았고, 중심도 분석결과 현재까지 리빙랩 연구가 혁신, 사회, 기술, 개발, 사용자 등의 키워드를 중심으로 이루어짐을 파악하였다. 토픽 모델링 결과 지역혁신과 사용자지원, 정부 사회정책사업, 스마트시티 플랫폼구축, 기업기술혁신모델 및 시스템전환 참여 등 5개 토픽을 추출하였으며 토픽을 이어주는 키워드는 혁신, 기술, 사용자, 참여인것으로 분석하였다. 2017년 KNoLL 출범 후 토픽별 비중은 고른 분포로 연구 주제가 다양화됨을 확인하였다. 텍스트마이닝을 이용한 리빙랩 연구동향 분석과 방향 제시는 연구와 정책방향 수립에 유용한 자료를 제공할 수 있다.

텍스트 내용분석 방법을 적용한 소프트웨어 교육 요구조사 분석: A대학을 중심으로 (The Study on the Software Educational Needs by Applying Text Content Analysis Method: The Case of the A University)

  • 박금주
    • 한국산학기술학회논문지
    • /
    • 제20권3호
    • /
    • pp.65-70
    • /
    • 2019
  • 본 연구는 대학생을 대상으로 시행되고 있는 소프트웨어 교육의 강의평가결과에 대해 텍스트 내용분석 방법을 적용하여 수강생의 요구사항을 파악하고 개선방안을 도출하는 데 목적이 있다. 연구방법은 텍스트 내용분석 프로그램을 활용해 단어출현빈도, 핵심단어 선정, 핵심단어의 공출현빈도를 산출하고, 네트워크 분석 프로그램을 활용해 텍스트 중앙성 분석, 네트워크 분석을 실시하였다. 연구결과, 소프트웨어 교육의 좋은 점 네트워크는 '교수님'에 대한 언급이 가장 많고 '친절', '학생', '설명', '코딩'과 함께 언급되고 있다. 개선점 네트워크는 '강의'에 대한 언급이 가장 많고 '좋겠다', '학생', '교수님', '과제', '코딩', '어려운', '발표'가 함께 언급되었다. 좋은 점과 개선점에 대한 네트워크 비교 분석에서 공통으로 언급된 핵심 단어 중 조별(활동), 과제, 수업의 난이도, 교수자에 대한 생각에서 차이를 보였다. 이러한 생각 차이는 강의평가 내용을 통해, 개별 조원의 적절한 역할 부족, 어렵고 과다한 과제, 소프트웨어 교육의 난이도와 필요성에 대한 인식, 교수자의 수업방식과 피드백의 부족을 확인할 수 있었다. 따라서, 소프트웨어 교육의 조별(활동)과 과제부여가 어떻게 이루어지고 있는지 살펴보고 강의내용과 교수방법, 실습과 디자인 싱킹을 다루는 비율에 대한 점검이 필요하다.

텍스트 마이닝과 빅카인즈를 활용한 노인장기요양기관 부당청구 동향 분석 (Trend Analysis of Fraudulent Claims by Long Term Care Institutions for the Elderly using Text Mining and BIGKinds)

  • 윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.13-24
    • /
    • 2022
  • 본 연구는 우리나라에서 매년 증가하고 있는 노인장기요양기관의 부당청구 맥락과 부당청구 예방을 위한 대책들이 어떠한지를 탐색하기 위해서 언론기사를 활용한 텍스트 마이닝 분석을 실시하였다. 기사는 뉴스 빅테이터 분석 시스템인 빅카인즈에서 수집하였고, 수집기간은 노인장기요양보험이 시행된 2008년 7월부터 2022년 2월 28일까지로 약 15년간이다. 이 기간 동안 '노인요양+부당청구', '장기요양+부당청구', 등의 키워드로 총 2,627개의 기사가 수집되었고, 이중 중복된 기사를 제외한 총 946개가 선정되었다. 본 연구의 텍스트마이닝 분석결과로 첫째, 모든 구간(2008.7.1-2022.2.28)에서 가장 높은 빈도로 언급된 상위 10위 키워드는 노인장기요양기관, 부당청구, 국민건강보험공단, 노인장기요양보험, 장기요양급여(비용), 노인요양시설, 보건복지부, 노인, 신고, 포상금(지급)의 순으로 나타났다. 둘째, N-gram 분석결과 장기요양급여(비용)과 부당청구, 부당청구와 노인장기요양기관, 허위와 부당청구, 신고와 포상금(지급), 노인장기요양기관과 신고 등의 순으로 나타났다. 셋째, TF-IDF 분석은 빈도분석의 결과와 유사하게 나타났지만, 신고, 포상금(지급), 증가 등은 순위가 상승하였다. 상기 분석결과를 바탕으로 노인장기요양기관 부당청구 예방을 위한 방향성을 제시하였다.

토픽모델링을 이용한 국내 패션디자인 연구동향 분석 (Research Trend Analysis in Fashion Design Studies in Korea using Topic Modeling)

  • 장남경;김민정
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.415-423
    • /
    • 2017
  • 본 연구는 국내 패션 디자인 분야의 연구동향을 파악하기 위해 패션 디자인 분야에 초점을 맞춘 국내 대표적인 학술지인 "한국패션디자인학회지"의 2001년 창간호부터 2015년까지 발표 논문의 주제어와 초록을 수집하여 텍스트 마이닝과 토픽모델링 기법을 수행하였다. 우선 텍스트 마이닝을 통해 총 338편 논문의 주제어와 초록에 사용된 7137개 단어 중 30회 이상의 출현빈도를 가지는 183개의 핵심 용어들을 도출하였다. 그 중 압도적으로 높은 빈도를 보인 핵심 용어는 'fashion'과 'design'이었다. 다음으로 토픽모델링 기법 중 LDA 알고리즘을 사용하여 20개의 연구주제를 도출하였는데 대부분 기존 패션 디자인 분야의 연구주제와 연결할 수 있었지만 패션 브랜드 마케팅 및 디지털 기술 등 최신 트렌드를 반영한 다양한 연구주제들이 추가적으로 발견되었다. 마지막으로 연구주제별로 연도별 트렌드 분석을 통해 상승세와 하강세에 있는 연구주제를 구분하였다. 이러한 국내 패션 디자인 분야의 연구주제 및 트렌드 추이 파악은 지금까지의 국내패션 디자인 연구 내용과 향후 방향성을 이해하는데 유용할 것이다.