DOI QR코드

DOI QR Code

Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (2)

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (2)

  • Joo, J.S. (Korea National College of Agriculture and Fisheries) ;
  • Lee, S.Y. (Department of Agriculture and Fisheries Business, Korea National College of Agriculture and Fisheries) ;
  • Kim, J.S. (Department of Agriculture and Fisheries Business, Korea National College of Agriculture and Fisheries) ;
  • Shin, Y.K. (Department of Agriculture and Fisheries Business, Korea National College of Agriculture and Fisheries) ;
  • Park, N.B. (Department of Floriculture, Korea National College of Agriculture and Fisheries)
  • 주진수 (국립한국농수산대학 농어업.농어촌연구소) ;
  • 이소영 (국립한국농수산대학 농수산비지니스학과) ;
  • 김종숙 (국립한국농수산대학 농수산비지니스학과) ;
  • 신용광 (국립한국농수산대학 농수산비지니스학과) ;
  • 박노복 (국립한국농수산대학 화훼학과)
  • Received : 2020.10.30
  • Accepted : 2020.12.03
  • Published : 2020.12.28

Abstract

In this study we examined the topic analysis and correlation analysis by text mining from the self introduction letter of freshman at Korea National College of Agriculture and Fisheries(KNCAF) in 2020. The analysis items of the 3rd question were and the 4th question were the motivation for applying to college, the academic plan and the career plan. The text mining to the 3rd question showed that the frequency of 'friends' was overwhelmingly high, followed by keywords such as 'thought', 'time', 'opinion', 'activity', and 'club'. In the 4th question, keyword frequency such as 'thought', 'agriculture', 'KNCAF', 'farm', 'father' was high. The result of association rules analysis for each question showed that the relationship with the highest support level, which means the frequency and importance of the rule, was the {friend} <=> {thought}, {thought} <=> {KNCAF}. The confidence level of a correlation between keywords was the highest in the rules of {teacher}=>{friend}, {agriculture, KNCAF}=>{thought}. Also the lift level that indicates the closeness of two words was the highest in the rules of {friend} <=> {teacher}, {knowledge} <=> {professional}. These keywords are found to play a very important roles in analyzing betweenness centrality and analyzing degree centrality between keywords. The results of frequency analysis and association analysis were visualized with word cloud and correlation graphs to make it easier to understand all the results.

본 연구는 2020년 한농대 입학생의 자소서에 서술된 학생들의 다양한 교내외 활동, 대학 지원 동기, 학업계획 및 향후 영농·영어계획 등의 텍스트 데이터를 대상으로 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 텍스트 마이닝 결과에서 문항 3의 동아리 활동을 비롯한 다양한 활동 사례와 그 과정에서 배우고 느낀 점에 대한 키워드는 '친구' 빈도가 압도적으로 높았으며, '생각', '시간', '의견', '활동', '사람', '학교', '선생님', '학생', '동아리' 등의 키워드 순으로 많이 사용되었다. 문항 4의 대학 지원동기 및 졸업 후 진로계획에 대한 서술 데이터에는 '생각', '농업', '한농대', '농장', '지식', '공부', '사람', '관심', '전문', '아버지' 등의 키워드 빈도가 높게 나타났으며, 이 가운데 '아버지', '한농대', '전문', '농장' 등의 키워드는 다른 질문에 비하여 상위에 나타나는 특징을 보였다. 연관규칙 분석 결과에서 키워드 간 규칙의 발생 빈도이자 중요성을 나타내는 지지도는 문항 3에서 {친구} <=> {생각}, 문항 4에서 {생각} <=> {한국농수산대학} 규칙에서 가장 높게 나타났다. 두 단어 사이 연관성을 나타내는 신뢰도는 문항 3에서 {선생님} => {친구}, 문항 4에서 {농업, 한국농수산대학} => {생각}에서 높게 나타났다. 두 단어 간 밀접성을 나타내는 향상도는 문항 3에서 {친구} <=> {선생님}, 문항 4에서 {지식} <=> {전문}에서 높게 나타났다. 즉 두 단어는 우연히 함께 사용되지 않고 한 단어가 나타나면 뒤에 반드시 나머지 단어가 사용되었다는 것을 의미한다. 또한 키워드 간의 매개체 역할의 분석, 즉 키워드들 사이에 최단 경로를 파악하는 관계 중심성 분석과 연결 edge 수를 평가하는 연결 중심성 분석에서 문항 3은 '친구', '생각', '학교', '시간' 및 '사람', 문항 4는 '생각', '한국농수산대학', '지식' 및 '지원' 등의 키워드의 중심성이 매우 높은 결과를 나타냈다.

Keywords

References

  1. 김경태, 안정국, 김동현. (2018). 빅 데이터 활용서 (I). 시대인.
  2. 김영우. (2017). 쉽게 배우는 R 데이터 분석, 이지스퍼블리싱.
  3. 나종화. (2017). R 데이터마이닝, 자유아카데미.
  4. 남길임, 조은영. (2017). 한국어 텍스트 감성분석, 커뮤니케이션북스.
  5. 조민호. (2019). 데이터 분석 전문가를 위한 R 데이터 분석. 정보문화사.
  6. 주진수 외 3인. (2018). 한국농수산대학 졸업생 영농정착 성공 사례집의 Text Mining. 현장농수산연구지 Vol. 20, No.2: 57-72.
  7. 주진수 외 5인. (2019). 비정형 데이터 마이닝을 활용한 한국농수산대학 재학생의 학교생활감성 분석(1). 현장농수산연구지 Vol. 21(1), No.1: 99-114.
  8. 주진수 외 5인. (2020). 한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙분석 (1). 현장농수산연구지 Vol. 22(1), No.1: 113-130.
  9. https://is-this-it.tistory.com/39
  10. https://magician-of-c.tistory.com/23
  11. https://needjarvis.tistory.com/59
  12. https://tour-analyst.tistory.com/3
  13. https://r-pyomega.tistory.com/18