• 제목/요약/키워드: mathematics and science

검색결과 5,151건 처리시간 0.023초

언어네트워크분석을 활용한 한국농수산대학 신입생 자기소개서 분석 - TF-IDF 분석을 기초로 - (Analyzing Self-Introduction Letter of Freshmen at Korea National College of Agricultural and Fisheries by Using Semantic Network Analysis : Based on TF-IDF Analysis)

  • 주진수;이소영;김종숙;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권1호
    • /
    • pp.89-104
    • /
    • 2021
  • 비정형 데이터인 한국농수산대학 신입생 자기소개서에서 의미 있는 정보를 추출하기 위하여 핵심적인 역할을 하는 단어의 중요도를 평가하는 TF-IDF 가중치를 기초로 한 언어네트워크분석을 하였다. TF-IDF 가중치에 의한 핵심단어는 문항 1에서는 '농업', '수학', '공부', '문제', '친구', 문항 2에서는 '동아리', '식물', '친구', '농업', '작물', 문항 3에서는 '친구', '동아리', '의견', '갈등', '관리', 문항 4에서는 '버섯', '곤충', '아버지', '농업', '농장' 등으로 나타났다. 또한 빈도수는 낮은 단어이지만 핵심단어로 나타난 단어를 보면 문항 1에서는 '수학', '자격증', '성적', '영어', '과학', 문항 2에서는 '식물', '작물', '공부', '쓰레기', '발표', '실험', 문항 3에서는 '동아리', '청소', '봉사', '갈등', '봉사활동', 문항 4에서는 '버섯', '곤충', '양식', '한우', '조경' 등으로 나타났다. 단어들 간의 관계를 시각적으로 분석이 가능한 언어네트워크분석 결과 매개중심성이 높은 단어는 문항 1에서는 '이유', '고등학교', '재학', 문항 2에서는 '쓰레기', '고등학교', '학교', 문항 3에서는 '중요', '오해', '완성', 문항 4에서는 '가공', '사료', '농가'로 나타났다. 연결정도중심성은 문항 1에서는 '고등학교', '탐구', '성적', 문항 2에서는 '쓰레기', '정리', '수업시간', 문항 3에서는 '의견', '회의', '봉사활동', 문항 4에서는 '가공', '공간', '실습'으로 나타났다. 매개중심성 값이 클수록 네트워크의 중앙에 위치하고, 두 범주 사이의 관계가 강할수록 서로 근거리에 위치한다. 연결정도중심성이 클수록 노드의 크기가 크게 나타나며, 노드 연결선은 단어들의 동시 출현 빈도가 높을수록 edge가 굵게 나타났다. 동시 출현 빈도가 높은 즉 상관관계가 높은 단어 조합은 '자격증 - 취득', '문제 - 해결', '과학 - 생명', '오해 - 양보' 등으로 나타났다. 단어 기반의 계층적 클러스터링 기법에 의하여 단어 간 인접, 상호 관계를 계층적으로 나타낸 클러스터 덴드로그램으로 군집의 개수를 결정하였다. 단어들의 군집 간 비유사도의 차이가 큰 군집을 구한 결과 문항 1은 2개, 문항 2와 문항 4는 4개, 문항 3은 5개의 군집으로 분류할 경우 군집내 응집력이 높고, 군집 간 이질성이 큰 적절한 군집을 구할 수 있었다.