DOI QR코드

DOI QR Code

Analysis of Keywords in national river occupancy permits by region using text mining and network theory

텍스트 마이닝과 네트워크 이론을 활용한 권역별 국가하천 점용허가 키워드 분석

  • 정성윤 (한국건설기술연구원 미래스마트건설연구본부)
  • Received : 2023.10.03
  • Accepted : 2023.11.20
  • Published : 2023.12.29

Abstract

This study was conducted using text mining and network theory to extract useful information for application for occupancy and performance of permit tasks contained in the permit contents from the permit register, which is used only for the simple purpose of recording occupancy permit information. Based on text mining, we analyzed and compared the frequency of vocabulary occurrence and topic modeling in five regions, including Seoul, Gyeonggi, Gyeongsang, Jeolla, Chungcheong, and Gangwon, as well as normalization processes such as stopword removal and morpheme analysis. By applying four types of centrality algorithms, including stage, proximity, mediation, and eigenvector, which are widely used in network theory, we looked at keywords that are in a central position or act as an intermediary in the network. Through a comprehensive analysis of vocabulary appearance frequency, topic modeling, and network centrality, it was found that the 'installation' keyword was the most influential in all regions. This is believed to be the result of the Ministry of Environment's permit management office issuing many permits for constructing facilities or installing structures. In addition, it was found that keywords related to road facilities, flood control facilities, underground facilities, power/communication facilities, sports/park facilities, etc. were at a central position or played a role as an intermediary in topic modeling and networks. Most of the keywords appeared to have a Zipf's law statistical distribution with low frequency of occurrence and low distribution ratio.

점용허가 정보를 기록하는 단순 용도로만 사용되고 있는 허가 대장에서 허가 내용에 내재한 점용 신청과 허가업무 수행에 유용한 정보를 추출하기 위해 텍스트 마이닝과 네트워크 이론을 활용하여 본 연구를 진행하였다. 텍스트 마이닝 기반으로 불용어 제거와 형태소 분석 등 정규화 과정을 비롯하여 서울·경기, 경상, 전라, 충청, 강원 등 5개 권역별로 어휘 출현 빈도와 토픽 모델링을 분석, 비교하였다. 네트워크 이론에 가정 많이 사용되는 단계, 근접, 매개 및 고유벡터 등 4종의 중심성 알고리즘을 적용하여 네트워크에서 중심적인 위치에 있거나 중간 매개체 역할을 하는 키워드를 살펴보았다. 이러한 어휘 출현 빈도, 토픽 모델링 및 네트워크 중심성을 종합적으로 분석하여 모든 권역에서 '설치' 키워드가 가장 영향력이 큰 것을 알 수 있었다. 이는 환경부의 허가관리청에서는 시설물을 건설하거나 공작물을 설치하는 허가가 많아서 나타난 결과라고 판단된다. 또한, 도로 시설, 치수 시설, 지하 매설 시설, 전력·통신 시설, 체육·공원 시설 등과 연관된 키워드가 토픽 모델링과 네트워크에서 중심적 위치에 있거나 중간 매개체의 역할을 하는 것을 알 수 있었다. 키워드 대부분은 출현 빈도와 분포 비율이 낮은 짚프의 원칙(Zipf' Law)의 통계분포 형태를 보이는 것으로 보였다.

Keywords

Acknowledgement

이 논문은 2023년도 정부(국토교통부)의 출연금으로 한국건설기술연구원이 수행한 "23 건설사업정보시스템 운영 및 기능개선" 과제의 연구임

References

  1. Derek L. Hansen, Ben Shneiderman, Marc A. Smith, "노드엑셀을 이용한 소셜미디어 네트워크 분석," 컴원미디어, 2019년 
  2. 김태령, "네트워크 중심성 분석," 사이람교육자료, 36-37쪽, 2022년 
  3. 정성윤, "국가하천 점용 콘텐츠에 대한 연관어 분석," 한국산학기술학회논문지, 제23권, 제2호, 203-212쪽 2022년  https://doi.org/10.5762/KAIS.2022.23.2.203
  4. 이정원.이강원, "네트워크 중심성 지표를 이용한 서울 수도권 지하철망 특성 분석," 한국철도학회논문집, 제20권, 제3호, 413-422쪽, 2017년  https://doi.org/10.7782/JKSR.2017.20.3.413
  5. 최정묵, "중심성지수를 이용한 행정학.정책학 관련 학술지의 상호인용 네트워크 분석," 디지털융복합 연구, 제14권, 제9호, 301-308쪽, 2016년  https://doi.org/10.14400/JDC.2016.14.9.301
  6. 이택균, "키워드 빈도와 중심성 분석에 기반한 사물인터넷 국내 연구 동향," 한국콘텐츠학회논문지, 제20권, 제12호, 23-35쪽, 2020년  https://doi.org/10.5392/JKCA.2020.20.12.023
  7. 정철우, 김재준, "텍스트마이닝을 활용한 건설분야 트랜드 분석," 한국디지털건축&인테리어학회논문집, 제12권, 제2호, 53-60쪽, 2012년 
  8. 박건철, 이치형, "토픽 모델링을 활용한 스마트시티 연구동향 분석," 인터넷정보학회논문지, 제20권, 제3호, 119-128쪽, 2019년  https://doi.org/10.7472/JKSII.2019.20.3.119
  9. 오준석, "텍스트마이닝 방법을 통한 국내 교통.ICT 융합 분야 연구기회 발견," 교통연구, 제22권, 제4호, 93-110쪽, 2015년  https://doi.org/10.34143/JTR.2015.22.4.93
  10. 임병학, 전희주, "항만의 사회 네트워크가 물동량에 미치는 영향에 대한 연구," POSRI경영경제연구, 제11권, 제3호, 289-307쪽, 2011년 
  11. 길호현, "읽기 지문 텍스트의 주제 중심성 유형 연구," 청람어문교육학회, 제74권, 제74호, 39-60쪽, 2020년 
  12. 문영주, "토픽모델링과 언어 네트워크 분석을 활용한 교장공모제 관련 연구동향 분석," 교육문화연구, 제26권, 제1호, 217-242쪽 2020년  https://doi.org/10.24159/JOEC.2020.26.1.217
  13. G. K. Zipf, Zipf' Law [Internet] Wikipedia, Avail able From: https://ko.wikipedia.org/wiki/%EC%A7%80%ED%94%84%EC%9D%98_%EB%B2%95%EC%B9%99 (accessed Oct., 1, 2023).