• 제목/요약/키워드: 빈도 기반 텍스트 분석

검색결과 107건 처리시간 0.025초

텍스트 마이닝을 이용한 국가 물관리 정책 변화 시점별 수문조사사업의 방향 분석 (How National Water Management Plans lead Hydrological Survey Projects?)

  • 김찬우;김민국;고정환;한승원;최인재;현동호;박석근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.429-429
    • /
    • 2023
  • 우리나라의 물 관련 정책 방향이 환경 중심의 수자원 관리에서 친수공간 및 정보의 확보와 같은 안전한 물관리로 확대되면서 정책추진에 기초가 될 수 있는 신뢰도 높은 수문자료의 생산이 보다 중요시되고 있다. 국가 수문조사사업은 이러한 정책기조에 맞춰 제도적인 뒷받침과 함께 조사의 범위와 기술, 품질관리 등의 영역을 넓히며 그 기능을 활발히 하고 있으나, 물관리 정책의 경향에 따른 수문조사사업의 방향성과 특징을 구조적으로 살펴본 연구는 부족한 것으로 파악된다. 따라서 본 연구는 친수·친환경적 물관리가 강조된 시기('97~현재)를 중점으로 하여 물관리 정책과 관련 계획의 변화가 수문조사사업에 어떠한 영향을 주는지 고찰하였다. 이를 위해 물관리 여건의 변화에 따라 달라진 관련 정책별 주제어의 분포와 수문조사사업과 연관된 주요어의 출현빈도 및 경향을 살펴보고, 주요 연관어와 연계한 사업의 방향과 구조를 분석하였다. 분석자료로는 물관리 관련 법령 등의 제도와 언론기사자료, 정책별 추진방향을 활용하였다. 정책의 추진방향은 1) 수자원의 종합적 개발에서 친환경적 측면과 지속가능성이 강조된 수자원장기종합계획(3-1차~4-3차)과 2) 사람과 자연이 함께 고려된 맑고 안전한 물, 통합물관리 등의 전략이 수록된 국가물관리기본계획(1차), 3) 정책의 기조에 따라 수립 및 보완된 수문조사 기본계획(1~2차)을 바탕으로 하였다. R프로그램을 통한 텍스트 마이닝을 활용하여 각 자료에서의 주제어 분포와 출현빈도를 분석하고, 정책별 추진방향과 수문조사사업의 연계성을 나타내었다. 연구의 함의를 담은 결과로서 물관리 여건이 변화된 시점별 주요연관어를 중심으로 한 정책동향과 수문조사사업의 특징 및 방향을 요약·비교하여 제시하였으며, 이는 물관리 분야에서의 국정운영 목표와 연계하여 국가 수문조사사업의 사업성을 고찰하는 연구의 기반이 될 수 있으리라 생각된다.

  • PDF

텍스트마이닝을 이용한 건설공사 위험요소의 계절별 중요도 분석 (Analysis of Seasonal Importance of Construction Hazards Using Text Mining)

  • 박기창;김형관
    • 대한토목학회논문집
    • /
    • 제41권3호
    • /
    • pp.305-316
    • /
    • 2021
  • 건설사고는 근로자의 부주의, 안전장비 미착용, 안전규칙 미준수 등 다양한 요인이 복합적으로 작용해 발생할 수 있다. 건설사고를 유발하는 여러 요인 중 야외작업이 많은 건설업의 특성상 기상 조건은 건설사고 발생 요인 중 하나가 될 수 있다. 과거 발생한 건설사고 데이터는 사고예방을 위한 좋은 자료로 활용될 수 있지만, 건설업 재해사례 데이터는 자연어로 기술된 텍스트형태로 제공되기 때문에 건설업 재해사례 데이터에서 건설공사 위험요소(Hazard)를 추출하는 것은 많은 시간과 비용이 발생한다. 따라서, 본 연구에서는 텍스트마이닝을 이용해 국내에서 발생한 2,026건의 건설업 재해사례 텍스트데이터에서 건설공사 위험요소를 추출하고 빈도 분석(Frequency analysis)과 중심성 분석(Centrality analysis)을 통해 건설공사 위험요소의 계절별 중요도분석을 수행했다. 국토교통부에서 정의한 254개 건설공사 위험요소 중 51개 위험요소를 건설사고 텍스트데이터에서 추출했으며, 분석결과 봄, 가을은 거푸집, 여름은 비계, 겨울은 크레인이 계절별 가장 중요한 위험요소로 나타났다. 제안방법은 날씨, 계절, 기후 관련 건설사고 안전대책 마련에 활용될 수 있다.

텍스트마이닝을 활용한 교통영향평가 교통개선대책 분석 : 경기도 도시개발사업을 대상으로 (Analysis of Traffic Improvement Measures in Transportation Impact Assessment Using Text Mining : Focusing on City Development Projects in Gyeonggi Province)

  • 양은혜;강희찬;안우영
    • 한국ITS학회 논문지
    • /
    • 제22권2호
    • /
    • pp.182-194
    • /
    • 2023
  • 교통영향평가는 도시·교통 사업 시행 시에 발생할 수 있는 교통문제를 사전에 해결하는 주요한 역할을 하는 제도이지만 사업의 특성을 고려한 작성 지침과 명확한 심의 기준이 없어 심의 결과의 일관성이 떨어지는 문제점이 있다. 본 연구에서는 교통영향평가에서 심의 의결된 교통개선대책을 분석하여 심의 결과의 핵심 키워드를 찾고 교통영향평가에서 주요하게 검토해야 하는 항목을 제시하고자 한다. 이를 위해 경기도에서 심의 의결된 도시개발사업의 교통개선대책을 중심으로 TF-IDF 및 N-gram 분석을 활용한 텍스트마이닝을 하였다. 도시개발사업에 주요하게 고려되는 사항은 도로, 교차로 등 교통 기반시설의 신설이 주요한 키워드였으며 다음으로 진출입구 위치 설정, 보행 동선 연결이 주요한 사항이었다. 향후 교통영향평가 지침과 심의 기준 마련 시 본 연구에서 제시한 주요 항목을 반영함으로써, 교통영향평가의 일관성과 객관성을 높이는 심의 운영에 이용할 수 있을 것으로 기대한다.

은닉형 Vault 안티포렌식 앱 탐색을 위한 XML 기반 특징점 추출 방법론 연구 (A Study on the Feature Point Extraction Methodology based on XML for Searching Hidden Vault Anti-Forensics Apps)

  • 김대규;김창수
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.61-70
    • /
    • 2022
  • 스마트폰 앱을 사용하는 일반 사용자들은 개인이 소유하고 있는 사진, 동영상 등 개인정보를 보호하기 위해 Vault 앱을 많이 사용하고 있다. 그러나 범죄자들은 불법 영상들을 은닉하기 위해 Vault 앱 기능을 안티포렌식 용도로 악용하는 사례가 증가하고 있다. 이러한 앱들은 구글 플레이에 정상적으로 등록된 매우 많은 앱들 중 하나이다. 본 연구는 범죄자들이 이용하고 있는 Vault 앱들을 탐색하기 위해 XML 기반의 핵심어 빈도 분석을 통해 특징점을 추출하는 방법론을 제안하며, 특징점 추출을 위해서는 텍스트마이닝 기법을 적용한다. 본 연구에서는 은닉형 Vault 안티포렌식 앱과 비은닉형 Vault 앱 각각 15개를 대상으로 앱에 포함된 strings.xml 파일을 활용하여 XML 구문을 비교 분석하였다. 은닉형 Vault 안티포렌식 앱에서는 불용어처리를 1차, 2차 거듭할수록 더 많은 은닉 관련 단어가 높은 빈도로 발견된다. 본 연구는 공학 기술적인 관점에서 APK 파일을 정적 분석하는 대부분의 기존 방식과는 다르게 인문사회학적인 관점에서 접근하여 안티포렌식 앱을 분류해내는 특징점을 찾아내었다는 것에 의의가 있다. 결론적으로 XML 구문 분석을 통해 텍스트마이닝 기법을 적용하면 은닉형 Vault 안티포렌식 앱을 탐색하기 위한 기초 자료로 활용할 수 있다.

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

Development of big data based Skin Care Information System SCIS for skin condition diagnosis and management

  • Kim, Hyung-Hoon;Cho, Jeong-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.137-147
    • /
    • 2022
  • 피부상태의 진단과 관리는 뷰티산업종사자와 화장품산업종사자에게 그 역할을 수행함에 있어서 매우 기초적이며 중요한 기능이다. 정확한 피부상태 진단과 관리를 위해서는 고객의 피부상태와 요구사항을 잘 파악하는 것이 필요하다. 본 논문에서는 피부상태 진단 및 관리를 위해 소셜미디어의 빅데이터를 사용하여 피부상태 진단 및 관리를 지원하는 빅데이터기반 피부관리정보시스템 SCIS를 개발하였다. 개발된 시스템을 사용하여 텍스트 정보 중심의 피부상태 진단과 관리를 위한 핵심 정보를 분석하고 추출할 수 있다. 본 논문에서 개발된 피부관리정보시스템 SCIS는 빅데이터 수집단계, 텍스트전처리단계, 이미지전처리단계, 텍스트단어분석단계로 구성되어 있다. SCIS는 피부진단 및 관리에 필요한 빅데이터를 수집하고, 텍스트 정보를 대상으로 핵심단어의 단순빈도분석, 상대빈도분석, 동시출현분석, 상관성분석을 통해 핵심단어 및 주제를 추출하였다. 또한 추출된 핵심단어 및 정보를 분석하고 산포도, NetworkX, t-SNE 및 클러스터링 등의 다양한 시각화 처리를 함으로써 피부상태 진단 및 관리에 있어 이를 효율적으로 사용할 수 있도록 하였다.

빅데이터 분석을 통한 행정구역별 홍수 취약성 분석 (An Analysis of Flood Vulnerability by Administrative Region through Big Data Analysis)

  • 유영욱;성연정;박태경;정영훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.193-193
    • /
    • 2021
  • 전 세계적으로 기후변화가 지속되면서 그에 따른 자연재난의 강도와 발생 빈도가 증가하고 있다. 자연재난의 발생 유형 중 집중호우와 태풍으로 인한 수문학적 재난이 대부분을 차지하고 있으며, 홍수피해는 지역적 수문학적 특성에 따라 피해의 규모와 범위가 달라지는 경향을 보인다. 이러한 이질적인 피해를 관리하기 위해서는 많은 홍수피해 정보를 수집하는 것이 필연적이다. 정보화 시대인 요즘 방대한 양의 데이터가 발생하면서 '빅데이터', '머신러닝', '인공지능'과 같은 말들이 다양한 분야에서 주목을 받고 있다. 홍수피해 정보에 대해서도 과거 국가에서 발간하는 정보외에 인터넷에는 뉴스기사나 SNS 등 미디어를 통하여 수많은 정보들이 생성되고 있다. 이러한 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원이 될 것이며, 홍수대비책으로 활용될 소중한 정보가 될 수 있다. 본 연구는 인터넷기반으로 한 홍수피해 현상 조사를 통해 홍수피해 규모에 따라 발생하는 홍수피해 현상을 파악하고자 하였다. 이를 위해 과거에 발생한 홍수피해 사례를 조사하여 강우량, 홍수피해 현상 등 홍수피해 관련 정보를 조사하였다. 홍수피해 현상은 뉴스기사나 보고서 등 미디어 정보를 활용하여 수집하였으며, 수집된 비정형 형태의 텍스트 데이터를 '텍스트 마이닝(Text Mining)' 기법을 이용하여 데이터를 정형화 및 주요 홍수피해 현상 키워드를 추출하여 데이터를 수치화하여 표현하였다.

  • PDF

텍스트 마이닝과 네트워크 이론을 활용한 권역별 국가하천 점용허가 키워드 분석 (Analysis of Keywords in national river occupancy permits by region using text mining and network theory)

  • 정성윤
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.185-197
    • /
    • 2023
  • 점용허가 정보를 기록하는 단순 용도로만 사용되고 있는 허가 대장에서 허가 내용에 내재한 점용 신청과 허가업무 수행에 유용한 정보를 추출하기 위해 텍스트 마이닝과 네트워크 이론을 활용하여 본 연구를 진행하였다. 텍스트 마이닝 기반으로 불용어 제거와 형태소 분석 등 정규화 과정을 비롯하여 서울·경기, 경상, 전라, 충청, 강원 등 5개 권역별로 어휘 출현 빈도와 토픽 모델링을 분석, 비교하였다. 네트워크 이론에 가정 많이 사용되는 단계, 근접, 매개 및 고유벡터 등 4종의 중심성 알고리즘을 적용하여 네트워크에서 중심적인 위치에 있거나 중간 매개체 역할을 하는 키워드를 살펴보았다. 이러한 어휘 출현 빈도, 토픽 모델링 및 네트워크 중심성을 종합적으로 분석하여 모든 권역에서 '설치' 키워드가 가장 영향력이 큰 것을 알 수 있었다. 이는 환경부의 허가관리청에서는 시설물을 건설하거나 공작물을 설치하는 허가가 많아서 나타난 결과라고 판단된다. 또한, 도로 시설, 치수 시설, 지하 매설 시설, 전력·통신 시설, 체육·공원 시설 등과 연관된 키워드가 토픽 모델링과 네트워크에서 중심적 위치에 있거나 중간 매개체의 역할을 하는 것을 알 수 있었다. 키워드 대부분은 출현 빈도와 분포 비율이 낮은 짚프의 원칙(Zipf' Law)의 통계분포 형태를 보이는 것으로 보였다.

빅데이터 분석도구 R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석 (Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R)

  • 반재훈;하종수;김동현
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.166-171
    • /
    • 2020
  • 데이터를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있으며 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. 성경 중에서 신약성경의 4복음서의 데이터를 분석한다. 먼저 성경데이터를 수집하고 분석을 위한 필터링을 수행한다. 이후 R을 이용하여 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행하며 정확한 데이터의 분석을 위해 한 문장에서 나오는 단어들을 쌍으로 표현하고 단어 간의 관계성을 분석하는 소셜 네트워크 분석을 통해 성경을 분석한다.

소셜 미디어 오피니언 마이닝에 기반한 기업의 위기관리에 관한 연구 (A Study on Social media Opinion Mining based Enterprise Crisis Management)

  • 차승준;강재우;최재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.142-144
    • /
    • 2012
  • 소셜 미디어가 확산되고 사용자가 증가하면서, 사용자들은 소셜 미디어를 통해 의견을 공유한다. 소셜 미디어는 실시간 정보에 대한 전달이 빠르며 데이터를 수집, 분석할 수 있다. 오피니언 마이닝은 텍스트로부터 사용자의 의견이 포함된 패턴을 추출하여 특정 제품이나 서비스에 대한 의견의 긍정, 부정 표현의 정도를 측정한다. 본 논문에서는 오피니언 마이닝을 기반으로 소셜 미디어 데이터에서 기업의 제품, 서비스와 관련된 사용자의 의견을 분석하여 긍정, 부정인지를 판단한다. 그리고 부정 패턴의 빈도를 통해 기업의 위기 상황을 인지하며, 위기 대응을 위한 4단계의 위기관리 모델을 제시한다. 또한 소셜 미디어에서 기업의 위기관리 사례를 확인하고, 표본조사를 통하여 평가 및 분석을 수행한다. 이 모델을 이용하여 방대한 소셜 미디어 데이터에서 기업의 제품이나 서비스에 대한 부정적 의견을 초기에 감지하고, 체계적으로 대응 할 수 있다.