• 제목/요약/키워드: 자연어분석

검색결과 552건 처리시간 0.031초

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

온라인 과학 기사 텍스트 마이닝을 통해 분석한 에너지 용어 사용의 맥락 (Analyzing Different Contexts for Energy Terms through Text Mining of Online Science News Articles)

  • 오치영;강남화
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.292-303
    • /
    • 2021
  • 본 연구에서는 일상생활에서 에너지 용어가 사용되는 맥락을 알아보기 위하여 온라인 과학 기사를 수집하여 언어 네트워크, 토픽 모델링 분석 기법을 활용해 에너지 관련 기사에 사용된 용어의 빈도, 용어 네트워크, 기사의 주제를 분석하였다. 분석에 사용된 자료는 2018.3.1.부터 1년간의 온라인 과학 분야의 기사 중 에너지를 검색어로 하여 10개의 국내 중앙지에서 검색 및 선정된 2,171편이다. 이 기사들을 자연어 처리하여 51,224개의 문장과 507,901개의 단어로 데이터를 구성하였다. R 프로그램을 활용하여 용어 빈도수 분석 및 언어 네트워크 분석을 실시하였고, 에너지 용어 사용의 맥락 탐색을 위해 구조적 토픽 모델링 분석을 적용해 기사의 주제를 도출하였다. 기사에 사용된 용어 중 빈도수가 유난히 높은 용어는 기술, 연구, 개발로 새로운 소식을 알리는 기사의 특성을 반영한 것으로 나타났다. 한편, 기사 2편당 한 번 이상의 빈도로 사용되는 용어에는 산업 관련 용어(산업, 제품, 시스템, 생산, 시장)와 '전기', '환경'과 같이 에너지 관련 용어로 충분히 기대되는 용어들이 있었다. 한편, 에너지 관련 과학 수업에서 자주 사용되는 '태양', '열', '온도', '발전'도 빈도수 상위에 속하는 용어로 드러났다. 용어 네트워크 분석에서는 산업 및 기술과 관련된 용어와 기초과학 및 연구 관련 용어들이 약한 강도이지만 서로 군집을 이루는 것을 확인하였다. 한편, 에너지와 쌍을 이루는 용어의 분석에서는 '에너지 효율'을 비롯해 '에너지 절감', '에너지 소비' 등과 같이 에너지의 사용에 관한 용어들이 다수를 이루고 그 사용 빈도가 가장 높았다. 에너지 용어가 사용되는 맥락은 16개의 주제를 분류한 4가지 영역으로 '첨단산업', '산업', '기초과학', '환경 및 건강'으로 나타났다. 에너지 사용 관련 용어가 상당히 많이 사용된다는 결과는 에너지 수업의 시작점으로 에너지 저급화 개념의 도입이 효과적일 수 있음을 시사한다. 또한, 첨단산업이나 환경 및 건강의 맥락을 에너지 학습에 도입할 필요성도 보여준다. 본 연구에서 드러난 16개 주제에서 보이는 다양한 에너지 용어가 사용되는 맥락을 재구성해 에너지 관련 수업에 활용한다면 학생들이 학교에서의 에너지 학습과 일상적 상황을 통합적으로 인식하는 데 도움이 될 것이다.

상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary)

  • 허정;서희철;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1073-1089
    • /
    • 2006
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구는 상호정보량과 기 분석된 복합명사 의미사전에 기반한 동음이의어 의미 중의성 해소를 위한 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 기술들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료 부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고, 복합명사를 구성하는 단일명사들은 서로의 의미를 제약한다는 것에 기반하여 고빈도 복합명사에 대해서 의미를 부착한 의미사전을 구축하였고, 이를 동음이의어 중의성 해소에 활용하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 200 여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 네 유형의 실험을 수행하였다. 실험 결과는 상호 정보량만을 이용하였을 때 65.06%의 정확률을 보였고, 가중치를 활용하였을 때 85.35%의 정확률을 보였다. 또한, 복합명사 의미분석 사전을 활용하였을 때는 88.82%의 정확률을 보였다.

게르만어의 공명음 중복현상과 후두음이론 (Germanische Resonantengemination und Laryngaltheorie)

  • 전순환
    • 한국독어학회지:독어학
    • /
    • 제5집
    • /
    • pp.1-22
    • /
    • 2002
  • 본 논문의 목적은 게르만제어(예를들어 고트어, 고대북구어, 고고지독일어, 고대영어 등)에 나타나는 공명음중복 현상이 원-인도유럽어시기의 후두음에 기인함을 보이는 것이다. 고트어의 ddj/ggw, 고대북구어의 ggi/ggr, 고고지독일어 ij/uw (이상 소위 '예음화현상'으로 불림)와 그 외 게르만제어에 공통적으로 나타나는 공명음들의 중복, -rr-, -ll-, -nn-, -mm- 등은 원-게르만어시기에 각각 $\ast-ii-,\;\ast-uu-,\;\ast-rr-,\;\ast-ll-,\;\ast-nn-,\;\ast-mm-$ 등으로 소급된다. 그러나 이러한 자음군이 게르만어 이외의 다른 인도유럽어들( 대표적으로 고대인도이란어, 고전희랍어, 라전어 등)과 비교되어 원-인도유럽어시기로 소급되는 경우, 각각 $\ast-iH-,\;\ast-uH-,\;\ast-rH-,\;\ast-lH-,\;\ast-nH-,\;\ast-mH-$ 등으로 재구된다. 따라서 원-게르만어의 자음중복 현상이 후두음의 영향으로 나타난 것으로 해석되는데, 아마도 후두음이 선행하는 공명음에 동화되어 일어난 것으로 보인다. 소쉬르(1987)이래 발전해 온 후두음이론은 현재 그 이론적 틀을 확립한 상태이다. 이 이론은 고전 인도유럽어학에서 설명하지 못했던 여러 언어현상들을 설명하였고, 현대 인도유럽어 역사비교언어학에서 언어변화에 대한 필수적인 설명기재로서 사용되고 있다. 원-인도유럽어의 많은 특징들을 계승한 전형적인 다른 고대 인도유럽어들과는 달리, 시기적으로 늦은 고대 게르만어에서 음운론적 층위에서 공명음중복 현상이 후두음에 기인함은 인도유럽어 역사비교언어학에서 뿐만 아니라 게르만어학에서도 큰 의미를 갖는다고 볼 수 있다.간접으로 본동사 앞에 놓여 있어야 되는 모든 문장성분과 부문장 때문에, 즉 한국어의 전면적인 전위수식 현상으로 흔히 큰 부담/복잡함을 야기한다는 데에 그 원인이 있다. 이러한 상황에서 동사는 가능한 한 그의 문장성분을 줄이려 한다. 통사적으로 보장되어 이미 있으니 말이다. 그래서 한국어 동사의 부정성은 일종의 부담해소 대책으로 간주될 수 있을 것이다. $\ast$ 두 비교 대상에서의 핵 및 최소문장 가능성은 역시 원자가에 대한 비구속성에서 비롯된다. $\ast$ 우리 한국인이 빨리 말할 때 흔히 범하는 부정성으로 인한 인칭변화에서의 오류는 무엇보다도 정형성/제한성을 지닌 독일어 정동사가 인칭 변화하는 데 반해 한국어에서는 부정성/비구속성을 지닌 동사가 그것과는 무관한 페 기인한다. 동사의 속성을 철저히 분석함으로써 이런 과오를 극복해야 할 것이다. 한국어 동사의 부정성은 지금까지 거의 연구되지 않았다. 이 문제는 또한 지속적으로 수많은 다른 자연어들과의 비교분석을 통해 관찰돼야 할 것이다. 이 논문이 이런 연구와 언어습득을 위한 작업에 도움이 되기를 바란다.적 성분구조가 다르다는 것을 알 수 있다. 우리는 이 글이 외국어로서의 독일어를 배우는 이들에게 독일어의 관용구를 보다 올바르게 이해할 수 있는 방법론적인 토대를 제공함은 물론, (관용어) 사전에서 외국인 학습자를 고려하여 관용구를 알기 쉽게 기술하는 데 도움을 줄 수 있기를 바란다.되기 시작하면서 남황해 분지는 구조역전의 현상이 일어났으며, 동시에 발해 분지는 인리형 분지로 발달하게 되었다. 따라서, 올리고세 동안 발해 분지에서는 퇴적작용이, 남황해 분지에서는 심한 구조역전에 의한 분지변형이 동시에 일어났다 올리고세 이후 현재까지, 남황해

  • PDF

Cross-Lingual Post-Training (XPT)을 위한 한국어 및 다국어 언어모델 연구 (Korean and Multilingual Language Models Study for Cross-Lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이찬희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.77-89
    • /
    • 2022
  • 대용량의 코퍼스로 학습한 사전학습 언어모델이 다양한 자연어처리 태스크에서 성능 향상에 도움을 주는 것은 많은 연구를 통해 증명되었다. 하지만 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 있다. 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 사용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. XPT 방법론은 자원이 풍부한 영어의 사전학습 언어모델의 파라미터를 필요에 따라 선택적으로 재활용하여 사용하며 두 언어 사이의 관계를 학습하기 위해 적응계층을 사용한다. 이를 통해 관계추출 태스크에서 적은 양의 목표 언어 데이터셋만으로도 원시언어의 사전학습 모델보다 우수한 성능을 보이는 것을 확인한다. 더불어, 국내외 학계와 기업에서 공개한 한국어 사전학습 언어모델 및 한국어 multilingual 사전학습 모델에 대한 조사를 통해 각 모델의 특징을 분석한다

한.중 건축법규 비교분석을 통한 KBimCode의 확대 적용가능성 고찰 - 피난 및 방화와 관련된 법규항목을 중심으로 - (Reviewing the Expandability of KBimCode based on the Comparison between Korean and Chinese Building Act - Centered around the Egress and Fire Safety Related Regulations -)

  • 황금화;박서경;이진국
    • 디자인융복합연구
    • /
    • 제15권6호
    • /
    • pp.73-92
    • /
    • 2016
  • 건축물 설계품질 및 생산성을 향상시키기 위한 다양한 BIM기반 실증적 연구 개발이 진행중이며, 인허가단계 전후로 건축법규 자동검토에 관한 연구 및 개발도 그 중 하나이다. 해당 연구 개발의 성과물 중 하나로써, 건축물 설계 적법성 자동검토를 위해 자연어로 기술된 건축법을 컴퓨터에서 실행 가능한 룰셋(KBimCode)으로 변환하는 메커니즘(KBimLogic)이 개발되었다. KBimCode는 표준성 및 중립성을 지향하며, 한국 건축법뿐만 아니라 타 국가의 건축법규나 설계지침서, 제안 요청서 등 다양한 설계 요구사항으로의 확대 적용이 가능하도록 개발되었다. 본 연구는 KBimCode를 타 국가 건축 법규로 확대 적용하여 그 표준성과 중립성 및 응용가능성을 검증하는것을 목적으로 한다. 이를 위하여 중국의 피난방화에 관한 건축법규를 대상으로, KBimCode 생성 메커니즘의 핵심인 논리규칙체계화의 세 가지 구성요소(객체속성, 함수, 문장 내외 관계)에 따라 구체적인 분석을 진행하였다. 그 결과, 다양한 중국 건축법규 문장을 KBimCode로 변환할 수 있었으며, 변환의 과정 중 다음을 도출할 수 있었다: 1) 건물 객체 및 그에 따른 속성에 대한 정의는 각 국가마다 상이하므로, 이를 고려한 객체 정의 및 속성 처리 방법이 필요하며, 2) 일부 문장은 서술부 및 문장 관계를 처리하기 위하여 새로운 함수 및 관계 유형 정의가 필요하며, 이는 KBimCode의 표준화된 함수 및 관계 유형 도출 규칙 안에서 확장 가능하다. 본 연구를 통해 전혀 새로운 대상의 변환과정에서의 문제점 등을 해결하는 과정을 통해 KBimCode의 가능성을 일부 검증하였으며, 다양한 대상 확대를 통해 표준적이고 국제적인 응용이 기대된다.

ChatGPT을 활용한 디지털회로 설계 능력에 대한 비교 분석 (Comparative analysis of the digital circuit designing ability of ChatGPT)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.967-971
    • /
    • 2023
  • 최근에는 다양한 플랫폼 서비스가 인공지능을 활용하여 제공되고 있으며, 그 중 하나로 ChatGPT는 대량의 데이터를 자연어 처리하여 자가 학습 후 답변을 생성하는 역할을 수행하고 있다. ChatGPT는 IT 분야에서 소프트웨어 프로그래밍 분야를 포함하여 다양한 작업을 수행할 수 있는데, 특히 프로그램을 대표하는 C언어를 통해 간단한 프로그램을 생성하고 에러를 수정하는데 도움을 줄 수 있다. 이러한 능력을 토대로 C언어를 기반으로 만들어진 하드웨어 언어인 베릴로그 HDL도 ChatGPT에서 원활한 생성이 예상되지만, 베릴로그 HDL의 합성은 명령문들을 논리회로 구조 형태로 생성하는 것이기에 결과물들의 정상적인 실행 여부를 확인해야 한다. 본 논문에서는 용이한 실험을 위해 규모가 적은 논리회로들을 선택하여 ChatGPT에서 생성된 디지털회로와 인간이 만든 회로들의 결과를 확인하려 한다. 실험 환경은 Xilinx ISE 14.7로 모듈들을 모델링하였으며 xc3s1000 FPGA칩을 사용하여 구현하였다. 구현된 결과물을 FPGA의 사용 면적과 처리 시간을 각각 비교 분석함으로써 ChatGPT의 생성물과 베릴로그 HDL의 생성물의 성능을 비교하였다.

온라인 호텔 리뷰와 평점 불일치 문제 해결을 위한 딥러닝 기반 개인화 추천 서비스 연구 (A Study of Deep Learning-based Personalized Recommendation Service for Solving Online Hotel Review and Rating Mismatch Problem)

  • 이청용;최사박;신병규;김재경
    • 경영정보학연구
    • /
    • 제23권3호
    • /
    • pp.51-75
    • /
    • 2021
  • 세계적인 전자상거래 기업들은 지속 가능한 경쟁력을 확보하기 위해 사용자 맞춤형 추천 서비스를 제공하고 있다. 기존 관련 연구에서는 주로 평점, 구매 여부 등 정량적 선호도 정보를 사용하여 개인화 추천 서비스를 제공하였다. 하지만 이와 같은 정량적 선호도 정보를 사용하여 개인화 추천 서비스를 제공하면 추천 성능이 저하될 수 있다는 문제점이 제기되고 있다. 호텔을 이용한 사용자가 호텔 서비스, 청결 상태 등에 대하여 만족하지 못한다고 리뷰를 작성하였으나 선호도 평점 5점을 부여했을 때 정량적 선호도(평점)와 정성적 선호도(리뷰)가 불일치한 문제가 발생할 수 있다. 따라서 본 연구에서는 정량적 선호도 정보와 정성적 선호도 정보가 일치하는지를 확인하고 이를 바탕으로 선호도 정보가 일치하는 사용자를 바탕으로 새로운 프로파일을 구축하여 개인화 추천 서비스를 제공하고자 한다. 리뷰에서 정성적 선호도를 추출하기 위해 자연어 처리 관련 연구에서 널리 사용되고 있는 CNN, LSTM, CNN + LSTM 등 딥러닝 기법을 사용하여 감성분석 모델을 구축하였다. 이를 통해 사용자가 작성한 리뷰에서 정성적 선호도 정보를 정교하게 추출하여 정량적 선호도 정보와 비교하였다. 본 연구에서 제안한 추천 방법론의 성능을 평가하기 위해 세계 최대 여행 플랫폼 TripAdvisor에서 실제 호텔을 이용한 사용자 선호도 정보를 수집하여 사용하였다. 실험 결과 본 연구에서 제안한 추천 방법론이 기존의 정량적 선호도만을 고려하는 추천 방법론보다 우수한 추천 성능을 나타냄을 확인할 수 있었다.

텍스트 마이닝 통합 애플리케이션 개발: KoALA (Application Development for Text Mining: KoALA)

  • 전병진;최윤진;김희웅
    • 경영정보학연구
    • /
    • 제21권2호
    • /
    • pp.117-137
    • /
    • 2019
  • 빅데이터 시대를 맞아 다양한 도메인에서 수없이 많은 데이터들이 생산되면서 데이터 사이언스가 대중화 되었고, 데이터의 힘이 곧 경쟁력인 시대가 되었다. 특히 전 세계 데이터의 80% 이상을 차지하는 비정형 데이터에 대한 관심이 부각되고 있다. 소셜 미디어의 발전과 더불어 비정형 데이터의 대부분은 텍스트 데이터의 형태로 발생하고 있으며, 마케팅, 금융, 유통 등 다양한 분야에서 중요한 역할을 하고 있다. 하지만 이러한 소셜 미디어를 활용한 텍스트 마이닝은 수치형 데이터를 활용한 데이터 마이닝 분야에 비해 접근이 어렵고 복잡해 기대에 비해 그 활용도가 높지 못한 실정이다. 이에 본 연구는 프로그래밍 언어나 고사양 하드웨어나 솔루션에 의존하지 않고, 쉽고 간편한 소셜 미디어 텍스트 마이닝을 위한 통합 애플리케이션으로 Korean Natural Language Application(KoALA)을 개발하고자 한다. KoALA는 소셜 미디어 텍스트 마이닝에 특화된 애플리케이션으로, 한글, 영문을 가리지 않고 분석 가능한 통합 애플리케이션이다. 데이터 수집에서 전처리, 분석, 그리고 시각화에 이르는 전 과정을 처리해준다. 본 논문에서는 디자인 사이언스(design science) 방법론을 활용해 KoALA 애플리케이션을 디자인, 구현, 적용하는 과정에 대해서 다룬다. 마지막으로 블록체인 비즈니스 관련 사례를 들어 KoALA의 실제 활용방안에 대해서 다룬다. 본 논문을 통해 소셜 미디어 텍스트 마이닝의 대중화와 다양한 도메인에서 텍스트 마이닝의 실무적, 학술적 활용을 기대해 본다.

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.