• 제목/요약/키워드: Text Mining Method

검색결과 453건 처리시간 0.024초

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로 (Analysis of News Agenda Using Text mining and Semantic Network Analysis: Focused on COVID-19 Emotions)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.47-64
    • /
    • 2021
  • 전 세계적으로 퍼진 코로나 19 상황은 우리의 일상생활의 많은 부분에 영향을 끼쳤을 뿐만 아니라, 경제·사회 등 많은 부분에 걸쳐 막대한 영향력을 미치고 있다. 확진자와 사망자 수가 증가함에 따라 의료진과 대중은 불안, 우울, 스트레스 등 심리적인 문제를 겪고 있다고 한다. 장기적인 부정적인 감정은 사람들의 면역력을 감소시키고 신체적인 균형을 파괴할 수도 있으므로 코로나 19로 인한 심리적인 상태를 이해하는 것이 필수적인 상황이다. 본 연구에서는 코로나 19 감정과 관련된 뉴스 데이터를 수집하여, 텍스트 마이닝을 통해 키워드를 분류하고, 키워드 사이의 의미 네트워크 분석을 통해 단어들의 관계를 시각화하였다. 코로나 감정과 관련된 기사의 키워드에 나타난 단어들의 빈도수를 확인하고 이를 워드 클라우드로 분석하였다. 키워드 빈도 분석 결과 코로나 19 감정과 관련하여 '중국', '불안', '상황', '마음', '사회', '건강'과 같은 단어의 빈도가 높게 나타난 것을 확인할 수 있었다. 각 데이터 간 연결 중심성을 분석한 결과 키워드 중심성 네트워크에서 가장 중심적인 핵심어는 '심리'와 '코로나 19', '블루', '불안'이라는 단어가 높은 연결 중심성을 가지는 것을 확인할 수 있었다. 기사의 헤드라인에 나타난 주요 핵심어 사이의 동시 출현 빈도 네트워크를 그래프로 시각화한 결과, '코로나-블루' 쌍이 가장 굵게 표시되었고, '코로나-감정', '코로나-불안' 쌍이 비교적 굵은 선으로 표시된 것을 알 수 있었다. 코로나와 관련된 '블루'는 우울증을 의미하는 단어로, 코로나와 우울증은 이제 관심을 가져야 할 키워드임을 확인할 수 있었다. 본 연구에서는 장기화한 코로나 19 상황에서 신체적인 방역뿐만 아니라 심리적인 방역에도 힘써야 할 이 시기에 보건 정책담당자가 빠르고 복잡한 의사결정 과정에 도움이 되고자 미디어 뉴스를 모니터링 함으로써, 더욱더 쉬운 소셜 미디어 네트워크 분석 방법을 제시하고자 한다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

산학협력 및 기술이전 촉진을 위한 텍스트마이닝과 사회 네트워크 분석 기반의 특허 분석 방법 (Text Mining and Social Network Analysis-based Patent Analysis Method for Improving Collaboration and Technology Transfer between University and Industry)

  • 이지형;김종우
    • 한국전자거래학회지
    • /
    • 제22권3호
    • /
    • pp.1-28
    • /
    • 2017
  • 지식기반 경제에서 산학협력의 중요성이 커짐에 따라 산학협력에 대한 지원과 연구들이 증가함에도 불구하고 산학협력의 특허 성과인 기술이전 및 기술료 수입은 낮은 편인데, 그 이유는 사업화 가치가 없는 특허들을 과도하게 출원하였기 때문이다. 따라서 본 연구에서는 산학협력 및 기술이전이 가능한 특허를 분석하는 방법을 제안한다. 분석을 위한 특허데이터는 WIPSON을 통하여 4개 대학, 1,061개 특허정보를 수집하여 분석에 활용하였다. 분석 방법은 대학이 보유한 산학협력단의 미국 특허를 대상으로 Quality-Strategy Matrix를 작성하고, Matrix의 Advanced Quality Technology 영역의 특허를 대상으로 텍스트마이닝과 사회네트워크 분석을 실시한 뒤, 핵심 키워드와 IPC 코드를 도출하여 대학별 핵심특허를 분석하였다. 분석결과, H 대학은 4개의 핵심특허와 2개의 핵심 IPC 코드를 도출하였으며, K 대학의 경우 4개의 핵심특허와 2개의 핵심 IPC 코드, Y 대학의 경우 6개의 핵심특허와 1개의 핵심 IPC 코드, 마지막으로 S 대학의 경우 14개의 핵심특허와 2개의 핵심 IPC 코드를 각각 도출하였다. 본 연구는 산학협력 및 기술이전이 가능한 특허와 IPC 코드를 분석하여 대학의 산학협력의 활성화에 기여하는데 그 의의가 있다.

텍스트 마이닝을 이용한 정보보호인식 분석 및 강화 방안 모색 (The Analysis of Information Security Awareness Using A Text Mining Approach)

  • 이태헌;윤영주;김희웅
    • 정보화정책
    • /
    • 제23권4호
    • /
    • pp.76-94
    • /
    • 2016
  • 최근 정보보호 분야에서는 사회공학, 랜섬웨어와 같은 정보보호 기술만으로는 막을 수 없는 공격이 증가하고 있으며, 이에 따라 정보보호인식의 중요성이 부각되고 있다. 또한 정보보호 업계의 수익악화가 두드러짐에 따라 정보보호 업계의 신성장동력을 탐색하고 해외시장을 개척하고자 하는 노력이 증대 되고 있다. 이에 따라 본 연구는 사람들이 생각하는 정보보호 관련 이슈들을 도출하고, 온라인에서의 정보보호 관련 이슈의 국가간 비교 분석을 통하여 한국의 정보보호인식의 개선방안을 제안하고자 한다. 이를 위해 본 연구에서는 토픽 모델링 기법을 적용하여 한국과 미국, 중국의 정보보호 관련 이슈를 확인 하고, 감성 분석을 통하여 점수를 측정해 비교 분석하였다. 본 연구의 학술적 시사점은 비정형 데이터인 트위터의 트윗을 텍스트 마이닝 기법인 토픽 모델링과 감성 분석 기법을 통해 분석하고, 도출된 이슈를 기반으로 국가간 비교 연구를 수행 하였으며 이를 바탕으로 한국의 정보보호인식 강화 방안을 탐색하였다는 점에서 의의가 있다. 또한 본 연구의 실무적 시사점은 트위터 API를 통한 실제 데이터를 이용한 연구로 본 연구 모델을 활용하여 국내 이슈 및 해외 시장 분석에 활용 가능할 것 이라는 점에 있다.

텍스트 마이닝 기법을 활용한 설문 문항 개선에 관한 연구 (A Study on Questionnaire Improvement using Text Mining)

  • 백연지;정창현
    • 해양환경안전학회지
    • /
    • 제26권2호
    • /
    • pp.121-128
    • /
    • 2020
  • 국민의 해양안전문화 수준을 객관적으로 측정하고 해양안전문화 확산을 위한 자료로 활용하고자 2018년에 해양안전문화지수를 개발하였다. 안전문화지수를 산출하는 방법은 안전문화에 영향을 줄 만한 이슈를 포함해야 하고 현 실태를 측정할 수 있는 문항으로 구성되어야 한다. 또한, 사회적·경제적 변화에 따라 지속적인 검증과 보완이 요구된다. 해양 전문가에 의해 설계된 설문 문항이 국민의 관심사와 요구를 잘 반영하고 있는지 확인하기 위해 915명의 해양안전 관련 제안 내용을 분석하였다. 비정형 데이터인 해양안전 제안 내용을 분석하기 위해 텍스트 마이닝 기법을 활용하였으며, 네트워크 분석과 토픽 모델링을 수행하였다. 해양안전 제안을 분석한 결과 '교육', '홍보', '안전수칙', '의식', '전문 인력', '시스템'에 관한 내용이 주를 이루었다. 해양안전 제안 사항이 2019년 설문 문항에 반영되도록 18개의 문항을 수정·보완하였고, 설문 문항의 신뢰도를 분석한 결과 내적 일관성은 0.895로 높게 평가되었으며 전년 대비 향상되었다. 해양 관련 전문가뿐만 아니라 국민의 요구사항까지 반영한 개선된 설문 문항으로 해양안전문화지수를 도출함으로써 해양안전문화 확산을 위한 정책 수립에 더 기여할 것으로 기대된다.

텍스트마이닝 기법을 활용한 사회기반시설 기후변화 영향의 공간정보 표출 (Visualizing Spatial Information of Climate Change Impacts on Social Infrastructure using Text-Mining Method)

  • 신하나;류재나
    • 대한원격탐사학회지
    • /
    • 제33권5_3호
    • /
    • pp.773-786
    • /
    • 2017
  • 본 연구는 텍스트마이닝 기법을 사용하여 사회기반시설에 대한 기후변화 영향 데이터들을 추출 및 분석하고, 이들을 행정구역 공간정보와 연계하여 분석 표출하고자 하였다. 우선 전력시설, 교통 도시기반시설, 유류 자원관리시설, 환경시설, 용수공급시설의 사회기반시설 중 다섯 가지(폭염, 한파, 호우, 대설, 강풍) 기후 요소로부터 영향을 많이 받은 시설을 파악하고, 각 시설별로 주요한 영향을 미치는 기후 요소를 분석하였다. 사회기반시설의 기후변화 영향은 시설의 위치에 영향을 받을 것으로 기대되어, 사회기반시설 기후변화 영향을 지역 중심으로 비교 분석 및 시각화 하였다. 연구 결과, 사회기반시설 중 교통 도시기반시설이 기후변화 영향을 가장 많이 받았으며, 사회기반시설에 대한 기후변화 영향은 주로 호우와 대설에 의해 발생하는 것으로 확인되었다. 사회기반시설 기후변화 영향의 공간정보를 분석 및 표출한 결과, 강원도와 서울 지역에 위치한 사회기반시설들이 기후변화 영향을 상대적으로 많이 받은 것으로 나타났다. 본 연구는 텍스트마이닝을 통해 사회기반시설 기후변화 영향에 대한 비정형화된 정보를 추출 및 처리하여 분석하고, 이를 공간정보로 표출 시도하였다는 점에서 의미가 있다.

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류 (Document classification using a deep neural network in text mining)

  • 이보희;이수진;최용석
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.615-625
    • /
    • 2020
  • 문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

텍스트마이닝을 활용한 노인 헬스케어 앱 사용 추이 및 동향 분석 (A Study on the Current Situation and Trend Analysis of The Elderly Healthcare Applications Using Big Data Analysis)

  • 변현;전상완;이은석
    • 한국융합학회논문지
    • /
    • 제13권5호
    • /
    • pp.313-325
    • /
    • 2022
  • 본 연구의 목적은 노인 헬스케어앱 시장의 변화 추이를 텍스트 마이닝 분석을 통해 살펴보고 노인 헬스케어앱 활성화를 위한 기초자료를 제시하고자 한다. 데이터 수집은 네이버, 다음, 블로그 웹, 까페를 대상으로 이루어졌으며, 연구방법은 빅데이터 분석 프로그램인 텍스톰(Textom)과 Ucinet6를 이용하여 텍스트마이닝, TF-IDF(Term frequency-inverse document frequency), 감성분석, 의미연결망분석을 실시하였다. 워드 클라우드를 실시한 결과 빈도 순으로 현장교육, 헬스케어, 전신재활운동기구, 서비스, 운동 등으로 나타났으며, TF-IDF 순위로는 현장교육, 헬스케어, 재활운동기구, 서비스, 건강 순으로 나타났다. 노인 스포츠 어플리케이션에 대한 감성분석을 실시한 결과 긍정비율로 81.3%, 부정비율이 18.7%로 나타났으며, 헬스케어앱 정보격차 해소, 융복합 헬스케어기술, 확산매체, 노인헬스케어앱 산업, 사회적 배경, 콘텐츠로 총 6개의 범주가 최종적으로 도출되었다. 결론적으로 노인 헬스케어앱이 노인들에게 수용 및 활용되기 위해 확산 인프라가 잘 갖추어져 있어야 하며, 융복합 기술의 적극적인 도입과 노인도 쉽게 사용할 수 있는 콘텐츠 개발을 통해 헬스케어 앱의 효과를 극대화하여야 한다.

빅데이터 분석을 통한 발명 교육 센터에 대한 사회적 인식 (Social Perception of the Invention Education Center as seen in Big Data)

  • 이은상
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.71-80
    • /
    • 2022
  • 이 연구의 목적은 빅데이터 분석 방법을 이용하여 발명 교육 센터에 대한 사회적 인식을 확인해 보는 데 있다. 이를 위해 TEXTOM 사이트를 이용하여 네이버와 다음 사이트의 블로그, 카페, 뉴스 채널에서 '발명+교육+센터'를 검색 키워드로 2014년 1월부터 2021년 9월까지의 데이터를 수집하였다. 수집된 데이터는 TEXTOM 사이트에서 정제하였으며, 텍스트 마이닝 분석과 의미 연결망 분석을 위해 TEXTOM 사이트, Ucinet 6, Netdraw 프로그램을 이용하였다. 수집된 데이터는 1차와 2차의 정제 과정을 거쳐 단어빈도를 바탕으로 주요 키워드 60개를 선정하였으며, 선정된 주요 키워드는 매트릭스 데이터로 변환하여 의미 연결망 분석을 실시하였다. 이 연구의 텍스트 마이닝 분석 결과 '학생', '운영', '한국발명진흥회', '특허청' 등이 의미 있는 키워드임을 확인하였다. 의미 연결망 분석 결과 발명 교육 센터와 관련된 '교육 운영', '발명 대회', '교육 과정 및 진행', '사업 모집 및 지원', '주관 및 선정 기관' 등 5개의 군집을 확인할 수 있었다. 이 연구의 결과는 발명 교육 센터에 대한 연구를 수행하는 연구자나 정책 입안자의 학술 연구에 활용될 수 있을 것이다.