• 제목/요약/키워드: 텍스트 빈도 분석

검색결과 332건 처리시간 0.032초

마이스터고 연구의 동향과 과제: 네트워크 텍스트 분석 및 내용분석 (The Trend and Tasks of Meister High School Research: Network Text Analysis and Content Analysis)

  • 배상훈;장창성;이태희;조성범
    • 직업교육연구
    • /
    • 제33권3호
    • /
    • pp.83-104
    • /
    • 2014
  • 본 연구는 2008년 마이스터고 도입 이래 지금까지 수행된 마이스터고 연구를 종합하여 연구동향을 탐색하고 향후 연구과제를 제시하는데 목적이 있다. 학술지와 학위논문으로 나누어 기성 연구자와 학문 후속세대의 연구관심을 비교하였다. 학술지 논문 33편, 학위논문 24편 등 총 57편이 분석되었다. 주제어의 빈도와 연결중심성을 탐색하는 네트워크 텍스트 분석과 분석 준거별 빈도를 살펴보는 내용분석을 실시하였다. 네트워크 텍스트 분석 결과, 마이스터고 연구는 학생과 교원 등 학교 구성원을 대상으로 한 연구가 다수였으며, 학술지 논문이 학위논문보다 연구분야가 다양하였다. 주제어의 연결중심성을 분석한 결과, 학교 구성원의 심리적, 정서적 요인에 대한 연구가 많음을 알 수 있었다. 연구주제는 학교 구성원(56.1%)에 대한 논문이 가장 많았고, 다음으로 교육과정(17.6%), 학교운영 및 조직(14.0%), 정책분석 및 평가(12.3%)에 관한 연구가 많았다. 연구방법은 양적 연구(59.6%)가 많았고, 서술적 연구(21.1%)나 질적 연구(12.3%)는 적었다. 이러한 결과를 바탕으로 본 연구는 향후 마이스터고 연구의 저변 확대를 위한 과제를 제시하였다.

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

유비쿼터스도시종합계획과 유비쿼터스도시계획 비교 연구 -U-서비스 계획을 중심으로- (A Comparative Study between Ubiquitous City Comprehensive Plan and Ubiquitous City Plan - Focusing on U-Service Plan)

  • 유지송;정다운;이미숙;민경주
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.83-93
    • /
    • 2015
  • 최근 U-City 계획을 수립한 지자체의 U-서비스는 시설 및 도시 관리 위주의 서비스로 구현되고 있으며, 시민 맞춤형 U-서비스는 계획에만 그치고 있는 실정이다. 이에 본 연구는 U-City 종합계획과 U-City 계획의 U-서비스 내용을 네트워크 텍스트 분석과 단어 빈도 분석을 통해 비교 검토하여 향후 시민 맞춤형 U-서비스 제공을 위한 시사점을 제시하였다. 제1, 2차 U-City 종합계획과 4개 지방자치단체의 U-City 계획 중 U-서비스 계획 내용을 추출하여 주요 단어들을 산출하였고, 도출된 단어를 통해 네트워크 텍스트 분석과 단어 빈도 분석을 실시하였다. 분석 결과를 바탕으로 향후 U-City 종합계획에서는 지자체의 특색에 따른 서비스 추가와 정책 재정 지원 및 시민의 필요사항을 반영하여 다양한 분야의 시민 맞춤형 U-서비스 개발과 같은 시사점을 도출하였으며, 이를 통해 U-City에 대한 시민들의 인식 또한 증가될 것으로 기대할 수 있다.

소프트웨어 시험성적서에 대한 텍스트 분석 (Text Analysis of Software Test Report)

  • 정혜정;한군희
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.25-31
    • /
    • 2020
  • 본 연구는 소프트웨어의 시험 평가에 있어 품질 특성에 대한 가중치를 적용하는 방법을 연구한 것이다. 가중치 적용방안은 시험성적서의 텍스트를 분석해서 텍스트의 빈도에 따른 비율을 소프트웨어 시험 성적의 품질 특성에 대한 가중치로 활용한다. 본 연구의 결과에 대한 타당성 검토는 개발자와 사용자를 중심으로 소프트웨어의 중요도를 평가하게 한 설문조사의 결과와 텍스트 분석의 빈도분석 결과를 비교해서 검토했다. ISO/IEC 25023에서 제시한 8가지 품질 특성을 기반으로 품질을 측정할 경우 동일한 가중치를 적용해서 소프트웨어 품질을 평가하는 것에 비하여 본 연구의 결과는 소프트웨어 특성을 고려한 소프트웨어 품질 측정 결과이므로 소프트웨어 시험 평가에 대한 품질 측정의 타당성이 높아진다고 할 수 있다.

텍스트 네트워크분석을 활용한 국방분야 연구논문 지식구조 분석 (Knowledge Structure Analysis on Defense Research Using Text Network Analysis)

  • 이용규;윤성웅;이상훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.526-529
    • /
    • 2018
  • 본 연구에서는 텍스트 네트워크분석을 활용하여 국방분야 연구의 핵심 주제어와 연구주제를 분석하고 이를 통해 전체 지식구조를 파악하고자 하였다. 이를 위해 2010년부터 2017년까지의 국방대학교 학위과정 논문을 대상으로 국방분야 연구현황을 진단하고 지식구조를 구성하였다. 8년간 누적된 논문 710건의 초록을 분석하여 총 6,883개의 단어를 추출한 후, 단어의 논문 등장 빈도수와 단어간 링크수를 파레토 법칙에 따라 상위 20%의 기준으로 총 270개의 단어로 추출하였고, 컴포넌트 분석을 통해 최종 170개의 핵심 주제어를 도출하였다. 이 핵심 주제어를 통해 중심성 분석과 응집구조를 분석하여, 국방분야에 대한 총 6개의 지식구조 그룹을 도출하였다.

  • PDF

텍스트 마이닝 기법을 활용한 ECDIS 사고보고서 분석 (Text Mining Analysis Technique on ECDIS Accident Report)

  • 이정석;이보경;조익순
    • 해양환경안전학회지
    • /
    • 제25권4호
    • /
    • pp.405-412
    • /
    • 2019
  • SOLAS에서는 국제 항해에 종사하는 총톤수 500톤 이상의 선박에 대하여 2018년 7월 1일 이후 도래하는 최초 검사까지 ECDIS를 설치해야 한다고 규정하고 있다. 새로운 주요 항해 장비로 ECDIS가 탑재되면서 ECDIS 사용에 관련한 다양한 사고가 발생하고 있다. MAIB, BSU, BEAmer, DMAIB, DSB에서 발행한 12가지의 사고보고서에는 항해사의 운용 미숙과 ECDS 시스템의 사고 원인으로 분석하였고, 사고 원인과 관련된 단어들을 정량적으로 분석하기 위해 R-프로그램을 사용하여 텍스트를 분석하였다. 도출 빈도에 따른 단어의 중요도를 나타내기 위해 텍스트 마이닝 기법인 단어 구름, 단어 연관성, 단어 가중치의 방법을 사용하였다. 단어 구름은 사용된 단어들의 빈도수를 구름 형태로 나타내는 방법으로써 N-gram 모델을 적용하였다. N-gram 모델 중 Uni-gram 분석 결과 ECDIS 단어, Bi-gram 분석 결과는 Safety Contour 단어의 사용 빈도가 가장 많았다. Bi-gram 분석을 기반으로 사고 원인 단어를 항해사와 ECDIS 시스템으로 구분하고, 연관된 단어들을 단어 연관성으로 나타내었다. 마지막으로 항해사와 ECDIS 시스템에 연관된 단어들을 단어 말뭉치로 구성한 후 단어 가중치를 적용하여 연도별 말뭉치 빈도 변화를 분석하였다. 추세선 그래프로 말뭉치 변화 경향을 분석한 결과, 항해사 말뭉치는 최근으로 올수록 감소하였으며 반대로 ECDIS 시스템 말뭉치는 점점 증가함을 나타내었다.

빅데이터 기반 시민의견 모니터링 방안 연구 : "경기지역화폐"를 중심으로 (A Study on Monitoring Method of Citizen Opinion based on Big Data : Focused on Gyeonggi Lacal Currency (Gyeonggi Money))

  • 안순재;이새미;유승의
    • 디지털융복합연구
    • /
    • 제18권7호
    • /
    • pp.93-99
    • /
    • 2020
  • 본 연구에서는 비정형적인 대용량의 텍스트 자료로부터 유의미한 정보를 추출하는 빅데이터 분석방법 중 텍스트 마이닝을 이용하여 시행 중인 정책과 제도에 대한 시민의견을 모니터링 할 수 있는지 확인하였다. '경기지역화폐'와 관련된 5,108건의 신문기사와 748건의 온라인 카페글을 수집하여 빈도분석, TF-IDF분석, 연관분석, 워드트리 시각화 분석을 수행하였다. 그 결과로 기사에서는 지역화폐의 도입 목적, 제공되는 혜택, 사용방법에 관련된 내용이 많았고 카페글에서는 지역화폐의 실사용과 관련된 내용 위주로 작성이 되어있음을 확인하였다. 또한 지역화폐 활성화를 위해서 뉴스는 정보전달자로서 지역화폐의 홍보에 관여하고 있었고 카페글은 지역화폐 사용자인 시민들의 의견으로 이루어져 사용과 관련된 실제적인 정보 교환의 장으로 기능하고 있었다. 지역화폐뿐만 아니라 다양한 정책과 제도에 관해서도 SNS와 텍스트 마이닝을 통해 시민들의 의견을 수렴하여 효과적으로 활성화시킬 수 있을 것으로 보인다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

주제어 네트워크 분석(network analysis)을 통한 국내 감정노동의 연구동향 탐색 (Exploration of Emotional Labor Research Trends in Korea through Keyword Network Analysis)

  • 이남연;김준환;문형진
    • 융합정보논문지
    • /
    • 제9권3호
    • /
    • pp.68-74
    • /
    • 2019
  • 본 연구는 최근 10년 동안(2009-2018) 국내 학술지에 발표된 감정노동(emotional labor) 관련 892편의 논문을 텍스트 마이닝(text-mining) 및 네트워크 분석(network analysis)을 활용하여 연구동향을 파악하는 것이 목적이다. 이를 위해 이들 논문의 주제어를 수집 및 코딩하여 최종적으로 871개의 노드(node)와 2625개의 링크(link)로 변환시켜 네트워크 텍스트로 분석하였다. 첫째, 네트워크 텍스트 분석 결과로 동시출현빈도에 따른 상위 4개 주요 주제어는 번아웃, 이직의도, 직무스트레스, 직무만족 순으로 나타났으며, 연결중심성에 따른 상위 4개 주제어들의 빈도와 연결중심성 모두 비교적 높은 것으로 확인되었다. 둘째, 연결중심성 상위 4개의 주제어를 바탕으로 자아(ego)연결망 분석을 실시하여 각 네트워크의 연결중심도에 대한 주제어를 제시하였다.

혼합모드 잠재범주모형을 통한 텍스트 자료의 분석 (Latent class model for mixed variables with applications to text data)

  • 신현수;서병태
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.837-849
    • /
    • 2019
  • 일종의 혼합다항분포 모형이라고 볼 수 있는 잠재범주모형은 범주형 자료에서 직접 관측되지 않은 중요한 정보를 얻어낼 수 있는 유용한 도구이다. 하지만 자료에 범주형 변수 뿐 아니라 연속형 변수 혹은 빈도형 변수가 함께 포함되어 있을 경우 이 모형을 직접적으로 사용할 수 없다. 본 논문에서는 특히 범주형 변수와 빈도형 변수가 함께 포함되어 있는 경우에 잠재범주모형인 혼합모드 잠재범주모형을 사용하여 텍스트 후기와 범주형 응답문항이 모두 포함된 의약품 사용 후기자료를 분석하였다. 이 분석을 통해 범주형 응답만을 사용한 보통의 잠재범주 모형에 비해 텍스트 자료를 함께 사용한 혼합모드 잠재범주모형을 사용했을때 잠재범주에 대한 보다 자세한 정보를 얻을 수 있는 것을 확인하였다.