• 제목/요약/키워드: 텍스트 빈도 분석

검색결과 332건 처리시간 0.03초

텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석 (Analysis of the National Police Agency business trends using text mining)

  • 선현석;임창원
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.301-317
    • /
    • 2019
  • 최근 통계적인 기법을 이용하여 대량으로 생산되고 있는 텍스트 데이터를 통해 다양한 인사이트 발굴을 하기 위한 연구가 활발히 진행되고 있다. 본 연구는 경찰청에서 생산하는 텍스트 데이터를 통해 연도별 경찰청의 업무 트렌드를 파악하고, 각 지방청별로 생산되는 문서에서 주요 키워드를 파악하여 지방청 간의 업무 특성을 비교하고자 하였다. 의미 있는 결론을 도출하기 위해 각 자료 특성에 맞는 전처리 과정을 시행하고 문서별 단어 빈도수를 계산하였다. 문서에 나타난 키워드의 단순 출현 빈도로는 해당 키워드가 문서에서 갖는 중요도를 설명하기 힘들기 때문에 단어-역문서 가중치를 이용하여 각 단어에 대한 빈도수를 새롭게 계산하였고 단어의 문서별 및 연도별 빈도 비교를 위해 L2 정규화 기법을 이용하였다. 이러한 분석은 향후 경찰청 업무 개선 정책에 새롭게 활용될 수 있는 기초 자료로 사용될 수 있으며, 경찰청 업무 효율성 향상 및 청내 업무 개선 수요 파악을 위한 방법으로 활용될 수 있다.

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

북한 도서관잡지 『도서관일군 참고자료』의 텍스트 네트워크 분석 (A Text Network Analysis of North Korean Library Journal, 『Reference Materials for Librarian』)

  • 이성신;김현숙;백수민;윤수빈;최재황
    • 한국도서관정보학회지
    • /
    • 제53권3호
    • /
    • pp.169-191
    • /
    • 2022
  • 본 연구의 목적은 북한의 도서관운영방법연구소가 간행한 2년간의 『도서관일군 참고자료』(2016~2017)를 대상으로 텍스트 네트워크 분석을 시도해 보는데 있다. 텍스트 네트워크 분석은 단순 단어의 빈도분석을 뛰어넘어 단어 간의 연결성과 관계성을 파악하여 특정 단어가 얼마나 중요한 위치를 차지하는지를 측정할 수 있으며, 특정 사회현상에 대한 해석과 시사점 도출도 가능하다, 본 연구에서는 용어의 빈도분석, 연결중심성 분석, 매개중심성 분석, 군집분석을 통한 분석이 이루어졌다. 『도서관일군 참고자료』의 텍스트 네트워크 분석 결과 북한의 도서관을 이해하는데 있어서 가장 중요한 용어들은 '리용자', '정보봉사', '정보요구', '정보기술', '과학기술', '사회적학습', '콤퓨터', '자료기지', '정보수집', '정보검색', '도서관일군' 등의 순으로 나타났다.

텍스트마이닝을 활용한 러닝 어플리케이션 사용자 리뷰 분석: Nike Run Club과 Runkeeper를 중심으로 (Analysis of User Reviews of Running Applications Using Text Mining: Focusing on Nike Run Club and Runkeeper)

  • 류기문;김일광
    • 산업융합연구
    • /
    • 제22권4호
    • /
    • pp.11-19
    • /
    • 2024
  • 본 연구의 목적은 텍스트마이닝을 활용하여 러닝 어플리케이션 사용자의 리뷰를 분석하였다. 본 연구는 python3의 selenium 패키지를 이용하여 google playstore의 Nike Run Club, Runkeeper의 사용자 리뷰들을 분석자료로 이용하였으며, okt 분석기를 통해 한글 명사만을 남겨 형태소를 분리하였다. 형태소 분리 후 rankNL 사전을 만들어 불용어(stopword)를 제거하였다. 자료 분석을 위해 텍스트마이닝의 TF(빈도분석), TF-IDF(키워드 빈도-문서 역빈도), LDA 토픽모델링을 통해 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, Nike Run Club, Runkeeper 어플리케이션 사용자 리뷰에서 공통적으로 상위 키워드로 '기록', '앱', '운동'의 키워드가 도출되었으며 TF, TF-IDF의 순위에는 차이가 나타났다. 둘째, Nike Run Club의 LDA 토픽모델링으로 '기본 항목', '추가 기능', '오류 사항', '위치기반데이터'의 토픽이 도출되었고 Runkeeper는 '오류 사항', '음성 기능', '러닝 데이터', '사용 혜택', '사용 동기'의 토픽이 도출되었다. 결과를 통해 제언하면 어플리케이션의 경쟁력 향상을 기여하기 위해 오류 및 개선사항을 보완해야 한다.

텍스트 마이닝 기반의 데이터 분석 웹 애플리케이션 (Data Analysis Web Application Based on Text Mining)

  • 길완제;김재웅;박구락;이윤열
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.103-104
    • /
    • 2021
  • 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 웹크롤링 기법을 활용하여 키워드를 입력하면 요약된 논문 정보를 파일로 저장할 수 있고 또한 키워드 빈도 분석과 토픽 모델링 등을 통해 연구 동향을 손쉽게 확인해볼 수 있는 웹 애플리케이션을 설계하고 구현하는 것을 목표로 한다. 제안 모델인 웹 애플리케이션을 통해 프로그래밍 언어와 데이터 분석 기법에 대한 지식이 부족하더라도 논문 수집과 저장, 텍스트 분석을 경험해볼 수 있다. 또한, 이러한 웹 시스템 개발은 기존의 html, css, java script와 같은 언어에 의존하지 않고 파이썬 라이브러리를 활용하였기 때문에 파이썬을 기반으로 데이터 분석과 머신러닝 교육을 수행할 경우 프로젝트 기반 수업 교육 과정으로 채택이 가능할 것으로 기대된다.

  • PDF

텍스트 마이닝을 활용한 경제정책기록서비스 연구: 경제정책방향을 중심으로 (A Study on the Archival Information Services of Economic Policy Using Text Mining Methods: Focusing on Economic Policy Directions)

  • 연지현;김성원
    • 한국기록관리학회지
    • /
    • 제22권2호
    • /
    • pp.117-133
    • /
    • 2022
  • 자의적으로 구성한 기록 콘텐츠만으로는 이용자가 필요한 기간과 맥락에 대한 이해 없이 이용하게 됨으로써 주요한 경제정책기록에 효율적으로 접근하기에 어려움을 겪는다. 이러한 현재의 기록 서비스를 개선하기 위한 방안을 모색하고자 한다. 본 연구에서 1991년부터 2021년까지 30년간의 경제정책방향을 대상으로 경제정책기록에 텍스트 마이닝 기법을 활용하여 정부별 주요하게 다뤄진 경제 키워드와 변화과정을 도출하였다. 대책 배경, 주요 내용, 본문 텍스트를 수집하여 전처리를 진행한 후 텍스트 빈도분석, TF-IDF, 네트워크분석, 시계열 분석을 진행하였다. 분석 결과 '일자리', '경쟁력', '구조조정' 순으로 가장 높은 빈도수를 기록하였다. 정부별로 주요 키워드를 한눈에 볼 수 있었으며 '일자리', '부동산', '기업'의 연도별 상대비율을 시계열 순으로 분석하였다. 본 연구 결과를 바탕으로 향후 경제정책기록서비스의 발전과 저변확대를 위한 시사점을 제언하였다.

텍스트마이닝을 활용한 핀테크 및 디지털 금융 서비스 트렌드 분석 (Trend Analysis of FinTech and Digital Financial Services using Text Mining)

  • 김도희;김민정
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.131-143
    • /
    • 2022
  • 본 연구는 핀테크를 중심으로 국내 디지털 금융 서비스 시장의 트렌드를 파악하고자 신문기사와 트위터 데이터를 대상으로 텍스트마이닝 기법을 사용하여 분석을 진행하였다. 핀테크 시장의 성장 과정에 있어서 간편결제 서비스 도입, 인터넷전문은행 출범, 데이터 3법 개정안 통과, 마이데이터 사업 신청 등 중요하게 작용을 한 4가지 시점을 기준으로 빈도분석을 수행하여 핵심 키워드 간의 차이를 살펴보았다. 또한 핀테크 선도 국가인 중국·미국과 미래 키워드를 핀테크 키워드와 결합한 빈도분석 결과를 통해 세계 시장 속에서 국내 핀테크 산업의 현 위치와 미래 시장 전망을 예측하였다. 마지막으로 트위터 트윗을 대상으로 감성분석을 진행하여 핀테크 서비스에 대한 소비자의 기대와 우려를 정량화하였다. 따라서 본 연구는 금융 생태계 변화 과정을 살펴보고, 분석 결과를 종합함으로써 정부와 기업이 향후 핀테크 시장 발전에 있어서 활용할 수 있는 전략적 방향성 및 대응 전략을 제시한 점에서 의의가 있다.

빈도 정보를 이용한 한국어 저자 판별 (Authorship Attribution in Korean Using Frequency Profiles)

  • 한나래
    • 인지과학
    • /
    • 제20권2호
    • /
    • pp.225-241
    • /
    • 2009
  • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

  • PDF

텍스트마이닝을 활용한 아동, 청소년 대상 소비관련 연구 키워드 분석 (Keyword Analysis of Research on Consumption of Children and Adolescents Using Text Mining)

  • 진현정
    • 한국가정과교육학회지
    • /
    • 제33권4호
    • /
    • pp.1-13
    • /
    • 2021
  • 본 연구는 텍스트마이닝 기법으로 최근 20년간 아동, 청소년 대상 소비 관련 연구의 주요어를 분석하여 소비 관련 연구의 동향을 파악하고자 하였다. 이를 위하여 KCI 등재/등재후보 학술지에 게재된 아동, 청소년의 소비관련 연구 869편의 주요어를 분석하였다. 빈도분석 결과 가장 빈도가 높은 주요어는 청소년, 청소년소비자, 소비자교육, 과시소비, 소비행동, 캐릭터, 경제교육, 윤리적소비 순으로 나타났다. 5년 단위로 주요어의 빈도를 분석한 결과, 2006년~2010년에는 소비자교육의 빈도가 월등하게 높아 이 시기에 소비자교육에 관한 연구가 많이 이루어졌음을 확인할 수 있었다. 2011년 이후 윤리적소비에 관한 연구가 활발해졌으며, 최근 5년 동안은 두드러지는 주요어가 없는 대신 다양한 주제로 연구가 이루어졌음을 알 수 있었다. TF-IDF 기준으로 주요어를 살펴보면 2001년~2005년 사이에는 환경과 인터넷 관련 단어가 주요 키워드였다. 2006년~2010년에는 미디어이용, 광고 교육, 인터넷아이템, 2011년~2015년에는 공정무역, 녹색성장, 녹색소비, 북한이탈청소년, 소셜미디어, 2016~2020년에는 텍스트마이닝, 지속가능발전교육, 메이커교육, 2015개정교육과정이 중요한 용어로 등장하였다. 토픽모델링 결과, 소비자교육, 대중매체/또래문화, 합리적 소비, 한류/문화산업, 소비자역량, 경제교육, 교수학습방법, 친환경/윤리적소비의 8개의 토픽이 도출되었다. 동시 출현 빈도를 활용한 네트워크 분석을 통해 아동, 청소년 관련 소비 연구에서 과시소비와 소비자교육이 중요한 연구주제임을 알 수 있었다.