• 제목/요약/키워드: 텍스트 출현 빈도

검색결과 103건 처리시간 0.022초

텍스트마이닝을 활용한 국내외 기록서비스 연구동향 분석 (Analysis of Research Trends on Archival Information Services Using Text Mining)

  • 박서희;이혜은
    • 한국기록관리학회지
    • /
    • 제24권1호
    • /
    • pp.89-109
    • /
    • 2024
  • 본 연구는 국내외 기록정보서비스의 연구 동향을 분석한 것으로 2003년부터 2022년까지 한국학술지인용색인(KCI)에 수록된 학술논문 136편과 LISTA(Library, Information Science & Technology Abstracts)에 수록된 학술논문 74편을 대상으로 연도별, 연구 유형별, 연구자 유형별, 연구 대상별, 연구목적별 현황을 살펴보았다. 또한 텍스트마이닝 기법을 적용하여 빈도분석, 동시출현 빈도분석, 중심성분석, 토픽모델링을 진행하였다. 연구의 결과 국내 논문은 특정 기관이나 기록물에 집중되었고 이용자 중심의 만족도조사 연구, 콘텐츠 중심의 연구 등이 진행되었다. 국외논문은 아키비스트와 이용자 간의 관계를 연구하는 흐름과 함께 평가 중심의 연구, 자료·자원·컬렉션 등의 정보제공 연구가 다수 진행되었음을 확인하였다. 정보자원의 관리는 국내외 논문 공통의 토픽으로 확인되었으나 국내는 정보자원의 품질 유지를, 국외는 정보의 저장과 검색에 집중된 연구 흐름을 파악할 수 있었다.

의사 N-gram 언어모델을 이용한 핵심어 검출 시스템에 관한 연구 (A Study on Keyword Spotting System Using Pseudo N-gram Language Model)

  • 이여송;김주곤;정현열
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.242-247
    • /
    • 2004
  • 일반적인 핵심어 검출 시스템에서는 필러모델과 핵심어모델을 연결단어 인식 네트워크로 구성하여 핵심어 검출에 사용한다. 이것은 대량의 텍스트 데이터를 이용한 대어휘 연속 음성인식에서 구해지는 단어의 출현빈도의 언어모델을 핵심어 검출 시스템에서 효과적으로 구성할 수가 없는 어려움이 있기 때문이다. 이를 해결하기 위하여 본 논문에서는 의사 N-gram 언어모델을 이용한 핵심어 검출 시스템을 제안하고 핵심어와 필러모델의 출현빈도의 변화에 따른 핵심어 검출 성능을 조사하였다. 그 결과, 핵심어와 필러모델의 출현확률을 0.2:0.8의 비율에서 CA (Correctly Accept for Keyword: 핵심어를 제대로 인정한 경우)가 91.1%, CR (Correctly Reject for OOV: 비핵심어에 대해 제대로 거절한 경우)는 91.7%로써, 일반적인 연결단어인식 네트워크를 이용한 방법보다 제안된 방법이 CA-CR 평균 인식률의 에러감소율 (Error Reduction Rate)에서 14%향상되어 핵심어 검출에서의 언어모델 도입의 효과를 확인할 수 있었다.

텍스트 마이닝을 적용한 사회서비스원 언론보도기사 분석 (An Analysis on Media Trends in Public Agency for Social Service Applying Text Mining)

  • 박해긍;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.41-48
    • /
    • 2022
  • 본 연구는 사회서비스원과 관련한 국내 언론보도기사를 주요 원자료로 삼고, 기사에 내재된 주요 키워드 및 토픽을 분석하여 사회서비스원과 관련한 이슈, 즉 사회적 인식이 어떻게 형성되었는지를 실증적으로 탐색하고자 하였다. 본 연구는 사회서비스원에 관한 사회 전반적인 인식 및 동향을 여론을 통해 파악한다는 점에서 의의가 있다. 언론동향의 데이터를 추출하기 위해 검색은 빅테이터 분석 시스템인 텍스톰을 사용하여 대표적 포털인 네이버 뉴스와 다음 뉴스에서 자료를 수집하였다. 수집된 기사는 2020년도 1,299개, 2021년도 총 1,410로, 총 2,709개였다. 분석결과로 첫째, 텍스트 출현빈도와 관련해서 가장 많이 도출된 단어는 '사회서비스원', '설립', '운영' 등으로 주로 사회서비스원의 설립과 관련한 내용이 주를 이루고 있었다. 둘째, N-gram분석결과 사회서비스원과 직접 관련된 단어의 쌍(pairs)은 '사회서비스원과 공공', '사회서비스원과 개원', '사회서비스원과 출범', '사회서비스원과 원장', '사회서비스원과 직원', '사회서비스원과 돌봄종사자' 등으로 나타났다. 셋째, TF-IDF 분석결과 및 단어 네트워크 분석결과에서는 단어출현빈도와 N-gram의 결과와 유사하게 '설립', '운영', '공공', '출범', '제공', '개원', '개최', '돌봄' 등의 결과가 도출되었다. 상기분석결과를 통해 긴급돌봄지원단의 강화, 구체적인 사업화, 일자리의 안정화 등을 제언하였다.

텍스트 마이닝 분석을 통한 노인학대 관련 연구 동향 분석 : 2004년~2021년까지 발행된 국내 학술논문을 중심으로 (Analysis of Research Trends in Elder Abuse Using Text Mining : Academic Papers from 2004 to 2021.)

  • 윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권4호
    • /
    • pp.25-40
    • /
    • 2022
  • 본 연구는 초고령화사회 진입을 목전에 두고 있는 우리나라에서 지속적으로 증가하고 있는 노인학대 학술 연구 동향을 파악하기 위해서 텍스트 마이닝 기법을 활용하였다. 분석 자료는 노인보호전문기관이 설립된 2004년부터 2021년까지 18년간 국내 전문학술지에 게재된 노인학대 관련 학술논문의 제목, 주제어, 초록을 텍스트로 전환하고, 분석 시기는 3개 구간으로 세분화 하여 논문의 패턴 및 전체 데이터 속에 의미를 파악하였다. 연구 결과를 요약하면 다음과 같다. 첫째, 본 연구에서 총 249편의 논문이 선정되었고(1구간은 81편, 2구간 64편, 3구간은 104편이 논문이 각각 선정). 연 평균 13.8편으로 2014년 이후 꾸준히 증가 후 2020년부터 연 평균이하로 감소하고 있다. 둘째 노인학대 텍스트 마이닝 결과 i) 상위 주요 키워드인 단어 빈도분석 결과 모든 구간(2004년~2021년)에 공통적으로 나타난 키워드는 노인학대, 노인, 영향, 요인, 인식, 가족, 사회, 방안, 경험, 학대피해노인, 학대예방, 우울 등이다. ii) TF-IDF 분석 결과 모든 구간에 공통적으로 출현한 키워드는 영향, 인식, 사회, 방안, 학대예방, 경험, 우울 등으로 나타났고, iii) 연결중심성 분석 결과 전 구간에 공통적으로 출현한 키워드는 노인학대, 노인, 영향, 요인, 특성, 인식, 가족, 방안, 사회, 학대예방, 경험 등이다. 셋째, CONCOR 분석 결과 1구간은 5개의 군집으로, 2구간은 7개의 군집으로, 3구간은 6개의 군집으로 각각 나타났다. 상기의 분석 결과 등을 바탕으로 노인학대 학술 연구의 동향을 살펴보았고, 이를 바탕으로 향후 노인학대 학술 연구를 위한 다양한 제언을 제시하였다.

텍스트 마이닝 기법을 활용한 환경공간정보 연구 동향 분석 (Analysis of the Research Trends by Environmental Spatial-Information Using Text-Mining Technology)

  • 오관영;이명진;박보영;이정호;윤정호
    • 한국지리정보학회지
    • /
    • 제20권1호
    • /
    • pp.113-126
    • /
    • 2017
  • 본 연구의 목적은 빅데이터 분석 기법 중 하나인 텍스트 마이닝 기법을 활용하여 환경 분야의 환경공간정보 활용 연구 동향을 정량적으로 분석하는 것이다. 분석에 활용된 자료는 NDSL (National Digital Science Library)을 통하여 획득한 국내 논문으로 총 869편을 대상으로 하였다. 논문에서 추출된 단어들은 "환경일반", "기후", "대기", 등 환경 분야 10개, "위성영상", "수치지도", "재난재해" 등 환경공간정보 20개로 설정된 분류체계에 따라 재분류 되었다. 재분류된 분류 키워드를 통해, 논문에서 해당 키워드의 출현 빈도 및 시계열 변화를 파악하였으며, 상호 간 연관분석을 수행하였다. 첫째, 빈도 분석 결과 환경 분야에서는 "환경일반"(40.85%)이 환경공간정보에서는 "위성영상" (24.87%)이 가장 높은 활용 빈도를 나타냈다. 둘째, 환경 분야에 대한 시계열 분석 결과 1996년부터 2000년까지는 "기후"에 대한 연구 비중이 높았으나, 2001년부터는 "환경일반"에 대한 연구가 증가하였다. 환경공간정보에서는 "위성영상"에 대한 수요가 전 기간에 걸쳐 가장 높았으며, 활용 비율 또한 점차적으로 증가하고 있었다. 셋째, 환경 분야와 환경공간정보에 대한 연관분석 결과 총 80개의 연관 규칙이 생성되었으며, 환경 분야 중 "환경일반"이 "위성영상", "전자지도" 등 총 17개의 환경공간정보와 가장 많은 수의 연관 규칙을 생성하였다.

텍스트 마이닝을 이용한 2015 개정 중학교 기술·가정 교과서의 주생활 단원 내용분석 (Content Analysis of the 'Housing' Unit in the 2015 Revised Middle School Technology and Home Economics Textbook Using Text Mining)

  • 김도연
    • 한국가정과교육학회지
    • /
    • 제34권2호
    • /
    • pp.1-19
    • /
    • 2022
  • 본 연구의 목적은 2015 개정 중학교 기술·가정 교과서의 키워드를 분석하여 주생활 단원의 핵심개념과 내용구성을 파악하는 것이다. TEXTOM 프로그램으로 교과서의 단어 빈도분석과 네트워크 분석을 실시하였고, UCINET 프로그램으로 중심성과 CONCOR 분석을 하였다. 분석결과는 다음과 같다. 첫째, 주생활 단원의 내용 체계는 '가정생활과 안전' 영역의 '생활문화'와 '안전'으로 구분되어 있다. 둘째, '안전' 단원에서는 실내, 발생, 사용, 소음, 안전사고 순으로 출현빈도가 높으며, 주생활과 안전사고, 예방과 관련된 단어들이 서로 밀접하게 연결되어 있다. '생활문화' 단원은 공간, 주거, 가족, 사용, 주거공간 순으로 출현빈도가 높으며, 키워드 간 연관성도 높게 나타났다. 셋째, '안전' 단원은 실내, 발생, 사용 등이, '생활문화' 단원은 공간, 가족, 주거 등이 영향력 있는 핵심개념으로 나타났다. 넷째, '안전' 단원은 '안전한 주생활', '쾌적한 주거환경'으로, '생활문화' 단원은 '주거공간 구성', '공간 활용', '주거가치관과 생활양식', '주생활 문화'로 구성되어 있다. 이와 같은 결과를 통해 향후 주생활 교육의 방향성과 정체성을 형성하기 위한 기초자료를 제공한다는 점에서 본 연구의 의의가 있다.

텍스트 네트워크를 활용한 간호창업 연구동향 고찰 (Analysis of Nursing Start-up Trends Using Text Network Analysis)

  • 김주행
    • 한국융합학회논문지
    • /
    • 제11권1호
    • /
    • pp.359-367
    • /
    • 2020
  • 본 연구는 간호창업 관련 문헌에서 나타난 간호창업의 관심 주제 및 간호창업 경험의 속성, 간호창업의 방향성을 탐색하기 위해 시행되었다. MEDLINE, Embase, Cochrane Library DB를 통해 55편의 간호창업 관련 문헌을 선정하여 덱스트 네트워크 분석 방법을 적용하여 분석하였다. 분석결과 단순출현 빈도와 연결중심성에서 공통적인 핵심키워드는 'business', 'care', 'nursing', 'healthcare', 'service'으로 나타났다. 연결중심성에서 높은 순위를 보이는 키워드는 'mission', 'vision', 'team'으로 나타났다. 이에 본 연구결과가 체계적인 간호창업 교육프로그램과 간호창업 이론 개발의 기초 자료로 활용 될 수 있을 것이다.

텍스트마이닝을 활용한 Covid-19 기간 동안의 항공산업 관련 키워드 트렌드 분석 (Keyword trends analysis related to the aviation industry during the Covid-19 period using text mining)

  • 최동현;송보미;박다현;이성우
    • 한국산업정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.115-128
    • /
    • 2022
  • 본 연구는 Covid-19 팬데믹이 항공산업에 미친 영향과 동향을 살펴보고자 국내 뉴스 기사 데이터를 활용하여 키워드 트렌드 분석을 진행하였다. 데이터 수집을 위하여 Covid-19 발생 기준으로 전, 후 각 6개월의 기간을 나누어 '항공사' 키워드를 중심으로 관련 기사들을 추출하였다. 이후 기간별 동시 출현 빈도를 파악한 후 LDA 기법을 이용하여 토픽 모델링을 진행하였으며, Covid-19의 진행 동향과 토픽 패턴과의 관계 분석을 통해 상황에 따른 주요 토픽을 도출하였다. 이러한 결과를 활용하여 Covid-19와 같이 범세계적으로 영향을 주는 전염병이 발생할 경우 그 추이에 따라 항공산업에 미치는 영향을 예측할 수 있는 기초자료로 활용될 수 있을 것으로 기대된다.

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

네트워크 텍스트 분석을 이용한 한국가정과교육학회지 논문의 연구 동향 분석 (Research Trend Analysis of Publications in the Journal of Home Economics Education Association Using Network Text Analysis)

  • 이윤정;김은정;김지선
    • 한국가정과교육학회지
    • /
    • 제31권4호
    • /
    • pp.1-18
    • /
    • 2019
  • 이 연구는 네트워크 텍스트 분석을 이용하여 가정과교육 분야의 연구동향을 분석하였다. 2003년 7월부터 2018년 12월 사이에 한국가정과교육학회지에 게재된 586편의 논문의 주제를 소셜 네트워크 분석프로그램인 Netminer 4의 텍스트분석 도구를 이용하여 주제어들의 출현빈도와 중심성 분석(연결중심성, 근접중심성, 매개중심성), 시기별 LDA 분석 등을 실시하였다. 그 결과는 다음과 같다. 첫째, 전반적으로 출현 빈도가 높은 단어들은 부모, 문화, 단원, 건강, 진로, 소비, 실천성 등이었다. 주제어 네트워크 분석 결과, 연결중심성은 부모, 관리가 가장 높았고, 근접중심성은 부모, 남학생, 매개중심성은 남학생, 단원 등이 가장 높게 나타났다. 둘째, 2003년부터 2018년까지의 연구를 4개 시기로 나누어 중심성 분석을 실시한 결과, 네 시기 모두 교육, 가정, 목적, 수업, 중학교, 학교 등 출현 빈도수가 높은 단어들은 유사하였으나, 시기별로는 제3, 제4시기에는 '목적'이라는 단어가, 제4시기에는 '과정' 이라는 단어가 두드러지게 나타났다. 셋째, 시기별 중심성 분석 결과 중심성의 종류와 무관하게 각 시기에 중요한 역할을 하는 단어들은 일정한 것으로 나타났다. 넷째, LDA 분석을 통한 토픽 변화를 분석하였을 때 교육과정, 교과서, 가족건강성, 교수학습, 평가, 식생활, 외모관리, 소비 등은 모든 시기에 지속적으로 등장하였다. 4개 시기의 토픽은 점차 다양화되고, 세분화되며, 심화되는 경향을 보였다. 연구를 통해 교육과정의 변화와 국가정책이 반영되어 새롭게 등장한 토픽인 교사연수와 안전이 주제어로 도출되었으며, 상대적으로 연구의 관심이 낮았던 토픽은 주거임이 드러나 학자들의 관심과 연구 활성화가 요구된다고 할 것이다. 이 연구는 2000년대 이후 한국가정과교육학계에서 이루어진 연구들의 주요 관심사를 파악할 수 있었다는 점과 관심사들의 순위를 제시하였다는 점에서 의미가 있다.