• 제목/요약/키워드: Keywords Analysis

검색결과 1,474건 처리시간 0.023초

텍스트 마이닝과 토픽모델링 활용한 사회서비스 품질의 학술연구 동향 분석 (The Analysis of Research Trends in Social Service Quality Using Text Mining and Topic Modeling)

  • 이혜정;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권3호
    • /
    • pp.29-40
    • /
    • 2022
  • 본 연구는 텍스트 마이닝과 토픽모델링을 활용하여 우리나라에 사회서비스가 본격적으로 도입된 2007년부터 2020년 까지의 사회서비스 품질에 대한 학술연구 동향을 분석하였다. 이를 토대로 사회서비스 품질에 관한 논문의 패턴 및 전체 데이터 속에 의미를 파악하여 사회서비스 발전방향에 대한 기초자료를 제공하고자 함에 목적이 있다. 자료수집은 학술연구정보서비스(RISS)에서 사회서비스, 사회복지서비스, 품질 키워드로 97편의 논문을 선정하였고, 2개 구간으로 구분하여 텍스트 마이닝을 활용하여 데이터를 분석하였다. 본 연구의 결과는 첫째, 본 연구에서 활용된 97개의 논문 중 1구간은 38편, 2구간은 59편으로 나타났고, 연 평균 6.9개의 논문이 발표되었다. 둘째, 단어빈도 분석 결과 1구간과 2구간의 공통 키워드는 서비스, 품질, 사회서비스, 만족도, 이용자, 품질관리, 재이용, 정책, 바우처 등의 순으로 나타났다. TF-IDF 분석 결과 1구간과 2구간의 공통 키워드는 사회서비스, 만족도, 이용자, 고객만족, 재이용, 바우처, 품질, 노인요양시설, 품질관리, 지역사회서비스투자사업 등의 순으로 나타났다. 셋째, 토픽 모델링 분석 결과 1구간의 주요 토픽은 서비스 제공유형, 서비스 비용, 재이용, 이용자 중심, 일자리 창출로 나타났고, 2구간은 품질관리체계, 공공성, 제공인력 관리체계, 공급방식체계, 서비스 만족도로 나타났다. 본 연구 결과를 바탕으로 사회서비스 품질 학술연구의 방향성을 제시하였다.

앙상블 학습 기반 국내 도서의 해외 판매 굿셀러 예측 및 굿셀러 리뷰 키워드 분석 (Ensemble Learning-Based Prediction of Good Sellers in Overseas Sales of Domestic Books and Keyword Analysis of Reviews of the Good Sellers)

  • 김도영;김나연;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.173-178
    • /
    • 2023
  • 한국 문학이 세계적으로 관심을 받게 됨에 따라 해외 출판시장에서의 수요가 지속적으로 증가하고 있다. 따라서 해외 출판시 도서 판매량의 예측과 과거 해외 독자들의 선호도가 높았던 도서들의 특징을 분석하는 것이 중요하다. 본 논문에서는 최근 5년간 해외 출간된 도서 중에서 굿셀러로 분류되는 누적 5천 부 이상 판매 여부 예측 모델을 제안하고 굿셀러의 요인이 되는 변수들을 분석하였다. 이를 위해, XGBoost, Gradient Boosting, Adaboost, LightGBM, Random Forest의 다섯 개 앙상블 학습 모델과 Support Vector Machine, Logistic Regression, Deep Learning을 적용한 결과, 불균형 데이터 문제 해결에 앙상블 알고리즘이 큰 효과를 보였음을 확인했으며, 그 중에서도 LightGMB 모델이 99.86%의 AUC 값을 얻어 가장 좋은 예측 성능을 보임을 검증하였다. 예측을 위해 사용된 변수 중 가장 중요한 변수는 작가의 해외 출간 횟수로 나타났으며, 평점 평균, 상위 출판 시장 규모를 가진 국가에서 출판 여부와 평점 참여자 수 등이 중요한 변수로 나타났다. 또한, 굿셀러 도서에 대한 독자들의 반응을 분석하기 위해서, 굿셀러 도서 중에서도 가장 많이 판매된 4권의 작품 리뷰에 대해 텍스트 마이닝을 실시하였다. 분석 결과 스토리, 등장인물, 작가 순으로 관심을 둔 리뷰가 많았음을 알 수 있었으며, 평점이 낮은 리뷰로부터 번역 키워드가 도출된 것으로 보아, 번역에 대한 지원을 확대하는 것이 필요할 것으로 보인다.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

주거환경에 대한 거주민의 만족도와 영향요인 분석 - 직방 아파트 리뷰 빅데이터와 딥러닝 기반 BERT 모형을 활용하여 - (Analysis of Resident's Satisfaction and Its Determining Factors on Residential Environment: Using Zigbang's Apartment Review Bigdata and Deeplearning-based BERT Model)

  • 권준현;이수기
    • 지역연구
    • /
    • 제39권2호
    • /
    • pp.47-61
    • /
    • 2023
  • 주거환경에 대한 만족도는 주거지 선택 및 이주 등에 영향을 미치는 주요인으로, 도시에서의 삶의 질과 직접적으로 연결된다. 최근 온라인 부동산 서비스의 증가로 주거환경에 대한 사람들의 만족도를 쉽게 확인할 수 있으며, 사람들이 평가하는 내용을 바탕으로 주거환경 만족 요인에 대한 분석이 가능하다. 이는 기존에 활용되던 설문조사 등의 방식보다 더 많은 양의 평가를 효율적으로 활용할 수 있음을 의미한다. 본 연구는 서울특별시를 대상으로 온라인 부동산 서비스인 '직방'에서 수집된 약 3만여 건의 아파트 리뷰를 분석에 활용하였다. 리뷰에 포함된 추천 평점을 토대로, 아파트 리뷰를 긍정적, 부정적으로 분류하고, 딥 러닝 기반 자연어 처리 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 사용하여 리뷰를 자동으로 분류하는 모델을 개발하였다. 이후 SHAP(SHAPley Additive exPlanation)를 이용하여 분류에 중요한 역할을 하는 단어 토큰을 도출함으로 주거환경 만족도의 영향요인을 도출하였다. 더 나아가 Word2Vec을 이용하여 관련 키워드를 분석함으로써 주거환경에 대한 만족도 개선을 위한 우선 고려사항을 제시하였다. 본 연구는 거주자의 정성평가 자료인 아파트 리뷰 빅데이터와 딥러닝을 활용하여 주거환경에 대한 만족도를 긍정적, 부정적으로 자동 분류하는 모형을 제안하여 그 영향요인을 도출하는데 의의가 있다. 분석결과는 주거환경 만족도 향상을 위한 기초자료로 활용될 수 있으며 향후 아파트 단지 인근 주거환경 평가, 신규 단지 및 기반시설의 설계 및 평가 등에 활용될 수 있다.

SentenceBERT 모델을 활용한 해양안전심판 재결서 분석 방법에 대한 연구 (Maritime Safety Tribunal Ruling Analysis using SentenceBERT)

  • 윤보리;박세길;배혜림;심성현
    • 해양환경안전학회지
    • /
    • 제29권7호
    • /
    • pp.843-856
    • /
    • 2023
  • 전 세계 선박 통행량의 증가에 따른 선박 충돌 사고의 증가는 큰 경제적, 환경적, 물리적 및 인간적 손해를 가져왔다. 선박 사고의 원인은 선원의 판단 오류나 부주의, 항로의 복잡성, 기상 조건, 선박의 기술적 결함 등 다양한 요인이 겹쳐 작용하여 사고를 유발하기 때문에 문장의 깊은 의미와 문맥 정보를 고려할 수 있는 방법론이 필요하다. 따라서, 본 연구는 부산해심 지역에서의 최근 20년 동안의 선박 충돌사고 데이터를 포함하고 있는 해양안전심판 재결서를 SentenceBERT 모델을 활용해 분석하였다. 분석 결과 사고의 주요 원인이 될 수 있는 키워드가 도출되었으며, 특정 키워드 출현 빈도를 바탕으로 군집 분석을 시행하고 시각화하였다. 추후 사고의 원인을 미리 파악함으로써, 이를 통해 선박 충돌 사고의 예방 및 사고 대응 전략 개발의 기초 자료로써 활용하고자 한다.

NFT(Non-Fungible Token) Patent Trend Analysis using Topic Modeling

  • Sin-Nyum Choi;Woong Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.41-48
    • /
    • 2023
  • 본 논문은 여러 산업 분야에서 범용적으로 활용될 수 있는 NFT(Non-Fungible Token)에 대해 토픽 모델링 기법을 활용하여 최근의 NFT 산업 동향에 대한 분석 결과를 제시한다. 본 연구에서는 산업 동향을 파악하기 위해 특허 데이터를 활용하였으며, NFT 표준안이 처음으로 발표되었던 2017년부터 2023년 10월까지 특허정보검색서비스 키프리스에 등록된 NFT 관련 국내·외 특허 각각 371건, 454건의 특허 데이터를 수집하였다. 다음으로 전처리 작업에서 불용어, 표제어를 제거 후 명사 단어만을 추출하였고, 분석 방법으론 빈도수에 따른 상위 50개의 단어를 나열하고, 단어마다 계산된 TF-IDF 값을 같이 확인하여 산업 동향의 핵심 키워드를 도출하였다. 다음으로, LDA 알고리즘을 활용해 국내·외 별로 특허 데이터에서 잠재된 4개의 주요 주제를 도출하였다. 도출한 주제별로 내용을 분석하고, 실제 NFT 산업사례를 근거로 들어 NFT 산업 동향 분석내용을 제시하였다. 선행연구에서는 논문 데이터를 통해 학술적 관점에서 동향을 제시하였다면 본 연구는 현장 실무에 기반을 둔 데이터를 활용하여 실용적인 동향 내용을 제공했다는 점에서 의의가 있으며, NFT 산업계 관련자들이 시장 현황 파악 및 새로운 아이템 창출을 위한 참고용으로 활용될 것으로 기대한다.

'디지털 분석 도구를 활용한 문학 연구 : 라클로의 『위험한 관계Les liaisons dangereuses』를 중심으로 (Literary Research Using Digital Analysis Tools: A Case Study of 『Dangerous Liaisons』)

  • 류선정;유은순
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.173-180
    • /
    • 2024
  • 본 연구는 디지털 분석 도구를 활용하여 서간체 형식의 18세기 리베르탱 소설의 걸작으로 꼽히는 『위험한 관계』를 대상으로 '리베르티나주(libertinage)'를 둘러싼 이성과 감정의 문제를 계량적으로 분석하였다. 첫째, Voyant과 LIWC 22의 사용 단어 빈도수 분석을 통해 리베르티나주가 'love'와 'time'과 같은 키워드로 발현되었음을 확인하였다. 둘째, Voyant의 'Contexts' 기능을 통해 발몽이 투르벨 부인에게 보낸 편지들과 메르퇴유 부인에게 보낸 편지들은 모두 'love'를 중심 테마로 하고 있지만, 전자에서는 감정적 어휘들이, 후자에서는 전략적 어휘들이 더 많이 사용된 것을 확인하였다. 그리고 메르퇴유가 보낸 편지에서 가장 많이 사용된 어휘는 'time'으로서 'love'보다 빈도수가 더 높은 것을 확인하였다. 셋째, LIWC 22를 이용하여 주요 인물들이 주고받은 편지들을 대상으로 인물별, 각부별 '분석적 사고(analytic thinking)'와 '감정적 어조(emotional tone)'를 각각 측정하고 분석하였다. 이상의 분석 결과들은 『위험한 관계』가 18세기 프랑스의 계몽주의 시대 때 배척의 대상이었던 '감정'이라는 문제에 천착하고 있는 작품임을, 그리고 루소의 『신 엘로이즈』처럼 낭만주의를 예고하는 작품임을 뒷받침하는 중요한 근거로서 유의미할 것이다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

기간별 이슈 매핑을 통한 이슈 생명주기 분석 방법론 (Analyzing the Issue Life Cycle by Mapping Inter-Period Issues)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.25-41
    • /
    • 2014
  • 최근 스마트 기기를 통해 소셜미디어에 참여하는 사용자가 급격히 증가하고 있다. 이에 따라 빅데이터 분석에 대한 관심이 높아지고 있으며 최근 포털 사이트에서 검색어로 자주 입력되거나 다양한 소셜미디어에서 자주 언급되는 단어에 대한 분석을 통해 사회적 이슈를 파악하기 위한 시도가 이루어 지고 있다. 이처럼 다량의 텍스트를 통해 도출된 사회적 이슈의 기간별 추이를 비교하는 분석을 이슈 트래킹이라 한다. 하지만 기존의 이슈 트래킹은 두 가지 한계를 가지고 있다. 첫째, 전통적 방식의 이슈 트래킹은 전체 기간의 문서에 대해 일괄 토픽 분석을 실시하고 각 토픽의 기간별 분포를 파악하는 방식으로 이루어지므로, 새로운 기간의 문서가 추가되었을 때 추가된 문서에 대해서만 분석을 추가 실시하는 것이 아니라 전체 기간의 문서에 대한 분석을 다시 실시해야 한다는 실용성 측면의 한계를 갖고 있다. 둘째, 이슈는 끊임 없이 생성되고 소멸될 뿐 아니라, 때로는 하나의 이슈가 둘 이상의 이슈로 분화하고 둘 이상의 이슈가 하나로 통합되기도 한다. 즉, 이슈는 생성, 변화(병합, 분화), 그리고 소멸의 생명주기를 갖게 되는데, 전통적 이슈 트래킹은 이러한 이슈의 가변성을 다루지 않았다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 대상 기간 전체의 문서를 한꺼번에 분석하는 방식이 아닌 세부 기간별 문서에 대해 독립적인 분석을 수행하고 이를 통합할 수 있는 방안을 제시하였으며, 이를 통해 새로운 이슈가 생성되고 변화하며 소멸되는 전체 과정을 규명하였다. 또한 실제 인터넷 뉴스에 대해 제안 방법론을 적용함으로써, 제안 방법론의 실무 적용 가능성을 분석하였다.

동시출현단어 분석을 이용한 토양침식 연구동향 비교 분석 (A Comparison of Current Trends in Soil Erosion Research Using Keyword Co-occurrence Analysis)

  • 임영협;김석우;남수연;전근우;김민석
    • 한국환경생태학회지
    • /
    • 제34권5호
    • /
    • pp.413-424
    • /
    • 2020
  • 최근의 환경정책과 산업은 사후관리에서 사전예방 중심으로 그 패러다임이 변화하고 있다. 이에 따라 국토의 유한자원으로서의 표토의 기능과 가치에 대한 인식 제고를 바탕으로 보전예방적으로 관리하기 위한 정책이 추진되고 있다. 이러한 배경을 바탕으로 이 연구에서는 국제·국내 전문학술지의 검색 데이터베이스(Web of science)를 기반으로 최근 10년간의 연구논문에 대하여 VOSviewer를 이용한 동시출현단어 분석을 실시하여 국내·외 토양침식 연구동향을 비교·분석하고 향후 연구방향을 제안하고자 하였다. 그 결과, 우리나라의 국토면적 대비 토양침식 관련 논문 게재건수는 세계적으로 비교적 상위에 속하고, 특히 토양침식 제어와 관련된 연구가 외국에 비해 큰 비중을 차지하고 있는 것으로 나타났다. 이러한 결과로부터 우리나라에서는 기후·지형·토지이용 여건에 따른 토양침식의 심각성을 인식하고 비교적 활발한 연구가 진행되고 있는 것으로 판단되었다. 그러나 토양침식 제어에 관한 연구영역은 외국에 비해 키워드 수가 적게 나타나 연구항목을 보다 다양화·확장할 필요가 있으며, 특히 토양침식의 프로세스와 이와 관련한 토양의 물리·화학적 특성에 대한 연구는 토양침식에 따른 문제의 근본적인 해결을 위하여 활발히 추진할 필요가 있는 분야로 나타났다.