• 제목/요약/키워드: wordcloud analysis

검색결과 25건 처리시간 0.021초

웹 환경에서 100 논문에 대한 텍스트 마이닝, 데이터 분석과 시각화 (100 Article Paper Text Minning Data Analysis and Visualization in Web Environment)

  • 이효맹;이가베;이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.157-158
    • /
    • 2017
  • There is a method to analyze the big data of the article and text mining by using Python language. And Python is a kind of programming language and it is easy to operating. Reaserch and use Python to creat a Web environment that the research result of the analysis can show directly on the browser. In this thesis, there are 100 article paper frrom Altmetric, Altmetric tracks a range of sources to capture. It is necessary to collect and analyze the big data use an effictive method, After the result coming out, Use Python wordcloud to make a directive image that can show the highest frequency of words.

  • PDF

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

IPA 분석법을 활용한 비대면 동영상 강의 만족도 제고 방안 연구 (A Study on Improving the Satisfaction of Non-face-to-face Video Lectures Using IPA Analysis)

  • 정대현;김진성
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권4호
    • /
    • pp.45-56
    • /
    • 2020
  • Purpose The purpose of this study is to present the direction of efficient e-learning education through the importance and satisfaction survey of learners of non-face-to-face video lectures. Therefore, by grasping the degree of satisfaction of the importance ratio through the IPA analysis method, we try to present improvement measures for insufficient education methods. Design/methodology/approach For IPA analysis, we conducted an online survey of four universities and analyzed 154 samples. The analysis method used SPSS, and through the wordcloud analysis method of R, the suggestions for the non-face-to-face lecture method felt by learners were analyzed to derive implications for improving the quality of education. Findings As a result of the overall satisfaction survey for the entire non-face-to-face class, the factors with the greatest dissatisfaction are listed as follows. Complaints about the adequacy of learning materials and activities (quiz, discussion, assignments, etc.), Complaints about how to use the produced content, and complaints about announcements about class management (lecture schedule, lecture method) were identified in order. The factors of dissatisfaction were clear in the non-face-to-face class where interactive communication was impossible or insufficient. In addition to the lack of quick Q&A, there seems to have been a phenomenon of some neglect.

텍스트 마이닝 기법을 활용한 ECDIS 사고보고서 분석 (Text Mining Analysis Technique on ECDIS Accident Report)

  • 이정석;이보경;조익순
    • 해양환경안전학회지
    • /
    • 제25권4호
    • /
    • pp.405-412
    • /
    • 2019
  • SOLAS에서는 국제 항해에 종사하는 총톤수 500톤 이상의 선박에 대하여 2018년 7월 1일 이후 도래하는 최초 검사까지 ECDIS를 설치해야 한다고 규정하고 있다. 새로운 주요 항해 장비로 ECDIS가 탑재되면서 ECDIS 사용에 관련한 다양한 사고가 발생하고 있다. MAIB, BSU, BEAmer, DMAIB, DSB에서 발행한 12가지의 사고보고서에는 항해사의 운용 미숙과 ECDS 시스템의 사고 원인으로 분석하였고, 사고 원인과 관련된 단어들을 정량적으로 분석하기 위해 R-프로그램을 사용하여 텍스트를 분석하였다. 도출 빈도에 따른 단어의 중요도를 나타내기 위해 텍스트 마이닝 기법인 단어 구름, 단어 연관성, 단어 가중치의 방법을 사용하였다. 단어 구름은 사용된 단어들의 빈도수를 구름 형태로 나타내는 방법으로써 N-gram 모델을 적용하였다. N-gram 모델 중 Uni-gram 분석 결과 ECDIS 단어, Bi-gram 분석 결과는 Safety Contour 단어의 사용 빈도가 가장 많았다. Bi-gram 분석을 기반으로 사고 원인 단어를 항해사와 ECDIS 시스템으로 구분하고, 연관된 단어들을 단어 연관성으로 나타내었다. 마지막으로 항해사와 ECDIS 시스템에 연관된 단어들을 단어 말뭉치로 구성한 후 단어 가중치를 적용하여 연도별 말뭉치 빈도 변화를 분석하였다. 추세선 그래프로 말뭉치 변화 경향을 분석한 결과, 항해사 말뭉치는 최근으로 올수록 감소하였으며 반대로 ECDIS 시스템 말뭉치는 점점 증가함을 나타내었다.

의료 SCM 경쟁역량 강화를 위한 물류공동화 도입 필요성 -빅데이터 비즈니스 모델 관점- (Necessity of the Physical Distribution Cooperation to Enhance Competitive Capabilities of Healthcare SCM -Bigdata Business Model's Viewpoint-)

  • 박광오;정대현;권상민
    • 경영과정보연구
    • /
    • 제39권3호
    • /
    • pp.17-35
    • /
    • 2020
  • 본 연구는 의료 SCM 경쟁역량 강화를 위해 빅데이터 분석을 통한 물류공동화 시스템 도입의 필요성을 역설하면서 고객 니즈를 반영한 현 상황 시나리오 비즈니즈 모델을 개발하는 것이다. 물류공동화 사용의도에 필요한 의료 SCM 경쟁역량으로써는 협업시스템, 가격리더십, 인도속도, 프로세스유연성으로 구분하여 살펴보았다. 의료기관 간의 업무 효율화를 실현하기 위해 가장 중요한 고려 사항을 분석한 워드클라우드(wordcloud) 결과는 돌발상황, 정보공유, 배송, 실시간, 배송, 편리성 등의 단어가 많이 언급되었다. 주말에 긴급 돌발상황에 즉각적 대응을 할 수 있는 시스템 구축의 필요성을 피력한 것으로 해석할 수 있다. 또한 소통과 편리성의 추구와 더불어 재고관리의 효율성을 기할 수 있는 실시간 정보공유의 중요성을 엿볼 수 있다. 따라서 빅데이터 분석을 통한 실시간으로 물류파이프라인의 가시성을 높일 수 있는 비즈니스모델의 지향을 현장에서 필요로 한다는 판단이다. 의료 SCM 경쟁역량에 대한 공급사슬네트워크의 적응성의 효과를 분석함으로써 경쟁역량의 획득이 물류공동화 실행을 통해서 이루어질 수 있음을 밝히게 되었다. 물류공동화와 같은 파트너십이 강화될수록 결국 SCM 경쟁역량으로 이어지게 될 것이다. 의료기관의 공동물류화 시스템이 기업 상호간의 파트너십의 활성화를 유도할 수 있는 방향으로 기업 간 전략적인 접근을 모색하여 SCM 경쟁역량을 높일 수 있도록 하여야 할 것이다. 특히 물류공동화 시스템 구축에 따른 빅데이터 분석을 통하여 HSCM의 활용도 모색을 강구해 나가야 할 것이다.

텍스트 마이닝 기반의 미국 국방 표준 동향 분석을 통한 한국 국방 표준의 발전 방안 연구 (A Study on the Development of Korean Defense Standards through Text Mining-Based Trend Analysis of United States Defense Standards)

  • 채수환;심보현;염슬기;홍성돈
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.651-660
    • /
    • 2021
  • 본 연구는 국방 분야 선진국인 미국의 표준에 대한 제정 동향을 파악하고, 한국 국방 표준에 적용 가능한 방안을 검토하였다. 이를 위해 웹에 등록된 MIL-STD를 비롯하여 다양한 미국 국방 문서에 대해 제목을 중심 데이터를 수집한 후, 텍스트 마이닝을 이용하여 단어 빈도를 분석하고 그 결과를 워드클라우드 형태로 생성하였다. 그 결과, 시대별로 MIL-STD에 등장하는 단어의 동향을 파악할 수 있었다. 문서 자체의 형식으로 인해 많이 등장하는 단어, 전 시대에 걸쳐 많이 등장하는 단어도 있는 반면, 과거에는 자주 쓰이다 현재는 많이 쓰이지 않는 단어나 과거에는 주목을 받지 못하다가 현재에 와서야 많이 등장하는 단어도 파악이 가능하였다. 또한 MIL-STD를 포함한 다양한 국방 문서를 대상으로 생성한 워드클라우드를 통해 그 특징을 도출하였다. 결론적으로 한국 국방 표준도 재료의 안전한 사용 및 다양한 화물 운반 기준을 마련하는 것에 대한 고민이 필요한 것을 확인하였다. 더 나아가 국방 분야 표준 및 규격에 4차 산업혁명 등과 관련된 최신 기술을 반영하여 표준을 선점하고 규격을 마련하는 것이 중요할 것이다. 또한 국방표준 문서체계를 명확하게 정립하고 효율적인 관리에 투자한다면, 국방 분야 표준의 질 향상을 기대할 수 있을 것이다.

마르셀 프루스트의 『잃어버린 시간을 찾아서』에 대한 디지털인문학적 강의 운영 사례 연구 (A case study of Digital humanities lecture on Marcel Proust's À La Recherche du temps perdu)

  • 민진영
    • 문화기술의 융합
    • /
    • 제9권4호
    • /
    • pp.269-275
    • /
    • 2023
  • 작가 마르셀 프루스트의 탄생 150주년을 맞는 2021년과 서거 100주년을 맞는 2022년에 『잃어버린 시간을 찾아서』에 대한 관심이 세계적으로 고조되었다. 필자는 난해하다고 알려진 이 7권의 대하소설을 국내의 프랑스문학전공 학생들에게 잘 접근하게 하기 위해 디지털인문학적 방법을 사용하였다. 필자는 학생들을 빅데이터 분석도구를 활용하여 분석하고, 시각화자료를 통해 작품이해의 실마리를 찾도록 이끌었다. 워드클라우드로 작품에 나타나는 주요 등장인물과 장소를 꼽아보고, 빅카인즈와 텍스톰이라는 빅데이터 분석 사이트를 통해 국내외의 프루스트에 대한 인지도를 검색하였다. 학생들은 디지털인문학의 방법론을 통해 프루스트의 『잃어버린 시간을 찾아서』에 대해 난해하다고 하여 포기하기보다는 조금씩 이해의 폭이 넓어졌다고 진술했다. 프랑스어를 전공하는 학생들에게 프랑스문학의 이해를 넓혀가는 방법을 찾아가는데 있어 빅데이터 분석과 디지털인문학의 방법론을 적용하는 것은 적절한 교수법임을 확인하였다.

Analysis of Keywords and Language Networks of Pedagogical Problems in the Secondary-School Teacher's Employment Exam : Focusing on the 2019~2022 School Year Exam

  • Kwon, Choong-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.115-124
    • /
    • 2022
  • 본 연구의 목적은 2019~2022학년도 중등교사 임용시험 교육학문제의 연도별 핵심어와 그 경향, 핵심어들의 언어네트워크를 분석하여 그 결과를 제시하는 것이다. 주요 연구방법론은 텍스트 마이닝 기법과 언어네트워크 분석방법이었으며, 분석프로그램으로는 KrKwic, Wordcloud Maker, Ucinet6, NetDraw 등이었다. 연구결과는 다음과 같다. 첫째, 연도별 교육학문제의 상위출현빈도 핵심어는 교사, 학생, 교육과정, 수업, 평가 등의 기존 상위출현빈도 핵심어들이었으며, 최근 코로나 19 상황의 온라인수업 진행을 반영한 핵심어(온라인, 위키, 토의식, 정보 등)들도 추가로 등장하는 경향을 보였다. 4개년도 통합 텍스트에서의 상위출현빈도 핵심어는 학생(44), 교사(39), 수업(27), 학교(18), 교육과정(16), 온라인(10), 토의식(8) 등이었다. 둘째, 4개년도 상위출현빈도 핵심어들의 전체 언어네트워크는 상당한 수준의 밀도(0.566), 총연결수(492), 평균연결정도(16.4)로 분석되었다. 연결정도 중심성은 교사(199.0), 수업(197.0), 학생(185.0), 학교(150.0) 순으로 나타났으며, 매개 중심성은 교사(30.859), 수업(18.956), 학생(16.054), 학교(15.745) 순으로 나타났다. 본 연구결과는 중등교사 임용시험 수험생인 예비교사, 해당 시험 출제 관리하는 기관과 관련자, 중등학교 예비교사 양성기관의 교수자와 행정가들에게 고려해볼 만한 자료가 되길 기대한다.

텍스트마이닝 기법을 활용한 국내 음식관광 연구 동향 분석 (Analyzing Research Trends of Food Tourism Using Text Mining Techniques)

  • 신서영;이범준
    • 한국식생활문화학회지
    • /
    • 제35권1호
    • /
    • pp.65-78
    • /
    • 2020
  • The objective of this study was to review and evaluate the growing subject of food tourism research, and thus identify the trend of food tourism research. Using a Text mining technique, this paper discovered the trends of the literature on food tourism that was published from 2004 to 2018. The study reviewed 201 articles that include the words 'food' and 'tourism' in their abstracts in the KCI database. The Wordscloud analysis results presented that the research subjects were predominantly 'Festival', 'Region', 'Culture', 'Tourist', but there was a slight difference in frequency according to the time period. Based on the main path analysis, we extracted the meaningful paths between the cited references published domestically, resulting in a total of 12 networks from 2004 to 2018. The Text network analysis indicated that the words with high centrality showed similarities and differences in the food tourism literature according to the time period, displaying them in a sociogram, a visualization tool. This study has implications that it offers a new perspective of comprehending the overall flow of relevant research.

토픽 모델링을 활용한 교양 ICT 활용과정 서술형 강의평가 분석 (Analysis of Descriptive Lecture Evaluation on Liberal Arts ICT utilization using Topic Modeling)

  • 김효숙
    • Journal of Platform Technology
    • /
    • 제8권1호
    • /
    • pp.33-40
    • /
    • 2020
  • 본 연구의 목적은 교양 ICT활용 과정의 서술형 강의 평가에 대해 텍스트 마이닝의 토픽모델링 분석을 실시하여 수강생의 강의 선택 요인과 강의에 대한 긍정적·부정적 요소 파악을 하고자 하는데 있다. 이를 위해 M 대학교의 2019년 2학기에 개설된 ICT활용 과정 강의에 대해 '강의를 신청한 이유', '강의에서 개선되어야 할 점'과 '강의에서 좋았던 점'에 대한 데이터 전처리부터 키워드 빈도 분석, 워드 클라우드 시각화 및 토픽 모델링 분석을 실시하였다. 연구결과 M 대학의 2019년 2학기 ICT활용 과정은 자격증 취득을 위해 강의를 신청하며, 동시에 자격증을 취득할 수 있어 강의가 좋았다는 긍정적 분석을 알 수 있다. 부정적 요소로 강의실 사용 환경 불편에 대한 것을 알 수 있다.

  • PDF