• 제목/요약/키워드: Jupyter notebook

검색결과 16건 처리시간 0.022초

Framing North Korea on Twitter: Is Network Strength Related to Sentiment?

  • Kang, Seok
    • Journal of Contemporary Eastern Asia
    • /
    • 제20권2호
    • /
    • pp.108-128
    • /
    • 2021
  • Research on the news coverage of North Korea has been paying less attention to social media platforms than to legacy media. An increasing number of social media users post, retweet, share, interpret, and set agendas on North Korea. The accessibility of international users and North Korea's publicity purposes make social media a venue for expression, news diversity, and framing about the nation. This study examined the sentiment of Twitter posts on North Korea from a framing perspective and the relationship between network strengths and sentiment from a social network perspective. Data were collected using two tools: Jupyter Notebook with Python 3.6 for preliminary analysis and NodeXL for main analysis. A total of 11,957 tweets, 10,000 of which were collected using Python and 1,957 tweets using NodeXL, about North Korea between June 20-21, 2020 were collected. Results demonstrated that there was more negative sentiment than positive sentiment about North Korea in the sampled Twitter posts. Some users belonging to small network sizes reached out to others on Twitter to build networks and spread positive information about North Korea. Influential users tended to be impartial to sentiment about North Korea, while some Twitter users with a small network exhibited high percentages of positive words about North Korea. Overall, marginalized populations with network bonding were more likely to express positive sentiment about North Korea than were influencers at the center of networks.

병원 외래환자수의 예측을 위한 시계열 데이터처리 딥러닝 시스템 (Time Series Data Processing Deep Learning system for Prediction of Hospital Outpatient Number)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.313-318
    • /
    • 2021
  • 딥러닝 기술의 도래로 인하여 수많은 산업과 일반적인 응용에 적용됨으로써 우리의 생활에 큰 영향을 발휘하고 있다. 특정한 분야의 문제를 해결하기 위해서는 그 문제에 적합한 딥러닝 모델을 작성해야 한다. 근래에는 COVID-19 사태로 인하여 다양한 문제들을 딥러닝으로 해결하고자 하는 사례들이 늘고 있다. 이러한 일환으로 본 논문에서는 갑자기 급증할 수 있는 병원의 외래환자들을 미리 예측을 위한 시계열의 딥러닝 모델을 제시하고자 한다. 제시하는 딥러닝 모델은 주피터 노트북에서 케라스로 작성하였다. 예측결과는 실제 데이터와 그래프로 비교하며 유효성 데이터를 활용하여 과소적합과 과대적합의 여부를 손실률로 분석할 수 있도록 하였다.

필기숫자 데이터에 대한 텐서플로우와 사이킷런의 인공지능 지도학습 방식의 성능비교 분석 (Performance Comparison Analysis of AI Supervised Learning Methods of Tensorflow and Scikit-Learn in the Writing Digit Data)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.701-706
    • /
    • 2019
  • 최근에는 인공지능의 도래로 인하여 수많은 산업과 일반적인 응용에 적용됨으로써 우리의 생활에 큰 영향을 발휘하고 있다. 이러한 분야에 다양한 기계학습의 방식들이 제공되고 있다. 기계학습의 한 종류인 지도학습은 학습의 과정 중에 특징값과 목표값을 입력으로 가진다. 지도학습에도 다양한 종류가 있으며 이들의 성능은 입력데이터인 빅데이터의 특성과 상태에 좌우된다. 따라서, 본 논문에서는 특정한 빅 데이터 세트에 대한 다수의 지도학습 방식들의 성능을 비교하기 위해 텐서플로우(Tensorflow)와 사이킷런(Scikit-Learn)에서 제공하는 대표적인 지도학습의 방식들을 이용하여 파이썬언어와 주피터 노트북 환경에서 시뮬레이션하고 분석하였다.

빅데이터의 정규화 전처리과정이 기계학습의 성능에 미치는 영향 (Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.547-552
    • /
    • 2019
  • 최근, 빅데이터 분야에서는 빅 데이터의 양적 팽창이 주요 이슈로 떠오르고 있다. 더군다나 이러한 빅데이터는 기계학습의 입력값으로 사용되어지고 있으며 이들의 성능을 향상시키기 위해 정규화 전처리가 필요하다. 이러한 성능은 빅데이터 컬럼의 범위나 정규화 전처리 방식에 따라 크게 좌우된다. 본 논문에서는 다양한 종류의 정규화 전처리 방식과 빅데이터 컬럼의 범위를 조절하면서 서포트벡터머신(SVM)의 기계학습방식에 적용함으로써 더욱 효과적인 정규화 전처리 방식을 파악하고자 하였다. 이를 위하여 파이썬언어와 주피터 노트북 환경에서 기계학습을 수행하고 분석하였다.

의무 기록 문서 분류를 위한 자연어 처리에서 최적의 벡터화 방법에 대한 비교 분석 (Comparative Analysis of Vectorization Techniques in Electronic Medical Records Classification)

  • 유성림
    • 대한의용생체공학회:의공학회지
    • /
    • 제43권2호
    • /
    • pp.109-115
    • /
    • 2022
  • Purpose: Medical records classification using vectorization techniques plays an important role in natural language processing. The purpose of this study was to investigate proper vectorization techniques for electronic medical records classification. Material and methods: 403 electronic medical documents were extracted retrospectively and classified using the cosine similarity calculated by Scikit-learn (Python module for machine learning) in Jupyter Notebook. Vectors for medical documents were produced by three different vectorization techniques (TF-IDF, latent sematic analysis and Word2Vec) and the classification precisions for three vectorization techniques were evaluated. The Kruskal-Wallis test was used to determine if there was a significant difference among three vectorization techniques. Results: 403 medical documents were relevant to 41 different diseases and the average number of documents per diagnosis was 9.83 (standard deviation=3.46). The classification precisions for three vectorization techniques were 0.78 (TF-IDF), 0.87 (LSA) and 0.79 (Word2Vec). There was a statistically significant difference among three vectorization techniques. Conclusions: The results suggest that removing irrelevant information (LSA) is more efficient vectorization technique than modifying weights of vectorization models (TF-IDF, Word2Vec) for medical documents classification.

랜덤 포레스트를 활용한 만족도 사전조사에 따른 교육 역량 예측 분석 (An Analysis of Educational Capacity Prediction according to Pre-survey of Satisfaction using Random Forest)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.487-492
    • /
    • 2022
  • 대학들은 급변하는 사회 환경에 적합한 교육역량 수준을 높이기 위해 다양한 방법들을 찾고 있다. 본 논문에서는 조사 항목을 수정, 보완한 만족도 사전조사를 개강 전에 실행하여 학업성취도를 높이고 전공 이탈자의 비율을 낮춰 교육 성과를 높이는 방안을 제안한다. 일반적인 만족도 조사 이후에 시행되는 교육품질 개선(CQI) 방식을 보완하고자 만족도 사전조사를 시행하였다. 학생역량을 강화하기 위해 설계가 진행 중인 인공지능형 메디치 플랫폼에 적용할 수 있는 머신러닝 기법의 랜덤 포레스트를 활용하여 중요한 데이터의 예측 및 분석을 가능하게 하였다. 만족도 사전조사 데이터들을 전처리하여 수강 신청 학생들의 정보를 설명 변수로 정의하고 분류하여 모델 생성 및 학습하였다. 실험 환경은 주피터 노트북 3.7.7, Python 3.7에서 관련 알고리즘과 사이킷런(sklearn) 라이브러리를 함께 사용하였다. 제안하는 방안의 결과를 수업에 반영하여 수업 후에 진행하는 교육 만족도 조사의 변화와 중도 탈락생 수의 동향을 비교 분석하였다.