• 제목/요약/키워드: term frequency-inverse document frequency (TF-IDF)

검색결과 65건 처리시간 0.025초

텍스트 분류 기반 기계학습의 정신과 진단 예측 적용 (Application of Text-Classification Based Machine Learning in Predicting Psychiatric Diagnosis)

  • 백두현;황민규;이민지;우성일;한상우;이연정;황재욱
    • 생물정신의학
    • /
    • 제27권1호
    • /
    • pp.18-26
    • /
    • 2020
  • Objectives The aim was to find effective vectorization and classification models to predict a psychiatric diagnosis from text-based medical records. Methods Electronic medical records (n = 494) of present illness were collected retrospectively in inpatient admission notes with three diagnoses of major depressive disorder, type 1 bipolar disorder, and schizophrenia. Data were split into 400 training data and 94 independent validation data. Data were vectorized by two different models such as term frequency-inverse document frequency (TF-IDF) and Doc2vec. Machine learning models for classification including stochastic gradient descent, logistic regression, support vector classification, and deep learning (DL) were applied to predict three psychiatric diagnoses. Five-fold cross-validation was used to find an effective model. Metrics such as accuracy, precision, recall, and F1-score were measured for comparison between the models. Results Five-fold cross-validation in training data showed DL model with Doc2vec was the most effective model to predict the diagnosis (accuracy = 0.87, F1-score = 0.87). However, these metrics have been reduced in independent test data set with final working DL models (accuracy = 0.79, F1-score = 0.79), while the model of logistic regression and support vector machine with Doc2vec showed slightly better performance (accuracy = 0.80, F1-score = 0.80) than the DL models with Doc2vec and others with TF-IDF. Conclusions The current results suggest that the vectorization may have more impact on the performance of classification than the machine learning model. However, data set had a number of limitations including small sample size, imbalance among the category, and its generalizability. With this regard, the need for research with multi-sites and large samples is suggested to improve the machine learning models.

자연어 처리 및 기계학습을 활용한 제조업 현장의 품질 불량 예측 방법론 (A Method for Prediction of Quality Defects in Manufacturing Using Natural Language Processing and Machine Learning)

  • 노정민;김용성
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.52-62
    • /
    • 2021
  • 제조업 현장에서 제작 공정 수행 전 품질 불량 위험 공정을 예측하여 사전품질관리를 수행하는 것은 매우 중요한 일이다. 하지만 기존 엔지니어의 역량에 의존하는 방법은 그 제작공정의 종류와 수가 다양할수록 인적, 물리적 한계에 부딪힌다. 특히 원자력 주요기기 제작과 같이 제작공정이 매우 광범위한 도메인 영역에서는 그 한계가 더욱 명확하다. 본 논문은 제조업 현장에서 자연어 처리 및 기계학습을 활용하여 품질 불량 위험 공정을 예측하는 방법을 제시하였다. 이를 위해 실제 원자력발전소에 설치되는 주기기를 제작하는 공장에서 6년 동안 수집된 제작 기록의 텍스트 데이터를 활용하였다. 텍스트 데이터의 전처리 단계에서는 도메인 지식이 잘 반영될 수 있도록 단어사전에 Mapping 하는 방식을 적용하였고, 문장 벡터화 과정에서는 N-gram, TF-IDF, SVD를 결합한 하이브리드 알고리즘을 구성하였다. 다음으로 품질 불량 위험 공정을 분류해내는 실험에서는 k-fold 교차 검증을 적용하고 Unigram에서 누적 Trigram까지 여러 케이스로 나누어 데이터셋에 대한 객관성을 확보하였다. 또한, 분류 알고리즘으로 나이브 베이즈(NB)와 서포트 벡터 머신(SVM)을 사용하여 유의미한 결과를 확보하였다. 실험결과 최대 accuracy와 F1-score가 각각 0.7685와 0.8641로서 상당히 유효한 수준으로 나타났다. 또한, 수행해본 적이 없는 새로운 공정을 예측하여 현장 엔지니어들의 투표와의 비교를 통해서 실제 현장에 자연스럽게 적용할 수 있음을 보여주었다.

텍스트 마이닝을 활용한 자율운항선박 분야 주요 이슈 분석 : 국내 뉴스 데이터를 중심으로 (Analysis of major issues in the field of Maritime Autonomous Surface Ships using text mining: focusing on S.Korea news data)

  • 이혜영;김진식;구병수;남문주;장국진;한성원;이주연;정명석
    • 시스템엔지니어링학술지
    • /
    • 제20권spc1호
    • /
    • pp.12-29
    • /
    • 2024
  • The purpose of this study is to identify the social issues discussed in Korea regarding Maritime Autonomous Surface Ships (MASS), the most advanced ICT field in the shipbuilding industry, and to suggest policy implications. In recent years, it has become important to reflect social issues of public interest in the policymaking process. For this reason, an increasing number of studies use media data and social media to identify public opinion. In this study, we collected 2,843 domestic media articles related to MASS from 2017 to 2022, when MASS was officially discussed at the International Maritime Organization, and analyzed them using text mining techniques. Through term frequency-inverse document frequency (TF-IDF) analysis, major keywords such as 'shipbuilding,' 'shipping,' 'US,' and 'HD Hyundai' were derived. For LDA topic modeling, we selected eight topics with the highest coherence score (-2.2) and analyzed the main news for each topic. According to the combined analysis of five years, the topics '1. Technology integration of the shipbuilding industry' and '3. Shipping industry in the post-COVID-19 era' received the most media attention, each accounting for 16%. Conversely, the topic '5. MASS pilotage areas' received the least media attention, accounting for 8 percent. Based on the results of the study, the implications for policy, society, and international security are as follows. First, from a policy perspective, the government should consider the current situation of each industry sector and introduce MASS in stages and carefully, as they will affect the shipbuilding, port, and shipping industries, and a radical introduction may cause various adverse effects. Second, from a social perspective, while the positive aspects of MASS are often reported, there are also negative issues such as cybersecurity issues and the loss of seafarer jobs, which require institutional development and strategic commercialization timing. Third, from a security perspective, MASS are expected to change the paradigm of future maritime warfare, and South Korea is promoting the construction of a maritime unmanned system-based power, but it emphasizes the need for a clear plan and military leadership to secure and develop the technology. This study has academic and policy implications by shedding light on the multidimensional political and social issues of MASS through news data analysis, and suggesting implications from national, regional, strategic, and security perspectives beyond legal and institutional discussions.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.

웹 정보의 관리에 있어서 의미적 접근경로의 형성에 관한 연구 (Semantic Access Path Generation in Web Information Management)

  • Lee, Wookey
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.51-56
    • /
    • 2003
  • 웹 정보가 폭발적으로 증가하는 정보의 바다 한 가운데에서 이러한 웹 정보를 구조화하는 문제는 매우시의성이 크다. 본 연구는 웹을 노드와 링크로 구성된 그래프로 인식함을 그 출발점으로 한다. 이때 노드는 각 웹 페이지를 나타내고, 링크는 각 페이지를 연결하는 하이퍼텍스트 링크 즉, URL을 나타낸다. 그러면 웹은 웹 페이지와 그들 간의 링크로 연결된 유방향 그래프의 집합이 되는 것이다. 그러나 문제는 이러한 웹 정보가 지수적으로 증가하면서 웹 그래프 역시 지나치게 복잡해짐으로 인해 사용자 즉, 사람 및 검색로봇이 웹 정보를 파악하고 검색함에 있어 복잡성으로 인한 혼란이 야기된다는 것이며, 이를 이름하여 웹 공간에서의 위치혼란(lost in cyber space)라고 부른다. 따라서 이를 적절히 및 추상화하여 방향성(orientation)을 제시하고 전체적으로 웹 공간의 정보를 일목요연하게 표현하는 노력이 필요한 것이다. 이것을 위하여 웹 페이지를 계량적 수치로 나타내야할 필요가 있으며 여기서는 tf-idf를 그 방법론으로 삼았다. tf-idf란 빈도 및 반빈도(term frequency/inverse document frequency)곱을 일컫는 것으로서, 웹 페이지를 용어(keyword)의 벡터로 인식하고, 사용자가 제시하는 용어와의 상관성을 거리공간 벡터값으로 계산하는 과정을 의미한다. 이렇게 웹 정보를 계량화하는 것을 의미적 표현(semantic representation)이라 하고, 그것을 구조화하는 것을 의미적 접근경로라고 하였다. 본 연구의 목표는 궁극적으로는 웹 정보를 의미적 접근경로를 포함하는 계층적 형식(Hierarchical Structure)으로 축약하여 사용자로 하여금 웹 정보 검색의 차원을 혁신코자 하는 것이다. 식 재하도록 하였다. 소단 내 수목식재에 있어서는 교목식재가 가능한 한 남측 사면은 20m 간격으로 교목 2열 교호식재를 하며, 소단상부는 각 구간별로 계절감을 연출할 수 있는 식물을 도입하는 방안을 제안하였다. 제작된 보정물에 대해서는 무게가 너무 가벼워 모든 피험자들이 양 쪽 가슴의 균형이 잘 맞지 않는다고 답하였으며 특히, 운동을 즐기고 활동이 많은 피험자의 경우 스펀지로 제작된 보정물에 대해 큰불만을 표시하였다. 바람직한 자녀의 인성발달 및 여러 영역에 걸친 발달을 위하여 항상 애정과 관심을 가지고 적극적으로 참여해야 할 것이다. 자녀양육은 더 이상 어머니 혼자의 역할이 아닌 부모 둘 다의 몫이며 교임이므로 부모들은 좋은 가정을 만들고 좋은 부모가 되기 위해서 끊임없이 자신을 갈고 닦으며 노력을 기울여야 할 것이다.서 이들 4개 지표로서 전체의 927%를 설명할 수 있다. 7. 자치구별 평가는 모든 음식점에서 식재료 보관시설(냉장, 냉동), 불량부정식품 사용여부, 남은 반찬의 폐기, 식당상태 등에서는 비교적 양호하였으나, 주방의 청결상태, 식재료 창고의 관리 및 주방 근무직원의 위생상태는 열악하였다. 평가 지표 14개의 총 평가결과가 가장 우수한 자치구는 동작구였으며, 다음으로 서대문구, 금천구, 성동구, 마포구의 순서이었다. 나머지 20개 자치구는 모두 보통이상으로 평가되었다. 8. 음식점 업태 별로 주방과 식당의 청결도 평가에서 가장 중요한 요인은 주방의 내부설비(바닥, 벽면, 천장, 환풍기, 기구 등) 또는 주방종업원의 근무 환경(주방의 환기설비, 설치 및 쾌적한 환경상태유지)이었다. 그러나 음식점 유형에 관계없이 주방과 식당의 청결도 평가에 가장 큰 영향을 주는 인자는 주방종업원의 근무환경이었다. 우리나라의 2002년도 섭취장소별

  • PDF