• 제목/요약/키워드: Word2Vec

검색결과 219건 처리시간 0.029초

워드임베딩을 활용한 복압성 요실금 관련 연구 동향에 관한 융합 연구 (A Convergence Study of the Research Trends on Stress Urinary Incontinence using Word Embedding)

  • 김준희;안선희;곽경태;원영수;유화익
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 연구의 목적은 '복압성 요실금'을 키워드로 검색된 연구들의 경향과 특성을 단어 빈도를 통해 분석하고, 워드 임베딩을 사용하여 그 관계를 모델링 하고자 하였다. 의학 서지 데이터베이스인 MEDLINE에 등록되어 있는 복압성 요실금 연구 9,868개 논문들의 초록 문자 데이터를 Python 프로그램을 이용하여 추출하였다. 그런 다음 빈도 분석을 통해 10개의 키워드를 선택하였다. 키워드 관련 단어들의 유사도는 Word2Vec 머신러닝 알고리즘으로 분석하였다. 그리고, t-SNE 기법을 사용하여 단어의 위치와 거리가 시각화하였고, 이에 따라 그룹을 분류하여 이를 분석하였다. 복압성 요실금과 관련된 연구는 1980년대 이후 빠르게 증가했다. 키워드 분석을 통해 논문 초록에서 가장 많이 사용된 키워드는 '여성', '요도', '수술'로 나타났다. Word2Vec 모델링을 통해 복압성 요실금 관련 연구에서 주요 키워드들과 가장 높은 연관성을 나타내는 단어들에는 '여성', '절박', '증상' 등이 있었다. 그리고, t-SNE 기법을 통해 키워드와 관련 단어들은 복압성 요실금의 증상, 신체 기관의 해부학적 특성, 그리고 수술적 중재를 중심으로 하는 3개의 그룹으로 분류될 수 있었다. 본 연구는 초록을 구성하는 단어들의 키워드 빈도 분석 및 워드임베딩 방식을 이용하여 복압성 요실금 관련 연구들의 동향을 살펴본 최초의 연구이다. 본 연구의 결과는 향후 연구자들이 복압성 요실금 관련 연구 분야의 주제와 방향성을 선택하는 데 있어 기초자료로 활용될 수 있을 것이다.

산업안전보건기준에 관한 규칙의 체계적 탐색과 이해를 위한 단어분포 지표와 Word2Vec 분석 방법 (Term Distribution Index and Word2Vec Methods for Systematic Exploring and Understanding of the Rule on Occupational Safety and Health Standards)

  • 정재호;장성록;서용윤
    • 한국안전학회지
    • /
    • 제38권3호
    • /
    • pp.69-76
    • /
    • 2023
  • The purpose of the rules on the Occupational Safety and Health Standards (hereafter safety and health rules) is to regulate the safety and health measures stipulated in the Occupational Safety and Health Act and the specific instructions necessary for their implementation. However, the safety and health rules are extensive and complexly connected, making navigation difficult for users. In order for users to readily access safety and health rules, this study analyzed the frequency, distribution, and significance of terms included in the overall rules. First, the term distribution index was created based on the frequency and distribution of words extracted through text mining. The term distribution index derives from whether a word appears only in a specific chapter or across all rules. This allows users to effectively explore terms to be followed in a specific working environment and terms to be complied with in the overall working environment. Next, the related words of the previously derived terms were visualized through t-SNE and the Word2Vec algorithm. This can help prioritize the things that need to be managed first, focusing on key terms without checking the overall rules. Moreover, this study can help users explore safety and health rules by allowing them to understand the distribution of words and visualize related terms.

텍스트 마이닝과 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 개발 (Development of a Fake News Detection Model Using Text Mining and Deep Learning Algorithms)

  • 임동훈;김건우;최근호
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.127-146
    • /
    • 2021
  • 가짜 뉴스는 정보화 시대라는 현대사회의 특성에 의해 진위 여부의 검증과는 상관없이 빠른 속도로 확대, 재생산되어 퍼진다. 전체 뉴스의 1%를 가짜라고 가정했을 경우 우리사회에 미치는 경제적 비용이 30조 원에 달한다고 하니 가짜 뉴스는 사회적, 경제적으로 매우 중요한 문제라고 할 수 있다. 이에 본 연구는 뉴스의 진위 여부를 신속하고 정확하게 확인하고자 자동화된 가짜 뉴스 탐지 모델을 개발하는데 목적을 두고 있다. 이를 위해 본 연구에서는 크롤링(crawling)을 통해 진위 여부가 밝혀진 뉴스 기사를 수집하였고, 워드 임베딩(Word2Vec, Fasttext)과 딥러닝 기법(LSTM, BiLSTM)을 이용하여 가짜 뉴스 예측 모델을 개발하였다. 실험 결과, Word2Vec과 BiLSTM의 조합이 가장 높은 84%의 정확도를 보였다.

자연어 처리 기법을 활용한 산업재해 위험요인 구조화 (Structuring Risk Factors of Industrial Incidents Using Natural Language Process)

  • 강성식;장성록;이종빈;서용윤
    • 한국안전학회지
    • /
    • 제36권1호
    • /
    • pp.56-63
    • /
    • 2021
  • The narrative texts of industrial accident reports help to identify accident risk factors. They relate the accident triggers to the sequence of events and the outcomes of an accident. Particularly, a set of related keywords in the context of the narrative can represent how the accident proceeded. Previous studies on text analytics for structuring accident reports have been limited to extracting individual keywords without context. We proposed a context-based analysis using a Natural Language Processing (NLP) algorithm to remedy this shortcoming. This study aims to apply Word2Vec of the NLP algorithm to extract adjacent keywords, known as word embedding, conducted by the neural network algorithm based on supervised learning. During processing, Word2Vec is conducted by adjacent keywords in narrative texts as inputs to achieve its supervised learning; keyword weights emerge as the vectors representing the degree of neighboring among keywords. Similar keyword weights mean that the keywords are closely arranged within sentences in the narrative text. Consequently, a set of keywords that have similar weights presents similar accidents. We extracted ten accident processes containing related keywords and used them to understand the risk factors determining how an accident proceeds. This information helps identify how a checklist for an accident report should be structured.

단어 연관성 가중치를 적용한 연관 문서 추천 방법 (A Method on Associated Document Recommendation with Word Correlation Weights)

  • 김선미;나인섭;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제22권2호
    • /
    • pp.250-259
    • /
    • 2019
  • Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution vectors in topics through LDA-based Topic Modeling. Then, we use Word2vec to vector words, and generate a weight matrix to derive the relevance SCORE considering the semantic relationship between the words. We propose a way to recommend documents in order of high score.

텍스트마이닝 기법을 활용한 한국인의 행복과 불행 탐색연구 (An Exploratory Study of Happiness and Unhappiness Among Koreans based on Text Mining Techniques)

  • 박상현;도강혁;김학영;박가은;윤진혁;김경일
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.10-27
    • /
    • 2018
  • 본 연구에서는 텍스트 마이닝 분석을 통해 한국 사회에서 행복과 불행이 갖는 의미를 탐색하였다. 자료수집 및 분석을 위하여 온라인 뉴스 포털에서 Word2Vec과 TF-IDF 방법을 사용하여 '행복' 및 '불행' 키워드와 유사한 단어를 추출했다. 또한 K-LIWC 사전을 사용하여 행복 및 불행과 연관된 단어들의 감성 속성에 대해 알아보았다. TF-IDF 분석 결과, 행복과 불행은 사회적 요인과 해당 년도의 사회적 이슈들과 각각 높은 관련성이 있는 것으로 관찰됐다. Word2Vec 분석에서는 '희망'이 6년 연속으로 행복과 유사성이 높은 단어로 나타났다. K-LIWC 분석에서 '돈재정적이슈', '학교', '의사소통'은 행복 및 불행과 모두 관련성이 높았다. 그밖에 '몸 상태와 증상'이 불행과 높은 관련성이 있는 범주로 나타났다. 이러한 결과를 바탕으로 본 연구의 의의, 제한점 및 후속연구에 대한 필요성을 논의하였다.

Word2Vec 학습을 통한 의미 기반 해외 유사 특허 검색 방안 (Identifying Similar Overseas Patent Using Word2Vec-Based Semantic Text Analytics)

  • 백민지;김남규
    • 한국IT서비스학회지
    • /
    • 제17권2호
    • /
    • pp.129-142
    • /
    • 2018
  • Recently, the number of patent applications have been increasing rapidly every year as the importance of protecting intellectual property rights becomes more important. Patents must be inventive and have novelty. Especially, the novelty implies that the corresponding invention is not the same as the previous invention. To confirm the novelty, prior art search must be conducted before and after the application. The target of prior art search should include not only Korean patents but also foreign patents. Search of foreign patents should be supported by multilingual search techniques. However, a dictionary-based naive approach shows a limitation because some technical concepts are represented in different terms according to each nation. For example, a Korean term and a Japanese term may not be synonym even though they represent the same technical concept. In this paper, we propose a new method to map semantic similarity between technical terms in Korean patents and Japanese patents. To investigate different representations in each nation for the same technical concept, we identified and analyzed pairs of patents those are mutually connected with priority claim relationship. By performing an experiment with real-world data, we showed that our approach can reveal semantically similar technical terms in other language successfully.

의무 기록 문서 분류를 위한 자연어 처리에서 최적의 벡터화 방법에 대한 비교 분석 (Comparative Analysis of Vectorization Techniques in Electronic Medical Records Classification)

  • 유성림
    • 대한의용생체공학회:의공학회지
    • /
    • 제43권2호
    • /
    • pp.109-115
    • /
    • 2022
  • Purpose: Medical records classification using vectorization techniques plays an important role in natural language processing. The purpose of this study was to investigate proper vectorization techniques for electronic medical records classification. Material and methods: 403 electronic medical documents were extracted retrospectively and classified using the cosine similarity calculated by Scikit-learn (Python module for machine learning) in Jupyter Notebook. Vectors for medical documents were produced by three different vectorization techniques (TF-IDF, latent sematic analysis and Word2Vec) and the classification precisions for three vectorization techniques were evaluated. The Kruskal-Wallis test was used to determine if there was a significant difference among three vectorization techniques. Results: 403 medical documents were relevant to 41 different diseases and the average number of documents per diagnosis was 9.83 (standard deviation=3.46). The classification precisions for three vectorization techniques were 0.78 (TF-IDF), 0.87 (LSA) and 0.79 (Word2Vec). There was a statistically significant difference among three vectorization techniques. Conclusions: The results suggest that removing irrelevant information (LSA) is more efficient vectorization technique than modifying weights of vectorization models (TF-IDF, Word2Vec) for medical documents classification.

워드 임베딩을 이용한 COPD와 암 관련 바이오마커의 상관관계 분석 (Correlation Analysis of Cancer Biomarkers and COPD Using the Word Embedding)

  • 윤병훈;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-254
    • /
    • 2017
  • 본 연구에서는 COPD와 기존에 연관이 있는 것으로 알려진 바이오마커 이외의 새로운 바이오마커를 찾고자 한다. Pubmed Data에서 선정한 암 관련 바이오마커를 추출하여 COPD와 암 관련 바이오마커의 관계를 파악하는 데이터로 사용한다. 그리고 워드 임베딩 모델 중 Word2vec을 사용하여 워드 임베딩 한다. 워드 임베딩한 K차원의 COPD와 암 관련 바이오마커를 t-SNE를 사용하여 시각화한다. 또한 코사인 유사도를 이용하여 COPD와 암 관련 바이오마커의 유사도를 측정한다. 그리고 코사인 유사도와 t-SNE 결과를 이용하여 COPD와 암 관련 바이오마커와의 상관관계를 파악할 수 있으며, 암 관련 바이오마커와 COPD 관련 바이오마커를 비교 하여 기존의 COPD와 연관이 있다고 알려진 바이오마커 이외의 새로운 바이오마커를 찾을 수 있다.

  • PDF

워드 임베딩을 이용한 COPD와 암 관련 바이오마커의 상관관계 분석 (Correlation Analysis of Cancer Biomarkers and COPD Using the Word Embedding)

  • 윤병훈;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.251-254
    • /
    • 2017
  • 본 연구에서는 COPD와 기존에 연관이 있는 것으로 알려진 바이오마커 이외의 새로운 바이오마커를 찾고자 한다. Pubmed Data에서 선정한 암 관련 바이오마커를 추출하여 COPD와 암 관련 바이오마커의 관계를 파악하는 데이터로 사용한다. 그리고 워드 임베딩 모델 중 Word2vec을 사용하여 워드 임베딩 한다. 워드 임베딩한 K차원의 COPD와 암 관련 바이오마커를 t-SNE를 사용하여 시각화한다. 또한 코사인 유사도를 이용하여 COPD와 암 관련 바이오마커의 유사도를 측정한다. 그리고 코사인 유사도와 t-SNE 결과를 이용하여 COPD와 암 관련 바이오마커와의 상관관계를 파악할 수 있으며, 암 관련 바이오마커와 COPD 관련 바이오마커를 비교 하여 기존의 COPD와 연관이 있다고 알려진 바이오마커 이외의 새로운 바이오마커를 찾을 수 있다.

  • PDF