• Title/Summary/Keyword: Cosine Similarity Analysis

Search Result 81, Processing Time 0.024 seconds

한국 간호학 연구주제의 사회 연결망 분석 (A Social Network Analysis of Research Topics in Korean Nursing Science)

  • 이수경;정상원;김홍기;염영희
    • 대한간호학회지
    • /
    • 제41권5호
    • /
    • pp.623-632
    • /
    • 2011
  • Purpose: This study was done to explore the knowledge structure of Korean Nursing Science. Methods: The main variables were key words from the research papers that were presented in the Journal of Korean Academy of Nursing and journals of the seven branches of the Korean Academy of Nursing. English titles and abstracts of the papers (n=5,936) published from 1995 through 2009 were included. Noun phrases were extracted from the corpora using an in-house program (BiKE Text Analyzer), and their co-occurrence networks were generated via a cosine similarity measure, and then the networks were analyzed and visualized using Pajek, a Social Network Analysis program. Results: With the hub and authority measures, the most important research topics in Korean Nursing Science were identified. Newly emerging topics by three-year period units were observed as research trends. Conclusion: This study provides a systematic overview on the knowledge structure of Korean Nursing Science. The Social Network Analysis for this study will be useful for identifying the knowledge structure in Nursing Science.

이상탐지 활용 전자집단민원 추정 방법론에 관한 탐색적 연구: 창원시 시민의 소리 사례를 중심으로 (An Exploratory Study of Collective E-Petitions Estimation Methodology Using Anomaly Detection: Focusing on the Voice of Citizens of Changwon City)

  • 정하영
    • 정보화정책
    • /
    • 제26권4호
    • /
    • pp.85-106
    • /
    • 2019
  • 최근 전자민원시스템에 집단민원을 제기하는 사례가 늘어나고 있으나 이에 대한 효율적인 관리시스템이 아직 마련되어 있지 않아 행정 업무량 증대와 사회적 갈등 양산 등의 부작용이 우려되고 있다. 이에 본 연구에서는 이상탐지와 코퍼스 언어학 기반의 내용분석을 활용한 전자 집단민원 추정 방법론을 제시하고자 하였다. 이를 위하여 1)집단민원의 개념에 대한 이론적 고찰과 2) 비모수적 비지도 학습에 기반 한 이상탐지를 활용한 전자 집단민원 추정과 3) n-gram 코사인 각도 거리를 활용한 민원의 내용 유사도 분석방법론을 제안하고 4) 창원시 시민의 소리에 대한 사례분석을 통하여 제시한 방법론의 유용성과 정책적 시사점, 향후 과제를 검토하였다.

부상기술 예측을 위한 특허키워드정보분석에 관한 연구 - GHG 기술 중심으로 (Patent Keyword Analysis for Forecasting Emerging Technology : GHG Technology)

  • 최도한;김갑조;박상성;장동식
    • 디지털산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.139-149
    • /
    • 2013
  • As the importance of technology forecasting while countries and companies manage the R&D project is growing bigger, the methodology of technology forecasting has been diversified. One of the forecasting method is patent analysis. This research proposes quick forecasting process of emerging technology based on keyword approach using text mining. The forecasting process is following: First, the term-document matrix is extracted from patent documents by using text mining. Second, emerging technology keyword are extracted by analyzing the importance of word from utilizing mean values and standard deviation values of the term and the emerging trend of word discovered from time series information of the term. Next, association between terms is measured by using cosine similarity. finally, the keyword of emerging technology is selected in consequence of the synthesized result and we forecast the emerging technology according to the results. The technology forecasting process described in this paper can be applied to developing computerized technology forecasting system integrated with various results of other patent analysis for decision maker of company and country.

의무 기록 문서 분류를 위한 자연어 처리에서 최적의 벡터화 방법에 대한 비교 분석 (Comparative Analysis of Vectorization Techniques in Electronic Medical Records Classification)

  • 유성림
    • 대한의용생체공학회:의공학회지
    • /
    • 제43권2호
    • /
    • pp.109-115
    • /
    • 2022
  • Purpose: Medical records classification using vectorization techniques plays an important role in natural language processing. The purpose of this study was to investigate proper vectorization techniques for electronic medical records classification. Material and methods: 403 electronic medical documents were extracted retrospectively and classified using the cosine similarity calculated by Scikit-learn (Python module for machine learning) in Jupyter Notebook. Vectors for medical documents were produced by three different vectorization techniques (TF-IDF, latent sematic analysis and Word2Vec) and the classification precisions for three vectorization techniques were evaluated. The Kruskal-Wallis test was used to determine if there was a significant difference among three vectorization techniques. Results: 403 medical documents were relevant to 41 different diseases and the average number of documents per diagnosis was 9.83 (standard deviation=3.46). The classification precisions for three vectorization techniques were 0.78 (TF-IDF), 0.87 (LSA) and 0.79 (Word2Vec). There was a statistically significant difference among three vectorization techniques. Conclusions: The results suggest that removing irrelevant information (LSA) is more efficient vectorization technique than modifying weights of vectorization models (TF-IDF, Word2Vec) for medical documents classification.

채용정보 분석을 통한 비즈니스 직무 스펙 연구 (Research on Business Job Specification through Employment Information Analysis)

  • 이종화;이현규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권1호
    • /
    • pp.271-287
    • /
    • 2022
  • Purpose This research aims to study the changes in recruitment needed for the growth and survival of companies in the rapidly changing industry. In particular, we built a real company's worklist accounting for the rapidly advancing data-driven digital transformation, and presented the capabilities and conditions required for work. Design/methodology/approach we selected 37 jobs based on NCS to develop the employment search requirements by analyzing the business characteristics and work capabilities of the industry and company. The business specification indicators were converted into a matrix through the TF-IDF process, and the NMF algorithm is used to extract the features of each document. Also, the cosine distance measurement method is utilized to determine the similarity of the job specification conditions. Findings Companies tended to prefer "IT competency," which is a specification related to computer use and certification, and "experience competency," which is a specification for experience and internship. In addition, 'foreign language competency' was additionally preferred depending on the job. This analysis and development of job requirements would not only help companies to find the talents but also be useful for the jobseekers to easily decide the priority of their specification activities.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

텍스트 마이닝 기법을 활용한 어깨 재활 연구분야 동향과 키워드 모델링 (The Research Trends and Keywords Modeling of Shoulder Rehabilitation using the Text-mining Technique)

  • 김준희;정성훈;황의재
    • 대한물리의학회지
    • /
    • 제16권2호
    • /
    • pp.91-100
    • /
    • 2021
  • PURPOSE: This study analyzed the trends and characteristics of shoulder rehabilitation research through keyword analysis, and their relationships were modeled using text mining techniques. METHODS: Abstract data of 10,121 articles in which abstracts were registered on the MEDLINE of PubMed with 'shoulder' and 'rehabilitation' as keywords were collected using python. By analyzing the frequency of words, 10 keywords were selected in the order of the highest frequency. Word-embedding was performed using the word2vec technique to analyze the similarity of words. In addition, the groups were classified and analyzed based on the distance (cosine similarity) through the t-SNE technique. RESULTS: The number of studies related to shoulder rehabilitation is increasing year after year, keywords most frequently used in relation to shoulder rehabilitation studies are 'patient', 'pain', and 'treatment'. The word2vec results showed that the words were highly correlated with 12 keywords from studies related to shoulder rehabilitation. Furthermore, through t-SNE, the keywords of the studies were divided into 5 groups. CONCLUSION: This study was the first study to model the keywords and their relationships that make up the abstracts of research in the MEDLINE of Pub Med related to 'shoulder' and 'rehabilitation' using text-mining techniques. The results of this study will help increase the diversifying research topics of shoulder rehabilitation studies to be conducted in the future.

한글 저자명 군집화를 위한 계층적 기법 비교 (Exploration of Hierarchical Techniques for Clustering Korean Author Names)

  • 강인수
    • 정보관리연구
    • /
    • 제40권2호
    • /
    • pp.95-115
    • /
    • 2009
  • 저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다. 저자명의 군집화 기법으로 주로 계층적 군집법이 사용되었으나 다양한 계층적 군집법에 대한 비교 평가는 미흡했다. 이 연구는 다이스계수, 코사인유사도, 유클리디안 거리, 자카드계수, 피어슨 상관계수 등의 다양한 개체거리/유사도수식과 계층적 군집법들의 상관관계와 계층적 군집기법들의 한글 저자식별 성능에 대한 비교/분석을 다룬다.

대규모 IoT 환경에서의 중복 및 비정상 데이터 처리 기법 (Redundant and Abnormal Data Processing Scheme in Large-scale IoT Environment)

  • 김민우;이태호;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.109-110
    • /
    • 2019
  • 최근 IoT 환경에서는 고밀도로 노드가 분포되어진다. 이러한 센서 노드들은 데이터 전송 시 혼잡을 초래하는 중복 데이터를 생성하여 데이터의 정확도를 저하시킨다. 이에 따라 본 연구에서는 데이터 집중으로 인해 발생하는 네트워크의 정체 문제를 해결하기 위해 제안 기법은 사 분위(Interquatile, IRQ) 분석과 코사인 유사도 함수를 통해 데이터의 이상치와 중복성을 측정하여 중복 데이터 및 특이치를 제거한다. 본 연구를 통하여 최적의 데이터 전송을 통하여 IoT의 통신 성능을 향상시킬 수 있으며 결과적으로 데이터 감소율, 네트워크 수명 및 에너지의 효율성을 높일 수 있다.

  • PDF

칼빈 신학교 학술지에 대한 계량서지학적 분석에 관한 연구 (A Bibliographic Study on the Calvin Theological Journal)

  • 유영준;이재윤
    • 한국비블리아학회지
    • /
    • 제27권4호
    • /
    • pp.125-145
    • /
    • 2016
  • 칼빈 신학학술지에 실린 논문의 주제명을 분석해서 칼빈신학교가 지향하는 신학적 경향을 밝히는 것이 이 연구의 목적이다. 이를 위해서 45년 동안의 칼빈 신학학술지에 실린 논문의 주제명을 대상으로 핵심저자와 주제명 분석을 통해서 시기별 분석과 차별어 분석을 수행하였다. 또한 저자의 변화와 주제명의 변화를 단서로 하여 분석 시기를 분할하는 새로운 방법을 제안하였다. 18명의 핵심저자들은 3개의 군집을 이루고 칼빈과 개혁신학, 성경 등의 주제명을 공유하는 것으로 나타났다. 1기와 2-1기에서는 개혁신학적 특성을 나타났지만, 중심성 분석에서 개혁신학이 주변으로 밀려났다. 2-2시기에서는 칼빈의 빈도가 낮아졌으며, 개혁신학의 빈도는 높아졌지만 중심적인 역할을 하지 못한 것으로 나타났다. 그리고 문학비평이 별개의 소군집으로 형성되었다. 차별어 분석에서는 모든 시기에 개혁신학적 용어들이 많았으며, 특히 2-1기에서는 과학과 종교가 차별어에 포함되었다. 칼빈 신학학술지의 신학적 경향은 개혁신학과 구약성경인 것으로 보인다.