• Title/Summary/Keyword: Co-word Occurrence

Search Result 104, Processing Time 0.024 seconds

단어 동시출현관계로 구축한 계층적 그래프 모델을 활용한 자동 키워드 추출 방법 (Automatic Keyword Extraction using Hierarchical Graph Model Based on Word Co-occurrences)

  • 송광호;김유성
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.522-536
    • /
    • 2017
  • 키워드 추출은 주어진 문서로부터 문서의 주제나 내용에 관련된 단어들을 추출해내는 방법으로 대량의 문서를 다루는 텍스트마이닝 연구들이 전처리에서 공통적으로 거치는 대표 자질 추출에서 중요하게 활용될 수 있다. 본 논문에서는 하나의 문서의 주제에 적합한 키워드를 추출하기 위해 문서에 출현한 단어들 사이의 동시출현관계, 동시출현 단어 쌍 사이의 출현 종속 관계, 단어들 사이의 공통 부분단어 관계 등의 다양한 관계들을 특징으로 활용하여 구축한 계층적 그래프 모델을 제안하고, 그래프를 구성하는 정점(Vertex)들의 중요도를 평가할 때 입력 간선(Edge)에 의한 영향뿐만 아니라 출력 간선에 의한 영향도 고려한 새로운 중요도 산출 방법을 제안하며, 이를 토대로 점진적으로 키워드를 추출해내는 방안을 제안한다. 그리고 제안한 방법의 정확성과 주제적 포괄성 검증을 위해 다양한 분야의 주제를 가진 문서 데이터에 다양한 평가방법을 적용해 기존의 방법보다 전체적으로 더 나은 성능을 보임을 확인하였다.

Text Mining of Wood Science Research Published in Korean and Japanese Journals

  • Eun-Suk JANG
    • Journal of the Korean Wood Science and Technology
    • /
    • 제51권6호
    • /
    • pp.458-469
    • /
    • 2023
  • Text mining techniques provide valuable insights into research information across various fields. In this study, text mining was used to identify research trends in wood science from 2012 to 2022, with a focus on representative journals published in Korea and Japan. Abstracts from Journal of the Korean Wood Science and Technology (JKWST, 785 articles) and Journal of Wood Science (JWS, 812 articles) obtained from the SCOPUS database were analyzed in terms of the word frequency (specifically, term frequency-inverse document frequency) and co-occurrence network analysis. Both journals showed a significant occurrence of words related to the physical and mechanical properties of wood. Furthermore, words related to wood species native to each country and their respective timber industries frequently appeared in both journals. CLT was a common keyword in engineering wood materials in Korea and Japan. In addition, the keywords "MDF," "MUF," and "GFRP" were ranked in the top 50 in Korea. Research on wood anatomy was inferred to be more active in Japan than in Korea. Co-occurrence network analysis showed that words related to the physical and structural characteristics of wood were organically related to wood materials.

사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구 (An Experimental Study on an Effective Word Sense Disambiguation Model Based on Automatic Sense Tagging Using Dictionary Information)

  • 이용구;정영미
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.321-342
    • /
    • 2007
  • 이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

Analysis of Reference Inquiries in the Field of Social Science in the Collaborative Reference Service Using the Co-Word Technique

  • 조재인
    • 한국문헌정보학회지
    • /
    • 제49권1호
    • /
    • pp.129-148
    • /
    • 2015
  • This study grasped the true nature of the inquiry domain by analysing the requests for collaborative reference service in the social science field using the co-word technique, and schematized the intellectual structure. First, this study extracted 748 uncontrolled keywords from inquiries for reference in the field of social science. Second, calculated similarity indices between the words on the basis of co-occurrence frequency, and performed not only clustering but also MDS mapping. Third, to grasp the difference in inquiries for reference by period, dividing the period into two parts, and performed comparative analysis. As a result, there formed 5 clusters and "Korea Education" showed an overwhelming size with 40.3% among those clusters. The result of the analysis through the period division showed there were many questions about "Education" during the first half, while a lot of inquiries with focus on "welfare and business information" during the second half.

과학교과서 텍스트의 계량적 분석을 이용한 과학 개념어의 생산적 지식 교육 방안 탐색 (Exploring Teaching Method for Productive Knowledge of Scientific Concept Words through Science Textbook Quantitative Analysis)

  • 윤은정
    • 한국과학교육학회지
    • /
    • 제40권1호
    • /
    • pp.41-50
    • /
    • 2020
  • 과학 개념에 대한 이해를 언어학적 관점에서 바라보면 학생들이 과학 개념어에 대한 깊고 정교한 이해와 더불어 정확하게 사용할 수 있는 능력을 길러주는 것이 매우 중요하다. 본 연구에서는 지금까지 과학 교육에서 과학 개념어에 대한 생산적 지식 교육의 기틀이 잘 마련되어 있지 않음에 주목하고, 과학 개념을 구성하고 있는 단어들 사이의 관계를 생산적이고 효과적으로 교육할 수 있는 방안을 탐색함으로써 과학 개념어의 생산적 지식 교육의 기틀을 제공하고자 하였다. 이를 위해 첫째, 몇 가지의 계량 언어학적 텍스트 분석 방법을 이용하여 과학 교과서 텍스트로 부터 과학 개념을 구성하고 있는 단어들과 그들 사이의 관계를 추출하고, 둘째, 각 방법의 결과로 추출된 단어 관계의 의미를 정성적으로 살펴본 뒤, 셋째, 이를 이용하여 과학 개념어의 생산적 지식 향상에 도움을 줄 수 있는 쓰기 활동 방법을 제안해 보았다. 중학교 1학년 과학교과서 '힘과 운동' 단원 텍스트를 클러스터 분석, 공기 빈도 분석, 텍스트 네트워크 분석, 그리고 워드임베딩의 네 가지 계량 언어학적 분석 방법을 사용하여 분석해 보았다. 연구 결과 첫째, 클러스터 분석 결과를 활용하여 문장 완성하기 활동을 제안하였다. 둘째, 공기 빈도 분석 결과를 이용한 빈 칸 채우기 활동을 제안하였다. 셋째, 네트워크 분석 결과를 이용하여 소재 중심 글쓰기 활동을 제안하였다. 넷째, 워드임베딩을 이용한 학습 중요 단어 목록 작성을 제안하였다.

간호학 학술논문의 주제 분석을 위한 텍스트네크워크분석방법 활용 (Using Text Network Analysis for Analyzing Academic Papers in Nursing)

  • 박찬숙
    • Perspectives in Nursing Science
    • /
    • 제16권1호
    • /
    • pp.12-24
    • /
    • 2019
  • Purpose: This study examined the suitability of using text network analysis (TNA) methodology for topic analysis of academic papers related to nursing. Methods: TNA background theories, software programs, and research processes have been described in this paper. Additionally, the research methodology that applied TNA to the topic analysis of the academic nursing papers was analyzed. Results: As background theories for the study, we explained information theory, word co-occurrence analysis, graph theory, network theory, and social network analysis. The TNA procedure was described as follows: 1) collection of academic articles, 2) text extraction, 3) preprocessing, 4) generation of word co-occurrence matrices, 5) social network analysis, and 6) interpretation and discussion. Conclusion: TNA using author-keywords has several advantages. It can utilize recognized terms such as MeSH headings or terms chosen by professionals, and it saves time and effort. Additionally, the study emphasizes the necessity of developing a sophisticated research design that explores nursing research trends in a multidimensional method by applying TNA methodology.

Rearch of Late Adolcent Activity based on Using Big Data Analysis

  • Hye-Sun, Lee
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.361-368
    • /
    • 2022
  • This study seeks to determine the research trend of late adolescents by utilizing big data. Also, seek for research trends related to activity participation, treatment, and mediation to provide academic implications. For this process, gathered 1.000 academic papers and used TF-IDF analysis method, and the topic modeling based on co-occurrence word network analysis method LDA (Latent Dirichlet Allocation) to analyze. In conclusion this study conducted analysis of activity participation, treatment, and mediation of late adolescents by TF-IDF analysis method, co-occurrence word network analysis method, and topic modeling analysis based on LDA(Latent Dirichlet Allocation). The results were proposed through visualization, and carries significance as this study analyzed activity, treatment, mediation factors of late adolescents, and provides new analysis methods to figure out the basic materials of activity participation trends, treatment, and mediation of late adolescents.

Trends in Leopard Cat (Prionailurus bengalensis) Research through Co-word Analysis

  • Park, Heebok;Lim, Anya;Choi, Taeyoung;Han, Changwook;Park, Yungchul
    • Journal of Forest and Environmental Science
    • /
    • 제34권1호
    • /
    • pp.46-49
    • /
    • 2018
  • This study aims to explore the knowledge structure of the leopard cat (Prionailurus bengalensis) research during the period of 1952-2017. Data was collected from Google Scholar and Research Information Service System (RISS), and a total of 482 author keywords from 125 papers from peer-reviewed scholarly journals were retrieved. Co-word analysis was applied to examine patterns and trends in the leopard cat research by measuring the association strengths of the author keywords along with the descriptive analysis of the keywords. The result shows that the most commonly used keywords in leopard cat research were Felidae, Iriomte cat, and camera trap except for its English and scientific name, and camera traps became a frequent keyword since 2005. Co-word analysis also reveals that leopard cat research has been actively conducted in Southeast Asia in conjugation with studying other carnivores using the camera traps. Through the understanding of the patterns and trends, the finding of this study could provide an opportunity for the exploration of neglected areas in the leopard cat research and conservation.

Exploring Depression Research Trends Using BERTopic and LDA

  • Woo-Ryeong, YANG;Hoe-Chang, YANG
    • 식품보건융합연구
    • /
    • 제9권1호
    • /
    • pp.19-28
    • /
    • 2023
  • The purpose of this study is to explore which areas have been more interested in depression research in Korea through analysis of academic papers related to depression, and then to provide insights that can solve future depression problems. 1,032 papers searched with the keyword "depression" in scienceON were analyzed using Python 3.7 for word frequency analysis, word co-occurrence analysis, BERTopic, LDA, and OLS regression analysis. The results of word frequency and co-occurrence frequency analysis showed that related words were composed around words such as patient, disorder and symptom. As a result of topic modeling, a total of 13 topics including 'childhood depression' and 'eating anxiety' were derived. And it has been identified as a topic of interest that 'suicidal thoughts', 'treatment', 'occupational health', and 'health treatment program' were statistically significant topics, while 'child depression' and 'female treatment' were relatively less. As a result of the analysis of research trends, future research will not only study physiological and psychological factors but also social and environmental causes, as well as it was suggested that various collaborative studies of experts in academia were needed such as convergence and complex perspectives for depression relief and treatment.