• 제목/요약/키워드: Topic selection

검색결과 158건 처리시간 0.054초

Selection of Cluster Topic Words in Hierarchical Clustering using K-Means Algorithm

  • Lee Shin Won;Yi Sang Seon;An Dong Un;Chung Sung Jong
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.885-889
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Hierarchical clustering improves the performance of retrieval and makes that users can understand easily. For outperforming of clustering, we implemented hierarchical structure with variety and readability, by careful selection of cluster topic words and deciding the number of clusters dynamically. It is important to select topic words because hierarchical clustering structure is summarizes result of searching. We made choice of noun word as a cluster topic word. The quality of topic words is increased $33\%$ as follows. As the topic word of each cluster, the only noun word is extracted for the top-level cluster and the used topic words for the children clusters were not reused.

  • PDF

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

  • 장우솔;김예은;손원
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.739-754
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.

초등 예비 교사들의 자유 탐구 수행 능력 분석 (Analysis of the Ability of Open Inquiry Performance for Pre-service Elementary Teachers)

  • 황현정;전영석
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제28권4호
    • /
    • pp.404-414
    • /
    • 2009
  • The revised curriculum in 2007 includes open inquiry approach to increase students' interest in science and to build up creativity. So teachers and pre-service teachers should be equipped with the ability of open inquiry performance. In order to investigate pre-service teachers' readiness to perform open inquiry tasks, we analyzed reports written as homework by a group of 71 juniors in a national university of education. The investigation tool was composed of four domains: topic selection, the inquiry process, the conclusion, and reporting. Each domain had three or four sub-domains. By using the framework, four raters scored the students' inquiry reports. The findings reveal that the pre-service elementary school teachers have difficulty in the domain of 'topic selection' and the 'conclusion' compared with the other domains. Under the topic selection domain, they showed weaknesses in 'creativity' and 'scientific topic' and under the conclusion domain, they had difficulty in 'recognizing limits' and 'value of conclusion'. The finding suggests that pre-service teaching program should provide with opportunities to perform open inquiry continually.

  • PDF

캡스톤 디자인 수업에서 학생들의 주제 결정 패턴 탐색 (Exploring Topic Defining Patterns of Students in Interdisciplinary Capstone Design Class)

  • 변문경
    • 공학교육연구
    • /
    • 제21권1호
    • /
    • pp.14-26
    • /
    • 2018
  • The goal of this study was to explore topic defining patterns of students in interdisciplinary Capstone Design Class. Thematic analysis methodology was used to examine 85 Korean college students' lived experience of project topic generation which is for interdisciplinary capstone design class and Individual open-ended survey for constituted the data sources. Findings show four contexts of student's topic defining patterns using thematic analysis including (a) one leader's directed problem representation, (b) team common decision making after brainstorming, (c) empathy with professor proposed issue, (d) problems offered to students by corporate or research competitions. Based on research result, I could suggest instructional strategies of Capstone Design Class of teacher for helping their students' topic defining. It was necessary to minimize the opinions of the instructors at the beginning of class and minimize the number of team members. And also it provided a lot of opportunities to collaborate with companies in the topic selection process, it will help to develop the students' ability to determine the valuable topic in project.

Research trends in the Korean Journal of Women Health Nursing from 2011 to 2021: a quantitative content analysis

  • Ju-Hee Nho;Sookkyoung Park
    • 여성건강간호학회지
    • /
    • 제29권2호
    • /
    • pp.128-136
    • /
    • 2023
  • Purpose: Topic modeling is a text mining technique that extracts concepts from textual data and uncovers semantic structures and potential knowledge frameworks within context. This study aimed to identify major keywords and network structures for each major topic to discern research trends in women's health nursing published in the Korean Journal of Women Health Nursing (KJWHN) using text network analysis and topic modeling. Methods: The study targeted papers with English abstracts among 373 articles published in KJWHN from January 2011 to December 2021. Text network analysis and topic modeling were employed, and the analysis consisted of five steps: (1) data collection, (2) word extraction and refinement, (3) extraction of keywords and creation of networks, (4) network centrality analysis and key topic selection, and (5) topic modeling. Results: Six major keywords, each corresponding to a topic, were extracted through topic modeling analysis: "gynecologic neoplasms," "menopausal health," "health behavior," "infertility," "women's health in transition," and "nursing education for women." Conclusion: The latent topics from the target studies primarily focused on the health of women across all age groups. Research related to women's health is evolving with changing times and warrants further progress in the future. Future research on women's health nursing should explore various topics that reflect changes in social trends, and research methods should be diversified accordingly.

사용자 프로파일을 이용한 개인화된 토픽맵 랭킹 알고리즘 (Personalized Topic map Ranking Algorithm using the User Profile)

  • 박정우;이상훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권8호
    • /
    • pp.522-528
    • /
    • 2008
  • 토픽맵에서 사용자의 토픽 선택에 따라 제공되는 정보는 개별 사용자의 관심과 배경지식이 고려되지 않고 최초 도메인 전문가에 의해 구축된 토픽맵 상의 토픽(Topic)과 연관되는 관계(Association), 자원(Occurrence)만을 이용하여 사용자에게 토픽맵 정보를 제공하고 있다. 이에 토픽맵은 개인화된 정보제공 측면의 단점을 보완하고자 개별 사용자를 위한 개인화 기능으로 개인 선호항목 설정, 필터링(Filtering), 범위제한(Scope) 등 사용자가 직접 관심정보를 사전에 설정하는 기능을 제공하고 있으나 토픽맵 사용자를 위한 개인화 측면에서 만족스럽지 못하다. 따라서 본 논문에서는 특정 도메인 토픽맵에서 사용자가 원하는 개인화된 정보를 제공하기 위해 사용자 클릭정보 수집을 통한 프로파일 정보와 이를 이용한 토픽 선호도 백터(Topic Preference Vector), 토픽맵 지식층의 기본요소인 토픽(Topic)과 관계(Association)를 이용한 개인화된 토픽맵 랭킹 알고리즘(PTR)을 제안한다. 사용자는 PTR 알고리즘을 이용하여 개인 선호도가 고려되어 랭킹된 토픽맵 정보를 제공받을 수 있게 됨으로써 개인화된 정보 제공 측면에서의 성능 향상을 가져올 수 있는 장점을 가진다.

LDA 알고리즘을 이용한 프랜차이즈 연구 동향에 대한 토픽모델링 분석 (Topic Modeling Analysis of Franchise Research Trends Using LDA Algorithm)

  • 양회창
    • 한국프랜차이즈경영연구
    • /
    • 제12권4호
    • /
    • pp.13-23
    • /
    • 2021
  • Purpose: This study aimed to derive clues for the franchise industry to overcome difficulties such as various legal regulations and social responsibility demands and to continuously develop by analyzing the research trends related to franchises published in Korea. Research design, data and methodology: As a result of searching for 'franchise' in ScienceON, abstracts were collected from papers published in domestic academic journals from 1994 to June 2021. Keywords were extracted from the abstracts of 1,110 valid papers, and after preprocessing, keyword analysis, TF-IDF analysis, and topic modeling using LDA algorithm, along with trend analysis of the top 20 words in TF-IDF by year group was carried out using the R-package. Results: As a result of keyword analysis, it was found that businesses and brands were the subjects of research related to franchises, and interest in service and satisfaction was considerable, and food and coffee were prominently studied as industries. As a result of TF-IDF calculation, it was found that brand, satisfaction, franchisor, and coffee were ranked at the top. As a result of LDA-based topic modeling, a total of 12 topics including "growth strategy" were derived and visualized with LDAvis. On the other hand, the areas of Topic 1 (growth strategy) and Topic 9 (organizational culture), Topic 4 (consumption experience) and Topic 6 (contribution and loyalty), Topic 7 (brand image) and Topic 10 (commercial area) overlap significantly. Finally, the trend analysis results for the top 20 keywords with high TF-IDF showed that 10 keywords such as quality, brand, food, and trust would be more utilized overall. Conclusions: Through the results of this study, the direction of interest in the franchise industry was confirmed, and it was found that it was necessary to find a clue for continuous growth through research in more diverse fields. And it was also considered an important finding to suggest a technique that can supplement the problems of topic trend analysis. Therefore, the results of this study show that researchers will gain significant insights from the perspectives related to the selection of research topics, and practitioners from the perspectives related to future franchise changes.

중학교 학생들의 자유탐구활동 중 주제선정단계에서 나타난 어려움 조사 (Investigation on the Difficulties During Middle School Students' Finding Inquiry Topics on Open-Inquiry Activities)

  • 정우경;이준기;오상욱
    • 한국과학교육학회지
    • /
    • 제31권8호
    • /
    • pp.1199-1213
    • /
    • 2011
  • 이 연구는 자유탐구의 주제 선정과정에서 중학생들이 겪는 어려움의 유형을 파악하기 위해 실시되었다. 연구목적의 달성을 위해 중학교 1학년 학생 11명이 참여하였고, 자유탐구 활동지와 심층면담의 분석을 통해 귀납적 분석을 실시하였다. 학생들은 자유탐구를 경험하면서 주제선정단계에서 한번 이상의 어려움을 경험하였고, 어려움의 경중은 개인차가 있었지만 주제 선정과정의 체계화된 안내가 필요함을 확인하였다. 자유탐구활동의 주제선정단계 중 탐구대상선정의 어려움으로는 제한 없는 탐구대상 선정에 대한 부담감, 과학적 탐구대상의 이해 부족, 학생들의 과학적 탐구 호기심 부족이 나타났다. 탐구대상을 제한하는 것에 대해서는 학생 선택이 필요하다. 대상선택의 기회제공 유무를 판단하여 자유탐구의 본 취지가 수용된 전략적 지도가 필요하다. 자유탐구활동의 주제선정단계에서는 과학적이지 못한 주제 선정, 단답형식의 해결 가능한 주제 선정, 탐구의 실현 가능성 여부, 주제에 관한 선언적 지식의 부족, 재미에만 집중된 주제를 선택하여 어려움을 겪는 것으로 나타났다. 참가학생들은 자유탐구활동에 대한 경험 부족, 주제선정단계별 실패로 인한 흥미 저하, 자유탐구활동 자체에 대한 부담감을 이유로 자유탐구활동을 중단하는 것으로 나타났다. 자유탐구활동의 성공적 실행을 위해 주제선정단계에 대한 구조화된 안내가 이루어져야 한다.

토픽 분석을 이용한 학생부종합전형의 쟁점 분석 (Issue analysis of the admission officer system using topic analysis)

  • 홍영희
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.423-434
    • /
    • 2019
  • 지난 2018년, 우리사회를 뜨겁게 달구었던 이슈 중 하나로 대입제도 개편에 관한 논쟁을 꼽을 수 있겠다. 그 중에서도 학생부종합전형에 대한 쟁점이 무엇인가를 파악하기 위해 감시와 비판이라는 언론의 기능에 주목하여 관련 뉴스 기사에 대한 토픽 분석을 시도해 보았다. 그 결과 수능체제 개편 논의가 비중있는 주제로 등장하여 수능시험에 대한 한국 사회의 민감성을 보여 주었다. 학생부종합전형과 직접적 관련이 있는 주제로는 학생부종합전형의 세부적인 선발 요소에 대한 논의가 등장하였고, 대입전형의 공정성에 관한 논의와 밀접한 관계를 보였다.

Detection for JPEG steganography based on evolutionary feature selection and classifier ensemble selection

  • Ma, Xiaofeng;Zhang, Yi;Song, Xiangfeng;Fan, Chao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권11호
    • /
    • pp.5592-5609
    • /
    • 2017
  • JPEG steganography detection is an active research topic in the field of information hiding due to the wide use of JPEG image in social network, image-sharing websites, and Internet communication, etc. In this paper, a new steganalysis method for content-adaptive JPEG steganography is proposed by integrating the evolutionary feature selection and classifier ensemble selection. First, the whole framework of the proposed steganalysis method is presented and then the characteristic of the proposed method is analyzed. Second, the feature selection method based on genetic algorithm is given and the implement process is described in detail. Third, the method of classifier ensemble selection is proposed based on Pareto evolutionary optimization. The experimental results indicate the proposed steganalysis method can achieve a competitive detection performance by compared with the state-of-the-art steganalysis methods when used for the detection of the latest content-adaptive JPEG steganography algorithms.