• 제목/요약/키워드: Topic Clustering

검색결과 100건 처리시간 0.027초

태그 기반 토픽맵 생성 시스템의 설계 및 구현 (Design and Implementation of Topic Map Generation System based Tag)

  • 이시화;이만형;황대훈
    • 한국멀티미디어학회논문지
    • /
    • 제13권5호
    • /
    • pp.730-739
    • /
    • 2010
  • 웹2.0환경에서의 핵심적인 기술은 태깅이며, 현재 블로그와 같은 웹 문서에서부터 이미지, 동영상 등과 같은 멀티미디어 데이터에 이르기까지 폭넓게 적용되고 있다. 그러나 태깅에 사용된 태그가 정보 검색에 재사용되어 검색의 효율성을 극대화 시킬 것이라는 기대와는 달리 실제로는 태그가 가지는 근본적인 한계들로 인해 만족스럽지 못한 검색결과가 나타나고 있다. 이에 본 연구에서는 태그 클러스터링을 통한 이미지 검색에 대한 선행연구를 기반으로 의미론적 지식체계인 토픽맵 생성 시스템을 설계 및 구현하였다. 구현 결과 클러스터 내의 태그 정보들은 토픽맵에서의 토픽으로 자동 생성되었으며, 생성된 토픽맵의 토픽들 간에는 WordNet을 적용하여 의미연관관계를 부여하였다. 또한 토픽 쌍에 적합한 어커런스 정보들을 추출하여 토픽들에 부여함으로서 의미론적 지식체계인 토픽맵을 생성하였다. 이와 같이 생성된 토픽맵은 사용자의 정보검색 요구에 대한 시맨틱 내비게이션의 제공을 가능하게 할 뿐만 아니라 풍부한 정보제공이 가능하다.

Abnormal Behavior Recognition Based on Spatio-temporal Context

  • Yang, Yuanfeng;Li, Lin;Liu, Zhaobin;Liu, Gang
    • Journal of Information Processing Systems
    • /
    • 제16권3호
    • /
    • pp.612-628
    • /
    • 2020
  • This paper presents a new approach for detecting abnormal behaviors in complex surveillance scenes where anomalies are subtle and difficult to distinguish due to the intricate correlations among multiple objects' behaviors. Specifically, a cascaded probabilistic topic model was put forward for learning the spatial context of local behavior and the temporal context of global behavior in two different stages. In the first stage of topic modeling, unlike the existing approaches using either optical flows or complete trajectories, spatio-temporal correlations between the trajectory fragments in video clips were modeled by the latent Dirichlet allocation (LDA) topic model based on Markov random fields to obtain the spatial context of local behavior in each video clip. The local behavior topic categories were then obtained by exploiting the spectral clustering algorithm. Based on the construction of a dictionary through the process of local behavior topic clustering, the second phase of the LDA topic model learns the correlations of global behaviors and temporal context. In particular, an abnormal behavior recognition method was developed based on the learned spatio-temporal context of behaviors. The specific identification method adopts a top-down strategy and consists of two stages: anomaly recognition of video clip and anomalous behavior recognition within each video clip. Evaluation was performed using the validity of spatio-temporal context learning for local behavior topics and abnormal behavior recognition. Furthermore, the performance of the proposed approach in abnormal behavior recognition improved effectively and significantly in complex surveillance scenes.

An Optimization Method for the Calculation of SCADA Main Grid's Theoretical Line Loss Based on DBSCAN

  • Cao, Hongyi;Ren, Qiaomu;Zou, Xiuguo;Zhang, Shuaitang;Qian, Yan
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1156-1170
    • /
    • 2019
  • In recent years, the problem of data drifted of the smart grid due to manual operation has been widely studied by researchers in the related domain areas. It has become an important research topic to effectively and reliably find the reasonable data needed in the Supervisory Control and Data Acquisition (SCADA) system has become an important research topic. This paper analyzes the data composition of the smart grid, and explains the power model in two smart grid applications, followed by an analysis on the application of each parameter in density-based spatial clustering of applications with noise (DBSCAN) algorithm. Then a comparison is carried out for the processing effects of the boxplot method, probability weight analysis method and DBSCAN clustering algorithm on the big data driven power grid. According to the comparison results, the performance of the DBSCAN algorithm outperforming other methods in processing effect. The experimental verification shows that the DBSCAN clustering algorithm can effectively screen the power grid data, thereby significantly improving the accuracy and reliability of the calculation result of the main grid's theoretical line loss.

Topic Analysis of Scholarly Communication Research

  • Ji, Hyun;Cha, Mikyeong
    • Journal of Information Science Theory and Practice
    • /
    • 제9권2호
    • /
    • pp.47-65
    • /
    • 2021
  • This study aims to identify specific topics, trends, and structural characteristics of scholarly communication research, based on 1,435 articles published from 1970 to 2018 in the Scopus database through Latent Dirichlet Allocation topic modeling, serial analysis, and network analysis. Topic modeling, time series analysis, and network analysis were used to analyze specific topics, trends, and structures, respectively. The results were summarized into three sets as follows. First, the specific topics of scholarly communication research were nineteen in number, including research resource management and research data, and their research proportion is even. Second, as a result of the time series analysis, there are three upward trending topics: Topic 6: Open Access Publishing, Topic 7: Green Open Access, Topic 19: Informal Communication, and two downward trending topics: Topic 11: Researcher Network and Topic 12: Electronic Journal. Third, the network analysis results indicated that high mean profile association topics were related to the institution, and topics with high triangle betweenness centrality, such as Topic 14: Research Resource Management, shared the citation context. Also, through cluster analysis using parallel nearest neighbor clustering, six clusters connected with different concepts were identified.

소비자 선호 이슈 및 R&D 관점에서의 다차원 이슈 클러스터링 (A Multi-Dimensional Issue Clustering from the Perspective Consumers' Interests and R&D)

  • 현윤진;김남규;조윤호
    • 한국IT서비스학회지
    • /
    • 제14권1호
    • /
    • pp.237-249
    • /
    • 2015
  • The volume of unstructured text data generated by various social media has been increasing rapidly; therefore, use of text mining to support decision making has also been increasing. Especially, issue Clustering-determining a new relation with various issues through clustering-has gained attention from many researchers. However, traditional issue clustering methods can only be performed based on the co-occurrence frequency of issue keywords in many documents. Therefore, an association between issues that have a low co-occurrence frequency cannot be discovered using traditional issue clustering methods, even if those issues are strongly related in other perspectives. Therefore, issue clustering that fits each of criteria needs to be performed by the perspective of analysis and the purpose of use. In this study, a multi-dimensional issue clustering is proposed to overcome the limitation of traditional issue clustering. We assert, specifically in this study, that issue clustering should be performed for a particular purpose. We analyze the results of applying our methodology to two specific perspectives on issue clustering, (i) consumers' interests, and (ii) related R&D terms.

인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구 (Document Clustering Using Reference Titles)

  • 최상희
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.241-252
    • /
    • 2010
  • 본 연구에서는 원문헌의 표제가 문헌클러스터링에서 문헌의 주제를 나타내는데 효과적인 자질로 인식되고 있지만 동의어나 유사어를 포함하여 문헌의 주제를 대표하는데 한계가 있음을 인지하고 인용문헌의 표제로 클러스터링 자질을 확대하는 방안을 제시하였다. 문헌 클러스터링의 자질로 원 문헌의 표제 용어와 인용문헌의 표제 용어, 두 종류의 표제 용어를 혼합하여 적용하여 인용문헌의 표제가 클러스터링 성능을 향상시키는 정도를 측정하였다. 각 자질별로 계층적 클러스터링 기법 3개, within group average linkage, complete linkage, Ward 기법을 결합하여 클러스터를 생성하는 성능을 비교, 분석하였는데 원문헌과 인용문헌 표제어를 혼합하여 within group average linkage 기법으로 클러스터링 한 경우가 가장 좋은 결과를 나타내었다.

복수 자질에 의한 지적 구조의 계량정보학적 분석연구: 국내 대학도서관 분야 연구논문을 대상으로 (An Informetric Analysis on Intellectual Structures with Multiple Features of Academic Library Research Papers)

  • 최상희
    • 정보관리학회지
    • /
    • 제28권2호
    • /
    • pp.65-78
    • /
    • 2011
  • 이 연구는 계량정보학적 기법을 적용하여 대학도서관의 연구분야를 파악하고자 하는 것이다. 적용된 계량정보학 기법은 용어클러스터링과 패스파인더 네트워크 알고리즘이다. 연구분야 분석을 위하여 2005년부터 2009년 동안 주요 학술지에 발표된 139건의 논문을 한국과학기술인용색인서비스(KSCI)에서 검색하여 데이터 콜렉션을 구축하였으며 연구분야를 분석하는 데 사용한 자질은 초록과 인용문헌의 제목에서 추출되었다. 분석 결과 인용문헌의 제목은 세분화된 연구분야를 표현하는 데 적절한 것으로 분석되었으며 초록과 인용문헌의 제목을 결합하여 적용하면 연관주제로 확장하여 주제구조를 효과적으로 표현해주는 것으로 나타났다.

Web2.0 환경에서의 Topic Map 생성을 위한 Tag Clustering에 관한 연구 (A Study on Tag Clustering for Topic Map Generation in Web 2.0 Environment)

  • 이시화;무효려;이만형;황대훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.525-528
    • /
    • 2007
  • 기존의 웹서비스가 정적이고 수동적인데 반해 최근의 웹 서비스는 점차 동적이고 능동적으로 변화하고 있다. 이러한 웹서비스 변화의 흐름을 잘 반영하는 것이 웹 2.0이다. 웹 2.0에서 대부분의 정보는 사용자에 의해 생산되고, 사용자가 붙인 태그(tag)에 의해 분류되어진다. 그러나 현재 태그에 관한 서비스 및 연구들은 태깅(tagging) 방법에 대한 연구를 비롯해 이를 표현하기 위한 tag cloud에 초점이 맞춰져 진행됨에 따라, 다양한 태그 정보자원 간의 체계와 연결 관계인 지식체계를 제공하지 못하고 있다. 이에 본 논문에서는 체계화된 지식표현을 위해 웹상에 편재되어 있는 학습 관련 리소스(resources) 및 태그들를 수집한다. 이를 사용자가 요청한 검색 키워드와 연관성이 있는 태그 정보들을 맵핑 및 클러스터링하여 최적화된 표현 형식인 토픽 맵(topic map)화하기 위한 시스템을 제안하며, 이 중 토픽 맵 생성을 위한 초기 연구 단계로서, 연관 태그들 간의 맵핑 및 클러스터링을 위한 알고리즘 제시를 중심으로 소개한다.

  • PDF

구술문서 자료분석을 위한 정보검색기술의 응용 (Information Technology Application for Oral Document Analysis)

  • 박순철;함한희
    • 한국산업정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.47-55
    • /
    • 2008
  • 본 연구는 정보검색기술을 응용해서 구술문서 자료를 효율적으로 분석하는 시스템 개발을 목적으로 한다. 여기서 사용된 기술은 용어검색, 문서요약기술, 클러스터링기술 문서분류기술 주제추적기술 등이 있다. 본 연구를 위해서 전북지역에서 채록한 구술자료를 이용하였다. 구술문서 구조의 특성을 반영하면서 분석의 단위를 정하고 내용의 자동분류 및 분류체계에 따른 분류도 시도하였다. 특히 주제를 추적하면서 순서에 따라서 검색해 가는 기술은 세계적으로도 아직 연구단계에 있던 것을 실제로 구현하였다. 이러한 5가지의 검색기술이 한 시스템에서 통합적으로 처리될 수 있다는 것도 이 연구가 이룬 성과이다. 이 연구의 기대효과는 구술문서 분석의 신뢰성 타당성 효용성을 높여서 구술문화연구에도 큰 기여를 할 것으로 기대된다.

  • PDF

텍스트마이닝을 활용한 주요 대기업 신년사 분석 (Study on CEO New Year's Address: Using Text Mining Method)

  • 김유경;조대곤
    • 한국IT서비스학회지
    • /
    • 제22권2호
    • /
    • pp.93-127
    • /
    • 2023
  • This study analyzed the CEO New Year's addresses of major Korean companies, extracting key topics for employees via text mining techniques. An intended contribution of this study is to assist reporters, analysts, and researchers in gaining a better understanding of the New Year's addresses by elucidating the implicit and implicative features of messages within. To this end, this study collected and analyzed 545 New Year's addresses published between 2012 and 2021 by the top 66 Korean companies in terms of market capitalization. Research methodologies applied include text clustering, word embedding of keywords, frequency analysis, and topic modeling. Our main findings suggest that the messages in the New Year's addresses were categorized into nine topics-organizational culture, global advancement, substantial management, business reorganization, capacity building, market leadership, management innovation, sustainable management, and technology development. Next, this study further analyzed the managerial significance of each topic and discussed their characteristics from the perspectives of time, industry, and corporate groups. Companies were typically found to emphasize sound management, market leadership, and business reorganization during economic downturns while stressing capacity building and organizational culture during market transition periods. Also, companies belonging to corporate groups tended to emphasize founding philosophy and corporate culture.