• 제목/요약/키워드: Topic Association-based Classification

검색결과 19건 처리시간 0.022초

A Design of K-XMDR Search System Using Topic Maps

  • Jialei, Zhang;Hwang, Chi-Gon;Jung, Gye-Dong;Choi, Young-Keun
    • Journal of information and communication convergence engineering
    • /
    • 제9권3호
    • /
    • pp.287-294
    • /
    • 2011
  • This paper proposes a search system using the topic maps that it extends XMDR into Knowledge based XMDR for solving of the problems of the heterogeneity of distributed data on a network and integrate data by an efficient way. The proposed system combined Topic Maps and the extended metadata registry effectively. The Topic Maps represent related knowledge and reasoning relationship by associations of topic. And the extended metadata registry standards and manages the metadata of the local systems through registration and certification on the distributed environment. We also proposed a meta layer, include the meta topic and meta association to achieve semantic classification grouping of topics and to define relationship between Topic Maps and extended metadata registry.

A Development Method of Framework for Collecting, Extracting, and Classifying Social Contents

  • Cho, Eun-Sook
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.163-170
    • /
    • 2021
  • 빅데이터가 여러 분야에서 다양하게 접목됨에 따라 빅데이터 시장이 하드웨어로부터 시작해서 서비스 소프트웨어 부문으로 확장되고 있다. 특히 빅데이터 의미 파악 및 이해 능력, 분석 결과 등 총체적이고 직관적인 시각화를 위하여 애플리케이션을 제공하는 거대 플랫폼 시장으로 확대되고 있다. 그 중에서 SNS(Social Network Service) 등과 같은 소셜 미디어를 활용한 빅데이터 추출 및 분석에 대한 수요가 기업 뿐만 아니라 개인에 이르기까지 매우 활발히 진행되고 있다. 그러나 이처럼 사용자 트렌드 분석과 마케팅을 위한 소셜 미디어 데이터의 수집 및 분석에 대한 많은 수요에도 불구하고, 다양한 소셜 미디어 서비스 인터페이스의 이질성으로 인한 동적 연동의 어려움과 소프트웨어 플랫폼 구축 및 운영의 복잡성을 해결하기 위한 연구가 미흡한 상태이다. 따라서 본 논문에서는 소셜 미디어 데이터의 수집에서 추출 및 분류에 이르는 과정을 하나로 통합하여 운영할 수 있는 프레임워크를 개발하는 방법에 대해 제시한다. 제시된 프레임워크는 이질적인 소셜 미디어 데이터 수집 채널의 문제를 어댑터 패턴을 통해 해결하고, 의미 연관성 기반 추출 기법과 주제 연관성 기반 분류 기법을 통해 소셜 토픽 추출과 분류의 정확성을 높였다.

LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구 (A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation)

  • 신승기
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.439-448
    • /
    • 2022
  • 본 연구에서는 공공데이터포털에서 제공하는 교육관련 데이터를 검색하고 토픽모델링 기법을 활용한 분류를 통해 어떠한 데이터의 종류가 구축되어 있으며 활용이 가능한지를 살펴보고자 하였다. 공공데이터포털의 데이터에 대하여 분류체계를 기준으로 교육분야의 파일데이터는 3,072건이 수집되었으며, 검색어를 활용하여 '교육'을 검색하여 나타난 파일데이터 2,361건으로 나타났다. 각각의 데이터셋에 대하여 불용어처리를 실시하고 데이터 전처리를 수행하여 LDA기반 토픽모델링을 활용하여 텍스트마이닝 분석을 실시하였다. 사전에 교육으로 분류된 데이터셋에서는 현재 재학중인 학교급별 학생을 대상으로 지원하는 프로그램과 정보에 대한 내용이 제공되고 있었다. 한편, 교육으로 검색하여 수집된 데이터셋에서는 장애인, 학부모, 노인, 아동 등 평생교육의 관점으로 제공되는 교육 프로그램 및 지원현황이라는 특징이 나타났다. 데이터과학기반의 의사결정 및 문제해결력을 기르기 위해 공공데이터포털이 제공하는 데이터에서 교육과정 및 내용이 충분히 제공되는 것도 좋은 기회가 될 것이다.

대학 학사행정 기록물의 토픽맵 기반 검색시스템 설계에 관한 연구 (A Study on the Design of a Topic Map-based Retrieval System for the Academic Administration Records of Universities)

  • 신지유;정영미
    • 한국기록관리학회지
    • /
    • 제16권1호
    • /
    • pp.175-193
    • /
    • 2016
  • 토픽맵은 방대한 양의 정보를 의미론적 연관관계에 따라 분류, 조직하여 탐색할 수 있도록 효율적인 검색을 제공하기 위해 제안된 도구이다. 본 연구는 대학의 교직원들이 학사행정 대학기록물 검색시 의미기반 검색을 통해 보다 적합한 검색결과를 제공받을 수 있도록 토픽맵 기반 대학기록물 검색시스템을 설계한 것이고 그 과정을 보여준다. 본 연구를 위해 D대학의 2년간 학사행정 기록물들이 사용되었고 의미관계를 구조화하기 위해 대학의 업무 기능 분류표를 참조하였다. 온토피아 옴니게이트를 사용하여 토픽맵을 구축하였다. 대학의 학사행정 관련 기록물의 토픽은 총 626개로 나타났고, 토픽 타입은 학사업무, 교직원, 학적, 대학, 학생, 기타로 구성하였다. 관계는 토픽들간의 연관으로 6개 유형이 나타났고, 어커런스 타입은 등록구분, 등록번호, 등록일, 수신자, 제목, 기안자, 분류번호 등의 7개로 정의하였다. 본 연구에서 설계된 토픽맵 기반의 검색시스템의 관계적 속성은 대규모 기록물을 쉽게 탐색하고 지식의 우연한 발견을 가능하게 할 것으로 기대된다.

상호운용적 분류체계 관리를 위한 반자동 분류체계 관리방안 (Semi-Automatic Management of Classification Scheme with Interoperability)

  • 이원구;신성호;김광영;정도헌;윤화묵;성원경;이민호
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.466-474
    • /
    • 2011
  • 과학기술의 융 복합현상은 21세기 지식 기반 경제하에서 더욱 활발하게 진행됨에 따라 과학기술 분야를 적절히 분류해내고, 미래의 신성장 분야까지 포용할 수 있는 체계를 만드는 것이 결코 쉽지 않다. 이에, 본 연구에서는 각 콘텐츠 관리 서비스 기관이 분류체계 간 상호운용성을 갖을 수 있도록 반자동적인 입수/관리 분류체계 이력관리 및 입수-관리 분류체계 간 매핑 방안을 시스템적 측면에서 제시하였으며, 이를 통해, 기존의 수작업 방식에서 발생할 수 있는 관리적 어려움과 비용적 발생을 최소화할 수 있을 것이다.

토픽모델링을 활용한 해운물류 뉴스 분석 (Analysis of Shipping and Logistics News Articles using Topic Modeling)

  • 윤희영;곽일엽
    • 무역학회지
    • /
    • 제46권4호
    • /
    • pp.61-76
    • /
    • 2021
  • This study focuses on three logistics-related news (Logistics Newspaper, Korea Shipping Gadget, and Korea Shipping Newspaper) in order to present changes in logistics issues, centering on Corona 19, which has recently had the greatest impact in the world. For data collection, two-year news articles in 2019 and 2020 (title, article, content, date, article classification, article URL) were collected through web crawling (using Python's BeautifulSoup, requests module) on the homepages of three representative logistics-related media companies. As for the data analysis methods, fundamental statistical analysis, Latent Dirichlet Allocation (LDA) for topic modeling, and Scattertext were performed. The analysis results were as follows. First, among the three news media related to logistics, the Korea Shipping Newspaper was carrying out the most active media activities. Second, through topic modeling with LDA, eight logistics-related topics were identified, and keywords and significant issues of each topic were presented. Third, the keywords were visually expressed through Scattertext. This is the first study to present changes in the logistics field, focusing on articles from representative logistics-related media in 2019 and 2020. In particular, 2019 and 2020 can be divided into before and after the outbreak of Corona 19, which has had a great impact not only on the logistics field but also on our lives as a whole. For future work, a multi-faceted approach is required, such as comparative studies of logistics issues between countries or presenting implications based on long-term time-series articles.

'정보시스템연구'의 연구주제와 서베이 방법론 동향분석 (Topic and Survey Methodological Trends in 'The Journal of Information Systems')

  • 류성열;박상철
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권4호
    • /
    • pp.1-33
    • /
    • 2018
  • Purpose The purpose of this study is to review topic and survey methodological trends in 'The Journal of Information Systems' in order to present the practical guidelines for the future IS research. By attempting to conduct a meta-analysis on both topic and survey methodological trends, this study could provide researchers wishing to pursue this line of work further with what can be done to improve IS disciplines. Design/methodology/approach In this study, we have reviewed 185 papers that were published in 'The Journal of Information Systems' from 2010 to 2018 and classified them based on topics studied and survey methodologies used. The classification guidelines, which was developed by Palvia et al.(2015), has been used to capture the topic trends. We have also employed Struab et al.(2004)s' guidelines for securing rigor of validation issues. By using two guidelines, this study could also present topic and rigor trends in 'The Journal of Information Systems' and compare them to those trends in International Journals. Findings Our findings have identified dominant research topics in 'The Journal of Information Systems'; 1) social media and social computing, 2) IS usage and adoption, 3) mobile computing, 4) electronic commerce/business, 5) security and privacy, 6) supply chain management, 7) innovation, 8) knowledge management, and 9) IS management and planning. This study also could offer researchers who pursue this line of work further practical guidelines on mandatory (convergent and discriminant validity, reliability, and statistical conclusion validity), highly recommended (common method bias testing), and optional validations (measurement invariance testing for subgroup analysis, bootstrapping methods for testing mediating effects).

정보시스템연구의 연구경향에 대한 분석: 2001-2008 (An Analysis of Research Diversity in "The Journal of Information Systems": 2001-2008)

  • 류영태
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제18권2호
    • /
    • pp.35-59
    • /
    • 2009
  • The study of Information Systems(IS) is a relatively new discipline area, thus an analysis of the latest research literature could be useful to identify what the researchers are doing and what can be done to improve our discipline. With that purpose in mind, this study analyzes the total 208 articles published in "The Journal of Information Systems~ between 2001 and 2008. The classification system that comprises three key characteristics of diversity (research topic, research method, and reference discipline) was developed based on a review of prior literature. The results of this study were also compared with Kim et al.(2005)'s and Vessey et al.(2002)'s results to identify issues in current Information Systems research and 10 suggest some recommendations for future In formation Systems research. The findings identify popular research topic:s, the dominant research method, and reference discipline. The popular research topics consists of organizational concepts, problem domain-specific concepts, and systems/software management concepts. Field study was characterized as the dominant research method in the papers included in the study. Information Systems itself represents the major theoretical reference of the studies. However, many papers in this study relied on a number of reference disciplines., none of which was dominant, or they did not rely on a specific reference discipline. Finally, this study suggests more research on the disciplinary issues, more training on the research method, more accurate and specific reference discipline, and controlled diversity.

국내 학술논문 주제 분류 알고리즘 비교 및 분석 (Comparison and Analysis of Subject Classification for Domestic Research Data)

  • 최원준;설재욱;정희석;윤화묵
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.178-186
    • /
    • 2018
  • 학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

지질용어 시소러스 시스템의 설계 및 구축 (Design and Implementation of Thesaurus System for Geological Terms)

  • 황재홍;지광훈;한종규;연영광;류근호
    • 한국지리정보학회지
    • /
    • 제10권2호
    • /
    • pp.23-35
    • /
    • 2007
  • 최근 정보 검색 분야에서 시맨틱 웹 기술에 따른 인터넷 용어사전과 더불어 시소러스의 필요성이 더욱 중요시되고 있다. 시소러스는 분류와 사전의 결합으로 상위 및 하위개념 사이의 전후관계를 명확히 하기 위해서 공식적으로 조직, 통제된 색인어의 어휘로 인간의 학습, 탐구활동 등 제반 지식활동의 대상이 되는 개념(용어)간의 관계를 표현한 지식구조의 토픽 맵이다. 하지만 시소러스가 용어의 통제 및 표준화와 더불어 정보를 능률적으로 처리하고 검색하는데 필수적인 수단으로 평가되고 있음에도 불구하고 아직까지 지질분야에서 우리말 시소러스가 없는 실정이다. 시소러스를 구축하기 위해서는 표준화되고 잘 정의된 지침이 필요하다. 이러한 표준화된 지침은 보다 효율적인 정보 관리를 가능하게 할 것이며, 정보 이용자 또한 보다 정확한 정보를 쉽고 편리하게 이용할 수 있게 될 것이다. 본 연구는 지질정보 중 가장 기본이 되는 용어 시소러스 시스템 구축 연구이다. 이를 위해서 첫째, 국내외 지질용어 표준화 동향을 살펴보았다. 둘째, 15개 분야에 대한 지질학적 주제를 정하고 각 주제에 대한 분류체계(안)를 마련하였다. 셋째, 지질용어 시소러스 분류체계를 바탕으로 지질용어 시소러스 명세서를 작성하였다. 마지막으로 이 명세서를 이용하여 인터넷기반 지질용어 시소러스 시스템을 설계하고 구축하였다.

  • PDF