• 제목/요약/키워드: topic model

검색결과 870건 처리시간 0.027초

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

Exploring the Trends and Challenges of Artificial Intelligence Education through the Analysis of Newspapers in Korea, 1991-2020: A topic-modeling approach

  • Kim, Sung-ae
    • Journal of information and communication convergence engineering
    • /
    • 제18권4호
    • /
    • pp.216-221
    • /
    • 2020
  • Artificial intelligence (AI), an essential skill of the Fourth Industrial Revolution, is being actively taught in higher education; however, AI education is only in the preparatory stage in elementary, middle, and high schools. Investigating various newspaper articles related to AI education to date can aid in basic data collection, which is an important process in the preparatory stage. Accordingly, 13,378 newspaper articles were collected from a total of 21 newspapers, and five topics were extracted using the latent Dirichlet allocation (LDA)-based topic model along with frequency analysis. Newspaper articles from the early 2000s expanded to technologies related to the Fourth Industrial Revolution. Accordingly, education in AI fields should be linked with education in AI-based technology. In addition, efforts should be made to secure the continuity and sequence of AI education in cooperation with related higher institutions and companies.

토픽맵 기반 의학 정보 검색 시스템 구축을 통한 온톨로지 구축 및 방법론 연구 (Ontology Implementation and Methodology Revisited Using Topic Maps based Medical Information Retrieval System)

  • 이명호
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.35-51
    • /
    • 2010
  • 트위터, 블로그, 위키 등과 같은 web 2.0 서비스는 구조화가 덜 되어 있고, 정보량 폭증을 감당하기 어렵다는 한계를 갖고 있는 기존의 정보조직 방법을 향상시킬 것을 요구하고 있다. 이 같은 정보조직 방법을 향상시킬 수 있는 방안의 하나로 지난 10년간 온톨로지가 연구자의 주목을 받았음에도 불구하고 현행 시스템에까지 이것이 적극 활용되고 있지는 않은 것으로 보인다. 이 연구는 온톨로지 구축 및 방법론을 제안함으로써 향후 온톨로지의 방향성을 제시하는 것을 목적으로 한다. 이를 위해 이 연구는 기존의 정보조직 방법론의 한계점을 살펴보고, 온톨로지 표현을 위한 데이터 모델을 서로 비교하고 분석하였다. 또한 토픽맵 기반 의학 정보시스템을 통해 온톨로지 구축 단계 및 방법론을 기술하였다.

동시단어분석을 이용한 품질경영분야 지식구조 분석 (The Analysis of Knowledge Structure using Co-word Method in Quality Management Field)

  • 박만희
    • 품질경영학회지
    • /
    • 제44권2호
    • /
    • pp.389-408
    • /
    • 2016
  • Purpose: This study was designed to analyze the behavioral change of knowledge structures and the trends of research topics in the quality management field. Methods: The network structure and knowledge structure of the words were visualized in map form using co-word analysis, cluster analysis and strategic diagram. Results: Summarizing the research results obtained in this study are as follows. First, the word network derived from co-occurrence matrix had 106 nodes and 5,314 links and its density was analyzed to 0.95. Average betweenness centrality of word network was 2.37. In addition, average closeness centrality and average eigenvector centrality of word network were 0.01. Second, by applying optimal criteria of cluster decision and K-means algorithm to word co-occurrence matrix, 106 words were grouped into seven clusters such as standard & efficiency, product design, reliability, control chart, quality model, 6 sigma, and service quality. Conclusion: According to the results of strategic diagram analysis over time, the traditional research topics of quality management field related to reliability, 6 sigma, control chart topics in the third quadrant were revealed to be declined for their study importance. Research topics related to product design and customer satisfaction were found to be an important research topic over analysis periods. Research topic related to management innovation was emerging state and the scope of research topics related to process model was extended to research topics with system performance. Research topic related to service quality located in the first quadrant was analyzed as the key research topic.

리뷰의 의미적 토픽 분류를 적용한 감성 분석 모델 (Sentiment Analysis Model with Semantic Topic Classification of Reviews)

  • 임명진;김판구;신주현
    • 스마트미디어저널
    • /
    • 제9권2호
    • /
    • pp.69-77
    • /
    • 2020
  • 지상파에 한정되어 방영되었던 과거와는 달리 현재는 케이블 채널과 인터넷 웹에서도 수많은 드라마가 방영되고 있다. 드라마를 보고난 후 시청자들은 리뷰를 통해 적극적으로 자신의 의견을 표현하고 이러한 리뷰의 분석에 관련된 연구들이 활발하게 진행되고 있다. 드라마의 특성상 장르가 뚜렷하지 않고 시청자의 다양한 연령층으로 인해 다른 시청자들의 리뷰와 평가는 어떤 드라마를 볼 것인지 결정하는데 도움이 된다. 하지만 많은 리뷰를 시청자가 일일이 확인하고 분석하는 것은 어렵기 때문에 자동으로 분석하기위한 데이터 분석 기법이 필요하다. 이에 본 논문에서는 드라마 선택에 중요한 영향을 미치는 리뷰의 토픽을 분류하고 단어의 의미 유사도에 따라 의미적 토픽으로 재분류한다. 그리고 리뷰를 의미적 토픽에 따른 문장으로 분류한 다음 감성단어를 통해 감성을 분석하는 모델을 제안한다.

초등학교 소프트웨어 교육에서 '정보' 영역의 성취 목표 및 교수-학습 방법에 관한 연구 (Study on the Achievement Goals and Teaching-Learning Methods of 'Information' Topic of Software Education in Elementary School)

  • 정인기
    • 정보교육학회논문지
    • /
    • 제19권4호
    • /
    • pp.499-508
    • /
    • 2015
  • 정보 사회로 발전하면서 세계의 주요 나라에서는 정보 교과의 교육을 강화해 가고 있으며 최근에는 소프트웨어 교육을 확대한 정보교과 교육과정이 제시되고 있다. 따라서 한국정보교육학회에서는 소프트웨어 교육을 위한 표준 모델에 대하여 연구해서 2014년에 발표된 표준 모델을 보완하여 발표하였다. 여기에서는 소프트웨어 교육 내용을 '소프트웨어', '컴퓨터 시스템' 및 '융합 활동'의 세 영역으로 구분하는 소프트웨어 교육 표준 모델을 제시하였다. 이에 따라 본 논문에서는 한국정보교육학회에서 제시한 소프트웨어 교육 표준모델의 '소프트웨어' 대영역의 '정보' 영역에 대한 초등학교의 성취 기준을 단계별로 마련하였다. 그리고 이 성취 기준을 도달하기 위한 교수-학습 방법과 평가 방안을 단계별로 세분화하여 제시하였다. 이와 같이 본 연구에서 제시한 '정보' 영역에 대한 성취 기준, 교수 학습 방법, 평가 방법은 향후 초등학교 소프트웨어 교육 과정 개발에 기여할 것으로 기대된다.

한국도로공사 VOC 데이터를 이용한 토픽 모형 적용 방안 (Application of a Topic Model on the Korea Expressway Corporation's VOC Data)

  • 김지원;박상민;박성호;정하림;윤일수
    • 한국IT서비스학회지
    • /
    • 제19권6호
    • /
    • pp.1-13
    • /
    • 2020
  • Recently, 80% of big data consists of unstructured text data. In particular, various types of documents are stored in the form of large-scale unstructured documents through social network services (SNS), blogs, news, etc., and the importance of unstructured data is highlighted. As the possibility of using unstructured data increases, various analysis techniques such as text mining have recently appeared. Therefore, in this study, topic modeling technique was applied to the Korea Highway Corporation's voice of customer (VOC) data that includes customer opinions and complaints. Currently, VOC data is divided into the business areas of Korea Expressway Corporation. However, the classified categories are often not accurate, and the ambiguous ones are classified as "other". Therefore, in order to use VOC data for efficient service improvement and the like, a more systematic and efficient classification method of VOC data is required. To this end, this study proposed two approaches, including method using only the latent dirichlet allocation (LDA), the most representative topic modeling technique, and a new method combining the LDA and the word embedding technique, Word2vec. As a result, it was confirmed that the categories of VOC data are relatively well classified when using the new method. Through these results, it is judged that it will be possible to derive the implications of the Korea Expressway Corporation and utilize it for service improvement.

Contact Tracking Development Trend Using Bibliometric Analysis

  • Li, Chaoqun;Chen, Zhigang;Yu, Tongrui;Song, Xinxia
    • Journal of Information Processing Systems
    • /
    • 제18권3호
    • /
    • pp.359-373
    • /
    • 2022
  • The new crown pneumonia (COVID-19) has become a global epidemic. The disease has spread to most countries and poses a challenge to the healthcare system. Contact tracing technology is an effective way for public health to deal with diseases. Many experts have studied traditional contact tracing and developed digital contact tracking. In order to better understand the field of contact tracking, it is necessary to analyze the development of contact tracking in the field of computer science by bibliometrics. The purpose of this research is to use literature statistics and topic analysis to characterize the research literature of contact tracking in the field of computer science, to gain an in-depth understanding of the literature development status of contact tracking and the trend of hot topics over the past decade. In order to achieve the aforementioned goals, we conducted a bibliometric study in this paper. The study uses data collected from the Scopus database. Which contains more than 10,000 articles, including more than 2,000 in the field of computer science. For popular trends, we use VOSviewer for visual analysis. The number of contact tracking documents published annually in the computer field is increasing. At present, there are 200 to 300 papers published in the field of computer science each year, and the number of uncited papers is relatively small. Through the visual analysis of the paper, we found that the hot topic of contact tracking has changed from the past "mathematical model," "biological model," and "algorithm" to the current "digital contact tracking," "privacy," and "mobile application" and other topics. Contact tracking is currently a hot research topic. By selecting the most cited papers, we can display high-quality literature in contact tracking and characterize the development trend of the entire field through topic analysis. This is useful for students and researchers new to field of contact tracking ai well as for presenting our results to other subjects. Especially when comprehensive research cannot be conducted due to time constraints or lack of precise research questions, our research analysis can provide value for it.

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.703-714
    • /
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.

A Study on Socio-technical System for Sustainability of the 4th Industrial Revolution: Machine Learning-based Analysis

  • Lee, Jee Young
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권4호
    • /
    • pp.204-211
    • /
    • 2020
  • The era of the 4th industrial revolution is a complex environment in which the cyber world and the physical world are integrated and interacted. In order to successfully implement and be sustainable the 4th industrial revolution of hyper-connectivity, hyper-convergence, and hyper-intelligence, not only the technological aspects that implemented digitalization but also the social aspects must be recognized and dealt with as important. There are socio-technical systems and socio-technical systems theory as concepts that describe systems involving complex interactions between the environmental aspects of human, mechanical and tissue systems. This study confirmed how the Socio-technical System was applied in the research literature for the last 10 years through machine learning-based analysis. Eight clusters were derived by performing co-occurrence keywords network analysis, and 13 research topics were derived and analyzed by performing a structural topic model. This study provides consensus and insight on the social and technological perspectives necessary for the sustainability of the 4th industrial revolution.