• 제목/요약/키워드: doc2vec

검색결과 42건 처리시간 0.024초

Proposing a New Approach for Detecting Malware Based on the Event Analysis Technique

  • Vu Ngoc Son
    • International Journal of Computer Science & Network Security
    • /
    • 제23권12호
    • /
    • pp.107-114
    • /
    • 2023
  • The attack technique by the malware distribution form is a dangerous, difficult to detect and prevent attack method. Current malware detection studies and proposals are often based on two main methods: using sign sets and analyzing abnormal behaviors using machine learning or deep learning techniques. This paper will propose a method to detect malware on Endpoints based on Event IDs using deep learning. Event IDs are behaviors of malware tracked and collected on Endpoints' operating system kernel. The malware detection proposal based on Event IDs is a new research approach that has not been studied and proposed much. To achieve this purpose, this paper proposes to combine different data mining methods and deep learning algorithms. The data mining process is presented in detail in section 2 of the paper.

DBSCAN을 활용한 유의어 변환 문서 유사도 측정 방법 (A Method for Measuring Similarity Measure of Thesaurus Transformation Documents using DBSCAN)

  • 김병식;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제21권9호
    • /
    • pp.1035-1043
    • /
    • 2018
  • There is a case where the core content of another person's work is decorated as though it is his own thoughts by changing own thoughts without showing the source. Plagiarism test of copykiller free service used in plagiarism check is performed by comparing plagiarism more than 6th word. However, it is not enough to judge it as a plagiarism with a six - word match if it is replaced with a similar word. Therefore, in this paper, we construct word clusters by using DBSCAN algorithm, find synonyms, convert the words in the clusters into representative synonyms, and construct L-R tables through L-R parsing. We then propose a method for determining the similarity of documents by applying weights to the thesaurus and weights for each paragraph of the thesis.

Evaluation of Similarity Analysis of Newspaper Article Using Natural Language Processing

  • Ayako Ohshiro;Takeo Okazaki;Takashi Kano;Shinichiro Ueda
    • International Journal of Computer Science & Network Security
    • /
    • 제24권6호
    • /
    • pp.1-7
    • /
    • 2024
  • Comparing text features involves evaluating the "similarity" between texts. It is crucial to use appropriate similarity measures when comparing similarities. This study utilized various techniques to assess the similarities between newspaper articles, including deep learning and a previously proposed method: a combination of Pointwise Mutual Information (PMI) and Word Pair Matching (WPM), denoted as PMI+WPM. For performance comparison, law data from medical research in Japan were utilized as validation data in evaluating the PMI+WPM method. The distribution of similarities in text data varies depending on the evaluation technique and genre, as revealed by the comparative analysis. For newspaper data, non-deep learning methods demonstrated better similarity evaluation accuracy than deep learning methods. Additionally, evaluating similarities in law data is more challenging than in newspaper articles. Despite deep learning being the prevalent method for evaluating textual similarities, this study demonstrates that non-deep learning methods can be effective regarding Japanese-based texts.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

카드 데이터 기반 심층 관광 추천 연구 (Card Transaction Data-based Deep Tourism Recommendation Study)

  • 홍민성;김태경;정남호
    • 지식경영연구
    • /
    • 제23권2호
    • /
    • pp.277-299
    • /
    • 2022
  • 관광산업에서 발생하는 방대한 카드 거래 데이터는 관광객의 소비 행태와 패턴을 암시하는 중요한 자원이 되었다. 거래 데이터에 기반을 둔 스마트 서비스 시스템을 개발하는 것은 관광산업과 지식관리시스템 개발자들의 주요한 목표들 중 하나이다. 그러나 기존 추천 기법의 근간이 되어 온 평점을 활용하기 어렵다는 점은 시스템 설계자들이 학습 과정을 평가하기 어렵게 한다. 또한 시간적, 공간적, 인구통계학적 정보와 같이 추천 성과를 높일 수 있는 보조 요소들을 적절히 활용하는 방법도 어려운 상황이다. 이러한 문제들에 대하여 본 논문은 카드 거래 데이터를 기반으로 관광 서비스를 추천하는 새로운 방식인 CTDDTR을 제안한다. 먼저 Doc2Vec를 이용하여 시간성 선호도를 임베딩하여 관광객 그룹과 서비스 벡터로 데이터를 표현하였다. 다음 단계로 딥러닝 기술 중 하나인 다중 계층 퍼셉트론을 도입하여 얻어진 벡터와 관광 RDF로부터 도출한 보조 요소를 통합하여 심층 추천 모듈을 구성하였다. 추가로, 지식경영 분야의 RFM 분석 기법을 심층 추천 모듈에 도입하여 심층 신경망을 학습하는데 사용되는 평점을 생성함으로써 평점 부재 문제에 대응하였다. 제안한 CTDDTR의 추천 성능을 평가하기 위해 제주도에서 8년 동안 발생한 카드 거래 데이터를 사용하였고, 제안된 방법의 우수한 추천 성능과 보조 요소의 효과를 증명하였다.

검색 키워드를 활용한 하이브리드 협업필터링 기반 상품 추천 시스템 (A Hybrid Collaborative Filtering-based Product Recommender System using Search Keywords)

  • 이윤주;원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.151-166
    • /
    • 2020
  • 추천시스템(recommender system)은 고객의 선호도를 예측하여 상품과 서비스를 제공하는 기법으로, 현재 다양한 온라인 서비스에 활용되고 있다. 이와 관련된 많은 선행 연구들은 협업필터링(collaborative filtering)에 기반한 추천시스템을 제안하였는데, 대부분의 경우 고객의 구매 내역 또는 평점 데이터만 사용하여 진행되었다. 오늘날 소비자들은 제품을 구매하는 과정에서 온라인 검색 행동을 하여 관심있는 제품을 찾는다. 그렇기 때문에 검색 키워드 데이터는 고객의 선호도를 파악하는데 매우 유용한 정보일 수 있다. 그러나 지금까지 추천시스템 연구에서 사용되는 경우는 거의 없었다. 이에 본 연구는 고객의 검색 행동에 주목하여 온라인 쇼핑몰 고객의 검색 키워드 데이터와 구매 데이터를 고려한 하이브리드 협업 필터링을 제안하였다. 본 연구는 제안된 모델의 적용 가능성을 검증하기 위해 실제 온라인 쇼핑몰 데이터를 사용하여 성능을 검증하였다. 연구 결과, 추천 상품의 개수가 많아질수록 고객의 검색 키워드를 기반으로 구축된 협업필터링의 추천 성능이 향상되는 반면 일반적인 협업필터링의 성능은 추천된 상품의 개수가 많아질수록 점차 감소함을 발견하였다. 따라서 본 연구는 검색 키워드 데이터를 활용한 하이브리드 협업필터링이 고객의 선호도를 반영한 추천할 수 있으며, 구매이력 데이터의 정보부족을 해결할 수 있음을 확인하였다. 이는 기존의 정량 데이터만을 활용한 추천 시스템이 아닌, 비정형 데이터인 텍스트를 사용함으로써 새로운 하이브리드 협업필터링 구축 방법을 제안했다는 점에서 의의가 있다.

Opera Clustering: K-means on librettos datasets

  • 정하림;유주헌
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.45-52
    • /
    • 2022
  • With the development of artificial intelligence analysis methods, especially machine learning, various fields are widely expanding their application ranges. However, in the case of classical music, there still remain some difficulties in applying machine learning techniques. Genre classification or music recommendation systems generated by deep learning algorithms are actively used in general music, but not in classical music. In this paper, we attempted to classify opera among classical music. To this end, an experiment was conducted to determine which criteria are most suitable among, composer, period of composition, and emotional atmosphere, which are the basic features of music. To generate emotional labels, we adopted zero-shot classification with four basic emotions, 'happiness', 'sadness', 'anger', and 'fear.' After embedding the opera libretto with the doc2vec processing model, the optimal number of clusters is computed based on the result of the elbow method. Decided four centroids are then adopted in k-means clustering to classify unsupervised libretto datasets. We were able to get optimized clustering based on the result of adjusted rand index scores. With these results, we compared them with notated variables of music. As a result, it was confirmed that the four clusterings calculated by machine after training were most similar to the grouping result by period. Additionally, we were able to verify that the emotional similarity between composer and period did not appear significantly. At the end of the study, by knowing the period is the right criteria, we hope that it makes easier for music listeners to find music that suits their tastes.

Investigation on the Effect of Multi-Vector Document Embedding for Interdisciplinary Knowledge Representation

  • 박종인;김남규
    • 지식경영연구
    • /
    • 제21권1호
    • /
    • pp.99-116
    • /
    • 2020
  • Text is the most widely used means of exchanging or expressing knowledge and information in the real world. Recently, researches on structuring unstructured text data for text analysis have been actively performed. One of the most representative document embedding method (i.e. doc2Vec) generates a single vector for each document using the whole corpus included in the document. This causes a limitation that the document vector is affected by not only core words but also other miscellaneous words. Additionally, the traditional document embedding algorithms map each document into only one vector. Therefore, it is not easy to represent a complex document with interdisciplinary subjects into a single vector properly by the traditional approach. In this paper, we introduce a multi-vector document embedding method to overcome these limitations of the traditional document embedding methods. After introducing the previous study on multi-vector document embedding, we visually analyze the effects of the multi-vector document embedding method. Firstly, the new method vectorizes the document using only predefined keywords instead of the entire words. Secondly, the new method decomposes various subjects included in the document and generates multiple vectors for each document. The experiments for about three thousands of academic papers revealed that the single vector-based traditional approach cannot properly map complex documents because of interference among subjects in each vector. With the multi-vector based method, we ascertained that the information and knowledge in complex documents can be represented more accurately by eliminating the interference among subjects.

MBTI 조직성격유형화에 따른 기업분류: 기업리뷰 빅데이터를 활용하여 (Firm Classification based on MBTI Organizational Character Type: Using Firm Review Big Data)

  • 이한준;신동원;안병대
    • 아태비즈니스연구
    • /
    • 제12권3호
    • /
    • pp.361-378
    • /
    • 2021
  • Purpose - The purpose of this study is to classify KOSPI listed companies according to their organizational character type based on MBTI. Design/methodology/approach - This study collected 109,989 reviews from an online firm review website, Jobplanet. Using these reviews and the descriptions about organizational character, we conducted document similarity analysis. Doc2Vec technique was hired for the analysis. Findings - First, there are more companies belonging to Extraversion(E), Intuition(N), Feeling(F), and Judging(J) than Introversion(I), Sensing(S), Thinking(T), and Perceiving(P) as organizational character types of MBTI. Second, more companies have EJ and EP as the behavior type and NT and NF as the decision-making type. Third, the top-3 organizational character type of which firms have among 16 types are ENTJ, ENFP, and ENFJ. Finally, companies belonging to the same industry group were found to have similar organizational character. Research implications or Originality - This study provides a noble way to measure organizational character type using firm review big data and document similarity analysis technique. The research results can be practically used for firms in their organizational diagnosis and organizational management, and are meaningful as a basic study for various future studies to empirically analyze the impact of organizational character.

Covid-19에 따른 글로벌 창업 트렌드 분석: Crunchbase를 중심으로 (Analysis of Global Entrepreneurship Trends Due to COVID-19: Focusing on Crunchbase)

  • 김신호;금영정
    • 벤처창업연구
    • /
    • 제18권3호
    • /
    • pp.141-156
    • /
    • 2023
  • 전 세계적으로 유례없는 Covid-19 팬데믹으로 인해 기업의 비즈니스 방식 및 내용이 크게 변화됐다. 따라서 Covid-19 이후 산업 전반에서 일어나고 있는 혁신 양상을 면밀히 모니터링하고, 이를 바탕으로 미래 비즈니스를 기획/설계하는 것이 산업현장에서 크게 요구되고 있다. 다수 연구에서 펜데믹 이후 비즈니스 동향 분석이 시도됐으나 특정 산업에 국한된 분석을 수행하는 점, 설문 및 문헌 연구 중심으로 수행되어 객관적 데이터의 활용이 부족한 점에서 한계점이 존재하고 있다. 이에 본 연구에서는 글로벌 스타트업 데이터인 Crunchbase를 활용하여 Covid-19 이후 비즈니스 산업의 트렌드를 분석하고자 한다. 트렌드 분석을 위해 Crunchbase에서 2018년부터 2021년까지 2년 단위로 데이터를 수집 및 전처리를 진행하였다. 산업 변화를 확인하기 위해 네트워크 분석, LDA 기반 토픽 분석, Doc2vec 클러스터링 분석을 결합한 접근 방식을 사용하여 비즈니스 콘텐츠의 변화를 분석하였다. 연구 결과 각 분야에서 비대면/온라인 기술들이 훨씬 전문성을 갖추며 성장하고 있으며, 기술융합에 초점을 두고 많은 산업들이 성장하고 있는 것으로 파악되었다. 본 연구는 Covid-19의 영향으로 기업투자자 및 예비 창업자들에게 급속도로 변화하는 산업의 흐름을 파악할 수 있게 하고 투자 의사결정에 많은 도움을 줄 것으로 기대된다.

  • PDF