• 제목/요약/키워드: TF-IDF analysis

검색결과 193건 처리시간 0.027초

N-gram Opcode를 활용한 머신러닝 기반의 분석 방지 보호 기법 탐지 방안 연구 (A Study on Machine Learning Based Anti-Analysis Technique Detection Using N-gram Opcode)

  • 김희연;이동훈
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.181-192
    • /
    • 2022
  • 신종 악성코드의 등장은 기존 시그니처 기반의 악성코드 탐지 기법들을 무력화시키며 여러 분석 방지 보호 기법들을 활용하여 분석가들의 분석을 어렵게 하고 있다. 시그니처 기반의 기존 연구는 악성코드 제작자가 쉽게 우회할 수 있는 한계점을 지닌다. 따라서 본 연구에서는 악성코드 자체의 특성이 아닌, 악성코드에 적용될 수 있는 패커의 특성을 활용하여, 단시간 내에 악성코드에 적용된 패커의 분석 방지 보호 기법을 탐지하고 분류해낼 수 있는 머신러닝 모델을 구축하고자 한다. 본 연구에서는 패커의 분석 방지 보호 기법을 적용한 악성코드 바이너리를 대상으로 n-gram opcode를 추출하여 TF-IDF를 활용함으로써 피처(feature)를 추출하고 이를 통해 각 분석 방지 보호 기법을 탐지하고 분류해내는 머신러닝 모델 구축 방법을 제안한다. 본 연구에서는 실제 악성코드를 대상으로 악성코드 패킹에 많이 사용되는 상용 패커인 Themida와 VMProtect로 각각 분석 방지 보호 기법을 적용시켜 데이터셋을 구축한 뒤, 6개의 머신러닝 모델로 실험을 진행하였고, Themida에 대해서는 81.25%의 정확도를, VMProtect에 대해서는 95.65%의 정확도를 보여주는 최적의 모델을 구축하였다.

빅 데이터를 활용한 레트로 패션과 뉴트로 패션에 대한 인식 비교 (Comparative Analysis in Perception of Retro Fashion and New-tro Fashion Using Big Data)

  • 백경자;김정미
    • 한국의상디자인학회지
    • /
    • 제25권1호
    • /
    • pp.83-96
    • /
    • 2023
  • The purpose of this study is to compare and analyze the perception of retro fashion and new-tro fashion using big data. TEXTOM allowed the collection of big data on the words 'retro fashion' and 'new-tro fashion', which was refined afterwards. As for the data collection period, Jan. 1, 2019 to Nov. 30, 2022 was set. A top 50 list of words were extracted from this data based on appearance frequency. The extracted words were processed through Network centrality analysis and CONCOR analysis using Ucinet 6. The results are as follows. 1) In retro fashion, the appearance frequency of 'style' was the highest, followed by 'sensibility', 'color', 'trend', 'fashion', and 'brand'. These words came up with high TF-IDF values. Network centrality analysis discovered that 'color', 'style', 'trend', 'sensibility', and 'design' had high level of connectivity with other words. CONCOR analysis showed a total of four significant groups; trends, styles, looks, and photos. 2) In new-tro fashion, the appearance frequency of 'retro' was the highest, followed by 'trend', 'generation', 'style', 'brand', and 'fashion'. These words also came up with high TF-IDF values. Network centrality analysis found that 'retro', 'trend', 'generation', and 'brand' had high level of connectivity with other words. CONCOR analysis showed a total of four significant groups; style, brand, clothing, and trend. 3) New-tro fashion is included in retro fashion in that it reproduces the styles of the past. However, it is taken completely differently from generation to generation. Unlike the older generations, millennials actively accept newly created clothes and brands based on the past styles. They perceive it as a fashion that reveals their own unique tastes and tastes.

TLS 마이닝을 이용한 '정보시스템연구' 동향 분석 (Analysis on the Trend of The Journal of Information Systems Using TLS Mining)

  • 윤지혜;오창규;이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권1호
    • /
    • pp.289-304
    • /
    • 2022
  • Purpose The development of the network and mobile industries has induced companies to invest in information systems, leading a new industrial revolution. The Journal of Information Systems, which developed the information system field into a theoretical and practical study in the 1990s, retains a 30-year history of information systems. This study aims to identify academic values and research trends of JIS by analyzing the trends. Design/methodology/approach This study aims to analyze the trend of JIS by compounding various methods, named as TLS mining analysis. TLS mining analysis consists of a series of analysis including Term Frequency-Inverse Document Frequency (TF-IDF) weight model, Latent Dirichlet Allocation (LDA) topic modeling, and a text mining with Semantic Network Analysis. Firstly, keywords are extracted from the research data using the TF-IDF weight model, and after that, topic modeling is performed using the Latent Dirichlet Allocation (LDA) algorithm to identify issue keywords. Findings The current study used the summery service of the published research paper provided by Korea Citation Index to analyze JIS. 714 papers that were published from 2002 to 2012 were divided into two periods: 2002-2011 and 2012-2021. In the first period (2002-2011), the research trend in the information system field had focused on E-business strategies as most of the companies adopted online business models. In the second period (2012-2021), data-based information technology and new industrial revolution technologies such as artificial intelligence, SNS, and mobile had been the main research issues in the information system field. In addition, keywords for improving the JIS citation index were presented.

상황인식형 비즈니스 차트 추천기 개발을 위한 개방형 온라인 텍스트로부터의 시각화 규칙 추출 방법 연구 (A Method of Mining Visualization Rules from Open Online Text for Situation Aware Business Chart Recommendation)

  • ;권오병
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.83-107
    • /
    • 2020
  • 데이터의 성격과 시각화의 목적에 따라 비즈니스 차트를 선택하는 것은 비즈니스 분석에 유용한 지식이다. 그러나 현재 시각화 도구에는 상황에 맞는 비즈니스 차트를 선택할 수 있는 기능이 부족하다. 또한 매번마다 시각화 방법에 대해 전문가의 도움을 요청하는 것은 비용과 시간이 소요된다. 따라서 본 연구의 목적은 온라인으로 게시된 문서로부터 비즈니스 차트 선정 규칙에 대한 지식을 추출하여 비즈니스 차트 생산성을 향상시키는 방법을 제안하는 것이다. 이를 위해 인터넷에서 비즈니스 차트를 묘사하는 한국어, 영어 및 중국어 비정형 데이터를 수집하고 TF-IDF를 사용하여 컨텍스트와 비즈니스 차트 간의 관계를 계산했다. 또한 Galois 래티스를 사용하여 비즈니스 차트 선택 규칙을 생성했다. 제안된 방법으로 생성된 규칙의 품질을 평가하기 위해 실험군과 대조군에 대해 실험을 수행했다. 그 결과 제안된 방법으로 의미 있는 규칙이 추출되었음을 확인했다. 본 연구의 결과물로 시각화 전문가의 도움 없이도 사무직 직원들이 비즈니스 차트를 효율적으로 선택할 수 있을 것으로 기대된다. 또한 작업 중인 문서를 기반으로 비즈니스 차트를 추천함으로 직원 교육에 유용할 것이다.

NFT(Non-Fungible Token) Patent Trend Analysis using Topic Modeling

  • Sin-Nyum Choi;Woong Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.41-48
    • /
    • 2023
  • 본 논문은 여러 산업 분야에서 범용적으로 활용될 수 있는 NFT(Non-Fungible Token)에 대해 토픽 모델링 기법을 활용하여 최근의 NFT 산업 동향에 대한 분석 결과를 제시한다. 본 연구에서는 산업 동향을 파악하기 위해 특허 데이터를 활용하였으며, NFT 표준안이 처음으로 발표되었던 2017년부터 2023년 10월까지 특허정보검색서비스 키프리스에 등록된 NFT 관련 국내·외 특허 각각 371건, 454건의 특허 데이터를 수집하였다. 다음으로 전처리 작업에서 불용어, 표제어를 제거 후 명사 단어만을 추출하였고, 분석 방법으론 빈도수에 따른 상위 50개의 단어를 나열하고, 단어마다 계산된 TF-IDF 값을 같이 확인하여 산업 동향의 핵심 키워드를 도출하였다. 다음으로, LDA 알고리즘을 활용해 국내·외 별로 특허 데이터에서 잠재된 4개의 주요 주제를 도출하였다. 도출한 주제별로 내용을 분석하고, 실제 NFT 산업사례를 근거로 들어 NFT 산업 동향 분석내용을 제시하였다. 선행연구에서는 논문 데이터를 통해 학술적 관점에서 동향을 제시하였다면 본 연구는 현장 실무에 기반을 둔 데이터를 활용하여 실용적인 동향 내용을 제공했다는 점에서 의의가 있으며, NFT 산업계 관련자들이 시장 현황 파악 및 새로운 아이템 창출을 위한 참고용으로 활용될 것으로 기대한다.

비정형 데이터를 이용한 화학물질 사고 대응 체계 정보속성 비교 분석 : 화학사고 예방, 대비 및 대응을 위한 OECD 지침서를 중심으로 (Comparative analysis of informationattributes inchemical accident response systems through Unstructured Data: Spotlighting on the OECD Guidelines for Chemical Accident Prevention, Preparedness, and Response)

  • 김용진;도충현
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.91-110
    • /
    • 2023
  • 화학물질 사고는 신속한 대응 및 복구가 어렵고, 환경오염과 인명피해가 동반된다는 점에서 매뉴얼의 중요성이 점차 주목받고 있으며, OECD에서는 화학사고 예방, 대비 및 대응을 위한 OECD 지침서(이하 OECD 지침서)를 2023년 6월 개정하였다. 또한, 기존 연구에서는 화학사고에 대한 인식 제고를 통해 법규, 규정, 매뉴얼 등 시스템적 대응이 필요하다는 점을 강조하고 있으나. 매뉴얼에 대한 정보속성 비교연구는 찾아보기 힘들었다. 이에, 본 연구는 기존 OECD 지침서(2판)와 개정된 OECD 지침서(3판)을 비교분석하여 OECD 지침서별 정보속성을 파악하고 시사점을 발굴하는 것을 목표로 하였다. 세부적으로는 어떤 단어가 중요해졌는지 파악하기 위해 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 적용하였으며, 유사하게 사용한 단어와 차별성있게 사용한 단어를 파악하기 위해 Word2Vec을 적용하였다. 최종적으로는 2X2 매트릭스를 제안하고, 각 사분면에 어떤 단어들이 있는지를 도출하여 OECD 지침서별 정보속성을 심층적으로 비교하였다. 본 연구는 연구자들이 정보속성을 파악하는데 도움이 되는 프레임워크를 제공하고자 하였으며, 실무적으로는 국내 화학관련 정부부처 및 기업의 표준메뉴얼 개정에 참고할 수 있을 것으로 보인다.

특허와 뉴스 기사를 이용한 가상현실 기술에 관한 탐색적 연구 (An Exploratory Study of VR Technology using Patents and News Articles)

  • 김성범
    • 디지털융복합연구
    • /
    • 제16권11호
    • /
    • pp.185-199
    • /
    • 2018
  • 이 연구의 목적은 가상현실(VR)의 핵심기술을 특허 분석을 통해서 도출하고 VR에 대한 사회와 대중의 관심을 뉴스 분석을 통해서 탐색하는 것이다. 연구1에서는 특허 텍스트의 단어 출현 빈도를 이용하여 핵심 키워드를 도출하고 업체별, 연도별, 기술 분류별 비교를 하였으며, 네트워크 분석 프로그램인 넷마이너를 사용하여 특허의 IPC 코드를 분석하였다. 연구2에서는 뉴스 기사의 텍스트를 내용분석 도구인 T-LAB 프로그램을 사용하여 분석하였다. 키워드 선정을 위해 TF-IDF를 사용하였고, 카이제곱과 연관지수(Association index) 알고리즘을 사용하여 VR과 관련성이 높은 단어를 추출하였다. 이 연구를 통해 VR 기술이 광학과 머리착용디스플레이(HMD), 데이터 분석, 전기, 전자 기술을 포함하는 융합기술임을 확인하였고, 광학기술이 중심적 기술임을 발견하였다. 뉴스 기사를 통해서는 대중은 VR 공급업체와 시장의 형성과 성장에 관심을 가지며 VR은 사용자 경험에 기초해서 개발되어야 함을 도출하였다.

텍스트마이닝을 활용한 농업 R&D 키워드 분석 (A Study on the Analysis of Agricultural R&D Keywords Using Textmining Method)

  • 김지훈;김성섭
    • 한국산학기술학회논문지
    • /
    • 제22권2호
    • /
    • pp.721-732
    • /
    • 2021
  • 본 연구는 농업 R&D의 추세를 살펴보고자 텍스트마이닝 기법을 활용하여 농업 R&D에 해당하는 키워드를 분석하였다. 분석자료는 NTIS의 국가연구개발사업 과제정보를 활용하였으며, 2003년부터 2018년까지의 농업 R&D의 주요 키워드를 연도별 및 연구개발단계별로 구분하였다. 텍스트마이닝을 위해 키워드의 TF-IDF를 계산하여 점수별로 순위를 매기었으며, 유사한 키워드별로 그룹화하여 해석하였다. 주요 분석 결과는 다음과 같다. 첫 번째, 신기술의 도입과 외부 환경에 변화에 따른 농업 R&D 트렌드가 변화해가고 있다. 시간이 흐를수록 새로운 키워드가 대두되고 있으며, 기초연구 단계에서는 '기후변화'가, 응용연구 단계에서는 'ICT'와 '스마트팜'이, 개발연구 단계에서는 '수출' 키워드가 주되게 등장하고 있다. 두 번째, 연구개발 단계에서 시차를 가지고 키워드 변화가 나타나고 있다. 기초연구-응용연구-개발연구 순으로 주요 키워드가 변화하고 있으며, 대표적으로 '기후변화'와 '신품종' 키워드가 연구개발단계별로 연계되어 있었다. 세번째, 농업 R&D의 대표적인 키워드는 '벼' 키워드로 나타났다. 그러나 '녹색 및 기후변화 대응'과 '가공 및 유통기술' 같이 국내외 농업 환경 변화에 따라 연구의 방향성과 목적이 변화하고 있었다.

방한 관광객의 온라인 리뷰에 대한 빅데이터 분석 기반의 감성분석 및 평점 예측모형 (Sentiment Analysis and Star Rating Prediction Based on Big Data Analysis of Online Reviews of Foreign Tourists Visiting Korea)

  • 홍태호
    • 지식경영연구
    • /
    • 제23권1호
    • /
    • pp.187-201
    • /
    • 2022
  • 관광객이 작성한 온라인 리뷰는 관광산업의 관리 및 운영에 중요한 정보를 제공한다. 평점은 제품이나 서비스에 대한 정량적인 평가로 간편하지만 관광객의 진실한 태도를 반영하기 어려우며 평점과 리뷰내용에 대한 불일치 문제도 발생하고 있다. 불일치 문제는 잠재고객에게 혼동을 줄 수 있으며 구매의사결정에도 영향을 미칠 수 있다. 본 연구에서는 온라인 리뷰기반의 평점 예측모형을 통해 평점과 리뷰내용의 불일치 문제를 해결하고자 한다. 한국을 방문한 외국인 관광객이 작성한 관광지와 호텔에 대한 리뷰의 감성분석을 통해 평점과 감성의 차이를 비교하고 TF-IDF vectorization과 감성분석 결과로 변수를 선정하였다. 로짓, 인공신경망, SVM(Support Vector Machine)을 적용하여 평점을 분류하고, 인공신경망, SVR(Support Vector Regression)을 통해 평점을 예측하였다. 평점 분류모형과 예측모형 모두 불일치한 리뷰를 제거하고 감성분석을 반영한 모형에서 우수한 성과를 보여주었다. 본 연구에서 제안한 온라인 리뷰 기반의 평점 예측모형은 평점과 리뷰내용에 대한 불일치 문제를 해결하여 신뢰할 수 있는 정보를 제공하였으며 평점이 없는 온라인 리뷰에도 활용할 수 있을 것이다.

키워드 커뮤니티 네트워크의 소셜 네트워크 분석을 이용한 사물 인터넷 특허 분석 (Social network analysis of keyword community network in IoT patent data)

  • 김도현;김현희;김동건;조진남
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.719-728
    • /
    • 2016
  • 본 연구에서는 한국과 미국의 사물 인터넷 관련 특허 초록을 수집하여 키워드 네트워크 및 키워드 커뮤니티 네트워크를 구축하고 네트워크 분석을 실시하였다. 먼저 TF-IDF 가중치를 적용하여 중요 키워드를 추출하고 이 중요 키워드와 상관관계가 높은 키워드들을 재추출하여 핵심 키워드를 선정하였다. 선정된 키워드를 중심으로 키워드 네트워크를 구축한 다음 네트워크 탐지를 시행하여 키워드 커뮤니티 네트워크를 재구축하여 기술 간의 연결 관계를 분석하였다. 본 연구에서 생성한 키워드 커뮤니티 네트워크는 특허의 내용을 예측할 수 있을 뿐만 아니라 커뮤니티 간의 연결 관계를 분석함으로써 기술 간의 연관 관계도 파악할 수 있다. 키워드 커뮤니티 네트워크 분석 결과 한국은 보안, 반도체, 이미지 프로세스와 같은 사물 인터넷의 기반 기술 분야의 특허가 중요한 특허 기술로 나타난 반면 미국의 경우 스마트 홈, 대화형 매체 그리고 통신 등과 같은 사물 인터넷 환경, 응용 분야의 기술이 중요한 기술로서 자리잡고 있음을 알 수 있다.