• Title/Summary/Keyword: 속성분류

Search Result 857, Processing Time 0.039 seconds

Malicious Code Detection using the Effective Preprocessing Method Based on Native API (Native API 의 효과적인 전처리 방법을 이용한 악성 코드 탐지 방법에 관한 연구)

  • Bae, Seong-Jae;Cho, Jae-Ik;Shon, Tae-Shik;Moon, Jong-Sub
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.22 no.4
    • /
    • pp.785-796
    • /
    • 2012
  • In this paper, we propose an effective Behavior-based detection technique using the frequency of system calls to detect malicious code, when the number of training data is fewer than the number of properties on system calls. In this study, we collect the Native APIs which are Windows kernel data generated by running program code. Then we adopt the normalized freqeuncy of Native APIs as the basic properties. In addition, the basic properties are transformed to new properties by GLDA(Generalized Linear Discriminant Analysis) that is an effective method to discriminate between malicious code and normal code, although the number of training data is fewer than the number of properties. To detect the malicious code, kNN(k-Nearest Neighbor) classification, one of the bayesian classification technique, was used in this paper. We compared the proposed detection method with the other methods on collected Native APIs to verify efficiency of proposed method. It is presented that proposed detection method has a lower false positive rate than other methods on the threshold value when detection rate is 100%.

Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models (BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발)

  • Park, Hyun-jung;Shin, Kyung-shik
    • Journal of Intelligence and Information Systems
    • /
    • v.26 no.4
    • /
    • pp.1-25
    • /
    • 2020
  • Sentiment Analysis (SA) is a Natural Language Processing (NLP) task that analyzes the sentiments consumers or the public feel about an arbitrary object from written texts. Furthermore, Aspect-Based Sentiment Analysis (ABSA) is a fine-grained analysis of the sentiments towards each aspect of an object. Since having a more practical value in terms of business, ABSA is drawing attention from both academic and industrial organizations. When there is a review that says "The restaurant is expensive but the food is really fantastic", for example, the general SA evaluates the overall sentiment towards the 'restaurant' as 'positive', while ABSA identifies the restaurant's aspect 'price' as 'negative' and 'food' aspect as 'positive'. Thus, ABSA enables a more specific and effective marketing strategy. In order to perform ABSA, it is necessary to identify what are the aspect terms or aspect categories included in the text, and judge the sentiments towards them. Accordingly, there exist four main areas in ABSA; aspect term extraction, aspect category detection, Aspect Term Sentiment Classification (ATSC), and Aspect Category Sentiment Classification (ACSC). It is usually conducted by extracting aspect terms and then performing ATSC to analyze sentiments for the given aspect terms, or by extracting aspect categories and then performing ACSC to analyze sentiments for the given aspect category. Here, an aspect category is expressed in one or more aspect terms, or indirectly inferred by other words. In the preceding example sentence, 'price' and 'food' are both aspect categories, and the aspect category 'food' is expressed by the aspect term 'food' included in the review. If the review sentence includes 'pasta', 'steak', or 'grilled chicken special', these can all be aspect terms for the aspect category 'food'. As such, an aspect category referred to by one or more specific aspect terms is called an explicit aspect. On the other hand, the aspect category like 'price', which does not have any specific aspect terms but can be indirectly guessed with an emotional word 'expensive,' is called an implicit aspect. So far, the 'aspect category' has been used to avoid confusion about 'aspect term'. From now on, we will consider 'aspect category' and 'aspect' as the same concept and use the word 'aspect' more for convenience. And one thing to note is that ATSC analyzes the sentiment towards given aspect terms, so it deals only with explicit aspects, and ACSC treats not only explicit aspects but also implicit aspects. This study seeks to find answers to the following issues ignored in the previous studies when applying the BERT pre-trained language model to ACSC and derives superior ACSC models. First, is it more effective to reflect the output vector of tokens for aspect categories than to use only the final output vector of [CLS] token as a classification vector? Second, is there any performance difference between QA (Question Answering) and NLI (Natural Language Inference) types in the sentence-pair configuration of input data? Third, is there any performance difference according to the order of sentence including aspect category in the QA or NLI type sentence-pair configuration of input data? To achieve these research objectives, we implemented 12 ACSC models and conducted experiments on 4 English benchmark datasets. As a result, ACSC models that provide performance beyond the existing studies without expanding the training dataset were derived. In addition, it was found that it is more effective to reflect the output vector of the aspect category token than to use only the output vector for the [CLS] token as a classification vector. It was also found that QA type input generally provides better performance than NLI, and the order of the sentence with the aspect category in QA type is irrelevant with performance. There may be some differences depending on the characteristics of the dataset, but when using NLI type sentence-pair input, placing the sentence containing the aspect category second seems to provide better performance. The new methodology for designing the ACSC model used in this study could be similarly applied to other studies such as ATSC.

Towards the Discipline of Software Artifacts Analysis (소프트웨어 분석 체계)

  • 박대성;강성원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.433-435
    • /
    • 2004
  • 소프트웨어 분석은 어떠한 관점을 가지고 소프트웨어 산출물의 속성을 평가하고 평가결과에 대한 원인을 밝히는 행위를 말한다. 이 논문에서는 분석의 체계를 정립하기 위하여 다음을 수행하였다. 첫째 분석의 정의를 내리고, 종합과 비교되는 분석의 일반직 개념, 평가, 측정, 측정법과의 관계를 밝혔다. 둘째, 분석의 관점이 되는 속성을 이해하고자. 속성들을 특징에 따라 분류하였다 마지막으로 속성별, 산출물별로 기존의 분석 방법을 조사하고 기존의 분석 방법을 평가하였다.

  • PDF

Analysis of filtering performance of Korean and English spam-mails (한국어와 영어 스팸메일의 필터링 성능 분석)

  • Hwang Wun-Ho;Kang Sin-Jae;Kim Tae-Hee;Kim Hee-Jae;Kim Jong-Wan
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2006.05a
    • /
    • pp.389-396
    • /
    • 2006
  • 본 연구에서는 한국어와 영어 메일을 대상으로 2단계 스팸 메일 필터링 시스템을 구축하여 성능평가를 수행한다. 2단계 스팸 메일 필터링 시스템은 블랙리스트를 활용하는 1단계와 기계학습을 통한 지능적인 분류를 하는 2단계로 구성된다. 만약 새로 도착한 메일이 블랙리스트의 내용을 포함한다면 이 메일은 스팸 메일로 분류되고 그렇지 않은 메일은 2단계로 넘어가서 스팸 메일 여부를 판단하게 된다. 메일의 본문이 영어로 작성된 영어 스팸 메일을 일반 메일로부터 분류해내기 위해서는 우선 Stemming과 Stopping 기법을 이용하여 본문에서 정형화된 어휘정보들을 추출한다. 추출된 어휘정보들을 대상으로 속성벡터를 구축한 후 SVM 기계 학습을 시켜 SVM 분류기를 생성하여 지능적인 스팸 메일 필터링을 수행한다. 속성벡터를 구축할 때 기준이 되는 자질을 어떻게 선택하느냐에 따라 스팸 메일 필터링 시스템의 성능이 좌우된다. 따라서 SYM 기계 학습을 위한 속성벡터를 구축할 때 기준이 되는 자질을 선택하는 여러 알고리즘들을 적용하여 성능을 비교 분석한다. 그리고 한국어 스팸 메일 필터링 시스템과 비교하여 영어 스팸 메일 필터링 시스템의 전체적인 성능을 비교 분석한다.

  • PDF

Children's Play Facilities according to the Classification of Amusement Features (놀이속성 분류에 따른 적정 어린이 놀이시설물 연구)

  • Jeong, Kil-Taek;Shin, Min-Ji;Shin, Ji-Hoon
    • Journal of the Korean Institute of Landscape Architecture
    • /
    • v.46 no.1
    • /
    • pp.29-37
    • /
    • 2018
  • This study intends to derive play attribute words to describe the nature of play by analyzing the correlation between play facilities and play attribute words. To investigate play attributes at playing facilities and supplement areas of weakness can provide a balanced play environment. Play attributes words were compiled via a literature review and the importance of each play attributes word was surveyed by experts. The keywords explaining play derived from news articles and references are defined as play attributes words. These words were classified into six broad categories and twenty-six sub-categories. The importance of major play attribute words show: Communication (0.268%) > Imagination (0.201%) > Amusement (0.190%) > Development (0.167%) > Learning (0.108%) > Intelligence (0.067%). Experts have recognized the most important elements are communication and imagination. Each play attribute associated with an amusement facility was separately identified in the amusement facilities installed in 114 children's parks in Seoul. Of the play attribute words, the amusement facilities at Seoul's Children's Park reflected a high frequency in 'development'. Furthermore, the importance of major playing attribute words such as 'Communication' and 'Imagination' were not fully reflected in cognitive play facilities. Therefore, it was judged that there is a need to actively introduce these attributes. This study proposed future improvements by determining weaknesses of amusement facilities in children's parks and analyzing the features and functions of play so as to suggest future improvements.

Multiple Texture Image Analysis and Classification using Spatial Property (공간적인 특성을 이용한 다중 텍스쳐 영상 분석 및 분류)

  • 모문정;김욱현
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.105-108
    • /
    • 2000
  • 본 논문에서는 텍스쳐가 지니고 있는 일반적인 속성 거침, 부드러움의 특성을 분석해서 영상에 내재된 텍스쳐를 자동으로 분석하고 분류하는 텍스쳐 인식 시스템을 제안한다. 본 연구는 텍스쳐 영상이 지닌 그레이 레벨의 공간적인 의존성을 이용한 통계적 분석에 기반 한 것으로 모멘트와 동차성의 차를 이용해서 텍스쳐의 일반적인 속성을 검출하기 때문에 텍스쳐의 구조형태에 크게 영향을 받지 않는 이점을 가진다. 제안한 시스템의 성능 평가를 위해서 다양한 텍스쳐 영상에 제안한 방법을 적용하고, 성공적인 결과를 보인다.

  • PDF

Supervised Feature Weight Optimization for Data Mining (데이터마이닝에서 교사학습에 의한 속성 가중치 최적화)

  • 강명구;차진호;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.244-246
    • /
    • 2001
  • 최근 군집화와 분류기법이 데이터 마이닝에 중요한 도구로 많은 응용분야에 사용되고 있다. 따라서 이러한 기법을 이용하는데 있어서 각각의 속성의 중요도가 달라 중요하지 않은 속성에 의해 중요한 속성이 왜곡되거나 때로는 마이닝의 결과가 잘못되는 결과를 얻을 수 있으며, 또한 전체 데이터를 사용할 경우 마이닝 과정을 저하시키는 문제로 속성 가중치과 속성선택에 과한 연구가 중요한 연구의 대상이 되고 있다. 최근 연구되고 있는 알고리즘들은 사용자의 의도와는 상관없이 데이터간의 관계에만 의존하여 가중치를 설정하므로 사용자가 마이닝 결과를 쉽게 이해하고 분석할 수 없는 문제점을 안고 있다. 본 논문에서는 클래스 정보가 있는 데이터뿐 아니라 클래스 정보가 없는 데이터를 분석할 경우 사용자의 의도에 따라 학습할 수 있도록 각 가중치를 부여하는 속성가중치 알고리즘을 제안한다. 또한 사용자가 의도한 정보를 이용하여 속성간의 가장 최적화 된 가중치를 찾아주며, Cramer's $V^2$함수를 적합도 함수로 하는 유전자 알고리즘을 사용한다. 알고리즘의 타당성을 검증하기 위해 전자상거래상의 실험 데이터와 몇 가지 벤치마크 데이터를 이용하여 본 논문의 타당성을 보인다.

  • PDF

Designing of Attributes for Development of Korean Reach File (한국형 Reach File 개발을 위한 속성 설계)

  • Lee, Chol-Young;Kim, Kye-Hyun;Park, Yong-Gil;Lee, Hyuk
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.242-247
    • /
    • 2011
  • 본 연구는 한국형 Reach File을 개발하기 위한 선행 연구로써 한국형 Reach File의 필수 구성요소 중 하나인 속성을 설계하는 것을 목표로 하였다. 이를 위해 우선 미국 Reach File 구축 사례를 검토하였고, 특히 최종 버전인 RF3(Reach File version 3)의 속성 내역을 정리하여 설계에 참조하였다. 국내 TMDL 업무 분석을 수행하여 업무 활용 측면에서 요구되는 속성도 모델링을 통해 속성 설계에 반영하였으며, 아울러 아크-노드 모델(Arc-node model) 기반의 네트워크 형식의 공간자료를 구축하는 것을 가정하여 네트워크 분석에도 활용이 가능하도록 선형 및 점형 도형자료 간 위상관계도 속성 설계에 반영하였다. 연구 결과에서 한국형 Reach File의 속성은 '위상(topology)', '위치(location)', '주제(theme)'의 세 가지 대분류에 따라 모델링되었으며, 각 분류에 따라 세부 속성이 정의되었다. 고유 식별자를 포함하여 선형 도형자료의 경우 총 53개, 점형 도형자료의 경우 총 13개의 세부 속성이 정의되었고, 각 속성에 대한 속성명, 필드명, 데이터 타입 및 길이 등에 관한 상세 설계서가 작성되었다. 본 연구를 통해 개발된 속성 설계서는 향후 한국형 Reach File 구축에 직접 활용이 가능하며, 따라서 한국형 Reach File의 구체적인 개발 방향의 설정에도 기여할 것으로 예상된다. 향후 연구에서는 속성 설계서 결과를 바탕으로 한국형 Reach File 구축 및 활용에 관한 연구가 뒤따라야 한다.

  • PDF

Stock Price Direction Prediction Using Convolutional Neural Network: Emphasis on Correlation Feature Selection (합성곱 신경망을 이용한 주가방향 예측: 상관관계 속성선택 방법을 중심으로)

  • Kyun Sun Eo;Kun Chang Lee
    • Information Systems Review
    • /
    • v.22 no.4
    • /
    • pp.21-39
    • /
    • 2020
  • Recently, deep learning has shown high performance in various applications such as pattern analysis and image classification. Especially known as a difficult task in the field of machine learning research, stock market forecasting is an area where the effectiveness of deep learning techniques is being verified by many researchers. This study proposed a deep learning Convolutional Neural Network (CNN) model to predict the direction of stock prices. We then used the feature selection method to improve the performance of the model. We compared the performance of machine learning classifiers against CNN. The classifiers used in this study are as follows: Logistic Regression, Decision Tree, Neural Network, Support Vector Machine, Adaboost, Bagging, and Random Forest. The results of this study confirmed that the CNN showed higher performancecompared with other classifiers in the case of feature selection. The results show that the CNN model effectively predicted the stock price direction by analyzing the embedded values of the financial data

A Sign Language Translator using Data Mining in Kinect Environment (키넥트 환경에서 데이터 마이닝을 이용한 수화 번역기)

  • Lee, Sang-Jun;Woo, Tea-Ho;Kim, Jia;Park, Seon-Yeong;Lee, Soo-Won;Kim, Gye-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.619-622
    • /
    • 2012
  • 본 연구에서는 키넥트(Kinect) 센서를 통해 수화 동작에서 손의 좌표와 이동방향을 추출하여 속성으로 하고, 데이터 마이닝의 분류 기법을 통해 수화를 인식하여 그 결과를 한글 텍스트로 번역해주는 소프트웨어를 개발한다. 제안 방법의 1단계에서는 0.05초 단위로 추출한 손의 좌표만을 속성으로 한다. 2단계에서는 개개인의 특성 및 화면상의 위치와 같은 요소에 따라 좌표 값이 달라지기 때문에, 손의 움직임에서 변위를 추출하여 손이 움직이는 방향을 속성으로 한다. 하지만 비슷한 방향으로 움직이는 수화가 있을 경우 수화의 구분이 어려우므로 3단계에서는 손의 좌표, 방향 두 가지를 분류하는 속성으로 사용한다. 향후 연구 방향은 수화의 중요한 요소인 손의 위치를 속성으로 추가시키고, 데이터 마이닝의 부스팅(Boosting) 기법을 적용하여 인식률을 높이는 것이다.