• 제목/요약/키워드: Learning Patterns

검색결과 1,166건 처리시간 0.028초

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

빅데이터와 AI를 활용한 교육용 자료의 분석에 대한 조사 (A Survey on Deep Learning-based Analysis for Education Data)

  • 노영욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.240-243
    • /
    • 2021
  • 최근에 빅 데이터와 AI 기술을 교육의 평가와 개별 학습에 적용하는 연구 성과가 있었다. 정보 기술의 혁신으로 소셜 미디어, MOOC, 지능형 개인지도 시스템, LMS, 센서 및 모바일 장치 등으로부터 학생들의 개인 기록, 생리학적 데이터, 학습 로그 및 활동, 학습 성과 및 결과를 포함하는 동적이고 복잡한 데이터를 수집 가능하였다. 또한 COVID-19 환경에서 e-러닝이 활성화 되어 많은 양의 학습 데이터가 생성되었다. 이 데이터로부터 학습 분석과 AI 기술을 적용하여 의미있는 패턴의 추출과 지식의 발견이 될 것으로 예상된다. 학습자 측면에서 학생의 학습 및 정서적 행동 패턴과 프로필을 식별하고, 평가 및 평가 방법을 개선하고, 개별 학생의 학습 성과 또는 중퇴를 예측하고, 개인화 된 지원을 위한 적응 시스템에 대한 연구는 필요하다. 본 연구에서는 교육용 데이터를 대상으로 이상탐지와 추천시스템에서 사용하는 기계학습 기술에 대한 조사와 분류를 하여 교육 분야의 연구에 기여하고자 한다.

  • PDF

Hellinger 엔트로피를 이용한 다차원 연속패턴의 생성방법 (Learning Multidimensional Sequential Patterns Using Hellinger Entropy Function)

  • 이창환
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.477-484
    • /
    • 2004
  • 데이터 마이닝에서 연속패턴(sequential pattern) 생성기술은 시차를 두고 발생한 사건들에 대하여 잠재해있는 패턴을 발견하는 기술을 의미한다. 본 연구는 정보이론을 이용하여 데이터베이스로부터 연속패턴을 자동으로 발견하는 방법에 관한 내용이다. 기존의 방법들이 한 속성내에서의 연속패턴만을 탐지하는 일차원 연속패턴을 생성하는데 비하여 본 연구에서 제시하는 방법은 데이터베이스내의 모든 속성간의 연속패턴 관계를 탐지할 수 있는 다차원 연속패턴을 생성할 수 있다. 본 연구에서는 연속패턴 생성을 위하여 헬링거(Hellinger) 변량을 사용하였으며 이를 이용하여 발견된 연속패턴들의 중요도를 측정할 수 있었다. 또한 헬링거 변량의 함수적인 특성을 분석하여 연속패턴 추출의 복잡도를 줄이기 위한 두 가지의 법칙이 제안되었고 다수의 실험 데이터를 통하여 다차원의 연속패턴을 생성할 수 있음을 보였다.

Machine Learning Approach to the Effects of the Superstore Mandatory Closing Regulation

  • AN, Jiyoung;PARK, Heedae
    • 유통과학연구
    • /
    • 제18권2호
    • /
    • pp.69-77
    • /
    • 2020
  • Purpose - This paper is aimed to analyze the effects of the mandatory closing regulation targeting large retailers, which has been implemented since 2012 to protect small retailers. We examine the changes in consumers' choice of retailers and their purchasing patterns of agri-food following the implementation of such regulation. Research design, data, and methodology - Household spending patterns were identified through the historical data of household food purchase, consumer panel provided by the Rural Development Administration. Clustering was employed to determine the household spending patterns. Moreover, the different household spending patterns before and after the regulation were comparatively studied. The patterns of consumers' choice of retail stores and shopping baskets by the type of retailers, derived from the respective datasets before and after the regulation, were compared to analyze the effects of the regulation. Results -After the regulation, some consumers who used to shop at large retailers before the regulation changed their shopping places to small retailers. However, the product categories that consumers had mainly purchased before the regulation were rarely changed even after the regulation. Conclusions - Although the regulation helped migrate some of the consumers to small retailers, the regulation seemed to have failed to stimulate consumers to purchase the goods, normally bought at large retailers, from traditional markets. In other words, traditional markets are not effective substitutes for regulation-affected retailers.

Using an Adaptive Search Tree to Predict User Location

  • Oh, Se-Chang
    • Journal of Information Processing Systems
    • /
    • 제8권3호
    • /
    • pp.437-444
    • /
    • 2012
  • In this paper, we propose a method for predicting a user's location based on their past movement patterns. There is no restriction on the length of past movement patterns when using this method to predict the current location. For this purpose, a modified search tree has been devised. The search tree is constructed in an effective manner while it additionally learns the movement patterns of a user one by one. In fact, the time complexity of the learning process for a movement pattern is linear. In this process, the search tree expands to take into consideration more details about the movement patterns when a pattern that conflicts with an existing trained pattern is found. In this manner, the search tree is trained to make an exact matching, as needed, for location prediction. In the experiments, the results showed that this method is highly accurate in comparison with more complex and sophisticated methods. Also, the accuracy deviation of users of this method is significantly lower than for any other methods. This means that this method is highly stable for the variations of behavioral patterns as compared to any other method. Finally, 1.47 locations were considered on average for making a prediction with this method. This shows that the prediction process is very efficient.

최근점 이웃망에의한 참조벡터 학습 (Learning Reference Vectors by the Nearest Neighbor Network)

  • Kim Baek Sep
    • 전자공학회논문지B
    • /
    • 제31B권7호
    • /
    • pp.170-178
    • /
    • 1994
  • The nearest neighbor classification rule is widely used because it is not only simple but the error rate is asymptotically less than twice Bayes theoretical minimum error. But the method basically use the whole training patterns as the reference vectors. so that both storage and classification time increase as the number of training patterns increases. LVQ(Learning Vector Quantization) resolved this problem by training the reference vectors instead of just storing the whole training patterns. But it is a heuristic algorithm which has no theoretic background there is no terminating condition and it requires a lot of iterations to get to meaningful result. This paper is to propose a new training method of the reference vectors. which minimize the given error function. The nearest neighbor network,the network version of the nearest neighbor classification rule is proposed. The network is funtionally identical to the nearest neighbor classification rule is proposed. The network is funtionally identical to the nearest neighbor classification rule and the reference vectors are represented by the weights between the nodes. The network is trained to minimize the error function with respect to the weights by the steepest descent method. The learning algorithm is derived and it is shown that the proposed method can adjust more reference vectors than LVQ in each iteration. Experiment showed that the proposed method requires less iterations and the error rate is smaller than that of LVQ2.

  • PDF

앙상블의 편기와 분산을 이용한 패턴 선택 (Pattern Selection Using the Bias and Variance of Ensemble)

  • 신현정;조성중
    • 대한산업공학회지
    • /
    • 제28권1호
    • /
    • pp.112-127
    • /
    • 2002
  • A useful pattern is a pattern that contributes much to learning. For a classification problem those patterns near the class boundary surfaces carry more information to the classifier. For a regression problem the ones near the estimated surface carry more information. In both cases, the usefulness is defined only for those patterns either without error or with negligible error. Using only the useful patterns gives several benefits. First, computational complexity in memory and time for learning is decreased. Second, overfitting is avoided even when the learner is over-sized. Third, learning results in more stable learners. In this paper, we propose a pattern 'utility index' that measures the utility of an individual pattern. The utility index is based on the bias and variance of a pattern trained by a network ensemble. In classification, the pattern with a low bias and a high variance gets a high score. In regression, on the other hand, the one with a low bias and a low variance gets a high score. Based on the distribution of the utility index, the original training set is divided into a high-score group and a low-score group. Only the high-score group is then used for training. The proposed method is tested on synthetic and real-world benchmark datasets. The proposed approach gives a better or at least similar performance.

수학적 개념의 유형과 효과적인 개념학습 - 벡터이론을 중심으로 (Patterns of mathematical concepts and effective concept learning - around theory of vectors)

  • 박홍경;김태완;이우동
    • 한국수학사학회지
    • /
    • 제20권3호
    • /
    • pp.105-126
    • /
    • 2007
  • 본 논문에서는 수학적 개념을 어떻게 가르쳐야 할 것인가를 고려한다. 특히 개념학습에 있어서 수학적 직관에 의해 개념이해, 계산기능, 응용의 3가지 요소를 균형적이고 통합적으로 달성하는 것을 목표로 삼는다. 이를 치한 방안으로 수학적 개념을 3종류의 수리철학인 직관주의, 논리주의, 형식주의에 의거하여 직관적 개념, 논리적 개념, 형식적 개념의 3가지 유형으로 분류한다. 또한 벡터이론의 중요한 9가지 개념을 통하여 유형의 차이에 대해 실제적인 고찰을 한다. 이로부터 벡터이론의 효과적인 개념학습을 위해서 요구되는 학습의 순서와 강조점을 제안한다.

  • PDF

이론적 일반화를 적용한 파스칼 그래프와 삼각형에 내재된 수의 패턴 탐구를 위한 교수단원의 설계 (On the design of a teaching unit for the exploration of number patterns in Pascal graphs and triangles applying theoretical generalization.)

  • 김진환
    • East Asian mathematical journal
    • /
    • 제40권2호
    • /
    • pp.209-229
    • /
    • 2024
  • In this study, we design a teaching unit that constructs Pascal graphs and extended Pascal triangles to explore number patterns inherent in them. This teaching unit is designed to consider the diachronic process of teaching-learning by combining Dörfler's theoretical generalization model with Wittmann's design science ideas, which are applied to the didactical practice of mathematization. In the teaching unit, considering the teaching-learning level of prospective teachers who studied discrete mathematics, we generalize the well-known Pascal triangle and its number patterns to extended Pascal triangles which have directed graphs(called Pascal graphs) as geometric models. In this process, the use of symbols and the introduction of variables are exhibited as important means of generalization. It provides practical experiences of mathematization to prospective teachers by going through various steps of the generalization process targeting symbols. This study reflects Wittmann's intention in that well-understood mathematics and the context of the first type of empirical research as structure-genetic didactical analysis are considered in the design of the learning environment.

소스코드 취약성 분류를 위한 기계학습 기법의 적용 (Application of Machine Learning Techniques for the Classification of Source Code Vulnerability)

  • 이원경;이민주;서동수
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.735-743
    • /
    • 2020
  • 시큐어코딩은 악의적인 공격 혹은 예상치 못한 오류에 대한 강인함을 제공해줄 수 있는 안전한 코딩 기법으로 정적분석도구의 지원을 통해 취약한 패턴을 찾아내거나 오염 데이터의 유입 가능성을 발견한다. 시큐어코딩은 정적기법을 적극적으로 활용하는 만큼 룰셋에 의존적이라는 단점을 가지며, 정적분석 도구의 복잡성이 높아지는 만큼 정확한 진단이 어렵다는 문제점을 안고 있다. 본 논문은 시큐어코딩을 지원하는 목적으로 기계학습 기법 중 DNN과 CNN, RNN 신경망을 이용하여 개발보안가이드 상의 주요 보안약점에 해당하는 패턴을 학습시키고 분류하는 모델을 개발하며 학습 결과를 분석한다. 이를 통해 기계학습 기법이 정적분석과 더불어 보안약점 탐지에 도움을 줄 수 있을 것으로 기대한다.