• 제목/요약/키워드: naive Bayes

검색결과 237건 처리시간 0.028초

스마트폰 사용과 MBTI 사용자 특성간의 관계 평가 (Assessing the Relationship between MBTI User Personality and Smartphone Usage)

  • 라저스리 소카세인;김경백
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.33-39
    • /
    • 2016
  • 최근 스마트폰 사용 형태의 도움을 받아 사용자 특성을 예측하는 것은 매우 흥미롭고 주의를 사로잡는 연주 주제이다. 현재 몇몇 연구들은 사용자의 특성을 예측하기 위해 전화 사용 기록, 문자 메시지 사용 기록, 소셜 네트워크 서비스 사용 기록 등을 이용하고 있다. 이 논문에서, 우리는 MBTI 사용자 특성과 스마트폰 사용로그 간의 관계를 평가한다. 이를 위해, 스마트폰 사용 기록에서 부터 몇몇 특징들을 추출하고 이를 Naive Bayes와 SVM등의 분류기에 적용하여 사용자의 특성을 구분하였다. 사용자 특성 분석 결과의 분석을 통해 facebook사용 기록이 외향적인 사람과 내향적인 사람을 가장 잘 구분하는 것을 알 수 있었고, SVM 분류기가 Naive Bayes보다 사용자의 특성을 잘 예측하는 것을 확인하였다.

  • PDF

스마트폰 환경에서 개인화된 행위 인식기 및 로거 (Personalized Activity Recognizer and Logger in Smart Phone Environment)

  • 조금환;한만형;이호성;이승룡
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.65-68
    • /
    • 2012
  • 본 논문에서는 최근 활발히 연구가 진행되고 있는 행위인식 연구 분야 중에서 스마트폰 환경에서의 개인화된 행위 인식기 및 로거를 제안한다. 최근 스마트폰의 보급이 활발해지면서 행위 인식 연구 분야에서 스마트폰을 이용하는 연구가 활발히 진행되고 있다. 그러나 스마트폰에서는 센서를 이용하여 행위정보를 수집하고, 서버에서 는 분류 및 처리하는 방식으로 실시간 인식과 개발자에 의한 트레이닝으로 인해 개인화된 트레이닝이 불가능하다는 단점이 있다. 이러한 단점을 극복하고자 Naive Bayes Classifier를 사용하여 스마트폰 환경에서 실시간으로 사용자 행위 수집이 가능하고 행위정보의 분류 및 처리가 가능한 경량화 및 개인화된 행위 인식기 및 로거의 구현을 목적으로 한다. 제안하는 방법은 행위 인식기를 통해 행위 인식이 가능할 뿐만 아니라 로거를 통해 사용자의 라이프로그, 라이프패턴 등의 연구 분야에 이용이 가능하다.

  • PDF

Algorithms for Classifying the Results at the Baccalaureate Exam-Comparative Analysis of Performances

  • Marcu, Daniela;Danubianu, Mirela;Barila, Adina;Simionescu, Corina
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.35-42
    • /
    • 2021
  • In the current context of digitalization of education, the use of modern methods and techniques of data analysis and processing in order to improve students' school results has a very important role. In our paper, we aimed to perform a comparative study of the classification performances of AdaBoost, SVM, Naive Bayes, Neural Network and kNN algorithms to classify the results obtained at the Baccalaureate by students from a college in Suceava, during 2012-2019. To evaluate the results we used the metrics: AUC, CA, F1, Precision and Recall. The AdaBoost algorithm achieves incredible performance for classifying the results into two categories: promoted / rejected. Next in terms of performance is Naive Bayes with a score of 0.999 for the AUC metric. The Neural Network and kNN algorithms obtain scores of 0.998 and 0.996 for AUC, respectively. SVM shows poorer performance with the score 0.987 for AUC. With the help of the HeatMap and DataTable visualization tools we identified possible correlations between classification results and some characteristics of data.

Comparative Evaluation of Machine Learning Models for Predicting Soccer Injury Types

  • Davronbek Malikov;Jaeho Kim;Jung Kyu Park
    • 한국산업융합학회 논문집
    • /
    • 제27권2_1호
    • /
    • pp.257-268
    • /
    • 2024
  • Soccer is type of sport that carries a high risk of injury. Injury is not only cause in the unlucky soccer carrier and also team performance as well as financial effects can be worse since soccer is a team-based game. The duration of recovery from a soccer injury typically relies on its type and severity. Therefore, we conduct this research in order to predict the probability of players injury type using machine learning technologies in this paper. Furthermore, we compare different machine learning models to find the best fit model. This paper utilizes various supervised classification machine learning models, including Decision Tree, Random Forest, K-Nearest Neighbors (KNN), and Naive Bayes. Moreover, based on our finding the KNN and Decision models achieved the highest accuracy rates at 70%, surpassing other models. The Random Forest model followed closely with an accuracy score of 62%. Among the evaluated models, the Naive Bayes model demonstrated the lowest accuracy at 56%. We gathered information about 54 professional soccer players who are playing in the top five European leagues based on their career history. We gathered information about 54 professional soccer players who are playing in the top five European leagues based on their career history.

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

기계학습 알고리즘을 이용한 주택 모기지 금리에 대한 시민들의 감정예측 (Prediction of Citizens' Emotions on Home Mortgage Rates Using Machine Learning Algorithms)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제49권1호
    • /
    • pp.65-84
    • /
    • 2019
  • 본 연구의 목적은 기계학습 알고리즘을 이용하여 주택모기지 금리에 대한 시민들의 감정을 예측하는 것이었다. 연구목적을 달성하기 위해 본 연구는 관련문헌을 검토한 다음 두개의 연구 질문을 설정하였다. 또한 연구 질문에 대한 답을 구하기 위해 본 연구는 Akman의 분류에 따라 감정을 분류 한 다음 여섯 가지 기계학습 알고리즘을 이용하여 모기지 금리에 대한 시민들의 감정을 예측하였다. 분석결과 AdaBoost가 모든 평가범주에서 가장 우수한 분류기로 확인되었다. 그러나 Naive Bayes의 성능수준은 다른 분류기들의 성능수준보다 낮은 것으로 밝혀졌다. 또한 본 연구는 어느 분류기가 각 감정범주를 잘 예측해주는지를 파악하기 위해 ROC 분석을 실시하였다. 분석결과, AdaBoost가 모든 감정범주에서 주택모기지 금리에 대한 주민들의 감정을 가장 잘 예측해주는 것으로 확인되었다. 그러나 슬픔범주에서 여섯 가지 알고리즘의 성능수준은 다른 감정범주보다 훨씬 낮게 나타났다.

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구 (Study on Anomaly Detection Method of Improper Foods using Import Food Big data)

  • 조상구;최경현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.19-33
    • /
    • 2018
  • FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.

실제 네트워크 모니터링 환경에서의 ML 알고리즘을 이용한 트래픽 분류 (Traffic Classification Using Machine Learning Algorithms in Practical Network Monitoring Environments)

  • 정광본;최미정;김명섭;원영준;홍원기
    • 한국통신학회논문지
    • /
    • 제33권8B호
    • /
    • pp.707-718
    • /
    • 2008
  • Traffic classification의 방법은 동적으로 변하는 application의 변화에 대처하기 위하여 페이로드나 port를 기반으로 하는 것에서 ML 알고리즘을 기반으로 하는 것으로 변하여 가고 있다. 그러나 현재의 ML 알고리즘을 이용한 traffic classification 연구는 offline 환경에 맞추어 진행되고 있다. 특히, 현재의 기존 연구들은 testing 방법으로 cross validation을 이용하여 traffic classification을 수행하고 있으며, traffic flow를 기반으로 classification 결과를 제시하고 있다. 본 논문에서는 testing방법으로 cross validation과 split validation을 이용했을 때, traffic classification의 정확도 결과를 비교한다. 또한 바이트를 기반으로 한 classification의 결과와 flow를 기반으로 한 classification의 결과를 비교해 본다. 본 논문에서는 J48, REPTree, RBFNetwork, Multilayer perceptron, BayesNet, NaiveBayes와 같은 ML 알고리즘과 다양한 feature set을 이용하여 트래픽을 분류한다. 그리고 split validation을 이용한 traffic classification에 적합한 최적의 ML 알고리즘과 feature set을 제시한다.

서비스 온톨로지 기반의 상황인식 모델링을 이용한 추천 (Recommendation using Service Ontology based Context Awareness Modeling)

  • 류중경;정경용;김종훈;임기욱;이정현
    • 한국콘텐츠학회논문지
    • /
    • 제11권2호
    • /
    • pp.22-30
    • /
    • 2011
  • 품질뿐만 아니라 물질적 풍요가 되어가는 IT융합 환경에서 상황정보를 파악하는 것은 개인화 추천 서비스 전략의 중요한 성공요소가 되고 있다. 본 논문에서는 서비스 온톨로지 기반의 상황인식 모델링을 이용한 추천을 제안하였다. 이기종 디바이스 구축을 위해 OSGi 프레임워크 기반의 데이터 획득 모듈을 구축하고 온톨로지 기반의 상황정보 모델을 개발한다. 상황정보 모델을 위해서 추천 시스템에 필요한 상황정보를 추출하고 분류한다. 상황정보를 사용하여 온톨로지 기반의 상황인식 모델을 개발하고 협력적 필터링의 추천에 반영한다. 상황인식 모델은 Na$\"{\i}$ve Bayes 분류자를 사용하여 상황에 따라 서비스를 선택한 정보를 반영하고 사용자에게 제공한다. 제안한 방법의 성능 평가를 하기 위해 대응표본 T-검정을 실시하여 유용성을 검증하였다. 평가 결과, 서비스에 대한 만족도의 차이가 통계적으로 의미가 있음을 증명하였고 높은 만족도를 보임을 확인하였다.