• 제목/요약/키워드: learning-to-rank

검색결과 113건 처리시간 0.022초

Learning-to-rank 기법을 활용한 서울 경마경기 순위 예측 (Horse race rank prediction using learning-to-rank approaches)

  • 정준형;신동욱;황세용;박건웅
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.239-253
    • /
    • 2024
  • 본 연구는 learning-to-rank (LTR) 기법 중 point-wise와 pair-wise learning을 적용하여 서울 경마경기 순위 예측을 수행하였다. Point-wise learning으로는 선형 회귀와 랜덤 포레스트를 pair-wise learning으로는 RankNet, LambdaMART (XGBoost Ranker, LightGBM Ranker, CatBoost Ranker)을 활용하였다. 또한 데이터 불균형 문제를 해결하기 위해 전처리 과정에서 경주기록을 경주거리에 따라 표준화하는 방식을 채택하였으며, 모형의 예측 능력 향상을 위해 경기 정보, 기수 정보, 마필 정보, 조교사 정보 등의 다양한 데이터를 사용하였다. 그 결과 아이템 간의 순위관계를 학습할 수 있는 pair-wise learning이 point-wise learning보다 전반적으로 더 뛰어난 예측력을 보이는 것을 확인하였다. 특히 CatBoost Ranker는 제시된 모형들 중 가장 뛰어난 예측 성능을 보였다. 마지막으로 섀플리 값을 통해 CatBoost Ranker에서 경주마의 성적, 직전 경주기록, 경주마의 출발훈련 횟수, 누적 출발훈련 횟수, 질병 진단횟수 등이 상위 10개 중요 변수에 포함된 것을 확인하였다.

Recommendations Based on Listwise Learning-to-Rank by Incorporating Social Information

  • Fang, Chen;Zhang, Hengwei;Zhang, Ming;Wang, Jindong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권1호
    • /
    • pp.109-134
    • /
    • 2018
  • Collaborative Filtering (CF) is widely used in recommendation field, which can be divided into rating-based CF and learning-to-rank based CF. Although many methods have been proposed based on these two kinds of CF, there still be room for improvement. Firstly, the data sparsity problem still remains a big challenge for CF algorithms. Secondly, the malicious rating given by some illegal users may affect the recommendation accuracy. Existing CF algorithms seldom took both of the two observations into consideration. In this paper, we propose a recommendation method based on listwise learning-to-rank by incorporating users' social information. By taking both ratings and order of items into consideration, the Plackett-Luce model is presented to find more accurate similar users. In order to alleviate the data sparsity problem, the improved matrix factorization model by integrating the influence of similar users is proposed to predict the rating. On the basis of exploring the trust relationship between users according to their social information, a listwise learning-to-rank algorithm is proposed to learn an optimal ranking model, which can output the recommendation list more consistent with the user preference. Comprehensive experiments conducted on two public real-world datasets show that our approach not only achieves high recommendation accuracy in relatively short runtime, but also is able to reduce the impact of malicious ratings.

기계학습을 이용한 단문 오피니언 문서의 효율적 검색 기법 (Efficient Retrieval of Short Opinion Documents Using Learning to Rank)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.117-126
    • /
    • 2013
  • 최근 들어 트위터나 페이스북과 같은 SNS가 대중화되면서, 오피니언 마이닝에 관한 연구가 활발히 진행되고 있다. 그러나 현재의 오피니언 마이닝 연구는 대부분 감성분류나 특징선택 방법에 중점을 두고 있으며, 오피니언 문서의 검색에 관한 연구는 아직 미진한 실정이다. 본 논문에서는 단문으로 구성된 오피니언 문서로부터 사용자가 원하는 문서들을 효율적으로 검색하는 기법을 제안한다. 제안된 방법에서는 기존의 감성분류 방법을 활용함과 동시에 문서의 질적 평가를 위해 여러 가지 특징들을 적용한다. 검색 모델을 생성하기 위해 기계학습 기반 랭킹 기법을 활용하며, 감성 분류 모델을 기계학습 랭킹 모델에 통합하는 방법을 사용한다. 또한 실험을 통하여 제안된 방법이 오피니언 검색에 효율적으로 적용될 수 있음을 보여준다.

A Federated Multi-Task Learning Model Based on Adaptive Distributed Data Latent Correlation Analysis

  • Wu, Shengbin;Wang, Yibai
    • Journal of Information Processing Systems
    • /
    • 제17권3호
    • /
    • pp.441-452
    • /
    • 2021
  • Federated learning provides an efficient integrated model for distributed data, allowing the local training of different data. Meanwhile, the goal of multi-task learning is to simultaneously establish models for multiple related tasks, and to obtain the underlying main structure. However, traditional federated multi-task learning models not only have strict requirements for the data distribution, but also demand large amounts of calculation and have slow convergence, which hindered their promotion in many fields. In our work, we apply the rank constraint on weight vectors of the multi-task learning model to adaptively adjust the task's similarity learning, according to the distribution of federal node data. The proposed model has a general framework for solving optimal solutions, which can be used to deal with various data types. Experiments show that our model has achieved the best results in different dataset. Notably, our model can still obtain stable results in datasets with large distribution differences. In addition, compared with traditional federated multi-task learning models, our algorithm is able to converge on a local optimal solution within limited training iterations.

인기 검색어의 순위 변화 예측 ('Hot Search Keyword' Rank-Change Prediction)

  • 김도형;강병호;이승룡
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.782-790
    • /
    • 2017
  • 인기 검색어 리스트는 현재 가장 인기 있는 검색어의 순위를 보여주는 서비스로서 네이버와 같은 포털사이트가 제공한다. 이 리스트에서의 순위 변화는 특정 검색어에 대한 사람들의 관심의 변화를 반영한다. 본 논문은 인기 검색어의 순위 변화를 예측하기 위해 시계열 모델링 프레임워크를 제안한다. 제안한 프레임워크는 과거 순위와 기계학습 모델이 적용되었고, 여기서 해결해야 할 두 가지 문제점이 있다. 첫째, 과거 순위 데이터를 분석한 결과, 70% 이상의 검색어가 리스트에서 소멸 후 재출현하는 현상을 보였다. 소멸 후의 순위는 손실 값으로 볼 수 있으며, 이를 해결하기 위해서 다양한 처리 방법을 적용하였다. 둘째, 과거 순위 데이터는 시계열 데이터이므로 최적 윈도우 크기를 계산하는 것이 중요하다. 본 논문에서는 최적 윈도우 크기는 동일한 검색어들이 서로 다른 두 시점에서 내용상 의미가 달라지는 최단 소멸기간으로 볼 수 있음을 밝혔다. 성능 평가를 위해서 4가지의 기계학습 기법과 2년 동안 수집한 네이버, 다음, 네이트의 인기 검색어 리스트 데이터를 사용하였다.

Relationships between Teaching Professional Rank, Course Taking, Teaching Experience and Knowledge of Algebra for Teaching

  • Huang, Rongjin;Li, Yeping;Kulm, Gerald;Willson, Victor
    • 한국수학교육학회지시리즈D:수학교육연구
    • /
    • 제18권2호
    • /
    • pp.129-148
    • /
    • 2014
  • In this study, we examined the relationships among years of teaching experience, professional rank, number of courses taken, and knowledge of algebra for teaching (KAT). 338 in-service and 376 pre-service secondary mathematics teachers in China completed a KAT questionnaire. Various statistical techniques were employed to examine these relationships. The pre-service participants teachers performed statistically significantly higher in advanced mathematics knowledge than their in-service counterparts. Among the inservice teachers, senior teachers had scored higher in school mathematics and teaching mathematics, compared with junior teachers. Yet participants' advanced mathematics knowledge decreased as their professional rank advanced or their teaching experience increased. The number of courses taken has significantly positive correlation with school mathematics knowledge and advanced mathematics knowledge. The implications of these findings for mathematics teacher education are discussed.

그래프 기반 준지도 학습에서 빠른 낮은 계수 표현 기반 그래프 구축 (Graph Construction Based on Fast Low-Rank Representation in Graph-Based Semi-Supervised Learning)

  • 오병화;양지훈
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.15-21
    • /
    • 2018
  • 낮은 계수 표현(Low-Rank Representation, LRR) 기반 방법은 얼굴 클러스터링, 객체 검출 등의 여러 실제 응용에 널리 사용되고 있다. 이 방법은 그래프 기반 준지도 학습에서 그래프 구축에 사용할 경우 높은 예측 정확도를 확보할 수 있어 많이 사용된다. 그러나 LRR 문제를 해결하기 위해서는 알고리즘의 매 반복마다 데이터 수 크기의 정방행렬에 대해 특이값 분해를 수행하여야 하므로 계산 비효율적이다. 이를 해결하기 위해 속도를 향상시킨 발전된 LRR 방법을 제안한다. 이는 최근 발표된 Fast LRR(FaLRR)을 기반으로 하며, FaLRR이 속도는 빠르지만 실제로 분류 문제에서 성능이 낮은 것을 해결하기 위해 기반 최적화 목표에 추가 제약 조건을 도입하고 이를 최적화하는 방법을 제안한다. 실험을 통하여 제안 방법은 LRR보다 더 좋은 해를 빠르게 찾아냄을 확인할 수 있다. 또한, 동일한 해를 도출하는 방법을 찾아내기는 어렵지만 최소화하는 목표가 추가될 경우 더 좋은 결과를 나타내는 Fast MLRR(FaMLRR)을 제안한다.

Automatic and objective gradation of 114 183 terrorist attacks using a machine learning approach

  • Chi, Wanle;Du, Yihong
    • ETRI Journal
    • /
    • 제43권4호
    • /
    • pp.694-701
    • /
    • 2021
  • Catastrophic events cause casualties, damage property, and lead to huge social impacts. To build common standards and facilitate international communications regarding disasters, the relevant authorities in social management rank them in subjectively imposed terms such as direct economic losses and loss of life. Terrorist attacks involving uncertain human factors, which are roughly graded based on the rule of property damage, are even more difficult to interpret and assess. In this paper, we collected 114 183 open-source records of terrorist attacks and used a machine learning method to grade them synthetically in an automatic and objective way. No subjective claims or personal preferences were involved in the grading, and each derived common factor contains the comprehensive and rich information of many variables. Our work presents a new automatic ranking approach and is suitable for a broad range of gradation problems. Furthermore, we can use this model to grade all such attacks globally and visualize them to provide new insights.

KR-WordRank : WordRank를 개선한 비지도학습 기반 한국어 단어 추출 방법 (KR-WordRank : An Unsupervised Korean Word Extraction Method Based on WordRank)

  • 김현중;조성준;강필성
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.18-33
    • /
    • 2014
  • A Word is the smallest unit for text analysis, and the premise behind most text-mining algorithms is that the words in given documents can be perfectly recognized. However, the newly coined words, spelling and spacing errors, and domain adaptation problems make it difficult to recognize words correctly. To make matters worse, obtaining a sufficient amount of training data that can be used in any situation is not only unrealistic but also inefficient. Therefore, an automatical word extraction method which does not require a training process is desperately needed. WordRank, the most widely used unsupervised word extraction algorithm for Chinese and Japanese, shows a poor word extraction performance in Korean due to different language structures. In this paper, we first discuss why WordRank has a poor performance in Korean, and propose a customized WordRank algorithm for Korean, named KR-WordRank, by considering its linguistic characteristics and by improving the robustness to noise in text documents. Experiment results show that the performance of KR-WordRank is significantly better than that of the original WordRank in Korean. In addition, it is found that not only can our proposed algorithm extract proper words but also identify candidate keywords for an effective document summarization.

SVM을 위한 교사 랭크 정규화 (Supervised Rank Normalization for Support Vector Machines)

  • 이수종;허경용
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권11호
    • /
    • pp.31-38
    • /
    • 2013
  • 특징 정규화는 인식기를 적용하기 이전의 전처리 단계로 특징의 스케일에 따른 오류를 줄이기 위해 널리 사용되고 있다. 하지만 기존 정규화 방법은 특징의 분포를 가정하는 경우가 많으며, 클래스 라벨을 고려하지 않으므로 정규화 결과가 인식률에서 최적임을 보장하지 못하는 문제점이 있다. 이 논문에서는 특징의 분포를 가정하지 않는 랭크 정규화 방법과 클래스 라벨을 사용하는 교사 학습법을 결합한 교사 랭크 정규화 방법을 제안하였다. 제안하는 방법은 데이터의 분포를 바탕으로 특징의 분포를 자동으로 추정하므로 특징의 분포를 가정하지 않으며, 데이터 포인트의 최근접 이웃이 가지는 클래스 라벨을 바탕으로 정규화를 시행하므로 오류의 발생을 최소화할 수 있다. 특히 SVM의 경우 서로 다른 클래스에 속하는 데이터 포인트들이 혼재되어 나타나는 영역에 경계선을 설정하므로 이 영역의 밀도를 줄임으로써 경계선 설정을 보다 용이하게 하고 결과적으로 일반화 오류를 감소시킬 수 있다. 이러한 사실들은 실험 결과를 통해 확인할 수 있다.