Прогнозирование покупки товара, показанного клиенту рекомендательной системой

280

Аннотация

В работе рассматриваются различные методы улучшения рекомендательных систем. Проводится сравнительный анализ двух моделей для решения задач классификации: случайного леса (Random Forest) и CatBoostClassifier. Исследование выполнялось на данных истории покупок клиентов компании Ozon. Были использованы стандартные методы, часто применяемые в рекомендательных системах. Были реализованы методы коллаборативной фильтрации, косинусная схожесть товаров от просмотров клиента за одно посещение сайта, схожесть текстовых данных. Для оценки результатов использовались специальные метрики, оценивающие качество предсказаний первых k объектов из рекомендаций: Mean average precision (map@K) и Recall at K (recall@k). При генерации дополнительных признаков, основанных на различных методах, выявляющих схожесть объектов, отмечается увеличение качества прогнозов моделей. Модель CatBoostClassifier показала наилучшие результаты.

Общая информация

Ключевые слова: рекомендательные системы, машинное обучение, бинарная классификация, методы коллаборативной фильтрации, косинусная схожесть

Рубрика издания: Анализ данных

DOI: https://doi.org/10.17759/mda.2020100402

Для цитаты: Парфенов П.А., Тимофеева А.А., Сологуб Г.Б., Алексейчук А.С. Прогнозирование покупки товара, показанного клиенту рекомендательной системой // Моделирование и анализ данных. 2020. Том 10. № 4. С. 17–30. DOI: 10.17759/mda.2020100402

Литература

  1. Francesco Ricci and Lior Rokach and Bracha Shapira. Introduction to Recommender Systems Handbook // Springer Science+Business Media, LLC 2011. С. 1–10.
  2. Mizzaro Stefano. Relevance: The Whole History // journal of the american society for information science, 1997. С. 810–820.
  3. Brent Smith and Greg Linden. Two Decades of Recommender Systems at Amazon.com // the IEEE Computer Society, 2017. C. 10–17.
  4. Carlos A. Gomez-Uribe and Neil Hunt. The Netflix Recommender System: Algorithms, Business Value, and Innovation // ACM Transactions on Management Information Systems, Vol. 6, No. 4, Article 13, 2015. С. 6–7.
  5. Е.Е. Пятикоп. Исследование метода коллаборативной фильтрации на основе сходства элементов // Наукові праці ДонНТУ випуск 2 (18), Серія “Інформатика, кібернетика та обчислювальна техніка”, 2013. С. 109–110.
  6. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск // Издательский дом “Вильямс”, 2011. С.138.
  7. Г.Г. Литова, Д.Ю. Ханукаева. Основы векторной алгебры // Москва, 2009. 57.
  8. Jerome H. Friedman. Greedy Function Approximation: A Gradient Boosting Machine // Technical Discussion: Foundations of TreeNet(tm), 1999. С. 39.
  9. CatBoost [Электронный ресурс] // URL: https://neerc.ifmo.ru/wiki/index.php?title=CatBoost
  10. GridSearchCV [Электронный ресурс] // Scikit-learn URL: https://scikit-learn.org/stable/ modules/generated/sklearn.model_selection.GridSearchCV.html
  11. Gunnar Schröder, Maik Thiele, Wolfgang Lehner. Setting Goals and Choosing Metrics for Recommender System Evaluations, 2011 С. 8.
  12. Ziwei Zhu, Jianling Wang, James Caverlee // Improving Top-K Recommendation via Joint Collaborative Autoencoders, IW3C2 (International World Wide Web Conference Committee), published under Creative Commons CC-BY 4 License, 2019. С. 7.
  13. CatBoost Feature Importance [Электронный ресурс] // catboost URL: https://catboost.ai/docs/ concepts/fstr.html#fstr
  14. Wen Zhang, Taketoshi Yoshida, Xijin Tang. A comparative study of TFIDF, LSI and multi-words for text classification // Expert Systems with Applications, 2010. С. 8.
  15. Tom Fawcett. An introduction to ROC analysis // Pattern Recognition Letters 27, 2006. С. 865.

Информация об авторах

Парфенов Павел Андреевич, Московский авиационный институт (национальный исследовательский университет), Россия, ORCID: https://orcid.org/0000-0001-5995-347X, e-mail: pentalbymf@mail.ru

Тимофеева Алена А., Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0001-7043-3715, e-mail: alena195101@yandex.ru

Сологуб Глеб Борисович, кандидат физико-математических наук, доцент кафедры математической кибернетики института «Информационные технологии и прикладная математика», Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0002-5657-4826, e-mail: glebsologub@ya.ru

Алексейчук Андрей Сергеевич, кандидат физико-математических наук, доцент кафедры «Математическая кибернетика», Московский авиационный институт (национальный исследовательский университет) (МАИ), доцент кафедры «Цифровое образование», Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), Москва, Россия, ORCID: https://orcid.org/0000-0003-4167-8347, e-mail: alexejchuk@gmail.com

Метрики

Просмотров

Всего: 384
В прошлом месяце: 10
В текущем месяце: 6

Скачиваний

Всего: 280
В прошлом месяце: 9
В текущем месяце: 4