Оптимизационная задача построения линейных регрессий с минимальной величиной средней абсолютной ошибки на тестовых выборках

2

Аннотация

Статья посвящена проблеме отбора заданного числа наиболее информативных регрессоров в линейных регрессиях. При использовании метода наименьших квадратов точное решение этой задачи по критерию максимизации коэффициента детерминации при задействовании всей выборки данных может быть получено в результате решения особым образом сформулированной задачи частично-булевого линейного программирования. Однако в машинном обучении важным этапом при создании надежной и эффективной модели считается её построение по обучающей выборке и проверка точности её предсказания по тестовой выборке. Поэтому в статье сформулирована оптимизационная задача отбора информативных регрессоров в линейных регрессиях по критерию минимизации средней абсолютной ошибки на тестовой выборке. Формулировка основана на известном приёме, согласно которому абсолютные ошибки должны быть представлены в виде разности между двумя неотрицательными переменными. С использованием встроенных в пакет Gretl статистических данных о заработной плате спортсменов и решателя оптимизационных задач LPSolve проведены вычислительные эксперименты. Для этого обучающая выборка формировалась из 70%, 75% и 80% наблюдений. Во всех этих случаях среднее снижение значения коэффициента детерминации моделей составило 24,76%, 18,4% и 12,22%, но при этом средняя абсолютная ошибка уменьшилась на 24,8%, 26,3% и 21,05% соответственно. Эксперименты показали, что среднее время решения задач при минимизации средней абсолютной ошибки на тестовых выборках оказалось в 2,33–2,85 раза выше, чем время решения задач при максимизации коэффициента детерминации на обучающих выборках.

Общая информация

Ключевые слова: машинное обучение, регрессионный анализ, метод наименьших квадратов, отбор информативных регрессоров, коэффициент детерминации, средняя абсолютная ошибка, обучающая выборка, тестовая выборка, задача частично-булевого линейного программирования

Рубрика издания: Методы оптимизации

Тип материала: научная статья

DOI: https://doi.org/10.17759/mda.2024140406

Получена: 09.09.2024

Для цитаты: Базилевский М.П. Оптимизационная задача построения линейных регрессий с минимальной величиной средней абсолютной ошибки на тестовых выборках // Моделирование и анализ данных. 2024. Том 14. № 4. С. 91–103. DOI: 10.17759/mda.2024140406

Литература

  1. Рашка С. Python и машинное обучение. М.: ДМК Пресс, 2017. 418 с.
  2. Janiesch C., Zschech P., Heinrich K. Machine learning and deep learning // Electronic Markets. 2021. Vol. 31. No. 3. P. 685–695. DOI:10.1007/s12525-021-00475-2.
  3. Mhlanga D. Artificial intelligence and machine learning for energy consumption and production in emerging markets: a review // Energies. 2023. Vol. 16. No. 2. P. 745. DOI:10.3390/en16020745.
  4. Xu Z., Mohsin M., Ullah K., Ma X. Using econometric and machine learning models to forecast crude oil prices: Insights from economic history // Resources Policy. 2023. Vol. 83. P. 103614. DOI:10.1016/j.resourpol.2023.103614.
  5. Haug C. J., Drazen J. M. Artificial intelligence and machine learning in clinical medicine // New England Journal of Medicine. 2023. Vol. 388. No. 13. P. 1201–1208. DOI:10.1056/NEJMra2302038.
  6. Kumar S., Gopi T., Harikeerthana N., Gupta M. K., Gaur V., Krolczyk G. M., Wu C. Machine learning techniques in additive manufacturing: a state of the art review on design, processes and production control // Journal of Intelligent Manufacturing. 2023. Vol. 34. No. 1. P. 21–55. DOI: 10.1007/s10845-022-02029-5.
  7. Molnar C. Interpretable machine learning. Lulu. com, 2020.
  8. Nie B., Du Y., Du J., Rao Y., Zhang Y., Zheng X., Ye N., Jin H. A novel regression method: Partial least distance square regression methodology // Chemometrics and Intelligent Laboratory Systems. 2023. Vol. 237. P. 104827. DOI:10.1016/j.chemolab.2023.104827.
  9. Журавлев Ю. И., Сенько О. В., Докукин А. А., Киселева Н. Н., Саенко И. А. Двухуровневый метод регрессионного анализа, использующий ансамбли деревьев с оптимальной дивергенцией // Доклады Российской академии наук. Математика, информатика, процессы управления. 2021. Т. 499. С. 63–66. DOI:10.31857/S2686954321040172.
  10. Базилевский М. П. Двухкритериальное оценивание линейных регрессионных моделей методами наименьших модулей и квадратов // International Journal of Open Information Technologies. 2024. Т. 12. № 6. С. 76–81.
  11. Базилевский М. П. Отбор информативных операций при построении линейно-неэлементарных регрессионных моделей // International Journal of Open Information Technologies. 2021. Т. 9. № 5. С. 30–35.
  12. Носков С. И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск: РИЦ ГП Облинформпечать, 1996. 321 с.
  13. Miller A. Subset selection in regression. Chapman and hall/CRC, 2002.
  14. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1005 с.
  15. Базилевский М. П. Сведение задачи отбора информативных регрессоров при оценивании линейной регрессионной модели по методу наименьших квадратов к задаче частично-булевого линейного программирования // Моделирование, оптимизация и информационные технологии. 2018. Т. 6. № 1 (20). С. 108–117.
  16. Базилевский М. П. Отбор оптимального числа информативных регрессоров по скорректированному коэффициенту детерминации в регрессионных моделях как задача частично целочисленного линейного программирования // Прикладная математика и вопросы управления. 2020. № 2. С. 41–54.
  17. Базилевский М. П. Сравнительный анализ эффективности методов построения вполне интерпретируемых линейных регрессионных моделей // Моделирование и анализ данных. 2023. Т. 13. № 4. С. 59–83.
  18. Шунина Ю. С. Влияние способа формирования обучающей и тестовой выборок на качество классификации // Вестник Ульяновского государственного технического университета. 2015. № 2 (70). С. 43–46.
  19. Мун Д. Е., Савченко Д. Ю. Проблемы подготовки обучающих выборок для построения системы скоринга персонала // Современные проблемы экономического развития предприятий, отраслей, комплексов, территорий. 2020. С. 390–394.
  20. Парасич В. А., Парасич И. В., Волович Г. И., Некрасов С. Г., Парасич А. В. Переобучение в машинном обучении: проблемы и решения // Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. 2024. Т. 24. № 2. С. 18–27. DOI:10.14529/ctcr240202.
  21. Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983. 303 с.
  22. Charnes A., Cooper W. W., Ferguson R. O. Optimal estimation of executive compensation by linear programming // Management science. 1955. Vol. 1. No. 2. P. 138–151. DOI: 10.1287/mnsc.1.2.138.

Информация об авторах

Базилевский Михаил Павлович, кандидат технических наук, доцент кафедры математики, Иркутский государственный университет путей сообщения (ФГБОУ ВО ИрГУПС), Иркутск, Россия, ORCID: https://orcid.org/0000-0002-3253-5697, e-mail: mik2178@yandex.ru

Метрики

Просмотров

Всего: 11
В прошлом месяце: 0
В текущем месяце: 11

Скачиваний

Всего: 2
В прошлом месяце: 0
В текущем месяце: 2