RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Южно-Уральского государственного университета. Серия «Математическое моделирование и программирование» // Архив

Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 2025, том 18, выпуск 2, страницы 102–111 (Mi vyuru762)

Программирование

The impact of dataset size on the reliability of model testing and ranking

[Оценка релевантности тестирования и ранжирования моделей в зависимости от объема датасета]

A. V. Chuikoa, V. V. Arlazarovab, S. A. Usilinab

a Federal Research Center “Computer Science and Control” RAS, Moscow, Russian Federation
b LLC “Smart Engines Service”, Moscow, Russian Federation

Аннотация: Методы машинного обучения все чаще используются в различных областях жизнедеятельности. Ежегодно множество научных коллективов разрабатывают новые распознающие модели, соревнуясь при этом в показателях качества на открытых датасетах. В некоторых задачах показатели точности давно превысили 99%, при этом лучшие в таблице ранжирования модели зачастую отличаются между собой на сотые доли процентов. Принимая в расчет объемы датасетов, резонным становится вопрос о релевантности оценки качества и достоверности ранжирования различных распознающих моделей. В работе описан метод расчета необходимого объема датасета для возможности корректной проверки гипотезы о точности модели, а также представлен анализ статистической значимости ранжирования по точности некоторых современных работ на датасетах MNIST, CIFAR-10 и CIFAR-100.

Ключевые слова: объем датасета, распознавание объектов, статистическая значимость, оценка качества модели, оценка качества распознавания.

УДК: 519.248

MSC: 62B15

Поступила в редакцию: 24.12.2024

Язык публикации: английский

DOI: 10.14529/mmp250209



© МИАН, 2026