Рано или поздно крупный банк устает от процессинга своих моделей. И вот он уже бодро рапортует о внедрении MLOps.
Но в России у платформ MLOps есть интересная особенность. Они не построены на решениях ключевых игроков в этой области.
Квадрант Гартнера говорит о том, что безусловные лидеры MLOps - это две компании: SAS и MathWorks ("любимый" всеми MATLAB). В России мы такого даже близко не видим.
Что мы слышим от спикеров банковских конференций, когда те докладывают про MLOps? Pandas, Jupiter, SPARK, таск-трекеры, MLflow, Jenkins. Контейнеризация. Hadoop. Это все open source. Почему?
Либо то, что предлагают лидеры рынка, очень дорого. Либо нужна гибкость. Но гибкость - это огромный труд десятков специалистов. И побочный продукт такой гибкости - качество моделей.
В 1990-х - 2000-х годах одну модель вытачивали годами, и она работала. Мы знали, что такое возраст, насколько это ключевой параметр для заемщика, что такое долг, если это корпоративный заемщик, - и каждого анализировали "до копейки".
Сейчас проблема платформ MLOps в том, что мы даже не смотрим на эти данные. Все настолько автоматизировано, что нам нужно просто их немного причесать перед выпуском в продакшн. Это сильно настораживает.
Поэтому цикл жизни моделей - отдельный большой вопрос. Если вы не видели код и не анализировали конкретные кейсы на цифрах, не выгружали себе исходные данные и результаты по этим кейсам, сложно сделать адекватный вывод.
Что делать?
Наймите спецов, чтобы они хотя бы сверили ваши представления о данных “плюс-минус километр” с реальными данными, которые есть в Hadoop или иных кластерах данных. Спецы не будут заниматься архитектурой или лезть в глубокое IT, они просто проверят - правильно ли вы представляете себе то, что реально храните и на чем строите модели?