Странности

MLOps в России

Об обратной стороне автоматизации

Posted by Ekaterina on October 13, 2021



















Рано или поздно крупный банк устает от процессинга своих моделей. И вот он уже бодро рапортует о внедрении MLOps.

Но в России у платформ MLOps есть интересная особенность. Они не построены на решениях ключевых игроков в этой области.

Квадрант Гартнера говорит о том, что безусловные лидеры MLOps - это две компании: SAS и MathWorks ("любимый" всеми MATLAB). В России мы такого даже близко не видим. 

Что мы слышим от спикеров банковских конференций, когда те докладывают про MLOps? Pandas, Jupiter, SPARK, таск-трекеры, MLflow, Jenkins. Контейнеризация. Hadoop. Это все open source. Почему?

Либо то, что предлагают лидеры рынка, очень дорого. Либо нужна гибкость. Но гибкость - это огромный труд десятков специалистов. И побочный продукт такой гибкости - качество моделей. 


В 1990-х - 2000-х годах одну модель вытачивали годами, и она работала. Мы знали, что такое возраст, насколько это ключевой параметр для заемщика, что такое долг, если это корпоративный заемщик, - и каждого анализировали "до копейки". 

Сейчас проблема платформ MLOps в том, что мы даже не смотрим на эти данные. Все настолько автоматизировано, что нам нужно просто их немного причесать перед выпуском в продакшн. Это сильно настораживает.

Поэтому цикл жизни моделей - отдельный большой вопрос. Если вы не видели код и не анализировали конкретные кейсы на цифрах, не выгружали себе исходные данные и результаты по этим кейсам, сложно сделать адекватный вывод.

Что делать? 

Наймите спецов, чтобы они хотя бы сверили ваши представления о данных “плюс-минус километр” с реальными данными, которые есть в Hadoop или иных кластерах данных. Спецы не будут заниматься архитектурой или лезть в глубокое IT, они просто проверят - правильно ли вы представляете себе то, что реально храните и на чем строите модели?