— Михаил, в каких направлениях информационной безопасности использование машинного обучения может дать наибольший эффект?
— Главное, что даст машинное обучение, — возможность анализа и сбора различных данных из совершенно разных областей. Все существующие системы «заточены» под определенные задачи, при этом мы даже не видим бóльшую часть событий, которую тоже нужно собирать и анализировать.
Допустим, у вас есть файерволы, предназначенные для защиты внешнего периметра или внутренних подсетей. Даже если это обычный Web Application Firewall, они живут сами по себе. Параллельно обычно стоят системы, которые мониторят активность в базе данных, они тоже живут сами по себе. Затем данные от них собираются в единой системе и коррелируются по написанным нами правилам. И тут возникает вопрос: а все ли события мы видим? Если есть события, которые мы не учитываем, а наверняка мы о чем-то не подумали, потому что данных очень много, мы можем упускать из виду что-то важное. Еще один момент: в последнее время львиная доля случаев мошенничества завязана на социальной инженерии, которая вообще никак не фиксируется. Machine Learning вряд ли решит эту проблему, но со временем оно сможет точно показать нестандартные аномалии: переписка с контрагентами, которых раньше не было, участившиеся звонки, активность в системах, отличающаяся от обычной.
А есть данные, которые мы даже не анализируем. К примеру, ведутся записи переговоров службы поддержки с клиентами, но они просто ведутся и складываются; вручную это анализировать невозможно, поэтому они остаются на случай разбора претензий или расследования. Потенциально этот мощный поток информации можно использовать для улучшения клиентского опыта и роста доходов, но сейчас он проходит мимо.
— Насколько мне известно, сейчас в банках встречаются обрывочные или недостоверные данные, потому что их набирали вручную, там полно ошибок или опечаток. Чему на таких данных можно научить Machine Learning?
— Это обратная сторона того, почему на Machine Learning нельзя полагаться. Чтобы система в комплексе начала работать, ее вначале нужно научить на каких-то данных. И это проблема, потому что данные должны быть полными и точными, чтобы из них можно было собрать модель, на основе которой потом процессы начнут обучаться. Как правило, обрывочные или недостоверные данные — это то, что уже есть в базах. Но при этом есть и правильные данные, которые даже не всегда собираются: поведение в интернет-банкинге, привязка к геолокации, частота использования веб-версии и мобильного приложения, номер телефона клиента. Лучше использовать их для обучения системы. Конечно, можно брать и старые данные, но тогда придется вручную прописывать, чему можно доверять, чему не стоит, а это долгий процесс.
5 фактов из опроса по машинному обучению
В конце 2016 г. журнал MIT Technology Review совместно с Google Cloud провел опрос, посвященный машинному обучению. Тогда у 375 представителей из различных сфер деятельности спросили, как в их компании реализуют проекты на основе Machine Learning. Вот самые интересные данные:
60%
компаний в том или ином виде используют машинное обучение в своем бизнесе.
47%
с помощью Machine Learning реализуют проекты по распознаванию и маркировке изображений;
45%
респондентов сообщили, что достигли успеха во внедрении машинного обучения;
26%
26%
рассказали, что минимум 15% их ИТ-бюджета тратится на ML-решения.
- А где в ИБ использовать Machine Learning нецелесообразно?
— Сложно сказать… Мне кажется, если взять рутинную работу, которой в ИБ очень много, то Machine Learning здесь станет большим подспорьем. Сейчас есть большие группы сотрудников с невысокой квалификацией, задача которых — простой мониторинг по заданным правилам. нужно будет либо переучивать их из мониторщиков в аналитики, либо расставаться с ними.
По мнению Gartner, машинное обучение приближается к зоне разочарования на линии зрелости технологий.
В Gartner Hype Cycle for Emerging Technologies за 2017 г. машинное обучение находится на самом пике завышенных ожиданий.
По данным аналитиков, уже через 2–5 лет эта технология выйдет на плато продуктивности, довольно быстро пройдя нижнюю точку разочарования. Напоминаем, что Hype Cycle — это кривая зрелости технологии, графически представляющая стадии, через которые проходит любое технологическое нововведение во время своего становления.
- В вашем ИБ-ландшафте есть решения с функционалом Machine Learning?
— Будут. Не готов рассказывать все детали, потому что проект на самой начальной стадии внедрения: защитили бюджет, купили все необходимое, сейчас уточняем техзадание и занимаемся доработками. Это будет система для предотвращения мошенничества, по сути своей антифродовое решение с элементами искусственного интеллекта. Первые итоги мы будем готовы подвести не раньше, чем через год.
— Но есть какие-то ожидания от этого решения?
— Есть надежды, что оно позволит нам увидеть картину в целом. Сейчас есть некоторые правила, и каждое из них в отдельности может сработать. Клиент совершил нестандартное количество операций или прошла неожиданная операция из-за границы, а в итоге с этими событиями разбираются люди, которые присваивают им статус подозрительных или отмечают их как false positive. И если накапливается много одинаковых исключений, мониторщики предлагают исправить правила.
От Machine Learning мы ожидаем, что оно будет не только применять правила, но и на основе статистики вырабатывать рекомендации для их изменений. Но совсем без человеческого контроля система все равно не останется.
— То есть машинное обучение может поднять на новый уровень возможности ИБ-службы по защите не только ИТ-систем, но и непосредственно бизнес-процессов?
— Частично то, о чем я уже говорил, — это бизнес-процессы, да. В чистом виде ИБ защищает инфраструктуру, не обращая внимания, какой конкретный бизнес за ней стоит. К тому же мошенничество нередко происходит с использованием легитимного софта и сервисов: соединение было разрешено, команду можно послать, но в итоге их используют для мошеннических целей. Это как с ножами, которые продаются в свободном доступе: ими можно хлеб порезать, а можно — человека. Возвращаясь к Machine Learning… Сейчас есть ИТ-безопасность и бизнес-статистика, и каждая из них живет сама по себе. Машинное обучение позволит свести эти две картинки воедино и свежим взглядом посмотреть на них.
К тому же никуда не деться от традиционного конфликта «бизнес — ИБ». Бизнес хочет, чтобы ему было легко и просто работать, а специалисты по ИБ готовы многое запретить, чтобы снизить возможность мошенничества. Поэтому постоянно приходится идти на компромисс, и решение с Machine Learning в перспективе поможет нам в том числе добиться какого-то баланса.
По данным HeadHunter, в России специалисты по машинному обучению получают 130–300 тысяч рублей, в зависимости от конкретной позиции и опыта работы. В Америке, по версии кадрового агентства Glassdoor, аналогичные специалисты получают в разы больше — их средняя зарплата составляет $106 тысяч в год (т.е. ~540 тысяч рублей в месяц).
— В громкой ИТ-теме всегда есть доля «маркетинговой шелухи». На ваш взгляд, что к ней относится в теме машинного обучения?
— На мой взгляд, сейчас слишком мало внедрений, поскольку технологии не так давно стали позволять работать с Machine Learning. За последние 5 лет у нас сильно снизилась стоимость хранения данных, причем выросли скорости — на обычных дисках анализировать информацию было бы самоубийственно. Сейчас, когда твердотельные накопители стали дешевле, никто обычные диски уже не покупает. То же самое касается производительности самой техники, серверов и прочего.
В итоге как таковой «маркетинговой шелухи» в машинном обучении нет, есть несколько завышенные ожидания. Когда ты говоришь людям «это будет работать завтра», они завтра про результаты и спрашивают. А для машинного обучения времени нужно чуть больше, чтобы мы уже могли делать какие-то выводы. Когда компании внедрят машинное обучение и формализуют конкретные кейсы, можно будет рассказывать о них рынку и говорить, где оно поможет, а что из этого «маркетинговая шелуха».
— Machine Learning — новая отрасль, к ней в системе образования вообще никого не готовят. Где брать кадры?
— Учить самим. Я уже не раз задавал этот вопрос: где в Советском Союзе учили процессинговым технологиям и картам? Что с точки зрения бизнеса, что с точки зрения техники — нигде. Математике учили в МГТУ им. Н.Э. Баумана, в МАИ, МГУ, МИФИ и в МФТИ. У нас в компании сейчас много высококлассных специалистов, которые пришли сразу после вузов. Да, со временем некоторые из них уходят, но это естественный процесс. То же самое будет и с машинным обучением: мы либо будем учить с нуля новых сотрудников, либо переучивать уже имеющиеся кадры.
Хантить специалистов на рынке особого смысла не имеет — некого. Во-первых, хантить — это всегда повышать зарплату, а у нас по этому вопросу есть определенные ограничения. Во-вторых, как показывает практика, найти толкового специалиста практически невозможно, их ценят, и они не хотят менять работу. У нас есть пара сотрудников, которые пришли из других компаний, но, повторюсь, сейчас гораздо проще научить самому. Думаю, что через 10 лет рынок специалистов по машинному обучению будет гораздо активнее, потому что не только мы, но и другие компании займутся этой областью.
— А есть опасность, что человеческий интеллект не сможет угнаться за искусственным и что эксплуатировать интеллектуальные ИБ-системы на должном уровне многие ИБ-специалисты просто не смогут?
— Чисто теоретически такая вероятность существует. Но уже сейчас у нас в ИБ есть несколько уровней квалификации, о чем я уже говорил. И сейчас они, скорее всего, не смогут эксплуатировать интеллектуальные системы. Мы планируем, что бóльшая часть этих сотрудников будет расширять свои знания и повышать квалификацию.
— Увидим ли мы повсеместное использование Machine Learning в сфере ИБ или, скорее, стоит говорить о решении отдельных, узких задач?
— Даже в случае нашего кейса уже на первом этапе мы планируем не только подпитывать систему данными транзакций, но и сделать скрипты, которые будут собирать данные с устройств об их положении и сращивать их с операциями. Сейчас эти данные разрозненны, их собирают разные сотрудники, которые, конечно, могут между собой общаться, но это не всегда удобно и быстро. С помощью нашего кейса мы сможем гораздо быстрее понять, что это было. Фрод? У нас украли деньги или нет?
Я думаю, что Machine Learning не будет узкоспециализированным решением, потому что его главная особенность заключается в возможности охватить как можно больше данных и представить полную картину. В свою очередь, это должно помочь бизнесу, поэтому, как мне кажется, машинное обучение выйдет даже за границы ИБ.
— Может ли машинное обучение стать мостом для соединения бизнеса и решений ИТ + ИБ в части стратегии развития ИТ-инфраструктуры и расширения точек цифровизации компании в целом?
— Я бы избежал столь громких выражений, но на основе такого решения можно собрать и сделать интересную статистику для бизнеса: где определенные товары продаются лучше, где хуже, что нужно развивать, куда перспективнее вложить средства. Раз уж мы данные собираем и анализируем, на них стоит посмотреть и с точки зрения бизнеса. В первую очередь Machine Learning даст возможность анализировать больше данных и приводить их в наглядный вид, а дальше уже можно придумывать, как эти данные использовать и как их показывать бизнесу.