В чем заключается разница между виртуализированными и программно-определяемыми СХД? Существует ли между ними четкая граница?
Понятие «программно-определяемые системы хранения данных» является частью более общей концепции программно-определяемых сред. Эту концепцию уже не первый год продвигают многие производители сетевых решений, примерно два года назад такая инициатива стала развиваться и в сфере систем хранения данных.
«Программно-определяемая платформа хранения» – по сути, более общий термин, нежели «виртуализированная система хранения». Он предполагает, что речь идет не только об объединении массивов хранения в виртуальные пулы, но и о расширении функционала. Например, продукт IBM Spectrum Virtualize, появившийся на рынке более 10 лет назад, поначалу выполнял в основном функции виртуализации, дополнительный функционал был не очень широк. Сейчас же он представляет собой гораздо более развитой продукт, который позволяет: а) работать с гетерогенными средами хранения – SAS, SATA, флеш-массивами и б) обладает расширенным функционалом, позволяющим реализовать все возможности, доступные в массиве класса hi-end.
Гетерогенность сред хранения – одна из предпосылок перехода к виртуализированным и далее к программно-определяемым СХД. Заказчики хотят иметь возможность управлять гетерогенным аппаратным обеспечением как единым целым. Каковы допустимые масштабы такой гетерогенности? Какова степень свободы использования решений разных поколений и разных производителей?
Пределов практически нет. В своей довольно обширной практике работы с данной технологией я не встречал случаев, когда какая-то система хранения данных, даже старая, была бы несовместима с программным кодом IBM Spectrum Virtualize. Любые среды хранения любых производителей можно объединить в единый виртуальный пул, общая емкость которого может измеряться десятками петабайт.
Мы не рекомендуем включать в пул какие-то самосборные изделия просто потому, что не можем нести за них ответственность. Но даже в таких случаях, как показывает опыт, если изделие основано на стандартных промышленных компонентах, оно будет нормально работать в гетерогенной среде под управлением IBM Spectrum Virtualize.
В идеале концепция программной определяемости инфраструктуры предполагает автоматизированное выделение ресурса в зависимости от потребности приложений. В какой степени (насколько глубоко) такая автоматизация может быть реализована в современных системах хранения данных?
Автоматизация – часть концепции SDS. Отсутствие динамического выделения ресурсов обесценило бы саму идею программно-определяемых систем хранения данных. Динамическое выделение ресурсов реализовано в наших решениях в полном объеме. Основные параметры работы СХД – емкость и производительность. В зависимости от приоритета приложений система может гибко выделять им ресурсы как емкости, так и производительности: если, например, рабочая нагрузка требует большого количества IOPS, ей могут быть отданы практически все ресурсы ввода-вывода; если приложению нужны терабайты пространства хранения, они могут быть ему выделены по требованию с помощью технологии Thin Provisioning.
Регулировать выделение ресурса можно как в автоматическом режиме, так и вручную. Лично я сторонник того, чтобы в сложных средах предоставлять пользователю возможность самому задавать приоритеты для тех или иных нагрузок. Если эта задача полностью отдается на откуп машине, возможно возникновение конфликтов между виртуальными сущностями, конкурирующими за ресурс. Тем не менее некоторые заказчики используют полностью автоматизированные процессы. Например, у многих заказчиков имеется большое количество старых систем хранения данных, которые либо уже списаны, либо мало используются. В пуле под управлением IBM Spectrum Virtualize такие системы хранения можно поставить в «горячий резерв», и при недостатке емкости они будут задействоваться автоматически. Но, на мой взгляд, идеальный вариант – когда автоматизация основана на ручной проработке сценариев и существует возможность ручного вмешательства в случае отклонений в рабочем процессе.
Тенденции на рынке (о которых активно говорят аналитики) – облака и большие данные. Преимущества SDS, обеспечивающих гибкое выделение ресурсов, для облачных решений очевидно. Насколько весомы преимущества SDS при работе с большими данными? В чем эти преимущества заключаются?
Большие данные – это огромные массивы данных, которые, как правило, уже накоплены в организации или поступают из открытых источников. Они уже где-то и для чего-то хранятся. Задача в том, чтобы монетизировать эти данные. Иными словами, решать вопросы хранения данных уже не нужно. Что необходимо, так это быстро их обрабатывать. И здесь помогает технология SDS, которая позволяет консолидировать гетерогенные среды, а именно использовать и обычные диски большого объема, и быстрые флеш-массивы для анализа данных. Основное преимущество SDS – гибкость, позволяющая быстро, по требованию, нарастить производительность работы с облаком данных.
В какой степени внедрение SDS должно быть увязано с модернизацией и переходом к программной определяемости других составляющих ЦОД – вычислительной инфраструктуры, сети?
Ни в какой. Но должно измениться мышление ИТ-руководителей и системных администраторов. Компания должна быть готова понять и принять концепцию программно-определяемой платформы. На деле нередко оказывается, что концепция Software Defined Storage очень близка бизнесу, но внутри департамента ИТ возникает отторжение: люди не хотят пробовать нечто новое, ссылаются на «риски консолидации», когда «все яйца складываются в одну корзину», сомневаются в надежности чисто программных решений, поскольку привыкли больше доверять чему-то материальному.
Приходится вести с заказчиком теоретическую работу, которая заключается в разработке архитектурного решения, полностью отказоустойчивого и понятного клиенту. Нужно продумать распределение томов по уровням хранения, выработать адекватные SLA и т. д. Поэтому любой проект по программно-определяемым средам, который выполняет наша компания, обязательно включает услуги консультантов IBM. Яркий пример – проект для ОАО «Северсталь». Эксперты смогли предложить заказчику план эффективной модернизации инфраструктуры, позволяющий сохранить прежние инвестиции в оборудование. На базе IBM Spectrum Virtualize мы консолидировали множество разнородных систем хранения данных в рамках единой среды и, интегрировав в нее флеш-массивы, получили необходимое повышение производительности.
Среди предлагаемых компанией SDS-решений есть программно-аппаратные и чисто программные. Какими вам видятся рыночные перспективы тех и других?
Считаю, что и те, и другие найдут свое применение и будут эффективно использоваться. Каждый тип решений имеет свои преимущества. Например, отличие IBM Spectrum Virtualize от конкурирующих решений в том, что это именно программно-аппаратный комплекс. Он включает фирменные серверы в конкретной конфигурации и с конкретной прошивкой. В последних версиях продукта предусмотрен аппаратный ускоритель – отдельный процессор, который используется под задачи компрессии. Благодаря этому компрессия данных производится в режиме реального времени и без потери производительности. А экономия пространства хранения за счет компрессии может составлять до 70%.
Другой пласт технологий IBM – чисто программное решение IBM Spectrum Scale, которое может устанавливаться на любой сервер. IBM Spectrum Scale и Spectrum Virtualize решают разные задачи. В Spectrum Scale реализуется файловый доступ, в Spectrum Virtualize – блочный. Последний продукт в основном предназначен для решения бизнес-задач, связанных с поддержкой баз данных, почтовых сервисов, инфраструктурных приложений. Технология Spectrum Scale выросла из продукта IBM GPFS, который применялся главным образом в академической среде для множественного доступа к данным. Сейчас Spectrum Scale используется преимущественно как большое файловое хранилище с возможностями анализа.
Какова востребованность программно-определяемых платформ хранения IBM в России?
Бестселлерами являются линейки IBM Storwize V5000 и V7000. Это системы класса midrange, в которых преобладает аппаратная реализация, при этом они вписываются в парадигму SDS – в них используется практически тот же код, что в IBM Spectrum Virtualize и они так же позволяют объединять гетерогенные системы в единое пространство хранения и обеспечивать выделение ресурсов емкости и производительности по требованию.
Программно-аппаратное решение IBM Spectrum Virtualize востребовано в комплексных проектах, как правило, в связке с флеш-технологиями. Типичный вариант: у заказчика есть множество систем хранения данных, но при этом ни одна из них не может справиться с возросшей нагрузкой. Так было в проекте для «Северстали»: существующие дисковые массивы перестали отвечать уровню производительности, которая требовалась важным для предприятия приложениям, в том числе системам SAP. В подобных случаях выходом для заказчика становится приобретение IBM Spectrum Virtualize и объединение всех ресурсов хранения в единый пул. Иногда производительности созданного пула оказывается достаточно, но чаще ее приходится дополнительно наращивать путем добавления в пул флеш-массивов. Решение IBM Spectrum Scale также начинает пользоваться спросом.
Какие могут существовать риски при внедрении SDS? Существуют ли условия, при которых программно-определяемые решения неприменимы?
По нашему опыту, у заказчика могут возникнуть сложности, если он пытается внедрять решение самостоятельно. Считаю, что архитектура создаваемого решения должна все-таки диктоваться вендором. Поэтому мы всегда прорабатываем дизайн решения вместе с заказчиком, предусматривая необходимый уровень отказоустойчивости. Что касается ограничений на применение SDS, я таких не знаю. Однако есть понятие best practice. Если заказчику необходима система с уровнем надежности на уровне «шести девяток», то реализовать ее имеет смысл на базе отдельно стоящих hi-end-массивов. Программно-определяемое решение столь высокого уровня надежности не обеспечивает.
Как вы оцениваете перспективы полного перехода ИТ-инфраструктур предприятий к программно-определяемым средам?
Речь идет о совершенно другой концепции ИТ – облачных дата-центрах. Как работают, например, крупные российские или зарубежные поисковые компании, которые являются новаторами в этой области? Они используют в своей инфраструктуре «строительные блоки». Такой строительный блок универсален, он не зависит от аппаратных компонентов, может одновременно являться и сервером, и системой хранения данных. В будущем (при реализации идеи Software Defined Networking) такой же блок с большим количеством портов ввода-вывода сможет выполнять сетевые функции. Индустрия в целом движется к унификации, когда универсальные строительные блоки ИТ-инфраструктуры в зависимости от задач заказчика смогут комплектоваться емкими жесткими или быстрыми флеш-дисками, процессорами нужной мощности, сетевыми картами необходимой пропускной способности, и из них с помощью специализированного ПО можно будет строить сетевые решения, серверные кластеры, кластеры хранения или stand-alone-системы.
Но пока многие заказчики остаются сторонниками классического подхода. Их вполне можно понять – у них построены пусть не самые эффективные, но надежные и отказоустойчивые инфраструктуры. Поэтому IBM будет продолжать развивать классические направления hi-end- и midrange-решений. Но будущее – за унифицированными решениями и облачными технологиями.
Материал перепечатан из журнала «CONNECT! Мир Связи», № 3, 2015
На заметку
Управление финансовыми рисками.
Не так давно технологическая копилка IBM пополнилась еще одним продуктом – IBM Counter Fraud Management (CFM). Он призван автоматизировать процессы борьбы с мошенничеством в финансовом секторе, сегментах страхования, здравоохранения и др. CFM позволяет в реальном времени выявлять разные виды мошенничества: уход от налогов, отмывание денег, махинации с использованием электронных средств коммуникации, мошенничества при страховании имущества и здоровья. Это модульное решение реализует полный цикл обработки подобных инцидентов, включая обнаружение, сбор информации, расследование и реакцию. После внедрения системы IBM Counter Fraud повышаются уровень автоматизации бизнес-процессов по управлению рисками, эффективность принятия решений – за счёт возможности более глубокого и быстрого анализа. Кроме того, появляется возможность обмена информацией между структурными подразделениями и в рамках группы компаний.