Системные платы сервера, состоящие из 1 процессора и 24 модулей памяти, через систему коммутации объединяются в физические партиции с 4, 8, 16 или 32 процессорами. Меньшую гранулярность можно получить лишь при использовании логического партиционирования (гипервизора).
В сервере также имеются встроенные диски – до 4 корзин по 12 дисков в каждой с возможностью создания аппаратного RAID внутри каждой корзины. В некоторых случаях это может помочь отказаться от использования внешнего дискового массива.
Основная особенность KunLun заключается в возможности объединения до 32 процессоров Intel Xeon и до 24 ТБ памяти в одной партиции. Так, в HP Superdome X помещается только 16 процессоров, в SGI UV 300 – тоже 32, но сама SGI ориентирована на HPC. Сопоставимое количество процессоров Intel Xeon не объединено больше ни в одном промышленном решении.
Почему не каждый производитель может предложить 32-процессорную систему
Реальность такова, что штатные средства процессоров Intel позволяют объединять не более восьми процессоров в одном сервере. Объединение большего количества требует создания специальных устройств – контроллеров NUMA-узлов (node controller). Intel их не производит, но сама возможность использования такого функционала заложена в шину QPI. Этим воспользовались HP, SGI и Huawei – каждый вендор сделал свой контроллер. Здесь нужно понимать, что создание подобного контроллера подразумевает масштабную научную деятельность с вытекающими отсюда затратами. У Huawei, например, разработка заняла 8 лет.
С другой стороны, остальные вендоры (в том числе сам Intel) не стали разрабатывать свои контроллеры. На это есть веские причины. Первая – это то, что увеличение количества процессоров ведет к замедлению скорости работы с памятью. В большой степени это связано с необходимостью синхронизации состояния кэшей процессоров: чем больше процессоров закэшировали участок памяти, тем больше потребуется оповещений при его изменении одним из процессоров. Вторая причина – для подавляющего большинства вычислительных задач хватает серверов с количеством процессоров от одного до четырех.
Ну и как еще одно нововведение: в системе используется BIOS производства Huawei, и производитель готов предоставить исходные коды для сертификации ПО.
EulerOS
Об этой ОС мы узнали при демонстрации замены процессора «на лету». Информации о ней в интернете очень мало, разве что есть данные о ее сертификации по последней версии Linux Standard Base. На поверку оказалось, что EulerOS – это собранная из исходников RHEL – Red Hat Enterprise Linux (по аналогии с CentOS). Huawei кастомизирует ее для своего оборудования, добавляя драйверы горячей замены ЦПУ/ОЗУ.
Помимо EulerOS, в KunLun заявлена поддержка RHEL, SLES 11&12, Windows Server 2012.
Тест производительности SPECint / SPECfp
Образно говоря, с арифметикой в KunLun все хорошо. При проведении SPECint процессы привязываются к конкретным ядрам и работают только с локальной памятью.
Сервер | SPECint | SPECfp |
SGI UV 300 (32x, Intel Xeon E7-8890 v3) | 22600 | 15700 |
KunLun 9032 ( 32x - Intel Xeon E7-8890 v3) | 22900 | 16 3 00 |
IBM Power E880 (16 x Power8 4.0 GHz, 192 core) | 14400 | 11400 |
KunLun 9016 (16x - Intel Xeon E7-8890 v3) | 11 7 00 | 8050 |
SGI UV 300 (16x, Intel Xeon E7-8890 v3) | 11400 | 7880 |
Integrity Superdome X (16x, Intel Xeon E7-8890 v3) | 11100 | 7670 |
Интересным получилось сравнение KunLun с топовым IBM Power E880 (также 16-процессорным) – он не так уж сильно оторвался от KunLun. То есть для вычислений Intel Xeon сервер Huawei вполне может конкурировать с Power8.
Тест производительности SLOB (Oracle)
Этот тест в большей степени измеряет скорость не самих вычислений, а доступа к памяти. Привязки процессов СУБД к NUMA-узлам нет, для теста вся память считается равноудаленной от процессоров. Данный тест подкрепил цифрами теорию о нелинейном росте производительности сервера при добавлении ресурсов.
Семикратное увеличение процессорных мощностей (с 16 до 144 ядер, с учетом понижения частоты) приводило к пятикратному росту производительности сервера (КПД 71%). Четырехкратное увеличение количества ядер – с 16 (4 ЦПУ) до 64 (16 ЦПУ) – обусловило рост производительности в 2,7 раза (КПД 68%).
Области применения KunLun
По нашему мнению, основным достоинством KunLun является огромный объем памяти на его борту (24 ТБ сейчас, 32 ТБ в будущем). Поэтому основной областью его применения будет In-Memory аналитика, когда вся БД помещается в оперативную память. Использование KunLun позволяет на 3 порядка сократить время доступа к данным по сравнению с жесткими дисками и, соответственно, ускорить время выполнения запросов к БД. KunLun хорошо подойдет для задач SAP HANA и SAP S/4HANA. Объем памяти позволяет использовать HANA даже в одноузловой конфигурации KunLun. Oracle Database (особенно с In-Memory option) и QlikView также хорошо смотрятся в китайском суперсервере.
Соответственно, подобный комплекс найдет свое применение в качестве платформы для SAP HANA у ритейлеров для анализа больших объемов данных и формирования ценной для бизнеса «выжимки» из них: какие товары пользуются наибольшим/наименьшим спросом, каково их наличие на складах и т.д. Банкам связка Oracle In-Memory Option и KunLun даст возможность «на лету» осуществлять анализ кредитоспособности клиентов, рассчитывать нормативы по достаточности капитала банка и т.д. Телеком-операторы могут использовать это решение для задач по управлению лояльностью абонентов – формирования их профилей, осуществления таргетирования.
Другим классом задач для KunLun может стать замещение RISC-систем на x86. Для ряда заказчиков актуальны вертикально масштабируемые задачи, переросшие x86-серверы прошлого и выполняемые на RISC. В то же время стоимость обслуживания и модернизации этих платформ такова, что между стоимостью KunLun и годового обслуживания RISC-системы можно поставить знак равенства. По заявленному уровню надежности KunLun им не уступает, при этом выигрывает по разнообразию прикладного ПО. Отметим, что у себя на родине KunLun активно используется для импортозамещения, в основном как платформа для миграции с RISC-систем.