November 19, 2014
Fujitsu Forum 2014, Munich
Fujitsu Technology Solutions GmbH
также см. мои личные впечатления на форуме
Официальное описание.
Оптимизированный под приложения конструктив сервера Fujitsu.
Данная Белая книга предоставляет краткий обзор оптимизированной под приложения разработки сервера Fujitsu, выделяющейся Intel® Silicon Photonics, которая откроет следующий важный шаг на пути к центрам обработки данных (ЦОД), ориентированным на бизнес. Эта новая Rack-Scale Architecture (стоечно масштабируемая архитектура) сделает возможным бизнес-ориентированный подход к (пере-) построению ИТ-инфраструктуры в любое время, таким образом, что пользователи могут получить доступ к мощностям вычислительной обработки, сетевым ресурсам и ресурсам хранения данных в соответствии с точным потребностям их приложений.
Введение
Ваш ЦОД остается площадкой современных разработок?
Основными вызовами для многих ИТ-организаций, которые мешают им организовать повышение эффективности их ИТ-процессов и отвлекают их от сосредоточения инновациях, являются скорость изменений, а также новых технологии, такие как мобильные, социальные и совместно используемые инструменты, большие данные, аналитика, а также облака.
Например, многие компании сегодня имеют годовой рост данных на 60% или даже больше, причем любых - от структурированных баз данных и текста до огромных мультимедийных файлов.
Тем не менее, этот беспрецедентный взрыв данных и цифровой информации также приводит компании к необходимости увеличения доступности и безопасности ИТ-услуг. Почти каждый критически важный бизнес-процесс зависит от ИТ, поскольку отказ важных систем в ЦОД способен непосредственно нарушить бизнес-деятельность компании и привести к потере продаж.
В этом плане новые ИТ-инфраструктуры и архитектуры, отличающиеся частыми изменениями, обязаны выполнять требованиям запросов еще большего упрощения, гибкости и эффективности.
Новая модель использования ИТ
Многие современные серверы имеют тенденцию обеспечения все большими мощностями для вычислений, памяти и ввода / вывода, а также встроенными в функциями для запуска приложений с лучшей производительностью.
Должен быть выбран компромисс, по крайней мере, между эффективностью и плотностью ИТ-Инфраструктуры.
Однако отсутствие гибкости, обусловленное использованием статических ресурсов в сегодняшней динамичной бизнес-среде может привести к упущенным возможностям коммерции.
Оптимизированный для приложений конструктив сервера Fujitsu совместно с архитектурой платформы PRIMERY для стоечного масштабирования помогает преодолеть эти препятствия и является следующим важным шагом на пути к ЦОД, ориентированному на бизнес. Этот новый подход с разукрупнением сервера радикально изменяет способ проектирования, строительства и эксплуатации ИТ-ресурсов уровня предприятия в пользу динамических пулов ресурсов, в которых пользователи могут получить доступ к мощностям вычислений, обработки, сетевым ресурсам и ресурсам хранения в соответствии с точными потребностями их приложений. Это делает возможным бизнес-ориентированный подход к (пере-) построению ИТ инфраструктуры в любое время и превратить его из использующего постоянные серверы для различных рабочих нагрузок к низкопрофильным вычислительным узлам, которые могут гибко настраиваться для различных запросов приложений.
Основой для Rack-Scale Architecture PRIMERGY является технология Intel® Silicon Photonics в сочетании с системой коммутации PCI-Express и новым подключением оптоволоконных кабелей MXC. Интегрированная технология Intel® Silicon Photonics открывает новые возможности для перемещения больших объемов данных на очень высоких скоростях по более тонким оптическим кабелям, вместо передачи электрических сигналов по медному кабелю. При использовании оптоволоконных кабелей скорость передачи данных увеличивается до скорости света, до значений в 1.6Tbps (Терабит в секунду, что достаточно, чтобы заполнить целиком жесткий диск с размером 1TB всего за пять секунд).
Поскольку данные могут быть переданы на расстояние до 300 метров без снижения производительности, новые проекты ЦОД могут быть оптимизированы. Сетевые ресурсы, ресурсы хранения и вычислительные узлы могут быть разделены, а блоки обработки, которые генерируют наибольшее тепло, могут затем оптимально охлаждаться без использования систем отопления, вентиляции и кондиционирования воздуха (HVAC), а также систем для охлаждения более пассивных компонентов, такие как системы хранения и сетевых ресурсов. Оптимизированный для приложений конструктив сервера Fujitsu также сделает более простым подключение новых серверных узлов или систем хранения, так как они могут быть расположены во внешних стойках и соединены с помощью волоконно-оптических кабелей с серверным ядром.
Совместная разработка Fujitsu и Intel, сервер на основе разукрупненного подхода, базирующийся на технологии Silicon Photonics, впервые был показан в ноябре 2013 года на мероприятии Fujitsu Forum в Мюнхене, Германия.
На выставке CeBIT 2014 компания Fujitsu получила награду Intel за инновации Новаторская технология ЦОД скорости света:
Ситуации использования оптимизированного для приложений конструктива сервера Fujitsu
Подход к серверу с рассредоточением на основе технологии Silicon Photonics идеально подходит для следующих основных случаев использования:
- Совместно используемые системы хранения, или экономичные решения SAN-in-the-box, оптимизированные для виртуализации
- Многоуровневая система хранения оптимизированная для доступа к хранилищам высокой производительности, например, кэширование в OLTP, VDI, SAP HANA
- Рассредоточение ресурсов, например, большое количество GPGPU идеально подходит для сред высокопроизводительных вычислений
Рисунок выше показывает различные традиционные системы стоечных серверов, каждый из которых включает определенный процессор, память, систему хранения и другие ресурсы устройств ввода-вывода. С подход рассредоточением обеспечивает более гибкую и экономически эффективную композицию системы. При распределенном подходе серверные системы строятся из экономных вычислительных узлов с возможностью предоставления дополнительных аппаратных средств из пулов рассредоточенных ресурсов.
PRIMERGY RSA 0.5
Платформы 0.5 масштабируемой в стойку архитектуры являются блоками 4U 19" стойки. В задней части имеется два обеспеченных салазками механизма PCIe ввода/вывода, причем каждое имеет 8 стандартных PCIe 3.0 слотов полной высоты и до восьми оптических портов. Последнее обстоятельство позволяет подключение 8 серверов к PCIe салазковому механизму ввода/вывода. В зависимости от запроса на пропускную способность подключенного сервера можно объединять оптические порты или раздваивать их. Например, использование всех 8 портов, соединенных с различными серверами обеспечивает до 64Gbps на сервер. Объединение 2 портов для одной оптической связи обеспечит 128Gbps к присоединенному таким образом серверу. Разделение портов позволяет подключать большее количество серверов. И, наконец, к одному PCIe салазковому механизму ввода/вывода можно подключить до 16 серверов, причем каждый будет иметь пропускную способность 32Gbps.
Каждый салазковый механизм PCIe ввода/вывода может быть независимо извлекаться "по-горячему". Это обеспечивает полностью резервированную конфигурацию, в которой каждая активная компонента может быть извлечена и заменена без останова системы в случае возникновения технических проблем.
До 4х блоков питания располагаются под салазковыми механизмами PCIe ввода/вывода. Число блоков питанияи мощность каждого из них могут быть выбраны гибким образом на основании потребностей блока ввода/вывода RSA. Выпускаются модули блоков питания различных типов: поддерживаются модули 450Вт, 800Вт и 1200Вт на блок питания. Это позволяет гибкое снабжение питанием на основе запроса корпуса. Например, GPGPU громадную потребность в мощности электропитания, в то время как случаи использования для хранения данных требуют гораздо меньше мощности. Блоки питания поддерживают схемы резервирования N+1 и N+N и могут заменяться без выключения системы. Вентиляторы в блоке ввода/вывода RSA выполнены с резервированием. Вентиляторы могут отводить до 3600Вт. 3600Вт получается от 8 x GPGPU + коммутатор PCIe + мощность вентиляторов.
Блок ввода/вывода RSA 0.5 поддерживает 32 x 2.5" запоминающих устройств с горячей заменой в передней части. Это могут быть накопители на жестких дисках, твердотельные накопители с интерфейсом SAS (до 32) или PCIe SFF SSD устройства (до 24). Если требуется реализация дуального хоста, требуются двухпортовые устройства. PCIe SFF SSD устройства поддерживают двуххостовые соединения с использованием 2 x 2 PCIe lanes.
Требование двойного хоста является частью цепи связи для хранения с полным резервированием, от хостов вниз к устройствам хранения данных. Эта цепь включает в себя избыточные PCIe коммутаторы, избыточностьбыточные контроллеры систем хранения, избыточные SAS или PCIe расширители, а также избыточные устройства хранения данных через RAID или репликацию данных.
В приведенном выше сценарии каждый сервер подключен к двум салазочным механизмам PCIe ввода/вывода. Каждый из салазочных механизмов не зависит от другого. Каждый салазочные мехонизм ввода/вывода PCIe содержит, по крайней мере, один контроллер SAS. Контроллер SAS подключен с резервированием к обоим расширителям SAS. Каждый SAS расширитель подключен к двухпортовым устройствам SAS. Для достижения избыточности могут использоваться либо контроллер SAS, который способен предоставлять функциональность RAID, либо можно использовать репликацию программного обеспечения верхнего уровня данных между устройствами. В результате у нас нет никакой единой точки отказа в цепи подключения устройств хранения.
Если требуется более высокая производительность, например, больше операций ввода-вывода (IOPS) и более низкая латентность, также возможно подключение с резервированием устройств PCIe SSD SFF к коммутатору PCIe. Поддерживаются до 24 устройств PCIe SSD SFF. Каждый связан через PCIe 3.0 X2 с 16Gbps.
Блоки питания и вентиляторы используются совместно внутри блока ввода/вывода RSA 0.5, но также выполнены с резервированием. Все объединительные платы среднего и заднего планов реализованы таким образом, что в случае отказов нет единой точки отказа (SPF, single point of failures).
Следующий рисунок показывает так называемой салазочный механизм PCIe ввода/вывода с установленной материнской платой. Два такие платы могут быть вставлены в блок ввода/вывода RSA 0.5. До восьми стандартных с полной высотой и полной длиной PCIe 3.0 карт могут быть подключены к стандартному x16 PCIe 3.0 разъему. Кронштейн ввода/вывода для оптического приемопередатчика не показан на рисунке. В зависимости от требований топологии и подключения может быть предоставлено либо 16 x4, или x8 8, или 4 x16 MXC разъемов.
По причинам резервирования, каждый из двух салазочных механизмов PCIe ввода/вывода имеет свой собственный модуль ComExpress, который может выполнять программное обеспечение управления для салазочного механизма ввода/вывода. Здесь осуществляется управление назначением и сборкой компонентов ввода/вывода, таких как контроллер PCIe устройств или устройства хранения на подключенных серверах. В качестве интерфейса для программного обеспечения управления верхнево уровня, а также обеспечения автоматизации служб, используется RESTful API.
Оба модуля ComExpress имеют доступ к интерфейсу шасси блока ввода/вывода. Интерфейс блока шасси ввода/вывода поддерживает только служебные функции, такие как передняя панель, вентилятор и блок питания. Оба контроллера управления на салазочном механизме PCIe ввода/вывода управляют интерфейсом в отношении требований мощности и охлаждения. Они оба имеют информации о работе блока питания, передней панели и вентилятора.
Инвариантные к серверу решения
Платформа 0.5 Rack-Scale Architecture в составе "Оптимизированного под приложения конструктива сервера" предназначена для оптимальной поддержки сервера PRIMERGY любого типа, помимо этого, она включает также поддержку для не-PRIMERGY x86-серверов. Концепция заключается в том, что стандартные разъемы PCIe x8 или x16, могут быть использованы для подключения к блоку ввода/вывода RSA 0.5. Для оптического соединения используются oPCIe карты, адаптеры стандартного форм-фактор в низкопрофильном PCIe исполнении. Эта карта преобразует физический уровень от электрического PCIe к оптическому PCIe.
В блоке ввода/вывода RSA 0.5 оптический PCIe преобразуется обратно в электрический PCIe еще раз, используя плату oPCIe. Такая связь PCIe затем подключается непосредственно к коммутатору PCIe. Коммутатор PCIe принимает все присоединенные ресурсы, выполняя построение пула ресурсов.
Станция управления используется для назначения ресурсов из пула доступных ресурсов для подключенных связей PCIe. С точки зрения присоединенного сервера, такой удаленный ресурс выглядит непосредственно продключенным ресурсом. Другими словами, программное обеспечение сервера не видит никаких различий по сравнению с платой PCIe, которая подключена локально. Во время нумерации шин, удаленные ресурсы PCIe нумеруются аналогично локальным ресурсам. Они выглядят как новые карты, подключеные к данному серверу. Не существует потребности в специальных программных драйверах для установления связи с системой коммутации, как это требуется для Fibre-Channel или Ethernet. Конечно, для удаленных карт требуются стандартные драйверы например драйвер Ethernet для Ethernet NIC или драйвер MegaRaid для систем хранения аналогично тому, как они необходимы для локально подключенных плат. Так как функционирование связи каждого сервера не зависит от других, серверные связи от разных типов серверов могут быть подключены к блоку ввода/вывода RSA 0.5.
Подводя итог, блок ввода/вывода RSA 0.5 инвариантен к подключению серверов, потому что нет никаких специальных требований - отличных отимеющихся для стандартных разъемов PCIe. Это также в основном относится к серверам 3х поставщиков, но некоторые ограничения в отношении поддержки управления верхнево уровня должны быть соблюдены.
Технические детали
Primergy RSA05 |
|
Базовый блок | PY RSA05 |
Тип размещения | Монтируемый в стойку |
Архитектура устройств хранения | 32x 2.5-inch SAS/SATA or 24x PCIe SFF SSD |
Источник питания | С горячим резервированием |
Материнская плата |
|
Тип материнской платы | PCIe 3.0 коммутирующая материнская плата |
Высокая доступность | Конструктив материнской платы с резервированием |
Интерфейсы |
|
Оптический разъем | 16x MXC разъем (128 PCIe 3.0 lanes - 2Tbps отправка + получение) |
Управляющая сеть (RJ45) | 2x выделенных порта управления локальной сетью для плат управления шасси |
Слоты |
|
PCI-Express 3.0 x16 | 8x слотов с полной высотой и полной длиной (75Вт) (по 4 на каждой материнской плате) |
PCI-Express 3.0 x8 | 8x слотов с полной высотой и полной длиной (225Вт) (по 4 на каждой материнской плате) |
Размеры / вес |
|
Стойка (W x D x H) | 482.5мм (Панель)/ 448мм (Корпус) x 736мм x 177мм |
Глубина монтажной стойки | 700мм |
Высота блокавстойке | 4U |
Монтаж в 19" стойку | Да |
Вес | до 35кг |
Замечанияпо весу | Реальный вес может варьироваться взависимости от конфигурации |
Набор размещения в стойке | опционален |
Окружающая среда |
|
Рабочая температура окружающей среды | 10 - 35°С |
Допустимая относительная влажность | 10 -85% (без конденсата) |
Операционная среда | FTS 04230 - Руководство для центра обработки данных (спецификация установки) |
Электрические характеристики |
|
Параметры питания | 1-4x 1200Вт с возможностью горячей замены источника питания |
Макс мощность одного блока питания | 1200Вт (КПД 94%) |
Эффективность питания | 94% (80 PLUS platinum) |
Выдача блока питания с горячим подключением | 1200Вт (эффективность 94%) |
Резервирование питания с горячей заменой | Да |
Номинальный диапазон напряжения | 100В - 240В |
Номинальный диапазон частот | 47Гц - 63Гц |
Номинальный ток в базовой конфигурации | 100В - 240В |
Активная мощность (макс. конфигурация) | 2400Вт |
Замечания относительно активной мощности | Чтобы оценить энергопотребление различных конфигураций используйте PowerCalculator в System Architect: http://configurator.ts.fujitsu.com/public |
Приложения
Гибкая облачная инфраструктура
Никакие два облака не выглядят одинаково
Ускоряется тенденция по переносу большего числа типа приложений в облака. При увеличении типов расположенных в облаках приложений требования к облачной инфраструктуре отклоняются от первоначално однородной облачной инфраструктуры.
Облака должны приниматься на вооружение гибко.
- На основе общих облачных компонентов
- Добаваляя необходимые компоненты по требованию
Существует настоятельная необходимость приспосабления аппаратных средств к изменяющимся нагрузкам в облаке. Время нахождения рабочей нагрузки на определенной облачной платформе уменьшается. Принимая во внимание данную тенденцию, необходимо обеспечить гибкость в средах размещения облаков. В то же время необходимо сохранить основные внутренние ценности облачных платформ. Это требует приспособленного к облаку гибкого решения для адаптации аппаратуры инфраструктуры на соответствие рабочим нагрузкам облака.
Гибкая облачная инфраструктура требует следующего:
- сохранения совместных вычислительных ресурсов, ресурсов хранения и сетевых средств
- гибкого добавления аппаратных ускорителей таких, как GPGPU
- подключения правильных сетевых ресурсов
С переходом от моделей использования приложений к облачному подходу, в облаках доступно все больше и больше приложений. Это верно даже для приложений корпоративного типа, причем как на их территории, так и за ее пределами. С точки зрения ИТ-инфраструктуры необходима бoльшая гибкость для поддержки в полной мере облачного подхода и обеспечения определяемой программным обеспечением инфраструктуры и предоставления определяемого программным обеспечением центра обработки данных. Определяемая программным обеспечением методология совместно с хорошо спроектированным управлящим программным обеспечением обеспечивают бoльшую гибкость и сохраняют затраты на управление на низком уровне. OpenStack, VMWare vCenter или Microsoft System Center являются хорошими примерами такого управляющего программного обеспечения на верхнем уровне гибкой инфраструктуры. Поскольку не существует закрепленных приложений для назначений инфраструктуры в облаке, как это было принято в традиционных ЦОД, ИТ-инфраструктура должна стать гибкой для поддержки различные требований приложений. Тем не менее, не существует единой ИТ-инфраструктуры, которая соответствовала бы требованиям всех приложений. Каждое приложение требует своей, отличной вычислительной мощности, объема памяти, доступа к сети и системам хранения. Кроме того, потребность в подобных ресурсах для каждого приложения зависит от модели использования клиентом. Бoльшее подключение пользователей к приложению или бoльшее число копий приложений изменяет потребность в ресурсах и загрузке. Изменения жизненного цикла приложений, такие как обновление или модернизация, измененяют также зону охвата ресурсов приложения.
Гибкая инфраструктура решает дилемму "Одна подходит всем" традиционной базовой инфраструктуры Облака адаптацией к потребностям приложений.
Виртуализация или контейнеры являются одним из способов для получения такой гибкой инфраструктуры, но это страдает от фиксированной аппаратной platformthat обычно предоставляется. Именно здесь вступает в действие оптимизированный под приложения конструктив сервера, как часть RSA 0.5 (масштабируемой в стойке ахитектуры, Rack-Scale Architecture) Fujitsu, обеспечивая возможности развертывания по требованию новой ИТ-инфраструктуры из пула ресурсов. С точки зрения клиента, это очень похоже на развертывание виртуальных серверов, однако более гибко с точки зрения аппаратных компонентов, которые могут быть скомпонованы для построения такой ИТ-инфраструктуры.
Вот некоторые основные шаги, которых необходимо придерживаться:
- Отберите компоненты сервера из пула ресурсов и составьте свой сервер на основе потребностей приложения
- Установите свою среду виртуализации поверх выбранных новых аппаратных средств
- Установите свои приложения в среде виртуальных машин
- Установите свои приложения непосредственно во вновь собранный сервер
- Для приложений, не получающих прямой выгоды от виртуализации, например, если они уже выполнены в виде масштабируемых кластерных решений или используют простые средства балансировки нагрузки для реплицируемых приложений
Экземпляры сервера составляются из пулов ресурсов в соответствии с профилем приложения. Эти составные серверы могут быть использованы для поддержки слоя виртуализации программного обеспечения и дают возможность дополнительной управляемости и гибкости.
Сетевые функции виртуализации (NFV)
Интернет-провайдеры являются основной движущей силой промышленной инициативы NFV (Сетевые функции виртуализации, Network Function Virtualization). Основными целями инициативы являются:
- знакомство с нуждами телекоммуникационных клиентов для динамичных, гибких служб для масштабирования вверх/вниз услуг, поддержки услуг на базе программного обеспечения, требующих стандартного отраслевого серверного оборудования
- ускорение вывода на рынок времени развертывания сеиевых служб путем более динамичной адаптации к менящимся требованиям бизнеса
- снижение операционных затрат (OpEx) за счет упрощения равертывания и администрирования сетевых услуг
- уменшение капитальных затрат (CapEx) благодаря использованию менее дорогостоящих стандартных аппаратных и программных средств вместо проприетарных реализаций аппаратных/программных средств для сетевых функций, а также устранения инфраструктуры за счет предоставления поддержки модели развертывания "плати по мере роста"
NFV предлагает новый способ разработки, развертывания и управления сетевыми службами. Это отсоединяет от проприетарных аппаратных техник сетевые функции, такие как: преобразование сетевых адресов (NAT), межсетевой экран, обнаружение вторжений, служба доменных имен (DNS), служба хранения, коммутация/маршрутизация и т.д.. Они предназначены для консолидации и предоставления сетевых служб на основе полностью виртуализированных серверов, систем хранения и сетевой инфраструктуры. Они использует стандартные технологии виртуализации, работающие на серийных вычислительных, коммутаторах и устройствах хранения данных для виртуализации сетевых функций.
Требования к поставщику услуг вычисления, сетевых служб и ресурсов хранения аппаратной инфраструктуры (емкость, пропускная способность и латентность) могут меняться в зависимости от запросов служебных функций, которые должны быть построены. Многие сервисные функции, такие как видео или функции сетевой коммутации, могут существенно выиграть при использовании специализированного оборудования, такого как высокопроизводительные сетевые контроллеры, ускорители для шифрования и коммутации/переадресации пакетов, новых уровней хранения, таких как SSD-накопители, память класса хранения и т.д..
Модель дезинтеграции RSA0.5 позволяет выносить аппаратные средства из вычислительных узлов. Модульность функций аппаратного ресурса NFV должна определять сменные блоки. Становится возможным раздельное обновление, масштабирование, управление жизненным циклом критических компонентов ввода-вывода. Совместное использование из пулов ресурсов между множеством композиций ИТ- систем обеспечивает улучшенную амортизацию дорогих компонентов.
ETSI (Европейский институт стандартов связи) работает над стандартизацией архитектуры NFV с учетом возможностей дезинтегрированного сервера. Стандарты управления и оркестровки интерфейсов находятся на стадии определения для допуска служб, клиентов и бизнес-ориентированной оркестровки и композиции стандартных аппаратных средств для вычислений, систем хранения и сетевых средств.
Цель такого подхода PRIMERGY RSA заключается в поддержке NFV требований эталонной архитектуры, как в определении ETSI, так и в определении ONF (https://www.opennetworking.org, http://www.etsi.org). Все это поддерживает ведомую NFV оптимизированную ИТ-инфраструктуру построения с масштабируемыми емкостью, производительностью и стоимостью.
HPC специфичные приложения
Ускоритель аппаратных технологий может помочь получить высокую производительность ИТ решения при низком энергопотреблением, малой занимаемой площади и низкой стоимости для широкого круга научно-технических прикладных программ, а также безопасных приложений для сетевой среды и систем хранения. Таким образом, значительно выросла потребность рынка в аппаратных ускорителях.
Устройства аппаратный ускорения, такие как GPGPU, как правило, приходят обладая сильным распараллелеливанеием вычислителений и архитектур памяти, которое может привести в исключительным значениям производительности конкретных приложений. Эффективное отображение процессов с большим количеством процессорных ядер поддерживается специфическими пакетами программного обеспечения для таких устройств. Успешными областями применения GPGPU, например, являются 3D-реконструкция изображений, молекулярная динамика (MD), высокоскоростная геометрия, модели геометрической алгебры и комплексная обработка сетевых данных на скорости сети.
Большинство устройств ускорения поставляются с интерфейсом PCIe и упакованы в типичные форм факторы устройств PCIe. Это делает их в основном доступными для использования в стандартных серверных системах. Тем не менее, GPGPU, подобные Intel® XEON PhiTM, занимают слоты PCIe двойной ширины. GPGPU, в основном, требуют более протяженное пространство слотов по сравнению со стандартными устройствами и несколько раз превосходят превосходят потребности по энергопотреблению стандартные карты PCIe. Некоторые приложения хорошо масштабируют производительность по мере добавления устройств ускорения к одному вычислительному узлу, другие приложения не дают такого эффекта. Способ, которым ускорители подключаются к серверной системе также важен для соотношения производительность/стоимость конкретных прикладных установок HPC. Некоторые рабочие нагрузки могут существенно выиграть при нескольких соединенях с высокой пропускной способностью между акселератором устройств и комплексом ЦПУ/память; другие, более чувствительные к вычислительным нагрузкам, не требуют высокоскоростного подключения между ЦПУ/памятью и устройством ускорения.
Для монтажа GPGPU, необходима реализация обширного перечня дорогостоящих профилактических мер в серверной системе. Поставщикам ИТ становится все труднее построение собранных вединый корпус серверных системы, которые могут поддерживать большее разнообразие требований к конфигурации системы ввода/вывода при разумных затратах.
Увеличение HPC как предлагаемой услуги означает, что ИТ-индустрия обязана развивать системы конструкций HPC, от изначально в основном статически настроенных систем к более гибким (пере-) настраиваемым серверным системам. Создание GPGPU таким, например, как аппаратные ускорители, назначаемые вычислительным узлам из пулов ресурсов, позволят настраивать систему по требованию бизнеса, администратора и управлению клиента. Это позволяет избежать работ с чрезмерными капиталовложениями в затратную, дорогостоящую и с чрезмерным электропотреблением инфраструктуру.
Подход Fujitsu RSA может вместить в корпус до восьми GPGPU. RSA может поддерживать широкий спектр восходящей вариантов линий связи с промежуточной возможностью коммутации PCIe. Поддерживаются различные модели реализации, начиная с совместного использования одного устройства ускорения между несколькими узлами, до восьми GPGPU назначаемых одному вычислительноve узлу.
Решения для хранения данных HPC
Картинка ниже показывает состояние дел в области эталонной архитектуры для высокопроизводительных вычислений.
Низко латентная, с высокой пропускной способностью, хорошо масштабируемая кластерная структура обеспечивает межпроцессорное соединение узлов для высоко производительной межузловой коммутации. Infiniband сегодня наиболее востребованный тип системы коммутации в HPC приложенях для соединений с низкой латентностью между узлами. Вычислительные узлы могут включать в себя устройства хранения не показаные на рисунке. Содержимое данных в локальных устройствах вычислительных узлов может быть потеряно в неисправноvм узле, что является причиной того, что локальные устройства хранения вычислительного узла, как правило, используются только для кэширования/буферизации данных дистанционного хранения.
В установках HPC уровня предприятия для доступа к хранилищам используется вторая, независимая избыточная кластерная системакоммутации (Ethernet, Infiniband или Fiberchannel). Часто на предприятии одновременно развернуты HPC установки нескольких различных узлов хранения с различными свойствами (латентностью, пропускной способностью, надежностью).
Файловые системы HPC, такие как Lustre, могут иметь очень много средств достижения цели, начиная с наличия нескольких узлов различных уровней хранения развернутых в одно время. Развертывание различных решений узлов для хранения горячих (с очень частыми обращениями) теплых, холодных или даже черных данных (архивов) с соответствующими иерархическими носителями информации, позволяет размещать данные на наиболее подходящем носителе. Такие различные пулы хранения помогают оптимизировать производительность при сдерживании расходов. Lustre поддерживает объектно-ориентированную модель данных, включющую несколько слоев абстракции по улучшению производительности и масштабируемости. Файлы рассматриваются как объекты, которые перемещаются через серверы метаданных. Серверы метаданных поддерживают операции пространства имен, такие как просмотр файлов, как создание и манипулирование атрибутами файла/каталога. На рисунке ниже показана эталонная архитектура из многоуровневой реализации хранилища Lustre с иерархическим управлением хранением данных.
Приходящие на рынок новые технологии устройств хранения такие, как память уровня хранения (SCM, storage class memory), как NOR/NAND устройства на основе флэш-памяти в различных классах производительности, устройства с доступностью файлов с размером, выходящим за пределы размера блока разбиения, будет стимулировать спрос на более дифференцированную поддержку УРОВНЕЙ хранения в будущих реализациях HPC.
Блок ввода/вывода PRIMERGY RSA 0.5 разработан в качестве строительного набора узла хранения, поддерживающего агрегацию подсистем различного уровня хранения. Для одного или нескольких вычислительных узлов можно сделать доступными подсистемы c различными классами решений по производительности/мощности хранения данных, начиная с класса памяти хранилищ глобального совместного доступа (SCM, Storage Class Memory) вплоть до пулов ресурсов SSD c высокой доступностью (HA, High Available). Поддерживается эксклюзивное назначение узлов хранения отдельным вычислительным узлам или даже подсистемам собранным для совместного использования несколькими вычислительными узлами с несколькими путями доступа. Также для построения систем для высокопроизводительных вычислений будет поддерживаться совместное использование конечных устройств PCIe (PCIe Endpoint Sharing), т.е. по причинам экономии, а также для подсистем хранения c высокой доступностью (HA).
HPC приложения, использующие системы коммутации PCIe для связи между узлами
Реализация матрицы коммутации PCIe блока ввода/вывода PRIMERGY RSA 0.5 будет поддерживать стандартный сетевой протокол, основанный на межхостовой коммуникации портов. Благодаря встроенной поддержке системы коммутации PCIe для стандартных API на основе сетевого взаимодействия становится возможной межузловое взаимодействие до стоечного уровня с самой низкой из возможных латентностью и высокой пропускной способностью. Высокая пропускная способность и низкая латентность возможности туннелирования IP трафика через физический уровень PCIe позволяет значительно сократить капитальные затраты, эксплуатационные расходы, а также потребность в пространстве и энергозатратах, что представляет особый интерес в высокопроизводительных приложениях.
Для межузловой сетевой связи в сети коммутации PCIe будет поддерживаться программный стек OFEDTM (OpenFabric Enterprise Distribution) API. Широкий спектр особенно высокопроизводительных вычислений может быть поддержан и запущен независимым от типа межузловой сети коммутации PCIe с использоввание более низкого физического транспортного уровня.
Альянс OFA (Open Fabric Alliance), который обеспечивает программный стек OFED, является сообществом открытого исходного кода, позиционируется на разработке, тестировании и лицензировании сетевое программное обеспечение высокой производительности для серверов и систем хранения данных. На рисунке ниже показан обзор функциональности программного стека OFED, который может поддерживаться готовыми к использованию прозводимыми вендором драйверами устройства на имеющемся коммутаторе PCIe, взаимодействуя с верхним слоем производимых OFA модулей программного обеспечения.
Программным стеком OFED поддерживаются следующие протоколы:
- SRP-SCSI RDMA
- iSER-iSCSI поверх RDMA
- RDS -Reliable Datagram Service (Служба надежных дейтаграм), используемая для низколатентных, высокопроизводительных мепроцессорных коммуникаций (IPC)
- Протоколы интернет - TCP/UDP/IP
- SDP - Socket Direct Protocol (прим. перев.: Infiniband)
- PureScale/GPFS, RDMA FileIO
- UDAPL - User Direct Access. Набор пользовательских программных библиотек API для RDMA
- MPI Message Passing Interface (интерфейс передачи сообщений) для программирования параллельных вычислений
Управление
Управление инфраструктурой
DMTF (Distributed Management Task Force, www.dmtf.org, рабочая группа по управлению настольными/ распределенными системами) в настоящее время работает с ИТ-индустрей и другими организациями над поддержкой API подхода "Определяемых программным обеспечением центров обработки данных" (SDDC, Software Defined Data Center).
Доступное сегодня программное обеспечение облачных вычислений может уже строить и управлять публичными и частными реализациями облаков. Тем не менее, большинство из доступного сегодня программного обеспечения управления облаками может очень хорошо управлять виртуальными вычислительными ресурсами, однако включают в себя только базовые возможности для физического мониторинга и управления ресурсами.
Подход определяемых программным обеспечением ЦОД означает, что это изменяется. OpenStack, как один из самых популярных на сегодня программных стеков для реализаций облаков уровня предприятия, развивается в направлении получения лучшего понимания возможностей аппаратной платформы и управления ими. Программное обеспечение для управления OpenStack будет поддерживать более подробные и разнообразные вычислительные возможности и средства хранения данных с фильтрацией планировщиками. Мониторинг и управление различными устройствами ускорения также будет поддерживаться в ближайшем будущем.
ИТ-индустрии требуются независимые от производителя API для создания объединяемых в пулы аппаратных ресурсов управляемых из стеков программного обеспечения облака. DMTF с поддерживающими рабочими группами недавно сделал большой прогресс в определении API управления платформой с поддержкой масштабируемых платформ строимых из пулов ресурсов. Fujitsu по определению будет реализовывать эти стандартные интерфейсы.
RESTful API
Что касается управления инфраструктурой, Fujitsu будет сотрудничать с Intel в отношении их архитектуры масштабируемой в стойке для того, чтобы обеспечить общий API для партнеров, таких как VMware, Microsoft, OpenStack и сообщество Linux. Это позволит сторонним разработчикам использовать платформы Rack-Scale Architecture для целей управления инфраструктурой.
Цель заключается в обеспечении управления объединенными в пулы вычислительными узлами, сетевыми средствами и ресурсами хранения, а также других ресурсов. Это включает в себя поддержку для ознакомления с возможностями ресурсов и автоматизированном предоставлении логических ресурсов на основе требований приложения. Также поддерживается измерение и управление уже потребленных ресурсов.
Цель заключается в поддержке управляемой политиками оркестровки объединенных в пулы ресурсов для удовлетворения запросов приложений и уровню услуг обязательных для рабочих нагрузок клиентов.
Серверная часть управления должна оставаться неизменной. Контроллер управления материнской платой (BMC, Board Management Controller) является интерфейсом управления сервером для структуры управления верхнего слоя. Состав серверов и объединенные блоком ввода/вывода RSA 0.5 в пулы комплектующие, как правило, подвергаются предварительной загрузке с помощью независимого RESTful API и уровня службы RSA. Если запущены операционная система или гипервизор, может быть использован PCIe операция замены "по-горячему" для изменения состава сервера и объединенных комлектующих из пулов.
Контроллер управления в блоке ввода/вывода RSA 0.5 является стандартным модулем Type 10 ComExpress с мощным процессором Celeron под управлением ОС Linux. Этот модуль ComExpress предоставляет все необходимые интерфейсы для компонентов блока. Программное обеспечение управления шасси работает на этом модуле ComExpress. В качестве интерфейса к более высоким уровням управления менеджера блока ввода/вывода шасси предоставляется RETfull API. Менеджер шасси включает средства управления блоком ввода/вывода RSA 0.5, средства управления сетью, средства управления хранением, средства управления платами PCIe и средства управления интерфейсом сервера.
Решения оптических приемопередатчиков Intel PCIe
Для того, чтобы заработала система коммутации PCIe, серверные узлы и блок ввода/вывода и должны быть соединены. При использованием только решений с медным кабелем должны учитываться ограничения с точки зрения длины кабеля и плотности разъемов. В этом случае поддерживаются только расстояния до 5 метров, а разъемы огромны и сопоставимы с размером планки крепления низкопрофильного устройства PCIe. Ограничение длины лимитирует охват такой связью PCIe только соседними узлами внутри стойки, а проблема плотности делет невозможным подключение множества серверов к блоку ввода/вывода.
С помощью решения Intel Silicon Photonics будут преодолены оба ограничения. Длинна такого оптического соединения в настоящее время достигает 300 метров, что делает доступными удаленным блоки даже за противопожарными барьерами в центре обработки данных. Плотность кабеля MXC и плотность оптической системы допускают большое количество портов коммутаторов. Способность PCIe объединить или разделять (раздваивать) полосы (lanes) позволяет гибко настраивать оптические порты. Например, индивидуальный х 16 оптический PCIe-трансивер может быть использован как один большой порт с 128Gbps или 2 порта с 64Gbps или 4 порта с 32Gbps.
Изображение выше показывает предпродажный дизайн от Intel х 16 оптический трансивера PCIe, который может быть использован в блоке Fujitsu RSA и серверах Fujitsu PRIMERGY для преобразования от электрических к оптическим сигналам. (Прим. пер. промышленные образцы были представлениы на Fujitsu Forum 2014 19-20 ноября в Мюнхене, Германия).
Заключение
Используя технологию Intel® Silicon Photonics, платформа PRIMERGY RSA 0.5 обеспечивает модульную, гибкую и надежную архитектуру - уверенное будущее благодаря отказоустойчивой, универсальный и предназначенной отвечать различным потребностям. Огромное разнообразие компонентов ввода/вывода может быть подключено к платформе - от энергонезависимых запоминающих устройств с наивысшей производительностью, таких как PCIe платы расширения или 2,5" SFF SSD-накопители, сетевые интерфейсы высокой производительности или мощные сопроцессорные платы. Они объединяются с помощью каналов связи на базе соединений Silicon Photonics с несколькими серверами на расстояния до 300 метров. Реализация гарантирует, что устройства внутри платформы PRIMERGY RSA могут быть выделены отдельным удаленным серверам или могут совместно использоваться несколькими удаленными серверами. Совместное использование компонентов хранения на основе PCIe внутри стойки между серверами будет значительно оптимизировать общую инфраструктуру хранения, устраняя необходимость подключения к SAN и SAS. Это упрощает настройку и оптимизацию эксплуатационных расходов, а также капитальных затрат. Одновременно платформа PRIMERGY RSA позволяет избежать единой точки отказа и обеспечивает отличные характеристики по RAS (сервисам удаленного доступа). Архитектура является безразличной к серверам - PCIe поверх соединений на основе Silicon Photonics обеспечивает единую связь между сервером и платформой PRIMERGY RSA. Связность слотов обеспечивается до тех пор, пока сервер имеет свободный слот PCIe.
Существует огромный выбор вариантов использования сценариев для платформы RSA 0.5. Основной принцип заключается в предоставлении пулов ресурсов для вычислительных объектов, устанавливая высокий уровень гибкости и возможности перенастройки в любое время. В этом смысле конфигурации могут быть адаптированы к изменяющимся потребностям приложений, необходимым приложению конечного пользователя, которые он собирается выполнять на своем сервере - в действительно оптимизируемая приложениями архитектура.
Авторы
Georg Müller | FTS PSO PM&D SV E HW | |
Bernhard Homölle | FTS PSO PM&D SV E HW | |
Ewald Harms | FTS PSO PM&D SV PM DCS | |
Timo Lampe | FTS MKT P Server | |
Bernhard Schräder | FTS PSO PM&D IN FL |
-
[1] _
О Fujitsu
Fujitsu является лидером среди Японских компаний информационной и коммуникационной технологии (ICT) предлагающей полный спектр технологических продуктов, решений и услуг. Приблизительно 170,000 сотрудников Fujitsu обеспечивают потребителей более чем в 100 странах. Наш опыт и мощь информационных и коммуникационных технологий помогают строить будущее общества вместе с нашими клиентами. Fujitsu Limited (TSE:6702) совокупная выручка компании составила 4.4 триллиона йен (US$47 млрд.) для финансового года, закончившегося 31 Марта, 2013. Для получения дополнительной информации посетите веб-сайт: http://www.fujitsu.com.
Technical Contacts
Fujitsu Technology Solutions Gmbh
http://www.fujitsu.com
Fujitsu Technology Solutions Gmbh