И вновь вести с полей ставшей космически далекой Барселоны. China Mobile представила технологию, которая обещает решение проблемы масштабирования искусственного интеллекта за пределы одного ЦОД. Речь идет о технологии GSE-DCI (от англ. Global Scheduling Ethernet - Data Center Interconnect), это оригинальная разработка компании для соединения распределенных ИИ-ЦОД.
GSE (от англ. Global Scheduling Ethernet) - базовая технология, разработанная China Mobile. Впервые представлена в 2023 году. Изначально GSE была внутрицентровой (intra-data-center) решением с поддержкой пакетного распыления (packet spraying) для высокопроизводительных ИИ-кластеров. GSE-DCI расширяет её возможности, обеспечивая межЦОДовое соединение.
Технология уже воплощена в железе, китайский оператор представил маршрутизатор для создания ИИ-ЦОД с пропускной способностью 115.2 Тбит/с.
Зачем это нужно?
Сегодня мощности одного дата-центра ограничены физическими возможностями по электропитанию и охлаждению. Чтобы обучать огромные нейросети с триллионами параметров, учёным приходится объединять вычислительные мощности кластеров, разнесённых на десятки и сотни километров. До сих пор это объединение было проблемой: эффективность решения резко падала из-за задержек и потерь данных в каналах связи.
Как заявляет China Mobile, новый маршрутизатор и протокол GSE-DCI решают ключевые проблемы: балансировку нагрузки на длинных линиях, управление перегрузками и обеспечение безопасности. В частности, тесты компании показали, что при соединении вычислительных кластеров удаленных более, чем на 100 км, эффективность распределенного обучения достигает 98% от того, что получилось бы, если бы эти кластеры находились в едином помещении.
Это открывает для возможности создания "суперкластеров" для стран, не имеющих доступ к самым передовым чипам - за счет объединения распределенных кластеров. Это повышает надежность ИИ, т.к. если он децентрализован, его будет сложнее уничтожить, если кто-то будет стараться это сделать. И, наконец, в гипотетической ситуации объединения вычислительных кластеров всей планеты это позволит получить ИИ-мощности, которые недоступны ни одной стране мира. ||