Оператор T2 в сотрудничестве с ИТ-компанией «Инфосистемы Джет» спроектировал и внедрил систему Пульт на базе российского продукта компании «Лаборатории Числитель».
Новая система обеспечивает непрерывный контроль распределенной инфраструктуры T2 и призвана обеспечивать ее устойчивую работу даже при выходе из строя отдельных ЦОД. Решение уже отслеживает и прогнозирует состояние более 30 тысяч объектов по всей стране. Как утверждает оператор, скорость реагирования на инциденты выросла в 2.7 раза. Архитектура способна выдержать трехкратный рост количества данных, обеспечивает долгосрочное хранение - до семи лет, а также анализ больших данных.
Прибегать к таким решениям операторов заставляет рост объемов обработки данных и повышение требований к надежности услуг. Любые сбои в инфраструктуре как правило, становятся заметны миллионам абонентам, нанося ущерб репутации и выручке компании. В T2 искали решение, которое обеспечило бы полную наблюдаемость инфраструктуры, высокую производительность и устойчивость к внешним воздействиям. И такое решение на российском рынке нашлось.
Разработка построена на базе российской разработки «Пульт», в основе решения – ядро Zabbix. Геораспределенная архитектура охватывает три ЦОДа и 12 площадок. Решение отличается повышенной производительностью – система обрабатывает до 15 млн метрик. Сбор данных идет через прокси-серверы, а гибридность хранения обеспечивают PostgresSQL и ClickHouse.
Комбинирование технологий обеспечивает высокую скорость обработки данных и простую масштабируемость.
Павел Ковальский, директор по стратегическому развитию сети Т2:
«Новая система демонстрирует стабильную работоспособность без деградации, готова к дальнейшему масштабированию и поддерживает рост нагрузки без необходимости архитектурных изменений. Модернизация и внедрение катастрофоустойчивого мониторинга позволили не только повысить скорость реакции на инциденты, но и перейти к проактивному управлению инфраструктурой. Сегодня мы уверены в устойчивости системы даже в самых сложных сценариях».
Алексей Акопян, руководитель направления мониторинга «Инфосистемы Джет»:
«Перед нами стояла задача федерального масштаба – создать распределенную архитектуру, которая сохраняет работоспособность даже при серьезных отказах. Мы спроектировали систему, сочетающую отказоустойчивость, масштабируемость и соответствие требованиям импортозамещения, с запасом на дальнейший рост. Она работает на основной и резервной площадках – и при отказе узлов или целого дата-центра сервисы продолжают работу автоматически».
Дмитрий Унтила, СРО «Графини» и «Пульта»:
«Одним из ключевых преимуществ системы «Пульт» перед Zabbix являются наши доработки, которые позволяют ей стабильно и надежно работать при высоких нагрузках в enterprise-инфраструктуре и хранить большие объемы данных. В результате нам удалось в три раза увеличить мощности по сбору данных мониторинга и оптимизировать их хранение в 10 раз».