Alert-ы и Error-ы СХД, как с ними быть?

23 часа 11 минут ago
Не так давно, в городе N одна IT-компания, специализирующаяся на работе с данными клиентов, успешно вела свою работу в своём ДЦ в режиме 24/7. Тот самый случай, когда «сапожник в сапогах», т.е. в IT-компании IT было хорошо отлажено. Интересное началось, когда после многих лет работы свой пост покинул технический директор, который стоял у основ, на котором держался контроль за исправной работой всей IT-вертикали. На смену пришел человек не менее опытный (далее по тексту – “профи”), и даже с более широким кругозором, он буквально очаровал “бизнес” новыми горизонтами развития. Но, как это часто бывает, люди высокого полёта очень неохотно спускаются на землю уровень рядового администрирования.

image
Хронометраж инцидента:

День первый (апрель): одна местная СХД начала сыпать alert-ами, а потом среди них появились и первые error-ы. Увидев это, админ известил своего руководителя согласно инструкции. Наш профи отмахнулся отпиской ответным письмом, следуя “золотому правилу программиста” – “Работает? Не трогай!”.

Отступление первого дня — Обычно СХД общается с помощью оповещений среди которых стоит выделить Алерты (от “Alert”) – сигналы тревоги. По сути, это оповещения, сигнализирующие о тревожном событии или предупреждающие его. Типы оповещений:
Варнинги (от “Warning”) – предупреждения; как правило дают время спокойно подумать.
Эрроры (от “Error”) – ошибки; например, вылетел диск, но доступ к данным не прервался; здесь уже не стоит откладывать их решение на потом.
Критикал эрроры (от “Critical Error”) – критические ошибки, гарантированно
Читать дальше →
Agat-Aquarius

[Перевод] Корректное завершение работы pod’ов в Kubernetes-кластере

1 день ago

image
Корректное завершение работы контейнеров в Kubernetes


Это вторая часть нашего пути (прим. пер. — ссылка на первую статью) к достижению нулевого времени простоя при обновлении Kubernetes-кластера. В первой части мы изложили проблемы и задачи, возникающие при выполнении операции drain для нод в кластере. В этом посте мы расскажем, как решить одну из таких проблем: корректно завершить работу pod’ов.

Читать дальше →
alina_kocheva

Создание отказоустойчивой ИТ инфраструктуры. Часть 4. Внедрение коммутаторов Cisco 3850 для межсетевой маршрутизации

1 день 15 часов ago

Статья предназначена для ознакомления с процессом внедрения коммутаторов третьего уровня в существующую сетевую инфраструктуру, и в основном адресована сетевым администраторам и инженерам. В ней рассказывается про настройку стека из двух коммутаторов Cisco 3850, и их использование для организации более эффективной и отказоустойчивой маршрутизации трафика между внутренними сетями.


Читать дальше →
BNKT0P

[Перевод] Определяем подходящий размер для кластера Kafka в Kubernetes

6 дней 3 часа ago
Прим. перев.: В этой статье компания Banzai Cloud делится примером использования её специальных утилит для облегчения эксплуатации Kafka в рамках Kubernetes. Приводимые инструкции иллюстрируют, как можно определить оптимальный размер инфраструктуры и настроить саму Kafka для достижения требуемой пропускной способности.



Apache Kafka — распределённая стриминговая платформа для создания надёжных, масштабируемых и высокопроизводительных потоковых систем реального времени. Её впечатляющие возможности можно расширить с помощью Kubernetes. Для этого мы разработали Open Source-оператор Kafka и инструмент под названием Supertubes. Они позволяют запускать Kafka в Kubernetes и использовать её различные функции, такие как тонкая настройка конфигурации брокера, масштабирование на основе метрик с ребалансировкой, rack awareness (осведомлённость об аппаратных ресурсах), «мягкое» (graceful) выкатывание обновлений и т.д. Читать дальше →
eduard_timoshenko

[Из песочницы] Прикручиваем ActiveDirectory авторизацию к Kubernetes c помощью Keycloak

1 неделя ago
Данная статья написана с целью расширить уже существующую, но рассказывает про особенности связки именно с Microsoft ActiveDirectory, а так же дополняет ее.

В этой статье я расскажу как установить и настроить:

  • Keycloak — это проект с открытым исходным кодом. Который обеспечивает единую точку входа для приложений. Работает с множеством протоколов, в том числе с LDAP и OpenID которые нас интересуют.
  • Keycloak gatekeeper — реверс прокси приложения, позволяющее интегрировать авторизаию через Keycloak.
  • Gangway — приложение которе генерирует конфиг для kubectl с помощью которого через OpenID можно авторизоваться и подключиться к Kubernetes API.
Читать дальше →
Khorn7sk

10. Fortinet Getting Started v6.0. Сопровождение

1 неделя ago


Приветствую! Добро пожаловать на десятый, юбилейный урок курса Fortinet Getting Started. На прошлом уроке мы рассмотрели основные механизмы логирования и отчетности, а также познакомились с решением FortiAnalyzer. В качестве завершения практических уроков данного курса я хочу познакомить вас с различными технологиями, которые могут пригодиться при администрировании межсетевого экрана FortiGate. Необходимая теория, а также практическая часть находятся под катом. Читать дальше →
Recrout

[Перевод] Обновление Kubernetes-кластера без простоя

1 неделя ago

Процесс обновления для вашего Kubernetes-кластера


В какой-то момент при использовании кластера Kubernetes возникает потребность в обновлении работающих нод. Оно может включать в себя обновления пакетов, обновление ядра или развертывание новых образов виртуальных машин. В терминологии Kubernetes это называется "Voluntary Disruption".

Читать дальше →
alina_kocheva

Преимущества 3СХ при построении распределенной сети

1 неделя ago
Организациям, имеющим несколько филиалов, рано или поздно приходится выбирать решение, способное поддерживать единую телефонную сеть для связи удаленных подразделений.

Основные факторы, которые влияют на выбор компании:

  • отсутствие платы за звонки между офисами;
  • отказоустойчивость и надежность решения;
  • высокое качество голосовых коммуникаций;
  • отсутствие потерь времени при связи с другими офисами.

Большинство современных IP-АТС решают задачу на базовом уровне: например, сотрудник из Екатеринбурга всегда может бесплатно позвонить коллегам в Минск или Краснодар. Основные трудности обнаружатся в деталях. Например, сотрудники не будут видеть статусы добавочных номеров в других офисах, не смогут перевести звонок на коллегу из другого города, входящий запрос не будет поставлен в общую очередь и т. д. Это создает проблемы и тогда, когда разные этапы одного бизнес-процесса проходят в разных офисах, и в случае распределенных колл-центров, решающих одну общую задачу.
Читать дальше →
ivanov23712

16 тысяч подключений в секунду: как мы тестировали СКАЛУ-Р Виртуальное Рабочее Место

1 неделя ago

Дано: 96 серверов, 16 000 виртуальных рабочих мест, 160 нагрузочных виртуальных машин и наш софт: система управления платформой виртуализации Скала-Р Управление (СУПВ) и VDI-решение Скала-Р Виртуальное Рабочее Место (ВРМ).


Задача: протестировать систему на эдакий logon storm, при котором имитируется, как 16 000 пользователей одновременно (в течение 1-2 секунд) подключаются к инфраструктуре VDI и своим виртуальным рабочим столам, проходя все этапы авторизации и подключения. Цель: наш VDI должен выдержать нагрузку. Пользователи должны ждать подключения не более 10 минут.


Такой тест, в представлении нашего заказчика федерального масштаба, должен был доказать нагрузоустойчивость решения. Мы приняли вызов — ведь в таких масштабах наша система проверку на прочность еще не проходила. Результаты:



Если вам интересно, как такое масштабное тестирование было организовано и что конкретно отражает эта диаграмма — добро пожаловать под кат.

Читать дальше →
IBS_habrablog

Ansible playbooks — это код: проверяем, тестируем, непрерывно интегрируем. Иван Пономарёв

1 неделя 1 день ago

Предлагаю ознакомиться с расшифровкой доклада Ивана Пономарёва «Ansible playbooks — это код: проверяем, тестируем, непрерывно интегрируем».


Рефакторинг кода может быть увлекательным, особенно если это код вашей инфраструктуры. К тому же Ansible-роли почему-то имеют тенденцию к быстрому увеличению сложности. И это добавляет «изюминку» в вашу задачу. Иван расскажет, как можно преодолевать сложность Ansible-кода с помощью тестирования. В Docker-контейнерах.
По мере разрастания кодовой базы в Ansible приходят знакомые проблемы: сложность поддержки кода, ошибки и страх изменений. У знакомых проблем есть знакомое решение: автоматическое тестирование и CI. В докладе Иван покажет, как с использованием ряда инструментов решить проблемы «хрупкости» Ansible-кода, выполнить статический анализ, протестировать Ansible-скрипты и настроить CI-системы для публикации ролей в Ansible Galaxy.


Читать дальше →
chemtech

Что мы узнали о SRE, когда обработали первые 150 тысяч продакшн-инцидентов

1 неделя 1 день ago
Абсолютной надежности приложения или сервиса нельзя достичь. Пользователи этого не заметят из-за сбоев посредников — сотовых сетей или провайдеров, но при этом останутся без новых функций, потому что все разработчики будут заняты поддержанием стабильности. Но можно достичь того уровня надежности, которого будет достаточно, чтобы были довольны клиенты, бизнес и инженеры с разработчиками. В этом помогает концепция Site Reliability Engineering, которую ввел Google в 2003 году. Основная ее задача — предотвратить «футбол» с багами между разработкой и эксплуатацией.



Концепция SRE содержит много «странных вещей». В SRE разработчики не только пишут код, но и следят за тем, как он работает в продакшне. Доступность и надежность приложений и сайтов начинается с измерения доступности в виде четких показателей и установки показателей надежности. Еще в SRE есть «право на ошибку» или Error Budget. Когда это «право» исчерпано, команда занимается повышением надежности. Если нет — работает над новыми функциями.

Обо всем этом расскажет Матвей Кукуй. SLI, SLO и Error Budget, источники инцидентов и их особенности, инструкция по наведению порядка в мониторинге — об этом под катом через кейсы из реальной жизни.

Читать дальше →
osminog

Удалённая работа набирает обороты

1 неделя 1 день ago


Расскажем о недорогом и безопасном способе обеспечить подключение удалённых сотрудников по VPN, при этом не ввергая компанию в репутационные или финансовые риски и не создавая дополнительных проблем отделу ИТ и руководству компании.

Читать дальше →
Zyxel_Russia

Check Point WatchTower — управляем NGFW со смартфона

1 неделя 2 дня ago


Добрый день, сегодня хотелось бы затронуть тему оборудования для малого бизнеса и офисов до 150-300 пользователей. Современные угрозы безопасности требуют осуществлять защиту периметра сети вне зависимости от масштаба предприятия. компания CheckPoint предлагает целый ряд продуктов серии именно под эти задачи: 1400 cерия, 1500 серия. Оборудование (SMB) поставляется со специально разработанной версией Gaia Embedded (для ARM архитектуры), имеет свои особенности в настройке и взаимодействии с администратором. Управление может осуществляться как локально, то есть непосредственно через сам Security Gateway (с помощью Web-интерфейса), так и централизованно — с помощью отдельного Management Server (через SmartConsole).

Возможно, для вас станет новостью появление третьего варианта по управлению вашим шлюзом, с помощью смартфона. CheckPoint WatchTower позволяет подключаться к вашему Security Gateway с помощью специального мобильного приложения. Читать дальше →
cooper051

Применение Flowmon Networks для контроля производительности распределенных приложений и баз данных

1 неделя 2 дня ago


Статью подготовил Dmitriy Andrichenko | Sales Executive, Russia & CIS | Flowmon Networks

Приветствуем Вас на странице нашей новой статьи, посвященной решению задач контроля производительности распределенных сетевых приложений и баз данных. Данная статья является продолжением цикла публикаций, посвященных решениям компании Flowmon Networks и, в частности, продолжением обзора «Сетевой мониторинг и выявление аномальной сетевой активности» с применением технологий безсигнатурного анализа.
Итак, начнем, но в начале скажем пару слов о компании Flowmon Networks и проблематике вопроса.

Для тех, кому лень читать, в ближайшее время состоится вебинар по решениям Flowmon Networks.
Читать дальше →
cooper051

Защита списков рассылки от спама в Zimbra OSE

1 неделя 2 дня ago
Одной из самых широко используемых функций корпоративных платформ электронной почты и совместной работы являются списки рассылки. Возможность отправить письма большому числу сотрудников, направив всего одно письмо на один адрес электронной почты, является одним из наиболее эффективных способов информирования сотрудников о каких-либо изменениях в компании, а также часто используется в отделах продаж и техподдержки. Например, почтовый ящик support@company.ru может представлять из себя список рассылки, в который включены все сотрудники службы поддержки пользователей. Однако из-за того, что по умолчанию в Zimbra OSE отправлять сообщения в списки рассылки может кто угодно, использование списков рассылки может повлечь за собой и риски для информационной безопасности, а поступающий в такие списки рассылки спам начинает доставлять неприятности всем его участникам.

Кроме того, использование больших списков рассылки может облегчить атаку на сервер с использованием мейл-бомбинга, ведь каждое отправленное в адрес списка рассылки письмо, в случае его успешной доставки, создаст гораздо большую нагрузку на сервер, чем простое электронное письмо, доставленное в обычный ящик. Также списки рассылки упрощают работу злоумышленникам, которым удалось получить доступ к почтовому ящику сотрудника. Благодаря им, они могут осуществлять отправку писем со зловредными вложениями с гораздо большей эффективностью, чем раньше, да и доверия к письмам, пришедшим через список рассылки у получателя больше, чем к обычным письмам. Однако в Zimbra Collaboration Suite Open-Source Edition есть встроенное средство для предотвращения подобных атак. Давайте же разберемся в том, как его можно использовать для защиты вашего почтового сервера.

image Читать дальше →
Zextras

[Перевод] Создание CI/CD-цепочки и автоматизация работы с Docker

1 неделя 2 дня ago
Я написала мои первые сайты в конце 90-х. Тогда приводить их в рабочее состояние было очень просто. Был Apache-сервер на каком-нибудь общем хостинге, на этот сервер можно было войти по FTP, написав в браузерной строке нечто вроде ftp://ftp.example.com. Потом надо было ввести имя и пароль и выгрузить файлы на сервер. Другие были времена, всё тогда было проще, чем сейчас.



За прошедшие с тех пор два десятилетия всё изрядно изменилось. Сайты стали сложнее, их, перед выпуском в продакшн, надо собирать. Один единственный сервер стал множеством серверов, работающих за балансировщиками нагрузки, обычным делом стало использование систем контроля версий.

Для моего персонального проекта у меня была особая конфигурация. И я знала, что мне нужна возможность разворачивать сайт в продакшне, выполняя всего одно действие: запись кода в ветку master на GitHub. Я, кроме того, знала, что мне, для обеспечения работы моего маленького веб-приложения, не хочется заниматься управлением огромным кластером Kubernetes, или пользоваться технологией Docker Swarm, или поддерживать парк серверов с подами, агентами и всякими другими сложностями. Для того чтобы достичь цели по максимальному упрощению работы, мне понадобилось познакомиться с CI/CD.

Если у вас имеется маленький проект (в нашем случае речь идёт о Node.js-проекте) и вам хотелось бы узнать о том, как автоматизировать развёртывание этого проекта, сделав при этом так, чтобы то, что хранится в репозитории, в точности соответствовало бы тому, что работает в продакшне, то, полагаю, вас может заинтересовать эта статья.
Читать дальше →
ru_vds

Подключаем производственный календарь в Zabbix

1 неделя 3 дня ago

Как мы все знаем, рабочий процесс предприятия, в соответствии с официальными государственными и международными праздниками, зачастую требует изменения производственного процесса в части сдвига или замены рабочих и нерабочих дней. Во множестве организаций существуют внутренние производственные календари, на расписании которых работают технологические и бизнес-процессы. Системы мониторинга работающие автономно, довольно часто настроены на мониторинг бизнес-процессов в рамках обычной деятельности предприятия и имеют жёсткое фиксированное расписание по контролю информационных потоков и данных, сопровождающих бизнес процессы. В моменты изменения ежедневного рабочего расписания, администраторам требуются ручные действия по изменению логики мониторинга. Как заставить Zabbix использовать производственный календарь? Рассмотрим несколько вариантов поподробнее.

Читать дальше →
aborche

Что будет с ITSM в 2020 году?

1 неделя 5 дней ago
Что произойдёт с ITSM в 2020 году и в новом десятилетии? Редакция ITSM Tools провела опрос экспертов отрасли и представителей компаний — ключевых игроков на рынке. Мы изучили статью и готовы рассказать вам, на что следует обратить внимание в текущем году.

Тренд 1. Благополучие сотрудников
Бизнесу придётся поработать над созданием комфортных условий для сотрудников. Но обеспечить удобные рабочие места недостаточно.

Больший уровень автоматизации процессов также благотворно отразится на настроении коллектива. Из-за снижения количества рутинных задач производительность труда вырастет, а уровень стресса снизится. Как следствие, повышается степень удовлетворенности работой.
Полгода назад мы уже писали статью на тему удовлетворенности сотрудников, где подробно описывали, как на практике сделать жизнь сотрудников лучше с помощью инструментов автоматизации бизнес-процессов.
Читать дальше →
it-guild

10 лет on-call. Чему мы научились? (обзор и видео доклада)

1 неделя 5 дней ago
Осенью прошлого года на конференции DevOops 2019 прозвучал доклад «10 лет on-call. Чему мы научились?». В нём рассказывается о том, почему мы отказались от внутреннего «акселератора» по развитию дежурных до DevOps-инженеров, как эволюционировала наша служба технической поддержки и система обработки инцидентов в целом.



Представляем видео с докладом (~63 минуты, гораздо информативнее статьи) и основную выжимку из него в текстовом виде. Поехали! Читать дальше →
distol
Checked
3 часа 4 минуты ago
habrahabr.ru/hub/sys_admin/
Системное администрирование – Лишь бы юзер был доволен
Подписаться на лента habrahabr.ru/hub/sys_admin/