Рекомендации по анализу метрик¶
Этот раздел предназначен для системных администраторов, которые отвечают за стабильную работу кластеров и компонентов TCF. Здесь собраны рекомендации по интерпретации метрик, собираемых с кластеров, и действиям в случае отклонений от нормы. Рекомендации помогут быстрее реагировать на инциденты, а также использовать метрики как инструмент для проактивного мониторинга, оценки производительности и планирования ресурсов.
Примечание
Общие рекомендации по анализу стандартных метрик Tarantool описаны в документации TDB.
Метрики TCF-worker/TCF-coordinator¶
Эти метрики помогают выявлять проблемы с задержками репликации, некорректным состоянием кластеров, а также общим здоровьем технологических ролей TCF-worker и TCF-coordinator.
Метрика |
Описание возможной проблемы |
Решение |
|---|---|---|
|
Кластер работает в пассивном режиме, когда должен быть активен |
Убедитесь, что кластер действительно должен быть активным. |
|
Задержка в репликации. Значение метрики отстает от |
Проверьте состояние кластеров, возможны проблемы с мастер-узлами. |
|
Ошибки при работе HTTP-интерфейсов компонентов |
Найдите путь ( |
|
Значение метрики не растет при ожидании активности |
Возможна перегрузка, зависание или отсутствие клиентских изменений от исходного кластера |
|
Значение примененной сигнатуры |
Если значение метрики отстает от |
Метрики Gateway/Destination¶
Метрики отслеживают общее состояние репликации между кластерами: от чтения данных на стороне Gateway до доставки и обработки их в Destination.
Метрика |
Описание возможной проблемы |
Решение |
|---|---|---|
|
Ошибки при отправке данных на Destination. Значение метрики растет |
Проверьте записи журнала типа |
|
Ошибки при чтении из исходного кластера. Значение метрики растет |
Проверьте записи журнала Gateway. |
|
Ошибки HTTP API Gateway: метрика показывает рост ошибок |
Убедитесь, что используемые методы и пути API корректны. |
|
Количество событий, отправленных из Destination |
Используйте в паре с |
|
Количество событий, полученных от Gateway |
Сравните с |
|
Текущее состояние репликации, полученное от Gateway |
Следите за ростом. |
|
Состояние репликации, отправленное в целевой кластер |
Следите за ростом. |
|
Ошибки при получении данных |
Перезапустите Gateway или проверьте соединение |
|
Ошибки при отправке данных на целевой кластер |
Проверьте записи журнала Destination. |
|
Ошибки API Destination: метрика показывает рост |
Проверьте методы и корректность запросов. |
|
Метрика отсутствует в Grafana/Prometheus или отображается не у всех компонентов |
Убедитесь, что метрика есть у всех компонентов (Gateway, Destination). |
Системные метрики (Go runtime metrics)¶
Системные метрики Go runtime позволяют мониторить внутреннее состояние и производительность приложений, написанных на Go – в данном случае компонентов Gateway и Destination. Тип: gauge.
Метрика |
Описание возможной проблемы |
Решение |
|---|---|---|
|
Значение метрики растет даже при стабильной нагрузке |
Следите за ростом значения. Скачкообразный или постоянный рост может сигнализировать об утечках или блокировках. |
|
Значение метрики аномально выросло относительно типичных значений кластера |
Рост может указывать на проблемы с управлением потоками. |
|
Память используется все активнее и значение постоянно растет |
Следите за ростом – возможна утечка памяти. Проверьте, освобождаются ли объекты ( |
|
Резкий рост значения метрики |
Накопительный счетчик, не требует действий, но резкий рост значения – повод обратить внимание на частоту выделения памяти |
|
Приложение удерживает все больше системной памяти, даже после сборки мусора |
Следите за значением, рост значения может быть признаком неэффективного использования ресурсов. Используйте профилирование или принудительную сборку |
|
Значение метрики стабильно растет без снижения |
Если наблюдается устойчивый рост без снижения: |
|
Значение метрики быстро растет, особенно при низкой активности приложения |
Используется для оценки частоты выделения памяти. Проанализируйте записи журнала |
|
Значение метрики отстает от |
Должно расти примерно в той же пропорции, что и |
|
Резкий рост метрики может сопровождаться падением производительности |
Не критично. Вспомогательная метрика |
|
Используемая память в куче растет и не уменьшается после сборки мусора |
Если значение увеличивается, возможна утечка памяти. Проанализируйте записи журнала |
|
Рост метрики без снижения после сборки мусора |
При росте значения оптимизируйте использование памяти и настройте |
|
Значение метрики высокое и не снижается |
Возможно, приложение постоянно держит много данных. Проверьте записи журнала, при необходимости вызовите сборщик мусора вручную и посмотрите, снижается ли метрика |
|
Метрика растет, но |
Высокое значение может указывать на возможность возврата памяти. Перезапустите процесс. |
|
Низкое значение метрики при высокой нагрузке |
Если значение низкое и память не освобождается, можно вручную инициировать сборщик мусора или изменить параметры сборки мусора |
|
Память на стеке растет вместе с числом горутин |
Рост значения метрики может указывать на большое количество горутин |
|
Метрика растет при масштабировании |
Следите за ростом метрики при масштабировании |
|
Значение метрики нестабильно, растет при небольшой нагрузке |
Не критично, но важно для полной картины |
|
Память не освобождается после снижения нагрузки |
Следите за значением метрики при росте нагрузки |
|
Резкий рост при стабильной нагрузке |
При росте значения оптимизируйте использование памяти и настройте |
|
Выделенная память не снижается |
Следите за значением метрики при росте нагрузки |
|
Значение метрики превышает ожидаемое даже без профилирования |
Повышенное значение при включенном профилировании – допустимо |
|
Память на |
Рост может быть связан с частыми сборками мусора. Проверьте значения |
|
Значение метрики резко растет |
Если значение метрики резко выросло, это может указывать на утечки памяти. Рекомендуется зафиксировать момент роста и передать информацию команде разработки для анализа |
|
Время сборки мусора растет, приложение перестает отвечать на запросы |
Проверьте нагрузку, частоту выделения памяти и частоту |
|
На p75 наблюдаются пики выше 50 мс |
Пики выше 50 мс на p75 могут указывать на то, что сборка мусора замедляет работу. Увеличьте интервал между |
|
Значение метрики скачет или слишком часто сбрасывается |
Проверьте частоту сборок мусора |