Метрики Tarantool CDC | Cdc

Version:

latest

Метрики Tarantool CDC

Common

cdc_offsets_commited_total

  • Тип метрики: counter

  • Описание: Количество успешно записанных контрольных точек. Счётчик увеличивается на количество успешно подтверждённых сообщений какждый раз при успешной записи контрольных точек.

  • Метки:

    • worker_type:

      • source

      • sink

  • Ожидаемое поведение метрики: Монотонно возрастает. Если брать скорость возрастания метрики на интервале бОльшем или равном периоду записи контрольных точек и сравнить со скоростью возрастания количества записанных событий в очередь на том же интервале, то эти метрики должны совпадать.

  • Аномальное поведение метрики: Счётчик не возрастает.

  • Дата последнего обновления: 2025-05-20

cdc_offsets_uncommitable

  • Тип метрики: gauge

  • Описание: Текущее количество неподтверждённых контрольных точек.

  • Метки:

    • worker_type:

      • source

      • sink

  • Ожидаемое поведение метрики: Колеблется вокруг некоторого значения.

  • Аномальное поведение метрики: Значение индикатора возрастает.

  • Дата последнего обновления: 2025-05-20

cdc_offsets_commitable

  • Тип метрики: gauge

  • Описание: Текущее количество подтверждённых контрольных точек.

  • Метки:

    • worker_type:

      • source

      • sink

  • Ожидаемое поведение метрики: Колеблется вокруг некоторого значения.

  • Аномальное поведение метрики: Значение индикатора возрастает или постоянно равно 0.

  • Дата последнего обновления: 2025-05-20

cdc_offsets_largest_deque_size

  • Тип метрики: gauge

  • Описание: Длина наибольшей очереди с контрольными точками, включая и подтверждённые и неподтверждённые.

  • Метки:

    • worker_type:

      • source

      • sink

  • Ожидаемое поведение метрики: Колеблется вокруг некоторого значения.

  • Аномальное поведение метрики:

  • Дата последнего обновления: 2025-05-20

cdc_offsets_errors_total

  • Тип метрики: counter

  • Описание: Количество ошибок записи контрольных точек. При возникновенни ошибки при записи пакета контрольных точек, счётчик ошибок увеличивается на количество точек, которые не были записаны из за ошибки.

  • Метки:

    • worker_type:

      • source

      • sink

  • Ожидаемое поведение метрики: Равен нулю или не возрастает.

  • Аномальное поведение метрики: Счётчик возрастает.

  • Дата последнего обновления: 2025-05-20

cdc_task

  • Тип метрики: gauge

  • Описание: Индикатор активности процесса с соответствующими значениями тегов «connector» и «type». Значение этой метрики всегда равно 1, когда работает процесс. С помощью агрегирования этой метрики можно посчитать количество работающих экземпляров. Тег connector обозначает загруженный данным процессом KafkaConnect-процессор.

  • Метки:

    • connector:

      • <CONNECTOR_NAME>: Название загруженного коннектора

    • worker_type:

      • source

      • sink

  • Ожидаемое поведение метрики: Для отдельного экземпляра - значение = 1.

  • Аномальное поведение метрики: Значение 0 или отсутствие этой метрики в выборке при запросе к системе мониторинга означает, что ни один из экземпляров системы не работает.

  • Дата последнего обновления: 2025-05-20

Java

jvm_threads_peak_threads

  • Тип метрики: gauge

  • Описание: Максимальное количество потоков, когда либо работавших в системе одновременно с момента запуска или с сброса индикатора.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Показатель может возрастать в начале работы CDC, но в остальное время должен оставаться без изменений.

  • Аномальное поведение метрики: Возрастание максимального количества работающих потоков может указывать на утечку ресурсов, перегрузку системы.

  • Дата последнего обновления: 2025-05-20

system_load_average_1m

  • Тип метрики: gauge

  • Описание: Средняя загрузка системы в течение одной минуты. С точки зрения JVM это интерпретируется как количество runnable-объектов, запланированных к выполнению плюс количество runable-объектов, выполняющихся на процессоре в данный момент. Временное окно - 1 минута.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Показатель средней загрузки стабилен или колеблется в небольших пределах вокруг некоторого значения, или пропорционально соответствует потоку сообщений.

  • Аномальное поведение метрики: Стабильное возрастание средней загрузки может указывать на утечку ресурсов, перегрузку системы.

  • Дата последнего обновления: 2025-05-20

jvm_gc_pause_seconds

  • Тип метрики: summary

  • Описание: Время, затраченное на паузы для сборщика мусора.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Значение показателя стабильно, уменьшается или колеблется с небольшой амплитудой вокруг некоторого значения.

  • Аномальное поведение метрики: Возрастание затрачиваемого времени на сборку мусора указывает на проблемы с использованием памяти и сборкой мусора. Большие и частые паузы могут влиять на общую пропускную способность системы.

  • Дата последнего обновления: 2025-05-20

jvm_threads_live_threads

  • Тип метрики: gauge

  • Описание: Текущее количество запущенных потоков в системе.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Количество запущенных потоков стабильно или колеблется в небольших пределах вокруг некоторого значения.

  • Аномальное поведение метрики: Возрастание количества работающих потоков может указывать на утечку ресурсов, перегрузку системы.

  • Дата последнего обновления: 2025-05-20

jvm_threads_started_threads_total

  • Тип метрики: counter

  • Описание: Общее количество потоков в системе, запущенных и отработанных.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Скорость возрастания метрики нулевая или близка к нулю.

  • Аномальное поведение метрики: Возрастание общего количества потоков может указывать на утечку ресурсов, перегрузку системы.

  • Дата последнего обновления: 2025-05-20

jvm_gc_pause_seconds_max

  • Тип метрики: gauge

  • Описание: Максимальная пауза сборщика мусора.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Значение показателя стабильно, уменьшается или колеблется с небольшой амплитудой вокруг некоторого значения.

  • Аномальное поведение метрики: Возрастание затрачиваемого времени на сборку мусора указывает на проблемы с использованием памяти и сборкой мусора. Большие и частые паузы могут влиять на общую пропускную способность системы.

  • Дата последнего обновления: 2025-05-20

application_ready_time_seconds

  • Тип метрики: gauge

  • Описание: Время запуска приложения.

  • Метки:

    • main_application_class:

      • io.tarantool.worker.*: Java класс

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Время запуска колеблется в небольших пределах вокруг некоторого значения, не занимает существенный процент от общей работы CDC.

  • Аномальное поведение метрики: При стабильном возрастании времени запуска приложения, если процессы уходят на перезапуск, это является негативной динамикой. Означает перегруз системы.

  • Дата последнего обновления: 2025-05-20

jvm_threads_states_threads

  • Тип метрики: gauge

  • Описание: Текущее количество потоков Java-машиной.

  • Метки:

    • state:

      • blocked

      • runnable

      • waiting

      • terminated

      • timed-waiting

      • new

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Количество потоков стабильно в течении длительного периода работы CDC, или колеблется с небольшой амплитудой вокруг некоторого значения. Количество потоков является примерной суммой следующих показателей: - общие потоки Java Runtime - Потоки, запущенные коннекторами для обработки данных. - Потоки сборщика мусора.

  • Аномальное поведение метрики: Возрастание количества потоков может указывать на утечку ресурсов, перегрузку системы с последующим возрастанием нагрузки на сборщик мусора.

  • Дата последнего обновления: 2025-05-20

jvm_threads_daemon_threads

  • Тип метрики: gauge

  • Описание: Текущее количество потоков, запущенных в режиме daemon.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Количество запущенных потоков в режиме daemon стабильно или колеблется в небольших пределах вокруг некоторого значения.

  • Аномальное поведение метрики: Возрастание количества работающих потоков в режиме daemon может указывать на утечку ресурсов, перегрузку системы.

  • Дата последнего обновления: 2025-05-20

jvm_memory_used_bytes

  • Тип метрики: gauge

  • Описание: Количество использованной памяти.

  • Метки:

    • area:

      • nonheap

      • heap

    • id:

      • CodeHeap

      • G1 Survivor Space

      • G1 Old Gen

      • G1 Eden Space

      • Metaspace

      • Compressed Class Space

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: При возрастании потока сообщений и их размера, может наблюдаться пропорциональное увеличение использования памяти. Использование памяти при стабильном потоке сообщений должно быть также стабильно.

  • Аномальное поведение метрики: Увеличение использования памяти при отсутствии соответствующих изменений в потоке данных может указывать на утечку памяти.

  • Дата последнего обновления: 2025-05-20

process_files_open_files

  • Тип метрики: gauge

  • Описание: Количество открытых файловых дескрипторов.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Количество открытых файловых дескрипторов (сетевых сокетов) стабильно в течении продолжительного времени работы CDC или колеблется с незначительной амплитудой вокруг некоторого значения. Имеет информационный характер. Может понадобиться при расследовании причин падений и ошибок, случающихся в компонентах.

  • Аномальное поведение метрики: Стабильное увеличение данной метрики является аномальным, указывает на утечку ресурсов, перегрузку системы.

  • Дата последнего обновления: 2025-05-20

jvm_gc_overhead_percent

  • Тип метрики: gauge

  • Описание: Приблизительный процент использования процессора сборщиком мусора относительно использования процессора за предыдущий период или с начала запуска процесса.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Показатель стабилен, его значение колеблется с небольшой амплитудой вокруг некоторого значения.

  • Аномальное поведение метрики: Возрастание данного показателя является признаком проблем с использованием памяти и сборкой мусора.

  • Дата последнего обновления: 2025-05-20

process_cpu_usage

  • Тип метрики: gauge

  • Описание: Текущее использование процессора Java-машиной.

  • Метки:

    • worker_type:

      • source: Тип воркера

      • sink: Тип воркера

  • Ожидаемое поведение метрики: Низкий показатель использования процессора указывает на стабильную работу системы. Также снижение использования процессора может быть связано со снижением потока данных.

  • Аномальное поведение метрики: Возрастание использования процессора может указывать на перегрузку системы.

  • Дата последнего обновления: 2025-05-20

Sink-Worker

cdc_records_total

  • Тип метрики: counter

  • Описание: Количество сообщений, прошедших через Source worker, с детализацией по статусу сообщения.

  • Метки:

    • status:

      • received: Количество сообщений полученных из TQE

      • sent: Количество сообщений успешно записанных в приёмник

      • skipped: Количество сообщений, пропущенных при обработке перед записью в приёмник по каким либо причинам (фильтрация, tombstone-записи)

    • worker_type:

      • sink

  • Ожидаемое поведение метрики: Скорость возрастания счётчика стабильна или увеличивается. При небольшом или отсутствующем потоке репликации, снижении потока сообщений в TQE, скорость возрастания счётчика в этих случаях близка к нулю или равна нулю на некоторых отрезках времени.

  • Аномальное поведение метрики: Скорость возрастания счётчика уменьшается или счётчик не увеличивается, причины: - Ошибки получения данных. - Увеличение времени чтения или записи данных. - Деградация сети между от TQE до sink-worker’а. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

cdc_write_time_seconds

  • Тип метрики: summary

  • Описание: Время, затраченное на выполнение операции записи данных в приёмник (sink-коннектор)

  • Метки:

    • worker_type:

      • sink

    • quantile:

      • 0.5

      • 0.95

      • 0.99

  • Ожидаемое поведение метрики: Время записи колеблется вокруг некоторого значения, в небольших пределах. Время записи не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время записи также может увеличиваться.

  • Аномальное поведение метрики: Возрастание времени записи сообщений в приёмник может указывать на следующие причины: - Деградация сети от TQE до sink-worker’а. - Деградация работы приёмника. - Проблемы sink-коннектора (Debezium, Kafka Connect). - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

cdc_bytes_read_total

  • Тип метрики: counter

  • Описание: Общее количество байт сообщений, прочитанных из TQE, без служебной информации

  • Метки:

    • worker_type:

      • sink

  • Ожидаемое поведение метрики: Информационная метрика, необходимая для понимания скорости и пропускной работы системы. Возрастание и уменьшение значений отображают изменения в объёмах обрабатываемого трафика, возрастание и снижение интенсивности его прохождения.

  • Аномальное поведение метрики:

  • Дата последнего обновления: 2025-05-20

grpc_client_responses_received_messages_total

  • Тип метрики: counter

  • Описание: Общее количество пакетов с сообщениями, принятых в потоке. Имеет информационное значение.

  • Метки:

    • method:

      • Subscribe

      • Broadcast

    • methodType:

      • SERVER_STREAMING

      • UNARY

    • worker_type:

      • sink

  • Ожидаемое поведение метрики:

  • Аномальное поведение метрики:

  • Дата последнего обновления: 2025-05-20

cdc_wait_time_seconds

  • Тип метрики: summary

  • Описание: Время, затраченное на выполнение операций чтения данных из TQE

  • Метки:

    • worker_type:

      • sink

    • quantile:

      • 0.5

      • 0.95

      • 0.99

  • Ожидаемое поведение метрики: Время чтения колеблется вокруг некоторого значения, в небольших пределах. Время чтения не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время чтения также может увеличиваться.

  • Аномальное поведение метрики: Возрастание времени чтения сообщений из TQE может указывать на следующие причины: - Деградация сети от TQE до sink-worker’а. - Проблемы grpc-java драйвера, клиента к TQE. - Деградация работы TQE. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

cdc_errors_total

  • Тип метрики: counter

  • Описание: Количество ошибок, возникающих при работе Source worker, с разбиением по типам ошибок.

  • Метки:

    • kind:

      • other: Количество ошибок любых ошибок, за исключением указанных ниже (ошибки подписки TQE, сетевые ошибки), возникших при попытке записать сообщения в sink-коннектор

      • network_timeout: Количество ошибок, возникающих при ошибке, связанной с превышением времени выполнения запроса к TQE

      • network_error: Количество ошибок, возникающих при обрыве подписки на очередь TQE, при доставке сообщений от TQE

      • tqe_error: Количество ошибок, возникающих при подписке на очередь в TQE

    • worker_type:

      • sink

  • Ожидаемое поведение метрики: Счётчик не увеличивается.

  • Аномальное поведение метрики: Скорость возрастания счётчика ненулевая.

  • Дата последнего обновления: 2025-05-20

cdc_write_time_seconds_max

  • Тип метрики: gauge

  • Описание: максимальное время, затраченное на выполнение операций чтения данных из TQE

  • Метки:

    • worker_type:

      • sink

  • Ожидаемое поведение метрики: Время записи колеблется вокруг некоторого значения, в небольших пределах. Время записи не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время записи также может увеличиваться.

  • Аномальное поведение метрики: Возрастание времени записи сообщений в приёмник может указывать на следующие причины: - Деградация сети от TQE до sink-worker’а. - Деградация работы приёмника. - Проблемы sink-коннектора (Debezium, Kafka Connect). - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

cdc_wait_time_seconds_max

  • Тип метрики: gauge

  • Описание: максимальное время, затраченное на выполнение операций чтения данных из TQE

  • Метки:

    • worker_type:

      • sink

  • Ожидаемое поведение метрики: Время чтения колеблется вокруг некоторого значения, в небольших пределах. Время чтения не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время чтения также может увеличиваться.

  • Аномальное поведение метрики: Возрастание времени чтения сообщений из TQE может указывать на следующие причины: - Деградация сети от TQE до sink-worker’а. - Проблемы grpc-java драйвера, клиента к TQE. - Деградация работы TQE. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

Source-Worker

cdc_records_total

  • Тип метрики: counter

  • Описание: Количество сообщений, прошедших через Source worker, с детализацией по статусу сообщения.

  • Метки:

    • status:

      • received: Количество сообщений полученных из source-коннектора

      • sent: Количество сообщений, успешно записанных в TQE

      • skipped: Количество сообщений, пропущенных при обработке перед записью в TQE по каким либо причинам (фильтрация, tombstone-записи)

    • worker_type:

      • source

  • Ожидаемое поведение метрики: Скорость возрастания счётчика стабильна или увеличивается. При небольшом или отсутствующем потоке репликации, снижении нагрузки на источник, скорость возрастания счётчика в этих случаях близка к нулю или равна нулю на некоторых отрезках времени.

  • Аномальное поведение метрики: Скорость возрастания счётчика уменьшается или счётчик не увеличивается.

  • Дата последнего обновления: 2025-05-20

cdc_write_time_seconds

  • Тип метрики: summary

  • Описание: Время, затраченное на выполнение операции записи данных в TQE. Метрика замеряется на уровне приложения.

  • Метки:

    • worker_type:

      • source

    • quantile:

      • 0.5

      • 0.95

      • 0.99

  • Ожидаемое поведение метрики: Время записи колеблется вокруг некоторого значения, в небольших пределах. Время записи не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время записи также может увеличиваться.

  • Аномальное поведение метрики: Возрастание без существенного изменения размера сообщений может указывать на следующие причины: - Деградация сети от source-worker’а до TQE. - Деградация работы TQE. - Проблемы grpc-java драйвера, клиента к TQE. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

grpc_client_call_duration_seconds

  • Тип метрики: histogram

  • Описание: Гистограмма времени выполнения запросов на публикацию сообщений в очереди.

  • Метки:

    • worker_type:

      • source

    • grpc_method:

      • tarantool.queue_ee.PublisherService/PublishBatch

      • tarantool.queue_ee.PublisherService/Broadcast

      • tarantool.queue_ee.ConsumerService/Subscribe

    • grpc_status:

      • OK

      • CANCELLED

    • instrumentation_source:

      • grpc-spring

    • instrumentation_version:

      • vX.X.X.RELEASE

  • Ожидаемое поведение метрики: Эти метрики используются совместно, для выражения метрики времени выполнения запросов на текущий момент. Формула: СКОРОСТЬ(grpc_client_processing_duration_seconds_sum) / СКОРОСТЬ(grpc_client_processing_duration_seconds_count) Время выполнения grpc-метода колеблется вокруг некоторого значения, в небольших пределах. Время выполнения grpc-метода не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время выполнения grpc-метода также может увеличиваться.

  • Аномальное поведение метрики: Возрастание без существенного изменения размера сообщений может указывать на следующие причины: - Деградация сети от source-worker’а до TQE. - Деградация работы TQE. - Проблемы grpc-java драйвера, клиента к TQE. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

grpc_client_attempt_sent_total_compressed_message_size_bytes_max

  • Тип метрики: gauge

  • Описание: Максимальное размер отправленных сообщений.

  • Метки:

    • worker_type:

      • source

    • grpc_method:

      • tarantool.queue_ee.PublisherService/PublishBatch

      • tarantool.queue_ee.PublisherService/Broadcast

      • tarantool.queue_ee.ConsumerService/Subscribe

    • grpc_status:

      • OK

      • CANCELLED

    • instrumentation_source:

      • grpc-spring

    • instrumentation_version:

      • vX.X.X.RELEASE

  • Ожидаемое поведение метрики: Метрики используются совместно, для выражения размера записываемых сообщений

  • Аномальное поведение метрики:

  • Дата последнего обновления: 2025-05-20

cdc_bytes_written_total

  • Тип метрики: counter

  • Описание: Суммарное количество байт сообщений в заданном формате (json, avro, protobuf), записываемых в TQE, без служебной информации за всё время работы процесса.

  • Метки:

    • worker_type:

      • source

  • Ожидаемое поведение метрики: Информационная метрика, необходимая для понимания скорости и пропускной работы системы. Возрастание и уменьшение значений отображают изменения в объёмах обрабатываемого трафика, возрастание и снижение интенсивности его прохождения.

  • Аномальное поведение метрики:

  • Дата последнего обновления: 2025-05-20

grpc_client_call_duration_seconds_max

  • Тип метрики: gauge

  • Описание: Максимальное время выполнения запросов на публикацию сообщений в очереди.

  • Метки:

    • worker_type:

      • source

    • grpc_method:

      • tarantool.queue_ee.PublisherService/PublishBatch

      • tarantool.queue_ee.PublisherService/Broadcast

      • tarantool.queue_ee.ConsumerService/Subscribe

    • grpc_status:

      • OK

      • CANCELLED

    • instrumentation_source:

      • grpc-spring

    • instrumentation_version:

      • vX.X.X.RELEASE

  • Ожидаемое поведение метрики: Время выполнения grpc-метода колеблется вокруг некоторого значения, в небольших пределах. Время выполнения grpc-метода не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время выполнения grpc-метода также может увеличиваться.

  • Аномальное поведение метрики: Возрастание без существенного изменения размера сообщений может указывать на следующие причины: - Деградация сети от source-worker’а до TQE. - Деградация работы TQE. - Проблемы grpc-java драйвера, клиента к TQE. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

cdc_errors_total

  • Тип метрики: counter

  • Описание: Количество ошибок, возникающих при работе Source worker, с разбиением по типам ошибок.

  • Метки:

    • kind:

      • other: Количество любых ошибок, за исключением указанных ниже (таймауты, сетевые, ошибки Тарантула), возникших при попытке прочитать сообщения из source-коннектора и обработать их.

      • network_timeout: Количество ошибок, возникающих при ошибке, связанной с превышением времени выполнения запроса к TQE

      • network_error: Количество неидентифицируемых ошибок, связанных с сетью между source-worker и TQE

      • tqe_error: Количество ошибок, которые вернула TQE

    • worker_type:

      • source

  • Ожидаемое поведение метрики: Счётчик не увеличивается.

  • Аномальное поведение метрики: Скорость возрастания счётчика стабильна или увеличивается.

  • Дата последнего обновления: 2025-05-20

cdc_write_time_seconds_max

  • Тип метрики: gauge

  • Описание: Время, затраченное на выполнение операции записи данных в TQE. Метрика замеряется на уровне приложения.

  • Метки:

    • worker_type:

      • source

  • Ожидаемое поведение метрики: Время записи колеблется вокруг некоторого значения, в небольших пределах. Время записи не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время записи также может увеличиваться.

  • Аномальное поведение метрики: Возрастание без существенного изменения размера сообщений может указывать на следующие причины: - Деградация сети от source-worker’а до TQE. - Деградация работы TQE. - Проблемы grpc-java драйвера, клиента к TQE. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

grpc_client_attempt_sent_total_compressed_message_size_bytes

  • Тип метрики: histogram

  • Описание: Гистограмма размера отправленных сообщений.

  • Метки:

    • worker_type:

      • source

    • grpc_method:

      • tarantool.queue_ee.PublisherService/PublishBatch

      • tarantool.queue_ee.PublisherService/Broadcast

      • tarantool.queue_ee.ConsumerService/Subscribe

    • grpc_status:

      • OK

      • CANCELLED

    • instrumentation_source:

      • grpc-spring

    • instrumentation_version:

      • vX.X.X.RELEASE

  • Ожидаемое поведение метрики: Метрики используются совместно, для выражения размера записываемых сообщений

  • Аномальное поведение метрики:

  • Дата последнего обновления: 2025-05-20

cdc_poll_time_seconds_max

  • Тип метрики: gauge

  • Описание: Время, затраченное на выполнение операций чтения данных из source-коннектора. Метрика замеряется на уровне приложения.

  • Метки:

    • worker_type:

      • source

  • Ожидаемое поведение метрики: Время чтения колеблется вокруг некоторого значения, в небольших пределах. Время чтения не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время чтения также может увеличиваться.

  • Аномальное поведение метрики: Возрастание без существенного изменения размера сообщений может указывать на следующие причины: - Деградация сети от source-worker’а до источника. - Проблемы source-коннектора (Debezium, Kafka Connect драйвера). - Деградация работы источника. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

cdc_poll_time_seconds

  • Тип метрики: histogram

  • Описание: Время, затраченное на выполнение операций чтения данных из source-коннектора. Метрика замеряется на уровне приложения.

  • Метки:

    • worker_type:

      • source

    • quantile:

      • 0.5

      • 0.95

      • 0.99

  • Ожидаемое поведение метрики: Время чтения колеблется вокруг некоторого значения, в небольших пределах. Время чтения не должно превышать расчётных показателей больше, чем на некоторый процент. При увеличении размера сообщений время чтения также может увеличиваться.

  • Аномальное поведение метрики: Возрастание без существенного изменения размера сообщений может указывать на следующие причины: - Деградация сети от source-worker’а до источника. - Проблемы source-коннектора (Debezium, Kafka Connect драйвера). - Деградация работы источника. - Перегрузка процессора. - Утечка, переполнение памяти.

  • Дата последнего обновления: 2025-05-20

Found what you were looking for?
Feedback