2.15. Метрики¶

Для мониторинга работы TDG предоставляются метрики в формате Prometheus. Для каждого из экземпляров кластера значения метрик доступны по адресу: http://<IP_адрес_экземпляра>/metrics. В системе-сборщике метрик необходимо подать на вход адреса для сбора метрик со всех экземпляров кластера.

Все доступные метрики можно разделить на несколько категорий:

метрики, специфичные для TDG;
стандартные метрики для мониторинга работы экземпляров Tarantool;
пользовательские метрики, разработанные в sandbox на основе модуля tarantool/metrics.

Используются следующие типы метрик Prometheus:

counter — монотонно возрастающий счетчик;
gauge — метрика для числовых значений;
histogram — метрика для оценки интенсивности потока во времени.

Подробнее про типы метрик см. в официальной документации Prometheus.

2.15.1. Метрики TDG¶

2.15.1.1. Метрики запросов GraphQL¶

Для мониторинга и оценки запросов GraphQL предоставляются следующие метрики:

tdg_graphql_query_time{alias,schema,entity,operation_name} — время обработки запроса на получение данных (query), миллисекунды. Тип метрики: histogram;
tdg_graphql_mutation_time{alias,schema,entity,operation_name} — время обработки запроса на изменения данных (mutation), миллисекунды. Тип метрики: histogram;
tdg_graphql_query_fail{alias,schema,entity,operation_name} — количество запросов на получение данных (query) c ошибками. Тип метрики: counter;
tdg_graphql_mutation_fail{alias,schema,entity,operation_name} — количество запросов на изменение данных (mutation) c ошибками. Тип метрики: counter.

Бакеты (bucket) гистограмм распределены в диапазоне от 0 до 1000 миллисекунд с интервалом в 100 миллисекунд (см. пример ниже).

Каждая из метрик имеет следующие тэги:

alias — имя экземпляра, на котором собираются метрики. Имя экземпляра было задано при развертывании кластера;
schema — имя схемы (default или admin), в которую поступил запрос GraphQL;
entity — сущность, над которой производится операция;
operation_name — имя запроса GraphQL (может отсутствовать, если имя запроса не было задано). Рекомендуется указывать имена для всех запросов, чтобы можно было однозначно идентифицировать, к какому запросу относится информация в метрике.

Вызов сервиса аналогичен запросу (query) для сущности. В данном случае в тэг entity будет записано имя сервиса.

Каждый запрос может состоять из нескольких операций, которые, в свою очередь, могут состоять из получения/модификации нескольких сущностей. В этом случае по каждой сущности будет выдана отдельная метрика со своим набором тэгов.

Пример:

# HELP tdg_graphql_query_time Graphql query execution time
# TYPE tdg_graphql_query_time histogram
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="100"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="200"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="300"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="400"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="500"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="600"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="700"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="800"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="900"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="1000"} 25
tdg_graphql_query_time_bucket{alias="core_1",schema="default",entity="City",operation_name="GetCity",le="+Inf"} 25
tdg_graphql_query_time_sum{alias="core_1",schema="default",entity="City",operation_name="GetCity"} 55
tdg_graphql_query_time_count{alias="core_1",schema="default",entity="City",operation_name="GetCity"} 25

# HELP tdg_graphql_mutation_time Graphql mutation execution time
# TYPE tdg_graphql_mutation_time histogram
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="100"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="200"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="300"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="400"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="500"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="600"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="700"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="800"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="900"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="1000"} 16
tdg_graphql_mutation_time_bucket{alias="core_1",schema="default",entity="City",operation_name="InsCity",le="+Inf"} 16
tdg_graphql_mutation_time_sum{alias="core_1",schema="default",entity="City",operation_name="InsCity"} 34
tdg_graphql_mutation_time_count{alias="core_1",schema="default",entity="City",operation_name="InsCity"} 16

# HELP tdg_graphql_query_fail Graphql query fail count
# TYPE tdg_graphql_query_fail counter
tdg_graphql_query_fail{alias="core_1",schema="default",entity="City",operation_name="GetCity"} 2

# HELP tdg_graphql_mutation_fail Graphql mutation fail count
# TYPE tdg_graphql_mutation_fail counter
tdg_graphql_mutation_fail{alias="core_1",schema="default",entity="City",operation_name="InsCity"} 4

Чтобы получить информацию о среднем количестве запросов GraphQL в секунду из Prometheus, воспользуйтесь запросом

rate(tdg_graphql_query_time_count[2m])

Период, по которому вычисляется rate() (в примере — 2m), должен быть как минимум в два раза больше периода сбора метрик. Если вы добавляете панель на стандартный Grafana Tarantool dashboard, воспользуйтесь переменной $rate_time_range.

Среднее время выполнения запроса GraphQL можно получить с помощью

rate(tdg_graphql_query_time_sum[2m])/rate(tdg_graphql_query_time_count[2m])

95-й перцентиль времени выполнения запроса GraphQL можно получить с помощью

histogram_quantile(0.95, sum(rate(tdg_graphql_query_time_bucket[2m])) by (le))

2.15.1.2. Метрики системного администрирования¶

tdg_cluster_clock_delta{alias,uuid} — разница во времени между локальными часами (часы экземпляра, на котором собираются метрики) и часами другого экземпляра в кластере, секунды. Положительное значение указывает на то, что часы другого экземпляра опережают локальные. Отрицательное значение — на обратную ситуацию. Тип метрики: gauge.

Тэги метрики:

uuid — UUID экземпляра, разницу во времени с которым определяет метрика;
alias — имя экземпляра, на котором собираются метрики.

В конфигурации системы при помощи параметра clock_delta_threshold_sec можно задать максимально допустимую рассинхронизацию по времени. При превышении этого порога в журнал будет выведено сообщение об ошибке. Подробнее см. в описании параметра

Если несколько экземпляров расположены на одном физическом сервере, разница во времени между ними, как правило, будет очень небольшой, т.к. каждый из этих экземпляров «смотрит» на одни и те же часы — часы физической машины. Разницу во времени в этом случае можно считать сетевой погрешностью. Однако если экземпляры расположены на нескольких физических серверах, метрика может диагностировать ситуацию, когда между экземплярами этих серверов временная разница значительная, что может указывать или на рассинхронизацию часов разных физических серверов, или на сетевые проблемы.

Пример ниже иллюстрирует подобную ситуацию: в кластере развернуты 7 экземпляров (см. топологию кластера); мы собираем метрики на экземпляре с именем «core_1», у которого большая временная дельта одного порядка с тремя экземплярами, развернутыми на другой физической машине.

Пример:

# HELP tdg_cluster_clock_delta The time difference in cluster
# TYPE tdg_cluster_clock_delta gauge
tdg_cluster_clock_delta{uuid="1ab7778c-26f6-4424-b8cd-1daf1d93fc70",alias="core_1"} -0.0001205
tdg_cluster_clock_delta{uuid="76fb5acd-65fd-43f0-8d57-6622aafdc5aa",alias="core_1"} 3.5e-05
tdg_cluster_clock_delta{uuid="a87d0c8c-aced-4c5c-9880-a23cd4edbc01",alias="core_1"} -12.851604
tdg_cluster_clock_delta{uuid="401415dd-4d4d-4c29-9342-fb3efbee5d12",alias="core_1"} 4.75e-05
tdg_cluster_clock_delta{uuid="2e4bb162-d2e7-43f5-9ca9-530c60b2712d",alias="core_1"} 0.00029
tdg_cluster_clock_delta{uuid="b82e8c4f-b522-414c-9e51-a850db7302b1",alias="core_1"} -12.8515295
tdg_cluster_clock_delta{uuid="7acc17ad-aa8a-4954-b13f-3938964c9f41",alias="core_1"} -12.850967

2.15.1.3. Метрики для задач и отложенных работ¶

В системе TDG доступны метрики для задач (tasks) и отложенных работ (jobs). Метрики актуальны только для экземпляров с ролью task_runner, так как именно на этих экземплярах запускаются задачи и отложенные работы.

Метрики задач имеют следующие тэги:

alias — обозначает имя экземпляра, на котором собираются метрики. Имя экземпляра было задано при развертывании кластера;
name — имя задачи;
kind — вид задачи:
- single_shot — единоразовая задача;
- continuous — непрерывно выполняемая задача;
- periodical — задача, выполняемая по расписанию.

Метрики отложенных работ и системных задач имеют только тэги alias и name.

В TDG версий 1.6.x и 1.7.x есть только одна системная задача (system task) — это задача по архивации (читать подробнее про секцию archivation в файле конфигурации).

tdg_tasks_started — показывает, сколько всего запущено задач. Тип метрики: counter.

По аналогии: tdg_jobs_started — число запущенных отложенных работ, tdg_system_tasks_started — число запущенных системных задач.

Пример:

# HELP tdg_system_tasks_started Total system tasks started
# TYPE tdg_system_tasks_started counter
tdg_tasks_started{alias="runner_1",name="districts_stat.calc_statistics.call",kind="periodical"} 2

# HELP tdg_jobs_started Total jobs started
# TYPE tdg_jobs_started counter
tdg_jobs_started{name="succeed",alias="runner_1"} 1

# HELP tdg_system_tasks_started Total system tasks started
# TYPE tdg_system_tasks_started counter
tdg_system_tasks_started{name="tasks.system.archivation.start",alias="runner_1"} 718

tdg_tasks_failed — показывает, сколько задач завершились с ошибкой. Тип метрики: counter.

По аналогии: tdg_jobs_failed — число отложенных работ, которые завершились с ошибкой.

Пример:

# HELP tdg_tasks_failed Total tasks failed
# TYPE tdg_tasks_failed counter
tdg_tasks_succeeded{alias="runner_1",name="districts_stat.calc_statistics.call",kind="periodical"} 1

# HELP tdg_jobs_failed Total jobs failed
# TYPE tdg_jobs_failed counter
tdg_jobs_failed{name="fail",alias="runner_1"} 2

tdg_tasks_succeeded — показывает, сколько задач было успешно выполнено. Тип метрики: counter.

По аналогии: tdg_jobs_succeeded — число успешно выполненных отложенных работ, tdg_system_tasks_succeeded — число успешно выполненных системных задач.

Пример:

# HELP tdg_tasks_succeeded Total tasks succeeded
# TYPE tdg_tasks_succeeded counter
tdg_tasks_succeeded{alias="runner_1",name="districts_stat.calc_statistics.call",kind="periodical"} 2

# HELP tdg_jobs_succeeded Total jobs succeeded
# TYPE tdg_jobs_succeeded counter
tdg_jobs_succeeded{name="succeed",alias="runner_1"} 1

# HELP tdg_system_tasks_succeeded Total system tasks succeeded
# TYPE tdg_system_tasks_succeeded counter
tdg_system_tasks_succeeded{name="tasks.system.archivation.start",alias="runner_1"} 718

tdg_tasks_stopped — показывает, сколько задач было приостановлено. Тип метрики: counter.

Пример:

# HELP tdg_tasks_stopped Total tasks stopped
# TYPE tdg_tasks_stopped counter
tdg_tasks_stopped{alias="runner_1",name="districts_stat.calc_statistics.call",kind="periodical"} 2

tdg_tasks_running — показывает, сколько задач запущено в данный момент. Тип метрики: gauge.

По аналогии: tdg_jobs_running — число отложенных работ, запущенных в данных момент, tdg_system_tasks_running — число системных задач, запущенных в данный момент.

Пример:

# HELP tdg_tasks_running Currently running tasks
# TYPE tdg_tasks_running gauge
tdg_tasks_running{alias="runner_1",name="districts_stat.calc_statistics.call",kind="periodical"} 0

# HELP tdg_jobs_running Currently running jobs
# TYPE tdg_jobs_running gauge
tdg_jobs_running{name="succeed",alias="runner_1"} 0

# HELP tdg_system_tasks_running Currently running system tasks
# TYPE tdg_system_tasks_running gauge
tdg_system_tasks_running{name="tasks.system.archivation.start",alias="tnt_net_external_1_runner_1_1"} 0

tdg_tasks_execution_time — показывает статистику по времени исполнения задачи. Тип метрики: histogram.

По аналогии: tdg_jobs_execution_time — статистика по времени исполнения отложенной работы, tdg_system_tasks_execution_time — статистика по времени исполнения системной задачи.

Бакеты (bucket) гистограмм распределены в диапазоне от 0 до 5 секунд: 0.0001, 0.00025, 0.0005, 0.001, 0.0025, 0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1, 2.5, 5.

Пример:

# HELP tdg_tasks_execution_time Tasks execution time statistics
# TYPE tdg_tasks_execution_time histogram
tdg_tasks_execution_time_count{alias="runner_1",name="calc_districts_stat",kind="periodical"} 2
tdg_tasks_execution_time_sum{alias="runner_1",name="calc_districts_stat",kind="periodical"} 0.014632841999969
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.0001",kind="periodical"} 0
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.00025",kind="periodical"} 0
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.0005",kind="periodical"} 0
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.001",kind="periodical"} 0
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.0025",kind="periodical"} 1
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.005",kind="periodical"} 1
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.01",kind="periodical"} 1
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.025",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.05",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.1",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.25",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="0.5",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="1",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="2.5",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="5",kind="periodical"} 2
tdg_tasks_execution_time_bucket{alias="runner_1",name="calc_districts_stat",le="+Inf",kind="periodical"} 2

# HELP tdg_jobs_execution_time Jobs execution time statistics
# TYPE tdg_jobs_execution_time histogram
tdg_jobs_execution_time_count{name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_sum{name="succeed",alias="runner_1"} 1.0725110769272e-05
tdg_jobs_execution_time_bucket{le="0.0001",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.00025",name="succeed",alias="runner_1"}1
tdg_jobs_execution_time_bucket{le="0.0005",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.001",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.0025",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.005",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.01",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.025",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.05",name="succeed",alias="runner_1"}
tdg_jobs_execution_time_bucket{le="0.1",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.25",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="0.5",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="1",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="2.5",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="5",name="succeed",alias="runner_1"} 1
tdg_jobs_execution_time_bucket{le="+Inf",name="succeed",alias="runner_1"} 1

# HELP tdg_system_tasks_execution_time System tasks execution time statistics
# TYPE tdg_system_tasks_execution_time histogram
tdg_system_tasks_execution_time_count{name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_sum{name="tasks.system.archivation.start",alias="runner_1"} 0.052489631809294
tdg_system_tasks_execution_time_bucket{le="0.0001",name="tasks.system.archivation.start",alias="runner_1"} 631
tdg_system_tasks_execution_time_bucket{le="0.00025",name="tasks.system.archivation.start",alias="runner_1"} 715
tdg_system_tasks_execution_time_bucket{le="0.0005",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.001",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.0025",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.005",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.01",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.025",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.05",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.1",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.25",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="0.5",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="1",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="2.5",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="5",name="tasks.system.archivation.start",alias="runner_1"} 718
tdg_system_tasks_execution_time_bucket{le="+Inf",name="tasks.system.archivation.start",alias="runner_1"} 718

2.15.1.4. Метрики Kafka¶

В TDG доступен мониторинг сведений о коннекторе Kafka с помощью librdkafka. librdkafka – это реализация С-библиотеки протокола Apache Kafka, которая поддерживает как producer, так и consumer. Для библиотеки по умолчанию включено регулярное предоставление внутренней статистики.

Интервал обновления метрик можно настроить, используя опцию statistics.interval.ms. По умолчанию, значение statistics.interval.ms составляет 15000 миллисекунд. Диапазон доступных значений для параметра: 0–86400000 мс. Отключить сбор статистики можно, установив значение 0.

Полное описание параметров конфигурации для коннектора Kafka приведено в справочнике по настройке коннектора.

Метрики имеют тип gauge, если не указано иначе. Имеют префикс tdg_kafka_, общий для всех метрик Kafka.

Метрики Kafka состоят из нескольких уровней:

общая статистика (Common Statistics);
статистика по брокеру (Brokers);
статистика по топику (Topics);
- статистика по разделам топика (Partitions);
статистика группы потребителей (cgrp);
статистика идемпотентного продюсера (EOS).

Большая часть операций – это оконные функции, которые применяются на отрезках времени. Поэтому уровни Topics и Brokers также включают в себя раздел про плавающие окна (Rolling Window Statistics), например, скользящую среднюю, наименьшую и наибольшую величины, сумму значений и процентные значения.

Общая статистика

Общая статистика по всем брокерам:

tdg_kafka_ts – внутренние монотонные часы библиотеки librdkafka в микросекундах;
tdg_kafka_time – время с начала эпохи в секундах;
tdg_kafka_age – время существования экземпляра клиента в микросекундах;
tdg_kafka_replyq – количество операций (триггеров, событий и т.д.) в очереди на обслуживание с помощью rd_kafka_poll();
tdg_kafka_msg_cnt – текущее количество сообщений в очереди продюсера;
tdg_kafka_msg_size – текущий общий размер сообщений в очередях продюсера;
tdg_kafka_msg_max – максимальное количество сообщений, разрешенное в очередях продюсера;
tdg_kafka_msg_size_max – общий размер сообщений, разрешенный в очередях продюсера;
tdg_kafka_tx – общее количество запросов, отправленных брокерам Kafka;
tdg_kafka_tx_bytes – общее количество байтов, отправленных брокерам Kafka;
tdg_kafka_rx – общее количество запросов, полученных от брокеров Kafka;
tdg_kafka_rx_bytes – общее количество байтов, полученных от брокеров Kafka;
tdg_kafka_txmsgs – общее количество сообщений, отправленных брокерам Kafka;
tdg_kafka_txmsg_bytes – общее количество байтов сообщений, отправленных брокерам Kafka (включая фрейм – например, фрейм по каждому сообщению и фрейм MessageSet/пакета);
tdg_kafka_rxmsgs – общее количество сообщений, полученных от брокеров Kafka. Не включает в себя сообщения, которые были проигнорированы – например, из-за смещения;
tdg_kafka_rxmsg_bytes – общее количество байтов сообщений (включая фрейм), полученных от брокеров Kafka;
tdg_kafka_simple_cnt – внутреннее отслеживание устаревшего и нового состояния API consumer;
tdg_kafka_metadata_cache_cnt – количество топиков в кэше метаданных.

Плавающее окно (Rolling Window Statistics)

Постфиксы для метрик, связанные с оконными функциями. Например, к ним относятся стандартное отклонение, наибольшая и наименьшая величина и процентные значения (процентили). Позволяют получить получать дополнительную информацию о значении некоторых метрик с уровней Topics и Brokers. Полный список доступных метрик вместе с постфиксами указан в описаниях соответствующих уровней.

Переменная {name} – имя метрики вместе с префиксом tdg_kafka_. Например, tdg_kafka_broker_int_latency_max – наибольшее значение метрики tdg_kafka_broker_int_latency.

name_min – наименьшее значение;
name_max – наибольшее значение;
name_avg – среднее значение;
name_sum – сумма значений;
name_cnt – количество выбранных значений;
name_stddev – стандартное отклонение на основе гистограммы;
name_hdrsize – объем памяти Hdr Histogram;
name_outofrange – значения, пропущенные из-за выхода за пределы диапазона гистограммы.

Процентные значения:

p50 – процентиль 0.5;
p75 – процентиль 0.75;
p90 – процентиль 0.9;
p95 – процентиль 0.95;
p99 – процентиль 0.99;
p99_99 – процентиль 0.9999.

Значения процентилей можно просмотреть для следующих метрик:

уровень Broker – tdg_kafka_broker_int_latency, tdg_kafka_broker_outbuf_latency, tdg_kafka_broker_rtt, tdg_kafka_broker_throttle;
уровень Topic – tdg_kafka_topic_batchcnt, tdg_kafka_topic_batchsize.

Статистика по брокеру

tdg_kafka_broker_stateage – время с момента последнего изменения состояния брокера в микросекундах;
tdg_kafka_broker_outbuf_cnt – количество запросов, ожидающих отправки брокеру;
tdg_kafka_broker_outbuf_msg_cnt – количество сообщений, ожидающих отправки брокеру;
tdg_kafka_broker_waitresp_cnt – количество запросов на пути к брокеру, ожидающих ответа;
tdg_kafka_broker_waitresp_msg_cnt – количество сообщений на пути к брокеру, ожидающих ответа;
tdg_kafka_broker_tx – общее количество отправленных запросов;
tdg_kafka_broker_txbytes – исходящий трафик в байтах;
tdg_kafka_broker_txerrs – число ошибок при передаче;
tdg_kafka_broker_txretries – общее количество повторных запросов;
tdg_kafka_broker_txidle – время с момента, как был отправлен последний сокет, в микросекундах. Если для текущего подключения еще ничего не отправлялось, имеет значение -1;
tdg_kafka_broker_req_timeouts – общее количество запросов, время ожидания для которых истекло;
tdg_kafka_broker_rx – общее число полученных ответов;
tdg_kafka_broker_rxbytes – входящий трафик в байтах;
tdg_kafka_broker_rxerrs – число ошибок при получении;
tdg_kafka_broker_rxcorriderrs – общее количество различающихся идентификаторов корреляции в ответе (обычно для запросов с истекшим временем ожидания);
tdg_kafka_broker_rxpartial – общее количество частично полученных MessageSets;
tdg_kafka_broker_rxidle – время с момента получения последнего сокета в микросекундах. Если для текущего соединенния еще нет полученных данных, имеет значение -1;
tdg_kafka_broker_zbuf_grow – общее количество увеличений размера для буфера декомпрессии;
tdg_kafka_broker_buf_grow – общее количество увеличений размера буфера (deprecated, не используется);
tdg_kafka_broker_wakeups – пробуждения пула потоков брокера;
tdg_kafka_broker_connects – количество попыток соединения. Включает в себя успешные и неудачные попытки, а также количество неудачных попыток разрешения имен;
tdg_kafka_broker_disconnects – количество разорванных соединений, вызванных брокером, сетью, балансировщиком нагрузки и т. д;
tdg_kafka_broker_req – счетчики типа запроса. Ключ объекта – это имя запроса, значение – количество отправленных запросов;
tdg_kafka_broker_int_latency – задержка внутренней очереди продюсера в микросекундах. Метрика используется только вместе с постфиксами из раздела Rolling Window Statistics.

Список доступных метрик: tdg_kafka_broker_int_latency_avg, tdg_kafka_broker_int_latency_cnt, tdg_kafka_broker_int_latency_hdrsize, tdg_kafka_broker_int_latency_max, tdg_kafka_broker_int_latency_min, tdg_kafka_broker_int_latency_outofrange, tdg_kafka_broker_int_latency_stddev, tdg_kafka_broker_int_latency_sum;
tdg_kafka_broker_outbuf_latency – задержка внутренней очереди запросов в микросекундах. Можно использовать самостоятельно или вместе с постфиксами из раздела Rolling Window Statistics.

Список доступных метрик: tdg_kafka_broker_outbuf_latency_avg, tdg_kafka_broker_outbuf_latency_cnt, tdg_kafka_broker_outbuf_latency_hdrsize, tdg_kafka_broker_outbuf_latency_max, tdg_kafka_broker_outbuf_latency_min, tdg_kafka_broker_outbuf_latency_outofrange, tdg_kafka_broker_outbuf_latency_stddev, tdg_kafka_broker_outbuf_latency_sum;
tdg_kafka_broker_rtt – задержка брокера, время обхода в микросекундах. Можно использовать самостоятельно или вместе с постфиксами из раздела Rolling Window Statistics.

Список доступных метрик: tdg_kafka_broker_rtt_avg, tdg_kafka_broker_rtt_cnt, tdg_kafka_broker_rtt_hdrsize, tdg_kafka_broker_rtt_max, tdg_kafka_broker_rtt_min, tdg_kafka_broker_rtt_outofrange, tdg_kafka_broker_rtt_stddev, tdg_kafka_broker_rtt_sum;
tdg_kafka_broker_throttle – время регулирования брокера в миллисекундах. Можно использовать самостоятельно или вместе с постфиксами из раздела Rolling Window Statistics.

Список доступных метрик: tdg_kafka_broker_throttle_avg, tdg_kafka_broker_throttle_cnt, tdg_kafka_broker_throttle_hdrsize, tdg_kafka_broker_throttle_max, tdg_kafka_broker_throttle_min, tdg_kafka_broker_throttle_outofrange, tdg_kafka_broker_throttle_stddev, tdg_kafka_broker_throttle_sum;
tdg_kafka_broker_state – состояние брокера. Доступно с версии 1.11.0. Возможные значения: INIT (1), DOWN (2), CONNECT (3), AUTH (4), APIVERSION_QUERY (5), AUTH_HANDSHAKE (6), UP (7), UPDATE (8), UNKNOWN (-1);
tdg_kafka_broker_source – источник брокера. Доступно с версии 1.11.0. Возможные значения: learned (1), configured (2), internal (3), logical (4), unknown (-1).

Статистика по топику

tdg_kafka_topic_age – возраст объекта клиентского топика в миллисекундах;
tdg_kafka_topic_metadata_age – возраст метаданных от брокера для данного топика в миллисекундах;
tdg_kafka_topic_batchsize – размер пакета в байтах. Метрика используется только вместе с постфиксами из раздела Rolling Window Statistics.

Список доступных метрик: tdg_kafka_topic_batchsize_avg, tdg_kafka_topic_batchsize_cnt, tdg_kafka_topic_batchsize_hdrsize, tdg_kafka_topic_batchsize_max, tdg_kafka_topic_batchsize_min, tdg_kafka_topic_batchsize_outofrange, tdg_kafka_topic_batchsize_stddev, tdg_kafka_topic_batchsize_sum;
tdg_kafka_topic_batchcnt – счетчик пакетных сообщений. Можно использовать самостоятельно или вместе с постфиксами из раздела Rolling Window Statistics.

Список доступных метрик: tdg_kafka_topic_batchcnt_avg, tdg_kafka_topic_batchcnt_cnt, tdg_kafka_topic_batchcnt_hdrsize, tdg_kafka_topic_batchcnt_max, tdg_kafka_topic_batchcnt_min, tdg_kafka_topic_batchcnt_outofrange, tdg_kafka_topic_batchcnt_stddev, tdg_kafka_topic_batchcnt_sum;
tdg_kafka_topic_partitions – разделы. Метрика используется только вместе с постфиксами из раздела Partitions.

Статистика по разделам топика

Метрики, связанные с разделами топика. Позволяют получить получать информацию о метрике tdg_kafka_topic_partitions.

tdg_kafka_topic_partitions_broker – ID брокера, сообщения из раздела которого извлекают в текущий момент;
tdg_kafka_topic_partitions_leader – ID текущего лидера брокеров;
tdg_kafka_topic_partitions_desired – раздел, явно требуемый при применении;
tdg_kafka_topic_partitions_unknown – раздел, который не отображен в метаданных топика брокера;
tdg_kafka_topic_partitions_msgq_cnt – количество сообщений, ожидающих отправки в очереди первого уровня;
tdg_kafka_topic_partitions_msgq_bytes – количество байтов в msgq_cnt;
tdg_kafka_topic_partitions_xmit_msgq_cnt – количество сообщений в очереди выборки, готовых к отправке;
tdg_kafka_topic_partitions_xmit_msgq_bytes – количество байтов в xmit_msgq;
tdg_kafka_topic_partitions_fetchq_cnt – количество предварительно выбранных сообщений в очереди выборки;
tdg_kafka_topic_partitions_fetchq_size – размер очереди выборки в байтах;
tdg_kafka_topic_partitions_query_offset – текущий/последний запрос на логическое смещение;
tdg_kafka_topic_partitions_next_offset – следующее смещение для выборки;
tdg_kafka_topic_partitions_app_offset – смещение в разделе последнего сообщения, переданного приложению, +1;
tdg_kafka_topic_partitions_stored_offset – смещение для фиксации в разделе;
tdg_kafka_topic_partitions_committed_offset – последнее зафиксированное смещение в разделе;
tdg_kafka_topic_partitions_eof_offset – последнее сигнализированное смещение PARTITION_EOF;
tdg_kafka_topic_partitions_lo_offset – минимальное доступное смещение для раздела на брокере;
tdg_kafka_topic_partitions_hi_offset – максимальное доступное смещение для раздела на брокере;
tdg_kafka_topic_partitions_ls_offset – последнее стабильное смещение раздела на брокере;
tdg_kafka_topic_partitions_consumer_lag – разница между hi_offset или ls_offset и commit_offset;
tdg_kafka_topic_partitions_consumer_lag_stored – разница между hi_offset или ls_offset и stored_offset;
tdg_kafka_topic_partitions_txmsgs – общее количество отправленных сообщений
tdg_kafka_topic_partitions_txbytes – общее количество байтов, переданных для txmsgs
tdg_kafka_topic_partitions_rxmsgs – общее количество полученных сообщений, за исключением игнорируемых сообщений;
tdg_kafka_topic_partitions_rxbytes – общее количество байтов, полученных для rxmsgs;
tdg_kafka_topic_partitions_msgs – общее количество полученных или общее количество отправленных сообщений;
tdg_kafka_topic_partitions_rx_ver_drops – удаленные устаревшие сообщения;
tdg_kafka_topic_partitions_msgs_inflight – текущее количество сообщений на пути к брокеру или от него (in-flight);
tdg_kafka_topic_partitions_next_ack_seq – следующая ожидаемая подтвержденная последовательность (идемпотентный продюсер);
tdg_kafka_topic_partitions_next_err_seq – следующая ожидаемая последовательность с ошибкой (идемпотентный продюсер);
tdg_kafka_topic_partitions_acked_msgid – ID внутреннего сообщения c последним подтверждением (идемпотентный продюсер).

Статистика группы consumer (cgrp)

tdg_kafka_cgrp_stateage – время с момента последнего изменения состояния в миллисекундах;
tdg_kafka_cgrp_rebalance_age – время с момента последней ребалансировки в миллисекундах;
tdg_kafka_cgrp_rebalance_cnt – общее количество ребалансировок;
tdg_kafka_cgrp_assignment_size – количество разделов для текущего назначения.
tdg_kafka_cgrp_state – состояние обработчика локальной группы consumer. Доступно с версии 1.11.0. Возможные значения: init (1), term (2), query-coord (3), wait-coord (4), wait-broker (5), wait-broker-transport (6), up (7), unknown (-1);
tdg_kafka_cgrp_join_state – состояние присоединения обработчика локальной группы consumer. Доступно с версии 1.11.0. Возможные значения: init (1), wait-join (2), wait-metadata (3), wait-sync (4), wait-assign-call (5), wait-unassign-call (6), wait-unassign-to-complete (7), wait-incr-unassign-to-complete (8), steady (9), unknown (-1).

Статистика идемпотентного продюсера (EOS)

Библиотека librdkafka поддерживает семантику Exactly-Once Delivery (EOS) для доставки сообщений. Такая семантика гарантирует, что сообщения будут доставлены строго один раз. За реализацию семантики отвечает свойство идемпотентности в настройках продюсера и число подтверждений об успешной записи.

tdg_kafka_eos_idemp_stateage – время с момента последнего изменения состояния ID идемпотентного продюсера (idemp_state) в миллисекундах;
tdg_kafka_eos_txn_stateage – время с момента последнего изменения состояния транзакционного продюсера txn_state в миллисекундах;
tdg_kafka_eos_txn_may_enq – состояние транзакции позволяет добавлять в очередь новые сообщения;
tdg_kafka_eos_producer_id – текущий ID продюсера (или -1);
tdg_kafka_eos_producer_epoch – текущая эпоха (или -1);
tdg_kafka_eos_epoch_cnt – число назначений ID продюсера с момента запуска.

2.15.2. Метрики Tarantool¶

В системе TDG доступны метрики для мониторинга работы экземпляров Tarantool.

2.15.2.1. Общая статистика¶

Общая информация о различных параметрах экземпляров Tarantool. Метрики имеют тип gauge.

tnt_cfg_current_time — cистемное время экземпляра в формате unix timestamp;
tnt_info_uptime — время с момента запуска экземпляра, секунды;
tnt_read_only — обозначает, находится ли экземпляр в режиме «только чтение». 1 если верно, 0 если неверно;
tnt_info_lsn — LSN (log sequence number, регистрационный номер в журнале) данного экземпляра;
tnt_info_vclock — значение LSN из пары «id: lsn» в векторных часах, где id — идентификатор экземпляра в наборе реплик, а lsn — регистрационный номер в журнале.

2.15.2.2. Общая статистика использования памяти¶

Метрики имеют тип gauge.

tnt_info_memory_cache — объем памяти, используемый для кэширования данных, байты. Актуально для движка базы данных vinyl;
tnt_info_memory_data — объем памяти, используемый для хранения данных (кортежей), байты;
tnt_info_memory_index — объем памяти, используемый для индексирования данных, байты;
tnt_info_memory_lua — объем памяти, используемый средой выполнения Lua-кода, байты;
tnt_info_memory_net — объем памяти, используемый для буферов сетевого ввода/вывода, байты;
tnt_info_memory_tx — объем памяти, используемый активными транзакциями, байты.

2.15.2.3. Статистика использования памяти для распределения slab¶

Метрики имеют тип gauge.

tnt_slab_quota_size — максимальный объем памяти, который механизм распределения slab может использовать как для кортежей, так и для индексов, байты. Как настроено в параметре memtx_memory — по умолчанию 2^28 байт = 268 435 456 байт;
tnt_slab_arena_size — общий объем памяти, используемый для кортежей и индексов, включая выделенные, но в данный момент свободные slab’ы, байты;
tnt_slab_items_size — общий объем памяти, используемый только для кортежей, включая выделенные, но в данный момент свободные slab’ы, байты. Не используется для индексов;
tnt_slab_quota_used — объем памяти, уже выделенный для распределения slab, байты;
tnt_slab_arena_used — эффективный объем памяти, используемый для кортежей и индексов, не включая выделенные, но в данный момент свободные slab’ы, байты;
tnt_slab_items_used — эффективный объем памяти, используемый только для кортежей, не включая выделенные, но в данный момент свободные slab’ы, байты. Не используется для индексов;
tnt_slab_quota_used_ratio — соотношение quota_used / quota_size;
tnt_slab_arena_used_ratio — соотношение arena_used / arena_size;
tnt_slab_items_used_ratio — соотношение items_used / slab_count * slab_size. Это slab’ы, которые используются только для кортежей, не для индексов.

2.15.2.4. Статистика использования памяти в конкретных спейсах¶

У каждой из этих метрик есть тэги alias (экземпляр, на котором собираются метрики), name (имя спейса) и engine (движок базы данных, используемый для этого спейса). Метрики имеют тип gauge.

tnt_space_len{alias,name,engine} — количество кортежей в спейсе;
tnt_space_bsize{alias,name,engine} — количество байтов в спейсе (количество байтов во всех кортежах, включая ключи индекса);
tnt_space_index_bsize{alias,name,engine} — количество байтов, занятых под индексы;
tnt_space_total_bsize{alias,name,engine} — суммарное количество байтов space_bsize + space_index_bsize.

2.15.2.5. Статистика сетевой активности¶

Метрики имеют тип gauge. У некоторых метрик ниже встречается значение RPS — это среднее количество запросов в секунду, за последние 5 секунд.

tnt_net_sent_total — исходящий трафик, байты;
tnt_net_sent_rps — исходящий трафик, RPS;
tnt_net_received_total — входящий трафик, байты;
tnt_net_received_rps — входящий трафик, RPS;
tnt_net_connections_total — общее количество входящих сетевых соединений с момента запуска экземпляра;
tnt_net_connections_current — текущее количество входящих сетевых соединений;
tnt_net_connections_rps — среднее количество входящих сетевых соединений, RPS;
tnt_net_requests_total — общее количество входящих сетевых запросов с момента запуска экземпляра;
tnt_net_requests_current — текущее количество входящих сетевых запросов в обработке. Может быть ограничено параметром конфигурации базы данных net_msg_max;
tnt_net_requests_rps — среднее количество входящих сетевых запросов, RPS.

2.15.2.6. Информация о файберах¶

Метрики имеют тип gauge.

tnt_fiber_count — общее количество файберов;
tnt_fiber_csw — количество переключений контекста для всех файберов;
tnt_fiber_memalloc — общий объем памяти, выделенный под файберы, байты;
tnt_fiber_memused — реальный объем памяти, используемый файберами, байты.

2.15.2.7. Статистика входящих запросов (по типу запросов)¶

Тип метрик — gauge. Метрики имеют следующие тэги:

alias — обозначает имя экземпляра, на котором собираются метрики. Имя экземпляра было задано при развертывании кластера;
operation — тип входящего запроса, приходящего по бинарному протоколу:
- auth — запросы на аутентификацию;
- call — запросы на выполнение хранимой процедуры;
- delete — запросы на удаление;
- error — запросы, завершившиеся с ошибкой;
- eval — запросы на выполнение Lua-кода;
- execute — выполнение SQL-запросов;
- insert — запросы на вставку;
- prepare — запросы SQL prepare;
- replace — запросы на замену;
- select — запросы на поиск;
- update — запросы на обновление;
- upsert — запрос на обновление или вставку.

Метрики:

tnt_stats_op_total{alias,operation} — общее количество запросов данного типа с момента запуска экземпляра;
tnt_stats_op_rps{alias,operation} — среднее количество запросов данного типа в секунду, за последние 5 секунд.

2.15.2.8. Статистика использования памяти для среды выполнения Lua-кода¶

Метрики имеют тип gauge.

tnt_runtime_lua — объем динамической памяти сборщика мусора в Lua, байты;
tnt_runtime_used — объем памяти, используемый Lua в данный момент, байты.

2.15.2.9. Статистика CPU¶

Метрики имеют тип gauge.

tnt_cpu_count — общее количество процессоров, сконфигурированных операционной системой;
tnt_cpu_total — процессорное время хоста;
tnt_cpu_thread{thread_pid,kind,thread_name,alias,file_name} — процессорное время потока Tarantool. У этой метрики всегда есть следующие тэги:
- thread_pid — PID (process ID), идентификатор потока;
- kind — вид, может быть user или system;
- thread_name — имя потока, может быть tarantool, wal, iproto или coio;
- alias — экземпляр, на котором собираются метрики;
- file_name — имя файла точки входа, например, init.lua.
tnt_cpu_user_time — количество использованного пользовательского времени процессора, секунды;
tnt_cpu_system_time — количество использованного системного времени процессора, секунды.

2.15.2.10. Метрики работы экземпляров Tarantool в кластере¶

Метрики имеют тип gauge.

tnt_cartridge_issues{alias,level} — количество ошибок в работе экземпляра. У метрики всегда есть тэги alias (экземпляр, на котором собираются метрики) и level, где level — это уровень критичности ошибки:
- critical относится к критическим ошибкам в работе экземпляра, например, когда используется более 90% памяти;
- warning относится к другим ошибкам в работе кластера, например, ошибки репликации на экземпляре.
tnt_clock_delta{alias,delta} — дрейф часов в кластере. У метрики всегда есть тэги alias (экземпляр, на котором собираются метрики) и delta, который имеет следующие возможные значения:
- max — разница с самыми быстрыми часами (всегда положительная);
- min — разница с самыми медленными часами (всегда отрицательная).
tnt_cartridge_config_checksum` – контрольная сумма конфигурации Cartridge на экземпляре. Доступно с версии 1.10.0. Метрика позволяет обнаружить расхождения в конфигурации между узлами кластера и таким образом проверить успешность обновления конфигурации на узлах кластера.

2.15.2.11. Метрики LuaJIT¶

Метрики LuaJIT дают представление о работе сборщика мусора Lua. Эти метрики доступны в Tarantool 2.6 и более поздних версиях.

Общие метрики JIT
- lj_jit_snap_restore — общее количество восстановлений стека по снимку. Тип метрики: counter;
- lj_jit_trace_num — количество JIT-трассировок. Тип метрики: gauge;
- lj_jit_trace_abort — общее количество прерванных трассировок. Тип метрики: counter;
- lj_jit_mcode_size — общий объем выделенного машинного кода, байты. Тип метрики: gauge.
JIT-строки:
- lj_strhash_hit — количество интернируемых строк. Тип метрики: counter;
- lj_strhash_miss — общее количество выделенных строк. Тип метрики: counter.
Шаги сборщика мусора:
- lj_gc_steps_atomic — количество шагов инкрементного сборщика мусора (фаза atomic). Тип метрики: counter;
- lj_gc_steps_sweepstring — количество шагов инкрементного сборщика мусора (фаза sweep для строк). Тип метрики: counter;
- lj_gc_steps_finalize — количество шагов инкрементального сборщика мусора (фаза finalize). Тип метрики: counter.
- lj_gc_steps_sweep — количество шагов инкрементального сборщика мусора (фаза sweep). Тип метрики: counter;
- lj_gc_steps_propagate — количество шагов инкрементального сборщика мусора (фаза propagate). Тип метрики: counter;
- lj_gc_steps_pause — количество шагов инкрементального сборщика мусора (фаза pause). Тип метрики: counter.
Аллокация:
- lj_gc_strnum — количество размещенных объектов-строк. Тип метрики: gauge;
- lj_gc_tabnum — количество размещенных объектов-таблиц. Тип метрики: gauge;
- lj_gc_cdatanum — количество размещенных объектов cdata. Тип метрики: gauge;
- lj_gc_udatanum — количество размещенных объектов udata. Тип метрики: gauge;
- lj_gc_freed — объем освобожденной памяти, байты. Тип метрики: counter;
- lj_gc_total — текущий объем выделенной Lua-памяти, байты. Тип метрики: gauge;
- lj_gc_allocated — объем выделенной памяти, байты. Тип метрики: counter.

2.15.2.12. Vinyl¶

Следующие метрики предоставляют статистику работы движка vinyl. Метрики имеют тип gauge.

Disk — дисковые метрики используются для мониторинга общего объема данных на диске:
- tnt_vinyl_disk_data_size — количество данных в байтах, хранимое в файлах .run, расположенных в директории vinyl_dir;
- tnt_vinyl_disk_index_size — количество данных в байтах, хранимое в файлах .index, расположенных в директории vinyl_dir.
Regulator — регулятор движка vinyl решает, когда начинать действия по дисковому IO. Он группирует действия в пакеты, чтобы они были более последовательными и эффективными.
- tnt_vinyl_regulator_dump_bandwidth — расчетная средняя скорость дампа, байты в секунду;
- tnt_vinyl_regulator_write_rate — фактическая средняя скорость выполнения операций записи, байты в секунду;
- tnt_vinyl_regulator_rate_limit — ограничение скорости записи, байты в секунду;
- tnt_vinyl_regulator_dump_watermark — максимальный объем памяти в байтах, используемый для in-memory хранения LSM-дерева движка vinyl.
Transactional activity — работа с транзакциями:
- tnt_vinyl_tx_commit — счетчик коммитов (успешных завершений транзакций);
- tnt_vinyl_tx_rollback — счетчик откатов (неудачных завершений транзакций);
- tnt_vinyl_tx_conflict — счетчик конфликтов, которые привели к откату транзакций;
- tnt_vinyl_tx_read_views — текущее количество транзакций, которые перешли в состояние read-only, чтобы временно избежать конфликта.
Memory — следующие метрики показывают области памяти состояния, используемые движком vinyl для кэша и буферов записи:
- tnt_vinyl_memory_tuple_cache — объем памяти в байтах, используемый в настоящее время для хранения кортежей (данных);
- tnt_vinyl_memory_level0 — область памяти «Уровень 0» (L0), байты;
- tnt_vinyl_memory_page_index — объем памяти в байтах, используемый в настоящее время для хранения индексов;
- tnt_vinyl_memory_bloom_filter — объем памяти в байтах, используемый фильтрами bloom.
Scheduler — планировщик движка vinyl, который вызывает регулятор и обновляет связанные с ним переменные. Это происходит раз в секунду.
- tnt_vinyl_scheduler_tasks{status,alias} — количество задач планировщика на дамп / компактификацию. У метрики всегда есть тэги alias (экземпляр, на котором собираются метрики) и status, который имеет следующие возможные значения:
  - inprogress для задач, которые запущены в данный момент;
  - completed для успешно завершенных задач;
  - failed для задач, прерванных из-за ошибок.
- tnt_vinyl_scheduler_dump_time — общее время в секундах, затраченное всеми рабочими потоками на выполнение дампов;
- tnt_vinyl_scheduler_dump_count — счетчик выполненных дампов.

Version:

2.15. Метрики¶

2.15.1. Метрики TDG¶

2.15.1.1. Метрики запросов GraphQL¶

2.15.1.2. Метрики системного администрирования¶

2.15.1.3. Метрики для задач и отложенных работ¶

2.15.1.4. Метрики Kafka¶

2.15.2. Метрики Tarantool¶

2.15.2.1. Общая статистика¶

2.15.2.2. Общая статистика использования памяти¶

2.15.2.3. Статистика использования памяти для распределения slab¶

2.15.2.4. Статистика использования памяти в конкретных спейсах¶

2.15.2.5. Статистика сетевой активности¶

2.15.2.6. Информация о файберах¶

2.15.2.7. Статистика входящих запросов (по типу запросов)¶

2.15.2.8. Статистика использования памяти для среды выполнения Lua-кода¶

2.15.2.9. Статистика CPU¶

2.15.2.10. Метрики работы экземпляров Tarantool в кластере¶

2.15.2.11. Метрики LuaJIT¶

2.15.2.12. Vinyl¶