Какие метрики мониторить?

Наблюдение должно быть многослойным: база, ОС, сеть, диски. Собирайте метрики в Prometheus/Grafana или аналог. Привожу список ключевых метрик с порогами и причинами тревоги. cache_hit_ratio (pg_stat_database blks_hit/(blks_hit+blks_read)) — стремитесь к >95% для OLTP; если <90% — увеличить shared_buffers/effective_cache_size или снизить random_page_cost. checkpoint duration и frequency (pg_stat_bgwriter.checkpoints_timed, checkpoints_req, checkpoints_timed) — длительные чекпойнты >5–10 секунд указывают на неправильно выставленный checkpoint_timeout или слишком маленький wal_size. Цель: держать duration <5s и избегать too-frequent checkpoints. wal_files/archiving backlog — если много накопленных WAL-архивов, увеличьте max_wal_size или проверьте скорость архивации. Порог: >10GB накопленных WAL считается тревожным для низколатентных приложений. replication lag — см. следующий раздел; порог для критичных систем >5s считается проблемой. disk I/O: await > 20ms для SSD...

Как уменьшить время checkpoint?

Сокращение времени checkpoint достигается балансом между wal_size, checkpoint_timeout и числом одновременных записей. Если чекпойнты происходят слишком часто, увеличьте max_wal_size (например, до 1–4GB на OLTP) и checkpoint_timeout (например, до 15–30 минут), чтобы уменьшить частоту. Для сокращения длительности самого чекпойнта увеличьте bgwriter_lru_maxpages и настройте wal_writer_delay; также уменьшите shared_buffers при чрезмерном использовании, если заметны большие bursts I/O. Контролируйте показатели через pg_stat_bgwriter: buffers_checkpoint, checkpoints_timed и duration; цель — редкие, но быстрые чекпойнты, длительность <5 секунд.

Что такое effective_cache_size и сколько ставить?

effective_cache_size — это подсказка планировщику запросов о размере доступного файлового кэша ОС; она не резервирует память, а помогает выбирать планы. Рекомендация: устанавливайте в районе 50–75% от общей RAM на выделенном сервере баз данных. Например, на 64GB RAM при shared_buffers=16GB разумно поставить effective_cache_size≈48GB (75% от RAM). Для виртуальных сред или при высокой конкуренции за память снижайте до 40–50% и тестируйте. После изменения пересмотрите планы с помощью EXPLAIN, так как планировщик может начать выбирать индексные сканы вместо последовательных при высоком effective_cache_size.

Почему увеличивается bloat?

Bloat (раздувание таблиц и индексов) возникает из-за большого числа UPDATE/DELETE и недостаточной работы VACUUM/ANALYZE. Если autovacuum не справляется (малое число workers, высокие thresholds) или если транзакции долгие и удерживают старые xmin, то мёртвые кортежи не удаляются, и размер растёт. Решения: увеличить autovacuum_max_workers, уменьшить autovacuum_vacuum_scale_factor для горячих таблиц, запускать pg_repack для онлайн-очистки, пересмотреть логику приложения (уменьшить частые UPDATE) и сократить длительность транзакций. Мониторьте pg_stat_user_tables.n_dead_tup и периодически считающийся bloat-скрипт для определения проблемных объектов.

Как настроить PgBouncer для 1000 клиентов?

При обслуживании до 1000 клиентов используйте PgBouncer в режиме transaction. Примерная конфигурация для сервера с 64GB RAM и 64 CPU: max_client_conn=2000, default_pool_size=200, reserve_pool_size=50, reserve_pool_timeout=5. На стороне Postgres выставьте max_connections равным default_pool_size * number_of_db_users (обычно 200–500) и следите за peak_active_connections. Важно: не забывайте о лимите рабочих процессов и памяти на сервере: рассчитывайте work_mem с учётом реального количества backend-подключений. Тестируйте стрессом (pgbench) и мониторьте приходящие очереди в PgBouncer (SHOW POOLS; SHOW STATS) и латентность соединений, чтобы избежать очередей в poolе.

Базы данных

PostgreSQL performance tuning 2026

Q: Что такое effective_cache_size и сколько ставить?

effective_cache_size — это подсказка планировщику запросов о размере доступного файлового кэша ОС; она не резервирует память, а помогает выбирать планы. Рекомендация: устанавливайте в районе 50–75% от общей RAM на выделенном сервере баз данных. Например, на 64GB RAM при shared_buffers=16GB разумно поставить effective_cache_size≈48GB (75% от RAM). Для виртуальных сред или при высокой конкуренции за память снижайте до 40–50% и тестируйте. После изменения пересмотрите планы с помощью EXPLAIN, так как планировщик может начать выбирать индексные сканы вместо последовательных при высоком effective_cache_size.

Q: Почему увеличивается bloat?

Bloat (раздувание таблиц и индексов) возникает из-за большого числа UPDATE/DELETE и недостаточной работы VACUUM/ANALYZE. Если autovacuum не справляется (малое число workers, высокие thresholds) или если транзакции долгие и удерживают старые xmin, то мёртвые кортежи не удаляются, и размер растёт. Решения: увеличить autovacuum_max_workers, уменьшить autovacuum_vacuum_scale_factor для горячих таблиц, запускать pg_repack для онлайн-очистки, пересмотреть логику приложения (уменьшить частые UPDATE) и сократить длительность транзакций. Мониторьте pg_stat_user_tables.n_dead_tup и периодически считающийся bloat-скрипт для определения проблемных объектов.

Q: Как настроить PgBouncer для 1000 клиентов?

При обслуживании до 1000 клиентов используйте PgBouncer в режиме transaction. Примерная конфигурация для сервера с 64GB RAM и 64 CPU: max_client_conn=2000, default_pool_size=200, reserve_pool_size=50, reserve_pool_timeout=5. На стороне Postgres выставьте max_connections равным default_pool_size * number_of_db_users (обычно 200–500) и следите за peak_active_connections. Важно: не забывайте о лимите рабочих процессов и памяти на сервере: рассчитывайте work_mem с учётом реального количества backend-подключений. Тестируйте стрессом (pgbench) и мониторьте приходящие очереди в PgBouncer (SHOW POOLS; SHOW STATS) и латентность соединений, чтобы избежать очередей в poolе.

Stan Brown

2 месяца назад·12 мин читать2

Гайд

#databases

Практическое руководство по ускорению PostgreSQL в 2025–2026 годах с конкретными командами, настройками и примерными числами для серверов от 16 до 512 ГБ оперативной памяти. Приводятся готовые конфигурации shared_buffers, work_mem, autovacuum, примеры партиционирования и пошаговые действия при replication lag.

Статья была полезной?

Комментарии (0)

Войдите или зарегистрируйтесь, чтобы оставить комментарий

Загрузка комментариев…

[databases] postgres = host=127.0.0.1 port=5432 dbname=postgres [pgbouncer] listen_addr = 0.0.0.0 listen_port = 6432 auth_type = md5 auth_file = /etc/pgbouncer/userlist.txt pool_mode = transaction max_client_conn = 1000 default_pool_size = 100 reserve_pool_size = 20 reserve_pool_timeout = 5

CREATE TABLE orders ( id bigserial PRIMARY KEY, user_id bigint NOT NULL, amount numeric(12,2), created_at timestamptz NOT NULL ) PARTITION BY RANGE (created_at); -- создаём партиции по месяцам CREATE TABLE orders_2025_01 PARTITION OF orders FOR VALUES FROM ('2025-01-01') TO ('2025-02-01'); -- можно автоматизировать создание партиций скриптом на cron

# /usr/local/bin/create_monthly_partition.sh psql -d mydb -c "DO $$ BEGIN EXECUTE format('CREATE TABLE IF NOT EXISTS orders_%s PARTITION OF orders FOR VALUES FROM (''%s-01'') TO (''%s-01'')', to_char(now(),'YYYY_MM'), to_char(now(),'YYYY-MM'), to_char(now()+interval '1 month','YYYY-MM')); END $$;"

-- на primary SELECT pg_current_wal_lsn(); -- на replica SELECT pg_last_wal_receive_lsn(), pg_last_wal_replay_lsn(), now() - pg_last_xact_replay_timestamp() AS replay_delay; -- на primary: статус репликации SELECT pid, state, sent_lsn, write_lsn, flush_lsn, replay_lsn, sync_state, write_lag, flush_lag, replay_lag FROM pg_stat_replication;

PostgreSQL performance tuning 2026

Комментарии (0)

Диагностика медленных запросов

Шаг 1: настройка shared_buffers

Шаг 2: work_mem и connection pool

Шаг 3: vacuum и autovacuum

Шаг 4: partitioning

Шаг 5: оптимизация индексов