Airflow — это планировщик рабочих процессов (workflow orchestrator), который позволяет описывать ETL-пайплайны и периодические задачи как DAG (Directed Acyclic Graph). На практике вы получите прозрачное управление зависимостями задач, повторные попытки, логирование и визуализацию выполнения. Примерное время на подготовку окружения и написание первого DAG — 60–120 минут.

Что лучше Prefect?

Prefect — альтернативный orchestrator с упором на простоту и современный API. Prefect 3 (релиз 2025) делает акцент на SaaS-интеграции и динамические потоки. Основные отличия: Airflow ориентирован на расписания и историчные DAG; сильный UI для отслеживания DAG-run и интеграций со стандартными SQL-бэкендами. Prefect предоставляет более гибкую модель Flow, удобен для event-driven и ad-hoc запусков; у Prefect встроен modern state handling и удобный локальный runtime. Когда выбирать что: если нужна зрелая экосистема с множеством интеграций, RBAC и контролем на уровне оператора — выбирайте Airflow. Если важна быстрая разработка, простая интеграция с cloud SaaS и меньше операций по настройке — рассматривайте Prefect. Многие команды используют оба инструмента: Airflow для регулярных ETL и Prefect для ad-hoc pipelines и data-science задач.

Какие частые ошибки?

Ниже перечислены распространённые ошибки при работе с Airflow и способы их устранения. Почему DAG не виден в web UI? Причины: синтаксическая ошибка в файле, некорректные права на файлы, или webserver не видит директорию dags. Проверяйте логи webserver и выполняйте python -m py_compile dags/your_dag.py. Убедитесь, что владелец файлов и права позволяют контейнеру читать файлы (обычно 644). Если используете NFS — проверьте latency и consistency, так как Airflow активно импортирует файлы. Что делать при "Database connection error"? Проверьте строку подключения AIRFLOW__CORE__SQL_ALCHEMY_CONN, доступность Postgres и правильность учётных данных. Для проверки внутри контейнера используйте psql или pg_isready. В случаях network policy или firewall исправьте правила. Если вы видите ошибки миграции, выполните airflow db upgrade и посмотрите логи alembic. Как уменьшить время запуска задач? Оптимизируйте время старта путем уменьшения overhead: используйте CeleryExecutor или KubernetesExecutor,...

Почему DAG не виден в web UI?

Причины: синтаксическая ошибка в файле, некорректные права на файлы, или webserver не видит директорию dags. Проверяйте логи webserver и выполняйте python -m py_compile dags/your_dag.py. Убедитесь, что владелец файлов и права позволяют контейнеру читать файлы (обычно 644). Если используете NFS — проверьте latency и consistency, так как Airflow активно импортирует файлы.

Что делать при "Database connection error"?

Проверьте строку подключения AIRFLOW__CORE__SQL_ALCHEMY_CONN, доступность Postgres и правильность учётных данных. Для проверки внутри контейнера используйте psql или pg_isready. В случаях network policy или firewall исправьте правила. Если вы видите ошибки миграции, выполните airflow db upgrade и посмотрите логи alembic.

Как уменьшить время запуска задач?

Оптимизируйте время старта путем уменьшения overhead: используйте CeleryExecutor или KubernetesExecutor, уменьшите DAG-parse-time, отключите тяжелые импорты на верхнем уровне файлы DAG (отложите import внутрь PythonOperator), настроите оптимальный min_worker_concurrency. Применяйте pools и лимит на параллелизм в конфиге (по умолчанию 32). Также следите за размерами логов и настройкой storage для логов (S3/MinIO ускоряет запись логов при большом потоке).

Когда задачи повторно отмечаются как running?

Часто это связано с проблемами брокера или scheduler: потеря heartbeats у worker'ов, или проблемы с базой метаданных. Проверьте время heartbeats в worker и scheduler, увеличьте SQLAlchemy pool size при большой нагрузке и убедитесь, что системное время на всех узлах синхронизировано через NTP. Для Celery проверяйте Redis/Postgres health.

Как начать миграцию с LocalExecutor на CeleryExecutor?

Для миграции подготовьте брокер сообщений (Redis или RabbitMQ) и backend (Postgres/Redis). В конфиге Airflow поменяйте параметр executor на CeleryExecutor и настройте section [celery] с URL брокера. Тестируйте на staging: поднять несколько worker-контейнеров, прогнать нагрузочный backfill и наблюдать за состояниями задач. Обратите внимание на connection pool к базе данных; при высокой нагрузке увеличьте pool_size. Планируйте миграцию на окно с минимальной активностью, выполняйте миграции alembic заранее и мониторьте логи.

Сколько памяти требуется для Webserver и Scheduler?

Для локальной разработки достаточно 2 CPU и 4 GB RAM для webserver и scheduler. В продакшене рекомендуется 2–4 CPU и 8–16 GB RAM для scheduler при большом количестве DAG-run. Worker'ы Celery должны иметь минимум 1–2 CPU и 4–8 GB RAM в зависимости от конкретных задач (например, heavy ETL потребует больше памяти). Настройка числа worker'ов и concurrency влияет на общий потребление ресурсов.

Где хранить конфигурацию connections и variables безопасно?

Рекомендуется хранить secrets в секретном менеджере: HashiCorp Vault, AWS Secrets Manager или Kubernetes Secrets. Airflow поддерживает интеграцию через connections backend и secrets backend. Для CI/CD храните только ссылки на секреты, а не сами значения в репозитории. Для локальной разработки используйте .env и .airflowignore аккуратно, чтобы не коммитить реальные пароли.

Почему оператор зависает в state queued?

Обычно причина — недоступность worker'ов или исчерпан лимит parallelism/pool. Проверьте количество активных worker'ов, их логи и состояние брокера. В настройках Airflow — core.parallelism, dag_concurrency и max_active_tasks — могут ограничивать запуск. Для Celery также проверьте Celery worker concurrency и availability. Увеличьте лимиты или уменьшите нагрузку на систему для разрешения очереди.

Чем логировать большие объёмы данных в задачах?

Для больших объёмов логов не храните их в базе данных. Настройте remote logging: S3, GCS или MinIO. В Airflow укажите backend в конфиге (например, remote_base_log_folder) и задайте IAM-учётные данные. Это уменьшит нагрузку на файловую систему и обеспечит масштабирование при большом потоке задач и объёмах логов. Полезные материалы по теме доступны в разделах DevOps и Python на сайте. Для примеров CI/CD посмотрите публикации в DevOps и обзоры интеграций с Redis и Postgres в статьях категории Python.

Apache Airflow: DAG для начинающих

mkdir ~/airflow-dag-tutorial && cd ~/airflow-dag-tutorial
cat > docker-compose.yml <<'EOF'
version: '3.8'
services:
  postgres:
    image: postgres:15
    environment:
      POSTGRES_USER: airflow
      POSTGRES_PASSWORD: airflow
      POSTGRES_DB: airflow
    volumes:
      - postgres_db:/var/lib/postgresql/data
  airflow-webserver:
    image: apache/airflow:2.7.0-python3.12
    environment:
      AIRFLOW__CORE__EXECUTOR: LocalExecutor
      AIRFLOW__CORE__SQL_ALCHEMY_CONN: postgresql+psycopg2://airflow:airflow@postgres/airflow
    volumes:
      - ./dags:/opt/airflow/dags
    ports:
      - "8080:8080"
    depends_on:
      - postgres
volumes:
  postgres_db:
EOF

docker compose up -d
# инициализация метаданных
docker compose exec airflow-webserver airflow db upgrade

Applying alembic migrations
... (snip) ...
INFO  sqlalchemy.engine.Engine SELECT version_num FROM alembic_version
INFO  alembic.runtime.migration upgrade  -> head

until docker compose exec postgres pg_isready -U airflow; do sleep 2; done

from datetime import datetime, timedelta
from airflow import DAG
from airflow.operators.bash import BashOperator

default_args = {
    'owner': 'you',
    'depends_on_past': False,
    'email_on_failure': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=5),
}
with DAG(
    'example_dag',
    default_args=default_args,
    description='Первый DAG для туториала',
    schedule_interval='@daily',
    start_date=datetime(2025, 1, 1),
    catchup=False,
) as dag:
    t1 = BashOperator(task_id='print_date', bash_command='date')
    t2 = BashOperator(task_id='sleep', bash_command='sleep 5')
    t1 >> t2

docker compose logs airflow-webserver
# ищите Traceback и исправляйте по строкам

from airflow import DAG
from airflow.operators.python import PythonOperator
from airflow.operators.bash import BashOperator
from airflow.sensors.http_sensor import HttpSensor
from datetime import datetime, timedelta

def task_func(**kwargs):
    print('Hello from PythonOperator')

with DAG('operators_sensors_dag', start_date=datetime(2025,1,1), schedule_interval='@hourly', catchup=False) as dag:
    wait_for_api = HttpSensor(
        task_id='wait_for_api',
        http_conn_id=None,
        endpoint='https://httpbin.org/status/200',
        poke_interval=10,
        timeout=60,
    )
    py = PythonOperator(task_id='run_py', python_callable=task_func)
    bash = BashOperator(task_id='run_bash', bash_command='echo "done"')
    wait_for_api >> py >> bash

[2025-06-01 12:00:00] INFO - Poking: https://httpbin.org/status/200
[2025-06-01 12:00:00] INFO - Got 200
[2025-06-01 12:00:00] INFO - Success criteria met. Exiting.

docker compose exec airflow-webserver airflow connections add 'http_default' --conn-uri 'http://httpbin.org'

# Пример: запустить backfill для example_dag с 2025-05-20 по 2025-05-22
docker compose exec airflow-webserver airflow dags backfill example_dag -s 2025-05-20 -e 2025-05-22

[2025-06-01 12:10:00] INFO - Creating 3 dag runs
[2025-06-01 12:10:00] INFO - TaskInstance: example_dag.print_date for 2025-05-20 queued
[2025-06-01 12:10:01] INFO - TaskInstance: example_dag.print_date for 2025-05-20 succeeded
... (повтор для остальных дат)

# Запустить task instance для конкретной даты без webserver
docker compose exec airflow-webserver airflow tasks test example_dag print_date 2025-06-01

[2025-06-01 12:20:00] INFO - Running: ['bash', '-lc', 'date']
Thu Jun  1 12:20:00 UTC 2025
[2025-06-01 12:20:00] INFO - Marking task as SUCCESS

def my_func(x):
    return x + 1

def test_my_func():
    assert my_func(1) == 2

name: Deploy DAG
on:
  push:
    branches: [ main ]
jobs:
  test:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Set up Python
        uses: actions/setup-python@v4
        with:
          python-version: '3.12'
      - name: Install deps
        run: pip install -r requirements.txt
      - name: Run tests
        run: pytest -q
  deploy:
    needs: test
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: Push DAG to server
        run: |
          rsync -avz --delete dags/ deploy@prod:/opt/airflow/dags/

Apache Airflow: DAG для начинающих | KtoHto

Apache Airflow: DAG для начинающих

Что вы изучите

Требования

Зачем Airflow?

Комментарии (0)

Шаг 1: первый DAG

Шаг 2: операторы и sensors

Шаг 3: backfill

Шаг 4: тестирование DAG

Шаг 5: деплой в прод