Airflow 中文文件:用Celery擴大規模
阿新 • • 發佈:2018-11-29
CeleryExecutor
是您擴充套件工人數量的方法之一。 為此,您需要設定Celery後端( RabbitMQ , Redis ,...)並更改airflow.cfg
以將執行程式引數指向CeleryExecutor
並提供相關的Celery設定。
有關設定Celery代理的更多資訊,請參閱有關該主題的詳盡Celery文件 。
以下是您的員工的一些必要要求:
- 需要安裝airflow,CLI需要在路徑中
- 整個群集中的氣流配置設定應該是同構的
- 在worker上執行的操作符需要在該上下文中滿足其依賴項。 例如,如果您使用
HiveOperator
MySqlOperator
,則必須以某種方式在PYTHONPATH
提供所需的Python庫 - 工作人員需要訪問其
DAGS_FOLDER
,您需要通過自己的方式同步檔案系統。 常見的設定是將DAGS_FOLDER儲存在Git儲存庫中,並使用Chef,Puppet,Ansible或用於配置環境中的計算機的任何內容在計算機之間進行同步。 如果您的所有盒子都有一個共同的掛載點,那麼共享您的管道檔案也應該可以正常工作
要啟動工作人員,您需要設定Airflow並啟動worker子命令
airflow worker