DeepMind控制套件是一組具有標準化結構和可解釋獎勵的連續控制任務,旨在作為強化學習代理的性能基準。這些任務是用Python編寫的,由MuJoCo物理引擎提供支持,使它們易于使用和修改。我們包括了幾種學習算法的基準。