Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
文章的核心问题是超参数的在大模型的先验确定需要 大量的测试与算力资源,本文旨在讨论对于大模型的超参数(主要是指学习率)的设定能否从小参数模型迁移到大参数量的模型,同时保证训练的效果相对稳定。

文章的核心问题是超参数的在大模型的先验确定需要 大量的测试与算力资源,本文旨在讨论对于大模型的超参数(主要是指学习率)的设定能否从小参数模型迁移到大参数量的模型,同时保证训练的效果相对稳定。