从自适应方法(Adam)开始适当时候切换到SGD的混合训练策略

更新于 2017年12月25日 机器学习
我来说两句
爱可可-爱生活   网页版 2017-12-24 04:50
算法 Richard Socher 论文
《Improving Generalization Performance by Switching from Adam to SGD》N S Keskar, R Socher [Salesforce Research] (2017) http://t.cn/RHz2In5

 

回复