AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维
- 2022-12-19 12:24:19
- 来源:IT之家
- 阅读量:19683
做AI数学题成绩又被刷新了!
众所周知,借助谷歌思维链的概念,AI已经能够像人类一样在做题时生成解题步骤。
这次来自DeepMind的科学家提出了一个实际问题:如何保证解题步骤和答案的双重准确性。
因此,他们在GSM8K数据集上综合比较了基于过程和基于结果的监测方法,并结合其优势训练出一个最优模型。
结果表明,新模型的错误率从16.8%降低到12.7%,求解步骤的错误率也从14.0%降低到3.4%。
步骤+回答双重保障
在介绍新的研究之前,不得不提Google在今年1月提出的思维链概念。
简单来说,思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同,思维链提示会增加一个额外的推理过程
该方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比,新方法在一系列算术推理任务中的准确率有了明显提高
可是,这种方法的一个问题是,在某些情况下,AI可以生成正确的答案,但推理过程是错误的。
现在,来自DeepMind的研究人员对这一点进行了改进:他们不仅关注最终结果,还关注推理过程的准确性。
为此,他们首次对自然语言处理任务中基于过程和结果的方法进行了综合比较。
具体包括以下不同场景:小样本提示,有监督的微调,通过专家迭代的强化学习,重排序和强化学习的奖励模型。
之所以选择GSM8K数据集,是因为它由小学数学应用题组成,答案都是整数解,便于精确统计,
第二,GSM8K数据集有离线监督推理步骤和在线人工标注。
从结果来看,第一,基于过程的方法和基于结果的方法,最终答案的错误率几乎相同这也意味着,单靠结果监督,就足以做到答案的低错误率
其次,推理步骤准确性的提高需要过程监督或模仿其奖励模型虽然最终答案错误率差不多,但从下图可以看出,结果监督的推理错误率明显高于过程监督
此外,研究人员还结合了两者的优点,训练出了一个最优模型,即将监督学习和基于奖励模型的强化学习相结合。
新模型的错误回答率从之前最好的水平16.8%降低到12.7%,回答正确但推理过程错误的情况也从14.0%降低到3.4%。
当模型被允许回避30%的问题时,最终答案的错误率甚至可以达到2.7%。
研究团队
这篇论文的研究团队来自DeepMind,共有三位合著者:Jonathan Uesato,Nate Kushman和Ramana Kumar。
纸质链接:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
相关新闻
更多>每日精选
更多>- “新三好SUV”吉利博越L荣 2022-12-19
- VelodyneLidar推 2022-12-19
- 马自达3昂克赛拉车机黑屏车主 2022-12-19
- MicroVision将收购 2022-12-19
- 11月新能源销量:埃安、理想 2022-12-19
- 11月销售230427辆!比 2022-12-19
- 美日货币政策明年或将“互换” 2022-12-19
- 上市丨全系标配8155芯片合 2022-12-19
- 盘点6种常见的物料输送方式 2022-12-19
- 购买汽车因疫情无法交付500 2022-12-19
- 长安览拓者官宣12月22日上 2022-12-19
- 微信键盘安卓/iOS正式版1 2022-12-19
- 苍柏青、跃动蓝新车色热销中! 2022-12-18
- 血脉喷张!东风风神奕炫将冲刺 2022-12-18
- 年轻人第一辆车该买啥全能紧凑 2022-12-18
- 共建新生态拥抱新能源图雅诺新 2022-12-18
- 未变!奇瑞回复“立讯成为第一 2022-12-18
- 荣获2021版C-NCAP首 2022-12-18
- 苹果新专利:用VSMR传感器 2022-12-18
- 政策刺激达到预期11月汽车终 2022-12-18