首页>学霸的星辰大海在线阅读 > 第167章 重启SLRM研究 三

第167章 重启SLRM研究 三

目录

在接下来的几天里,北大计算中心的gpu集群再次满负荷运转。

十几个不同版本的模型,在四张a100显卡上日夜不停地交叉训练、验证、迭代。

徐辰编写了一个自动化的超参数搜索脚本,让计算机自己去查找那个最优的解。

屏幕上,十几条loss曲线像赛跑一样交织在一起,有的早早收敛,有的半路崩盘,有的则还在顽强地挣扎。

最终,在烧掉了数千块钱的电费后,一个名为“v4_fal_best”

的模型版本脱颖而出。

这类预测模型,准确率理论上是到不了100的,人类在这个数据集上的平均准确率,也不过是99左右。

毕竟,人也会犯错,也会看花眼。

而且在ai评测中,为了防止模型“过拟合”

或者“作弊”

,有时候会故意在测试集中掺杂少量的噪声数据。

如果一个模型在这些明显错误的题目上也答“对”

了,即输出了错误的标注答案,那就说明这个模型可能是在“背题”

,而不是在“推理”

看着这个数字,徐辰满意地点了点头。

“就是它了。”

……

随后徐辰又看了下训练的日志。

这才发现了这个算法存在一些问题。

由于之前徐辰都是丢给计算机让计算机自己迭代,然后就去做别的事了,所以徐辰并没有太过关注这个模型的运行效率,但是看了日志才发现,这个slr模型,太慢了。

徐辰看着那个令人咋舌的延迟数据:

qwen-7b(原版):推理速度45tokenss。

。”

徐辰扶额。

本章未完,点击下一页继续阅读



返回顶部