首页>学霸的星辰大海坑了吗 > 第108章 意外的物理学经验
第108章 意外的物理学经验
2025年1月,还有一件事对徐辰影响很大。
这个月,发生了一件科技界的大事。
各大国内主流新闻app的头版头条都在推送一条消息:
标题,充满了科技感与冲击力。
【“中国ai的‘gpt-4时刻’?deepseek-r1横空出世,性能全面超越,并宣布开源!”
】
“deepseek-r1?”
徐辰的眉毛,微微一挑。
在过去的几个月里,以chatgpt为代表的大语言模型(ll),如同平地惊雷,在全球范围内,掀起了一场前所未有的科技革命。
【大语言模型……ai……】
徐辰的心中,泛起了一丝好奇。
他虽然主攻的是纯粹数学,但对于这些代表着人类科技最前沿的“时髦”
玩意儿,也并非一无所知。
他打开计算机,搜索到了deepseek-r1的开源论文。
他饶有兴致地,开始阅读起来。
论文的前半部分,是关于模型训练所使用的数学理论。
“……我们采用了改进的‘注意力机制’(attentionis),其内核,是将输入串行中的每一个词矢量,都映射到‘查询(query)’、‘键(key)’、‘值(vae)’这三个矢量空间中。
通过计算query与所有key的点积相似度,并进行softax归一化,来得到每个vae的权重……”
【嗯,有点意思。
】徐辰的眼中,闪过一丝了然。
【这个思路,本质上是线性代数中‘投影’与‘加权平均’思想的一种精妙应用。
它通过点积来衡量矢量间的‘相关性’,再用softax函数将这种相关性转化为概率权重,从而让模型能够动态地聚焦于输入串行中最关键的部分。
】
本章未完,点击下一页继续阅读