美国最终可能找到了中国深层技术的答案。几个月来,中国DeepSeek AI模型一直在AI竞赛中为其同行提供不眠之夜,这反映了高级推理AI模型的开发不仅是OpenAI或Google等西方科技老板的独有之处。但是现在,美国的研究人员以自己的AI突破反驳了这一点。
斯坦福大学和华盛顿大学的一组研究人员开发了一种新的推理模型,称为S1,可以击败Openai的O1和DeepSeek的R1,所有这些模型的云计算成本不到50美元。
多年来,人们一直认为开发尖端的AI涉及十亿美元的投资和大规模的GPU网络。 Openai,Google和Meta一直在打破TL列车并开发其AI车型,这使小型团队几乎不可能与他们比赛。
新的S1型号从伯克利研究人员的书中取出了一片叶子,该书上个月开发了类似的模型,每月约450美元。为了开发S1,研究人员利用了一个称为蒸馏的过程,该过程允许较小的模型吸收更先进的AI的推理能力。
就S1而言,已经对Google的Gemini 2.0 Flash思维实验模型的响应进行了培训。结果是一个AI,其性能与更大,更昂贵的系统相同。
S1背后的研究人员选择了一组精心策划的1,000个高质量的推理问题,而不是倒在大量数据集中。据观察,一个较小且经过精心策划的数据集与较大模型的性能相匹配,从而消除了对计算昂贵的资源的需求。 S1模型可在GitHub上使用,供其数据和用于训练它的数据和代码。
c
中国的DeepSeek R1由于其负担能力和廉价的计算成本而迅速成名。借助S1,美国研究人员有机会证明其推理模型与DeepSeek和OpenAI相当,并且计算成本最少。
S1项目尽管取得了成功,但仍引起了一些道德问题。该模型接受了Google的Gemini 2.0响应培训,这可能违反了后者的服务条款。 Google明确禁止用户使用其API训练竞争模型。