工程院院士与DeepSeek过了一招
过去,人工智能领域信奉“大力出奇迹”,即通过增加模型规模、数据量和计算资源来显著提升模型性能。而DeepSeek则开辟了一条新路,以低成本、高效率的方式改写了行业竞争法则,给全球人工智能界带来新的启示。早在DeepSeek“出圈”之前,青岛的人工智能企业就开始关注这个“不走寻常路”的新物种,并在DeepSeek推理模型推出的第一时间积极拥抱,用以提升自家行业模型能力。
对青岛的人工智能企业来说,DeepSeek的到来将加速大模型在各行各业的应用,为垂直领域的行业大模型带来新的机遇。但当前再强大的通用大模型对行业专业知识的理解仍有不足,大模型要在各个行业中真正发挥作用仍需学习更多专业知识,垂域大模型还有许多工作要做。
没有人会否认,DeepSeek是继ChatGPT之后全球人工智能领域最引人注目的产品。某种意义上,DeepSeek对于推动全球人工智能发展的意义要远甚于ChatGPT。如果说ChatGPT展示了大模型的强大,那DeepSeek则表明最强的大模型并非遥不可及。
更低的算力成本和开源路线,是DeepSeek与ChatGPT最显著的区别。正是基于这两点,DeepSeek改变了现有全球AI的竞争规则。算法、算力、数据被称为人工智能三要素。自ChatGPT引发全球大模型浪潮以来,算力的重要性不断上升。然而,DeepSeek重构了这种以算力为中心的竞争规则。通过多元专家混合的模型架构,DeepSeek V3版本的训练成本仅为600万美元,显著低于此前海外主流大模型的成本。中国工程院院士李国杰认为,DeepSeek的创新不仅是技术上的突破,也是发展模式上的颠覆性创新。(来源:信网)