D
eepSeek一夜之间爆红。这家中国AI实验室凭借其聊天机器人应用在本周成功进入了主流视野,该应用不仅登上了苹果应用商店的榜首,还在谷歌Play商店中崭露头角。DeepSeek的AI模型采用计算高效的方式训练而成,这引发华尔街分析师和科技界人士的疑问:美国能否在AI竞赛中保持领先地位?AI芯片的需求是否能够持续?DeepSeek的交易员起源
DeepSeek背后有中国量化对冲基金High-Flyer Capital Management的支持,该基金利用AI为其交易决策提供依据。AI爱好者梁文峰于2015年共同创立了High-Flyer,并在2019年将其发展为专注于开发和部署AI算法的对冲基金。2023年,High-Flyer启动了DeepSeek项目,作为一个独立于其金融业务的AI工具研究实验室。在High-Flyer作为其投资者的支持下,该实验室最终分离出来,成为如今的DeepSeek公司。
从成立之初,DeepSeek就着手构建自己的数据中心集群用于模型训练。然而,与其他中国AI公司一样,DeepSeek也受到了美国硬件出口禁令的影响。在训练其最近的一个模型时,公司不得不使用Nvidia H800芯片,这是H100芯片的性能较弱版本,而H100芯片是美国公司可用的。
据称,DeepSeek的技术团队成员偏年轻化。公司积极从中国顶尖高校招募博士AI研究员。据《纽约时报》报道,DeepSeek还雇佣了一些没有计算机科学背景的人,以帮助其技术更好地理解广泛的主题。
DeepSeek强大的模型
DeepSeek在2023年11月首次推出了其模型系列——DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。但直到去年春天,当这家初创公司发布了下一代DeepSeek-V2模型家族时,AI行业才开始真正关注。
DeepSeek-V2是一种通用的文本和图像分析系统,在各种AI基准测试中表现出色,且与当时的同类模型相比,运行成本要低得多。这迫使DeepSeek的国内竞争对手,包括字节跳动和阿里巴巴,降低了一些模型的使用价格,甚至将其他模型完全免费开放。
2024年12月推出的DeepSeek-V3,进一步提升了DeepSeek的知名度。根据DeepSeek的内部基准测试,DeepSeek V3在性能上超越了可下载的开源模型(如Meta的Llama)以及只能通过API访问的“封闭”模型(如OpenAI的GPT-4o)。同样令人印象深刻的是DeepSeek的R1“推理”模型。该模型于今年1月发布,据称在关键基准测试中表现与OpenAI的o1模型相当。
作为一款推理模型,R1能够有效自我事实核查,这有助于避免模型通常会陷入的一些陷阱。虽然推理模型通常比普通非推理模型多花几秒到几分钟来得出解决方案,但它们在物理学、科学和数学等领域往往更可靠。
然而,DeepSeek的R1、DeepSeek V3以及其他模型也存在一些局限性。作为中国开发的AI,它们需接受中国互联网监管机构的基准测试,以确保其响应“体现社会主义核心价值观”。例如,在DeepSeek的聊天机器人应用中,R1不会回答有关天安门广场或台湾自治的问题。
一种颠覆性的商业模式
DeepSeek究竟采取了怎样的商业模式?目前尚不明确。该公司将其产品和服务定价远低于市场水平,甚至将一些产品免费开放。尽管有大量风险投资的兴趣,DeepSeek却并未接受投资。
DeepSeek声称,效率突破使其能够保持极端的成本竞争力。不过,一些专家对该公司提供的数据表示质疑。
无论如何,开发者们已经纷纷采用DeepSeek的模型,这些模型并非以通常理解的开源方式存在,而是在允许商业使用的许可下提供。据Hugging Face首席执行官克莱姆·德拉朗格称,Hugging Face平台上托管的DeepSeek模型,开发者已基于R1创建了超过500个“衍生”模型,总下载量达到250万次。
DeepSeek在更大、更成熟的竞争对手面前取得的成功,被形容为“颠覆了AI”和“过度炒作”。至少在一定程度上,DeepSeek的成功导致英伟达的股价在1月份下跌了18%,并引发了OpenAI首席执行官萨姆·奥尔特曼的公开回应。据路透社报道,今年3月,美国商务部部门告知员工,DeepSeek将被禁止在其政府设备上使用。
微软宣布DeepSeek已在其Azure AI Foundry服务上推出,这是微软为企业打造的整合AI服务的平台。当被问及DeepSeek对Meta AI支出的影响时,首席执行官马克·扎克伯格在其第一季度财报电话会议上表示,对AI基础设施的投入将继续成为Meta的“战略优势”。今年3月,OpenAI称DeepSeek是“国家补贴”和“国家控制”的,并建议美国政府考虑禁止DeepSeek的模型。
在英伟达第四季度财报电话会议上,首席执行官黄仁勋强调了DeepSeek的“卓越创新”,并表示像DeepSeek这样的“推理”模型对英伟达非常有利,因为它们需要更多的计算能力。
与此同时,一些公司正在禁止使用DeepSeek,一些国家和政府,包括韩国,也在采取同样的措施。纽约州也禁止在政府设备上使用DeepSeek。
至于DeepSeek的未来会如何发展,目前尚不明确。改进模型是必然的。但美国政府似乎对其所感知的有害外国影响愈发警惕。今年3月,《华尔街日报》报道,美国可能会禁止在政府设备上使用DeepSeek。