by Elijah Feb 19,2025
DeepSeek令人惊讶的是,廉价的AI模型挑战了行业巨头。这家中国初创公司声称已经培训了其强大的DeepSeek V3神经网络,仅利用2048 GPU,大大削弱了竞争对手,仅需600万美元。然而,这似乎很低的成本掩盖了更多的投资。
图像:ensigame.com
DeepSeek V3的创新架构有助于其效率。关键技术包括多言预测(MTP),该预测同时预测了多个单词;专家(MOE)的混合物,采用256个神经网络进行加速培训;和多头潜在注意力(MLA),重点是至关重要的句子元素以提高准确性。
图像:ensigame.com
但是,一份半分析报告显示,基础设施更大:大约50,000个NVIDIA GPU,价值约16亿美元,运营成本接近9.44亿美元。这与DeepSeek的初始成本索赔相矛盾,该索赔仅说明了培训的GPU使用情况,省略了研究,改进,数据处理和整体基础设施费用。
DeepSeek的独立性和精益结构是高飞行对冲基金的子公司,可以快速创新和有效的资源分配。与依赖云服务的竞争对手不同,DeepSeek拥有其数据中心,从而最大程度地发挥了控制和速度。它的自资助性质进一步增强了敏捷性。对于一些研究人员来说,高薪高薪,每年超过130万美元,吸引了中国大学的顶尖人才。
图像:ensigame.com
尽管DeepSeek的600万美元培训成本数字具有误导性,但该公司的整体投资超过5亿美元。它的成功源于大量投资,技术进步和熟练的劳动力,而不仅仅是预算效率。尽管如此,它的成本仍大大低于竞争对手; DeepSeek的R1型号的价格为500万美元,而Chatgpt4的1亿美元。
图像:ensigame.com
DeepSeek的示例展示了一家成功,资金充足的独立AI公司,与知名参与者有效竞争。但是,革命成本效益的叙述需要对其真正的投资量表有更细微的理解。