80后创始人从普通家庭逆袭全球第1,DeepSeek如何用“笨办法”打破AI行业规则?

     分类 [产品经理]
2025/2/7 16:18:38 浏览量  1832 喜欢  64
导读:最近DeepSeek实在太火了,这波AI的发展远比预想的迅速,呱哥过年期间也趴了一些资料第一时间科普,AI一年人间十年,希望大家和我一起抓紧学习和上车。

80后创始人从普通家庭逆袭全球第1,DeepSeek如何用“笨办法”打破AI行业规则?

 

 

一、DeepSeek和创始人梁文峰的成长经历

梁文峰,1985年出生于广东湛江的一个普通家庭,父母都是小学老师。在那个信息相对闭塞的五线小城,梁文峰凭借自己的努力,考入了浙江大学电子信息工程专业,主攻人工智能方向。从小就是妥妥的学霸,梁文峰在这里开启了他与人工智能的不解之缘。

在浙江大学期间,梁文峰不仅学习成绩优异,还积极参与科研项目。他对金融市场产生了浓厚的兴趣,开始尝试用机器学习技术分析市场数据。2008年,他和两位同学组队,开始积累市场行情数据,探索全自动量化交易。这段经历为他后来的创业之路奠定了坚实的基础。

2013年,梁文峰和同学徐进共同创立了杭州雅克比投资管理有限公司,正式进入量化投资领域。2015年,他们又创办了幻方量化,依靠数学和人工智能技术进行量化投资。幻方量化迅速崭露头角,管理资金规模逐步扩大,到2019年时已经管理至少100亿美元的资产。

然而,梁文峰的野心不止于此。在运营幻方量化期间,他开始积极投资购买Nvidia的GPU,计划构建庞大的芯片集群来训练自己的人工智能模型。2023年,梁文峰正式推出了DeepSeek,作为幻方量化孵化的人工智能实验室的分支。DeepSeek的团队成员大多是梁文峰的浙大校友,包括应届博士生和极客研究员,他们形成了“技术驱动、开源共享”的独特文化。


二、DeepSeek的技术路线及优势
(一)技术创新:低成本、高性能
DeepSeek的技术路线可以用“聪明的算法”来概括。与OpenAI不同,DeepSeek并没有一味追求硬件的堆砌和模型的复杂性。相反,它更注重算法的优化和创新。DeepSeek的核心技术优势包括:
1. 混合专家(MoE)架构:DeepSeek-V3拥有6710亿参数,但每次输入仅激活370亿参数,大幅降低计算成本的同时保持高性能。这种架构通过细粒度的专家分配和共享专家机制,实现了经济高效的训练。
想象一下,你有一个大团队,但每次任务只需要一小部分人去完成。这样既节省了资源,又提高了效率。


2. 多头潜在注意力(MLA)架构:这种架构通过低秩压缩技术减少了推理时的Key-Value缓存,显著提升了推理效率。
就像你做数学题时,只关注关键信息,忽略无关内容,这样可以更快地找到答案。

3. 低精度训练:DeepSeek采用FP8低精度训练,结合量化技术,显著降低GPU内存占用,同时保持模型性能稳定。
就像你用更少的燃料,让汽车跑得更快,同时还能保持稳定的性能。

(二)开源与合作:让技术更自由地流动
DeepSeek的另一个重要策略是开源。它将R1高级AI推理模型开源,允许研究人员和开发者自由使用、修改和商业化。这一策略不仅吸引了全球开发者社区的关注,还促进了技术的快速传播和创新。

三、梁文峰的管理和发展理念
(一)专注与创新
梁文峰的管理理念可以用“专注与创新”来概括。他非常注重团队的专注力,认为只有专注于核心问题,才能实现真正的突破。在DeepSeek,团队成员被鼓励进行大量的实验和探索,梁文峰本人也亲自参与其中。

(二)人才至上
梁文峰非常注重人才的培养和激励。他从中国顶尖高校招募人才,并为他们提供广阔的发展空间。DeepSeek的团队成员大多是刚毕业的博士研究生和奥林匹克奖牌得主,他们在DeepSeek找到了实现梦想的舞台。


(三)开源与合作
DeepSeek的开源策略不仅吸引了全球开发者社区的关注,还促进了技术的快速传播和创新。梁文峰强调,“真正的差距是原创与模仿之差,中国AI需要从跟随者变为规则制定者”。

四、为什么国内大厂做不出比OpenAI更好的AGI产品?

(一)创新文化缺失
国内大厂往往存在层级制度,导致“服从性文化”盛行,而突破性创新常需要允许试错的宽松环境。例如,Meta的LLaMA团队曾透露,其成功部分归因于管理层对失败的高容忍度。相比之下,国内大厂的员工可能因为担心失败而不敢尝试新的方法和技术。

(二)人才结构不合理
国内大厂的团队擅长工程优化和场景落地,但顶尖AI研究员比例低于DeepMind、OpenAI等机构。例如,Transformer架构的6位作者中无一人任职于国内企业。这表明国内大厂在基础研究和前沿技术探索方面相对薄弱。

(三)算力资源受限
国内大厂的算力资源往往分散于多个业务线(如云服务、视频处理),难以集中投入大模型训练。相比之下,初创公司可以All in单一目标,集中资源进行技术突破。

(四)数据质量与合规限制
国内严格的隐私保护(如《个人信息保护法》)和内容审核要求,使得数据清洗、标注和使用的流程复杂化,增加训练成本。例如,训练数据需预先过滤敏感内容,可能削弱模型对复杂语境的理解。

(五)商业化导向过强
国内大厂更注重AI技术的快速商业化落地(如电商推荐、广告优化),倾向于选择已验证的技术路径,而非探索前沿领域的未知风险。相比之下,DeepSeek等公司可能以技术突破为核心目标,接受更高风险。


(六)抄袭文化盛行
国内大厂普遍存在抄袭现象,缺乏自主创新的动力。例如,在SaaS赛道,许多厂商在产品外观、营销海报到运行流程上几乎都能找到抄袭或被抄袭的影子。这种现象不仅损害了创新的积极性,也导致了技术的停滞不前。

(七)政策与监管环境
国内大模型必须内置严格的价值观对齐机制(如《生成式AI服务管理办法》),导致训练时需加入大量限制性提示词,可能影响模型逻辑推理的连贯性。此外,国内对开源社区的参与度和贡献度较低,技术依赖于海外框架。

五、DeepSeek启示录:给中国科技公司的三剂猛药
这场以小博大的战役,给行业带来三重冲击波: 
1.管理革命:从"军备竞赛"到"算法竞赛"
当同行炫耀万卡集群时,DeepSeek用算法优化把1张显卡拆成10张用。这像极了抗美援朝的"三三制战术":用组织创新弥补装备劣势。 

2.创新范式:要"开放式创新",不要"技术封建"
开源社区正在形成"AI联邦制":DeepSeek贡献基础模型,创业公司开发垂直应用,高校研究理论突破。这种生态比大厂"技术封建"更具生命力。 

3 人才战略:培养"π型人才"
既要有专业深度(竖线),又要具备跨界能力(横线)。DeepSeek工程师需要同时理解《论语》和Python,这种"文理双修"让R1在文化理解力上完胜同类产品。 

最后结语:中国AI需要更多"笨功夫
DeepSeek墙上贴着一行手写公式: 
创新=基础研究×工程化能力×商业洞察

这让我想起钱学森之问:"为什么我们的学校总是培养不出杰出人才?" DeepSeek的故事给出一个参考答案:当整个行业沉迷"短平快"时,需要有人甘坐冷板凳,把每个技术细节都打磨成艺术品。 

正如梁文峰在内部信中写的:"我们不需要第二个OpenAI,我们要做AI领域的景德镇——用极致性价比让技术之美触手可及。" 或许这就是中国科技突围的正确姿势:不在别人制定的规则里追逐,而是重新定义游戏规则。 

预测未来最好的方式,就是创造它。——艾伦·凯(Alan Kay)

 

微信扫一扫,分享到朋友圈

微信公众号

相关推荐