六大AI模型PK,谁才是智能投资的未来?
最近,币圈和AI圈被一场新颖的投资直播刷屏——六大头部AI模型在真实的币圈交易场,用一万美元实盘对决。短短几天,几款模型的收益起伏已让无数围观者惊呼,AI炒币不再只是算法回测,更成为真金白银的实验场。

01
这场AI投资大战,到底在比什么?
这场名叫“Alpha Arena”的比赛是由创业公司Nof1发起的。参赛选手个个来头不小:DeepSeek、Claude Sonnet 4.5、Grok 4、Qwen3 Max、Gemini 2.5 pro、GPT 5。从10月18日到11月3日,这六个AI各自独立操盘,买什么卖什么全程直播,账户盈亏一目了然。

截至北京时间11月4日比赛结束,阿里Qwen以超20%的收益率夺冠,拿下本轮AI实盘投资大赛冠军。在此前收益一路领先的DeepSeek,最终位列第二。两款中国AI模型包揽冠亚军,成为全场唯二盈利的大模型。而美国四大顶尖AI模型,本次比赛均未能实现盈利。其中最令人大跌眼镜的是GPT 5,亏损幅度超60%,排名垫底。有人开玩笑说:“这下知道AI的天花板在哪儿了吧。”但也有人开始认真思考:AI真的能做好投资吗?我们是不是真的可以把钱交给AI打理了?
02
比输赢更重要的事:AI和人到底谁更懂投资?
在围观之余,更值得我们关注的是这六个模型表现差异背后的深层含义。这些差异不仅仅是收益排名的高低,更反映了不同AI在信息处理和决策逻辑上的根本分歧。而当我们进一步思考这些差异的来源时,会发现一个更具启发性的问题:AI与人类在评估投资机会时,遵循的认知路径有哪些不同?
理解这一差异至关重要,它决定了AI能否真正为投资机构创造价值,也关系到未来投资行业的决策模式变革。
我们最近做了项研究,叫《人机协作决策中的非对称动态贝叶斯学习:基于风投项目筛选的实证研究》,就是从投资者和AI在风险投资筛选中的实证数据出发,揭示二者在项目研判过程中的本质差异。研究发现:人类投资者与AI模型在信息处理、项目评估和决策判断时,存在本质上的认知分工与协同空间。
- AI投资风格各异,本质是信息处理路径的差异
回看Alpha Arena的比赛,这几个AI模型展现出截然不同的投资风格。
DeepSeek表现稳健,持仓分散,很少止损,像是经验丰富的量化投资经理。Gemini 2.5交易频繁,反应迅速,却容易追涨杀跌,账户净值持续下滑。Claude Sonnet分析严谨但执行犹豫,经常错失调仓时机。Qwen3 Max偏好重仓单一标的,杠杆使用激进,一旦判断失误,损失惨重。GPT 5则在连续止损后表现低迷,陷入典型的“算法困境”。①
我们在研究VC投资筛选时也观察到类似现象。同一个项目,人类投资者和AI模型的预测结果经常大相径庭,甚至呈现系统性负相关。这并非简单的对错之分,而是因为两者的评估维度和认知结构存在根本差异,从而在决策逻辑上形成了高度互补性。

- 判断分歧不是缺陷,而是“信息富矿”
在我们的研究中,通过分析近3万对人类-AI(human-AI pairs)的投资决策数据,我们得出了几个重要发现。
第一,人类和AI的预测结果呈现结构性互补。双方不仅存在显著负相关,更重要的是,这种系统性决策分歧本身蕴含的信息价值,超越了任何一方的独立判断。尤其在双方判断不一致时,往往揭示了关键的特殊信号。
第二,风险识别与机会发现存在认知分工。人类决策者对负面信号更为敏感,擅长规避重大失误。而AI模型更善于从复杂数据中识别被忽视的积极信号,发掘具有高成长潜力的项目。
第三,在知识盲区中,分歧价值尤为显著。当投资者面对不熟悉的领域时,AI提供的异质判断能发挥关键的监督与补充作用,显著提升决策准确率。
第四,AI具备更强的元认知校准能力。相较于人类,AI展现出更优秀的“信任校准能力”——能够判断人类决策者何时可能出错,何时因投入不足而做出低质量判断。这一特性在实际投资运作中价值显著。
有效的投资决策,最优模式并非AI取代人类,而是构建人机协同的动态系统。在这个系统中,AI的核心职能是诊断人类决策的潜在失误点,而人类则充分发挥主观经验与直觉判断的优势,双方精准配合从而实现决策效能最大化。
03
构建新范式:从零和博弈到协同增效
当前关于“AI能否超越人类”的讨论,往往陷入零和博弈的误区。Alpha Arena中波动的收益曲线揭示,核心问题不是寻找永远正确的决策主体,而是如何理解并利用不同AI在信息处理与推理逻辑上的差异。不同AI展现出各自独特的优势与偏好,而人类的真正潜力,正在于能够整合这些异质化的智能,将它们与人类的直觉和判断动态结合,从而最大化系统的信息融合与纠错能力。
基于这一认识,我们设计并验证了一套可应用于实际投资的决策支持系统。
- 动态贝叶斯决策引擎:实现情境自适应的权重分配
系统核心是一个动态贝叶斯模型,关键突破在于:决策权重不是预先固定的,而是根据具体情境动态判定“谁在当前环境下更可靠”。
系统运用机器学习算法,为每个项目、每位评估者及每轮决策实时计算“信任得分”,据此分配最终决策权重。在评分过程中,AI能够根据人类决策输入的深度、广度与一致性来判断其可靠性;而人类通常只能基于AI输出的表层信息进行判断。这种非对称性使得“AI监督人类”的效能远高于反向操作。

- 分歧驱动的绩效提升
实证数据清晰验证了协同模型的优势。在人类与AI单独准确率分别为54%与58%的情况下,我们的动态协同模型将整体准确率提升至78.5%,明显优于传统静态加权模型的77.4%。
更关键的是,性能提升最显著的场景出现在双方意见分歧极大的项目中——这些正是投资实践中最棘手、信息最模糊的决策难点。在投资者行业知识或评估经验不足的样本中,“AI监督人类”模式的效果最为突出,准确率较人类单独决策高出13个百分点以上。
Alpha Arena引发的关注多集中于模型间的输赢,但我们的研究揭示了更深层的洞察:人机协同的价值不在于单一主体的胜出,而在于系统性地寻找能力互补的最优组合。
AI模型的表现分化反映了不同算法在信息维度上的专业化分工。有的擅长市场情绪解析,有的对技术信号更敏感,有的善于趋势跟踪,这表明不存在“一统全局”的通用模型。人类投资者凭借直觉与经验,能够捕捉算法难以量化的隐性信号,但在面对陌生领域或大规模判断时,容易受到疲劳、偏见与投入度波动的影响。因此,只有构建能够充分利用“分歧信息”的协同机制,投资团队才能从复杂的市场信号中提炼出可靠的决策依据。
这一协同范式具有广泛的应用潜力。虽然实验场景集中在加密货币市场,但动态协同模型可拓展至诸多高不确定性领域。在新药研发与科技投资中,它能实现AI数据驱动与专家知识的深度融合;在医疗急诊分诊中,可借助AI辅助识别医生可能遗漏的危重症指征;在大规模服务与客户优先级分配中,则能通过AI监督系统性规避人工决策盲区。这表明,人机协同的价值已超越投资范畴,成为提升复杂决策可靠性的通用方法。
04
如何实施?实际落地建议与组织变革
为有效推动人机协同决策模式在组织中落地,我们提出以下建议:
- 建立动态加权的协同评估流程
企业应构建“人类+AI双轨评估”机制,确保每个项目均由人类专家与AI系统独立完成评估。系统根据信任模型,自动识别双方判断分歧,并为不同决策主体生成动态的“信任权重”。在分歧显著或风险较高的场景中,决策主导权灵活分配——或由AI发起判断并由人工复核,或由人类提出初步意见并由AI进行可信度校验。该流程的核心在于,根据具体情境动态判定“何种决策主体在当前任务中更具效力”,实现权重的场景自适应调整。
- 将分歧管理纳入组织学习系统
组织应组建具备多元背景的投资团队,使其与AI系统共同参与项目评估,借助模型能力识别并弥补团队的认知或经验短板。同时,高度重视“分歧项目”的复盘分析,将模型输出的信号差异转化为团队培训与案例学习的核心素材。此外,AI系统可持续监测人类决策者的状态,识别因疲劳、投入不足或认知偏见导致的判断质量下降,据此实现权重的实时干预与校准。

- 配套激励与绩效评价机制
为保障协同机制的有效运行,组织需对激励与绩效评价体系进行相应升级。例如,可引入“准确率提升奖励”机制,对由人机协同带来的决策精度提升及其产生的实际经济价值予以专项奖励。在复杂标的、陌生行业或新兴领域的投资决策中,应优先采用AI与人类协同筛选机制,系统性降低因经验缺失导致的误判风险。
AI与人类投资者的协同,不是“算法替代人类”,而是一场认知分工与能力整合的变革。正如Alpha Arena所展示的,不同AI风格各异、各有所长,没有任何单一模型能够始终领先。正因如此,只有系统性地利用决策分歧、建立动态信任机制,投资团队才能在高度不确定的市场环境中保持竞争优势。
我们提出的“分歧驱动协同”模型,已在风险投资场景中初步验证其价值。当然,将理论模型全面引入真实投资决策流程,仍面临诸多挑战,需要在更多元、更复杂的实际场景中开展进一步研究。
正如Alpha Arena通过公开实盘将AI决策推向大众视野,我们相信,未来的人机协同决策研究也将走向更开放、更透明的实验场。随着算法透明度的提升与人机交互机制的深化,一个由人类智慧与机器智能共同进化的投资新范式正在形成——那将不再是“谁更擅长投资”的竞争,而是“如何更好地共同决策”的探索。
① 谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底
