PK200

首页 > 游戏资讯 > 正文

十二之天贰论坛、十二之天贰还能玩吗

时间:2025-05-27 02:02:12

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

【导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务,使研究者可在单卡甚至笔记本电脑上开展前沿研究。这一突破不仅为学术界提供了低门槛的研究工具,更为大模型性能优化提供了新的思路:通过智能调度实现异构模型的协同增效,以极低的计算成本突破单一模型的性能上限。

当前大模型研究面临三大困境:算力垄断(顶尖成果集中于大厂)、成本壁垒(单次训练成本高,可能需要数千GPU小时)以及技术路径单一化(过度依赖单一模型的规模扩展)。

为突破这些限制,路由LLM(Routing LLM)范式应运而生——通过智能调度实现多个开源小模型的协同增效,以「组合创新」替代「规模竞赛」。

十二之天贰论坛、十二之天贰还能玩吗

路由LLM实际上是model level的MoE(Mixture-of-Experts),传统MoE通过在模型内部扩展专家网络(如稀疏激活的FFN层)提升性能,而路由LLM将完整LLM视为独立「专家」,通过预训练Router动态分配任务输入。

三个大模型=OpenAI

这种范式具有三重优势:

异构兼容性:支持闭源模型(如GPT-4)、开源模型(如Llama系列)及专用微调模型的混合部署。

多目标优化:可根据场景需求,在性能、成本、风险控制等维度实现动态权衡

灵活部署:可根据实际需求动态调整候选模型池,针对特定场景(如代码生成、医疗问答)快速定制专属解决方案,而无需从头训练大模型

路由LLM范式的核心机制

路由LLM系统采用「输入-路由-执行器」三级架构,其中路由层是系统的智能中枢,承担着任务分配与资源调度的核心功能:

输入层:接收多样化的用户请求,包括文本生成、文本摘要、代码补全等任务

路由层:通过预训练Router对输入进行深度分析,基于多维度特征选择最优LLM执行器

性能优先模式:识别任务领域特征,匹配性能最优的LLM(当前版本核心目标)

成本优化模式:平衡性能与计算开销,选择性价比最高的LLM(后续版本特性)

风险控制模式:通过多模型交叉验证,降低单一模型的幻觉风险(后续版本特性)

执行层:由候选LLM池中被选定的模型完成实际推理,并将结果返回给用户

与MoE(Mixture-of-Experts)相比,路由LLM实现了两大突破:

协作粒度:在模型级实现专家协作,而非传统MoE的层间专家扩展

系统开放性:支持跨架构、跨训练阶段的LLM协同,包括闭源模型、开源模型及专用微调模型的混合部署

这种架构使得路由LLM既能继承MoE的动态优势,又突破了其封闭性限制,为构建开放、灵活的大模型协作系统奠定了基础。

RouterEval解决了什么问题?

研究人员系统性收集、整理并开源了涵盖8567个不同LLM在12个主流评测基准(包括MMLU、GSM8K等)下的2亿条性能记录,基于这些数据构建了面向 router的基准测试平台RouterEval,创新性体现在:

数据完备性:覆盖从7B到数百B参数规模的LLM,涵盖通用能力、领域专长等多维度的 Benchmark,为router设计提供了全面的训练与验证数据

研究低门槛化:所有性能记录均已预处理完成,研究者只需训练一个分类器(即router)即可开展实验,支持在单卡GPU甚至笔记本电脑上运行,极大降低了参与门槛

问题范式转化:将复杂的路由LLM问题转化为标准的分类任务,使研究者可复用成熟的机器学习方法(如few-shot learning、对比学习等)快速切入

8000+模型的参数量分布

基于RouterEval的海量数据,研究团队首次揭示了Model-level Scaling Up现象:在具备一定能力的router调度下,路由LLM系统的性能可随候选LLM池的扩大而快速提升。这一现象在以往研究中难以被观察到,主要受限于候选模型数量不足(通常

RouterEval的发现 Model level scaling up现象

利用RouterEval基准中的2亿条性能记录,研究团队构建了理论性能上限——Oracle Router(r_o)。Oracle Router是一种理想化的路由器,它能够始终为每个输入选择性能最佳的LLM,因此代表了路由LLM系统的性能上限。

为了系统研究router性能对系统整体表现的影响,研究人员定义了router性能的连续谱系r_o(p):

  • 当p→1时,r_o(p)趋近于Oracle Router,代表分类性能接近理论上限
  • 当p→0时,r_o(p)退化为随机router,即随机选择候选LLM
  • 中间状态r_o(p)(0

实验结果表明:

  • 强router的scaling up效应:当p>0.3时,系统性能随候选LLM数量呈明显快速上升
  • 弱router的性能瓶颈:随机router(p=0)几乎未表现出scaling up现象
  • 超越参考模型:一般候选LLM数量在3~10且p在0.5~0.7时,系统性能可以接近甚至超过参考模型(参考模型一般是GPT-4)

候选模型数量m = 5

弱模型逆袭效应

通过智能路由调度,多个性能一般的LLM可以协同实现超越顶级单体模型的性能表现。例如,当使用Oracle Router(r_o)调度5个在MMLU基准上单独表现仅为0.2-0.3的弱模型时,系统整体性能可跃升至0.95,显著超越GPT-4(0.86)。

这一发现为资源有限的研究者提供了新的技术路径:无需追求单一超大模型,而是通过多个中小模型的智能组合实现性能突破。

候选池规模阈值

从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。

实验数据表明,路由LLM系统的性能提升存在明显的规模经济拐点:

3-5个候选LLM:可覆盖大部分常见任务需求,部署成本相比单一顶级模型低。

5-10个候选LLM:性能进入稳定提升期,在多数基准上可超越GPT-4等顶级单体模型

多于10个候选LLM:性能增益存在边际效应,每增加1个模型带来的性能提升并不大

这一发现为实际部署提供了重要指导:在大多数应用场景下,维护一个5-10个模型的候选池即可实现性能与成本的最佳平衡。

例如,在智能客服系统中,组合使用GPT-4(复杂问题)、Llama-3-8B(常规问题)和Phi-3(意图识别)三个模型,即可在保证服务质量的同时将运营成本显著降低。

主要挑战 数据壁垒

要训练出高性能的router,当前可用的性能记录数据仍然远远不足。由于大多数LLM的性能数据掌握在少数科技公司手中且未开源,这需要整个研究社区的共同努力来构建更全面的数据集。目前,可以通过迁移学习、数据增强等算法技术在一定程度上缓解数据不足的问题;

多候选分类挑战

随着候选LLM数量的增加,router需要处理的分类任务复杂度显著上升。这不仅增加了模型训练的难度,也对router的泛化能力提出了更高要求。如何在保证分类精度的同时控制计算开销,是未来研究的重点方向之一;

多目标权衡局限

虽然路由LLM理论上可以同时优化性能、计算成本和幻觉风险等多个目标,但RouterEval目前仅聚焦于性能优化。这是因为当前router的性能水平尚未达到理想状态,过早引入多目标优化可能会分散研究重点。此外,计算成本和幻觉风险等指标的数据采集难度较大,需要社区共同推动相关数据集的构建;

部署复杂度

即使获得了高性能的router,实际部署仍面临诸多挑战。多个LLM的协同运行需要解决计算负载均衡、资源动态分配、模型高效激活等系统级问题。幸运的是,实验表明仅需部署3-10个LLM即可获得优异性能,这大大降低了实际应用的复杂度。未来研究可借鉴分布式计算领域的技术成果,进一步优化部署方案。

参考资料:

https://arxiv.org/abs/2503.10657

北京一女子诈骗3名高龄老人超370万,获刑12年!

曾为理财公司业务员的舒某,利用帮助老年人购买理财产品之机,和老年客户拉近关系,后以帮助老年人继续购买理财产品或投资其他项目等理由进行诈骗,造成3名被害人损失370余万元。4月2日,海淀法院一审宣判了这起专门针对老年人的诈骗案件,以诈骗罪判处被告人舒某有期徒刑12年,剥夺政治权利2年,罚金30万元。

检方指控称,2018年7月至2021年9月,舒某在北京某公司任理财业务员期间,谎称帮助77岁的被害人张老先生进行理财投资,隐瞒被害人张老先生的钱款被转账至舒某个人账户的事实,在海淀区张老先生家中等地,骗取老人共计100余万元。案发前,舒某退还张老先生40余万元,其余钱款未退赔。

2022年6月、12月间,舒某以投资某大学卫星项目可以获得高收益、亲戚住院做手术急需用钱等理由,欺骗66岁的被害人许女士向其提供的账户汇款262万元。

2023年1月,舒某谎称帮助81岁的被害人孙老先生投资理财,骗取其17万元。

舒某于2023年7月5日被公安机关抓获归案。

据了解,本案3名被害人年龄均超过60岁,其中被害人张老先生还患有帕金森综合征,认知能力下降,属于典型的针对老年人的诈骗案件。3名被害人均表示因为购买理财产品认识被告人舒某,舒某在日常生活中时常走访老人,帮助老人做一些生活上的小事,因此获得了老人的信任。

被害人张老先生基于对舒某的信任让她帮助购买公司理财产品,但实际上100余万元的钱款被转入舒某个人账户,直至被害人家属查询账单才发现被骗。

被害人许女士称,与舒某认识后,舒某一直称呼许女士为干妈,并通过日常走动等方式拉近关系,没想到是为了欺骗自己。

庭审中,舒某辩称,被害人张老先生、孙老先生是主动将钱款交给她进行理财,钱款用于她自己名下的公司运行,被害人许女士是将钱款借给自己使用,是民间借贷,不是诈骗。

法院审理后认为,在案证据能够证实3名被害人均是因舒某虚构的投资理财等事由,转让了钱款,钱款进入舒某账户后被舒某用于个人用途。另外,经查证,舒某名下的公司也无实际经营和营利,说明她主观上有非法占有的目的。

法院指出:舒某骗取他人财物,数额特别巨大,其行为已构成诈骗罪,且针对高龄老年人犯罪,主观恶性较大。法院最终做出上述判决。宣判后,舒某未明确表示是否上诉。

法官表示,老年人因为疾病等原因认知能力下降,容易被犯罪分子的诈骗手段所欺瞒。本案被告人舒某曾经担任理财公司业务员,善于结交、维护和老年客户的关系,在获得老年人的信任后,再实施诈骗行为。老年人因多年交情放松了警惕,降低了防骗意识,最终上当受骗。

法官提醒,防止此类诈骗,一是需要老年人提高警惕性,绝不轻信任何人,即使是熟人朋友,只要涉及钱款转移时需要再三权衡,必要时可以和家人、子女商议;第二,定期查看个人账户,对自己的理财及钱款去向做到心中有数,发现异常转账要及时确认,可以开通手机银行或短信提醒,及时查看钱款进出;第三,子女、家人也要多关心老年人,帮助老年人熟悉电子产品的功能,避免因操作不当或者不会操作给不法分子可乘之机。

北京晚报记者 高健 通讯员 杨茜

用户评论

青墨断笺み

好久没在玩这个游戏了,感觉现在玩家越来越少了?

    有9位网友表示赞同!

嘲笑!

这游戏还是蛮耐玩的,希望服务器能越来越稳定。

    有14位网友表示赞同!

站上冰箱当高冷

喜欢那个时代的剧情和玩法,想再进去看看是什么样的呢?

    有7位网友表示赞同!

来自火星的我

记得以前在上面结识了不少朋友,可惜后来都沉迷其它游戏了。

    有20位网友表示赞同!

墨染年华

这款游戏的音乐和场景设计真的很棒啊!

    有19位网友表示赞同!

怅惘

最近想重温一下这游戏的经典玩法,不知现在还能找到人一起组队吗?

    有5位网友表示赞同!

不相忘

希望开发团队能再出一款类似风格的游戏!

    有14位网友表示赞同!

箜篌引

当年玩到最高等级了,记得很多boss和副本。

    有7位网友表示赞同!

挽手余生ら

那个年代的MMORPG真好玩啊,现在的游戏怎么没那么怀旧的感觉了。

    有12位网友表示赞同!

怪咖

还在看这个论坛的吗?

    有16位网友表示赞同!

七级床震

有人知道现在还能找得到12之天二的游戏资料吗?

    有11位网友表示赞同!

最迷人的危险

想知道现在的玩家还有多少还在玩呢?

    有14位网友表示赞同!

面瘫脸

有没有人可以告诉我这游戏是怎样玩的?我听说很不错。

    有7位网友表示赞同!

夏至离别

当年错过这款游戏真是太遗憾了,希望现在还能找到机会体验一下!

    有17位网友表示赞同!

心悸╰つ

感觉论坛里的人越来越少了,有些惋惜啊...

    有20位网友表示赞同!

我就是这样一个人

期待能看到一些关于这款游戏的新闻。

    有16位网友表示赞同!

发型不乱一切好办

这类型的游戏还有哪些值得推荐呢?

    有13位网友表示赞同!

素衣青丝

如果能开发出与12之天二类似的游戏,一定很受欢迎的!

    有6位网友表示赞同!

←极§速

感觉这帖子很有年代感了,让人想起了过去的美好时光。

    有11位网友表示赞同!

旧爱剩女

这游戏曾经在玩家之间传唱度很高啊。

    有7位网友表示赞同!