时间:2024-06-12 19:03:38
在更加开放的沙盒游戏中,NPC 应该扮演什么角色?还有,大家会如何交谈和互动呢?为什么六白在创立项目时选择了更加开放的沙盒而不是线性RPG?
留空
当我们启动《玩具帝国》项目时,我们也在思考如何做出一些新的突破。网络线性游戏中的NPC角色涵盖了故事背景、剧情介绍等重要方面。在我创作的开放世界沙盒游戏中,主要NPC的作用是丰富世界环境,让玩家在游戏世界中遇到各种各样的人,让玩家单独与AI互动。目标是给你和很多人一起玩的感觉。
我们还没有使用过大型模型。我们不是技术人,无论是逻辑思维层面还是执行层面,所以很多具体的实际方案我们都不知道如何实施。目前我们还在用比较笨的方法来添加细节,比如每个NPC的动作有什么效果,数字变化的规则是什么。
框架可以自下而上设计,整个流程可以动态调整,包括世界构成、交互物品和内容、NPC的诞生和死亡,这也是沙盒游戏的核心。通过系统化的设计和交互,创造更多的玩法。前提是它需要达到非常大的规模,量变引起质变,但否则线性游戏需要很强的设计感,所以毫无疑问是远远逊色的。经历、互动等等都是提前计划好的。
我们希望能够将GPT连接到NPC的思维层,使其进一步偏向于人类的生理或逻辑思维。我认为这就是大规模语言模型的好处:我们创建的文案和现实世界的规则可以被LLM的语义识别所理解,并调动游戏内的界面来生成可操作的动作。这使我们能够满足我们的需求。
我们目前正在研究各种底层人工智能组件,例如行为单元。我们期望GPT 的作用能够取代现有的手动编写的行为树以及驱动底层行为的思维逻辑。
我认为如果你能将LLM 融入到你的游戏中,你将能够做三件事。
1、一是接管人大最高思想层。 NPC 根据所处的环境、条件以及与其他人的关系来决定首先做什么。
2、第二点与对话有关。有些事件仍然会被编译,但事件内的对话文本可以根据当前情况动态输出。这增加了沉浸感,让玩家每次的体验都不同。
3. 第三点是期望NPC能够理解玩家输入的语义,并能够在执行层面反映出来。举个例子,如果我对一个NPC说,“我们关系很好,希望它能帮助我们做点什么。”这意味着沙盒游戏可以随意决定游戏的节奏。我认为这也是可以的。在允许你操纵、破坏和扰乱的条件下完成。
这也让我想到了我之前谈到的虚拟世界,每个人都明白我们并不是在虚拟世界中度过第二次生命,而是在一个互联的平台中度过。这个平台有许多小世界,每个小世界都有自己的权利。游戏中所有NPC均由AI控制,世界上唯一的主角就是玩家。还营造了一个生动的武侠世界,所有的动作交互完全由玩家决定,让你不按常规套路完成游戏,还能从中获得乐趣。我正在考虑这样做,目前正在研究中。
陈志
全国人大的明智决策发展到什么阶段了?可能的技术路径有哪些?
洛朗
在上一篇文章中我提到了AI NPC 的三个主要模块。留空的老师基本上都提到了。虽然对话肯定是更可取的,但演讲者有一些潜在的技术陷阱,可能会使其更难以实施。
很多人认为NPC思维层,即人性模块,是一起思考和交互的设计单元,但实现上其实有很大不同,是两个不同的模块。
我认为这是一个有趣的观察,大多数具有技术背景的人首先考虑扬声器和解释性文本,而许多具有游戏设计背景的制作人则考虑感知世界。在实践中,您可能会发现编写困难的部分,尤其是在设计之后,通常是确定游戏中的各种状态。 NPC 了解周围的环境,包括天气、地理位置和精神旅程。然后总结你的下一步行动。这是一种映射关系,与交互无关。许多有游戏经验的人都认为这是最重要的部分。
许多游戏,尤其是开放世界和沙盒游戏,都需要堆叠材料,但仅堆叠材料是没有意义的。重要的是,这些材料可以产生其他相互作用。最近的游戏《博德之门3》和《塞尔达》就是最好的例子。它普遍可以与堆叠的材料相互作用,并且可以发生所谓的涌现。
在实践中,最大的挑战是如何描述从材料到反应结果的进化过程,而人工智能可以潜在地增强这个Evolver 模块。在这个映射过程中需要考虑很多事情:正在做什么、正在做什么、谁在做以及在什么情况下发生了什么。如果你没有足够的材料,传统的规则系统几乎可以覆盖你。
我前面提到的人文思维层本质上是一样的,NPC曾经受到技术和人力的限制,游戏本身的本质就是线性故事。 NPC不需要很强的实时思维或意识,但路线(即脚本)就可以。但如果你真的想构建一个沙盒,Humanity 和Evolver 在技术目标上是相当的:它们都是模拟场景来自什么、识别什么以及发生什么而设计的。
海藻
目前原生游戏还没有一个清晰明确的定义,讨论的焦点是AI将带来哪些新的游戏业态。
目前,人工智能生成的系统普遍比较单薄,当涉及复杂系统时,很难满足当前大规模模型的能力。
如果我们将游戏规则视为游戏内容的一部分,就像《塞尔达传说》一样,这是否是一种降低成本、提高游戏玩法和规则效率的逻辑?我之所以问这个问题,是因为典型的大规模语言模型现在甚至将来可能无法实时生成复杂的内容,而必须依赖层层手动验证。像GPT4这样的模型,虽然常识在其他数学方面表现出了良好的性能,但由于原始数据分布的原因,在推理中仍然存在优先级问题,并且在复杂的系统和内部规则中无法进行分析。
在复杂的系统中,尤其是游戏中,对系统在状态转换期间如何表现的期望是偏好,而不是事实。一切让你惊喜、让你玩得舒服的东西,都是目前被策划者人为调整的偏好数据。所以我认为短期内不可能实时生成复杂的内容。例如,斯坦福镇有一些你可以与之聊天的角色,但他们只是看起来很花哨,一点也不有趣。
尝试将AI融入游戏过程中遇到的主要困难程志
现在的半人工智能其实很没有吸引力,但是从管道的角度来看,规划和AI协同工作会不会更加困难,会成为一个东西吗?
洛朗
严格来说,不存在纯粹的人工智能控制,特别是因为我们目前正在讨论LLM而不是增强。本质原因是使用了广泛的语言模型来创建NPC。它只是最终映射到资产空间的心智模型模拟器和交互系统,但游戏本身的表现并不是语义的。角色AI 不是游戏。游戏需要表示层和资产层,因此如果您想将LLM作为功能模块合并到游戏中,则需要两个系统和两种类型的数据结构之间的接口点。为了适应这种结构,NPC模块中必然有一些部分是LLM无法控制的,从某种意义上来说,这是一个理论上无法跨越的边界。
从设计的角度来看,无论多么自由、多么开放的游戏,它总是需要一条主线。这是游戏设计的核心和锚点。一定要清晰、可控。它在NPC 上表示为功能维度。比如它能做什么,是否有偏袒系统,是否与其他NPC有活跃的社交系统,等等需要非常具体的设计点。只有这样,规划人员才能了解这些功能并进一步设计与其他系统的交互。规划您的玩家将体验哪些内容。
如果没有这些,您将只能获得发光或角色AI 体验。您只能期望用户在休闲聊天中遇到一些事情。这就是为什么我们不将这种类型的聊天机器人称为游戏。设计。只要你想设计一些东西,不可能把所有事情都交给LLM,而且你还要考虑成本。
陈志
我们在设计时如何评价NPC,包括对话的质量以及是否刻意达到了所谓的节目效果?我们应该如何看待这听起来有点失控的情况?
留空
所有设计师都不希望他们的游戏失控。在复杂的系统中,涉及的元素太多。这是我认为法学硕士可以赋能设计的最重要原因。这相当于有一个助理程序可以:帮助解决许多不合逻辑的事件和行为。 《博德之门》的设计历经多年,很多人都在填写细节,而不是错误。
我一直在尝试不同的语言模型,但我之所以认为这个更有趣,是因为在你输入信息后你可以感觉到人工智能正在像人类一样思考。这可以用来在游戏设计中提供人工智能界面吗?创建符合人类逻辑和记忆定义的元素。
例如,NPC好感度系统是以数值为后盾的,但如果用语言和定义来帮助NPC以更人性化的方式理解数值,然后将结果输出到下一级并执行,就会看起来像这样:它会发生吗?是不是更加可靠、可实施?
对于人工智能来说,生成整个逻辑或表示层显然是不现实的,但如果它能够分段执行任务,并根据接收到的信息调用逻辑输出结果,那就和真人差不多了,可能需要几年的时间。实现这种智能的迭代次数。
洛朗
与我之前提到的类似,您应该在数据结构中留下一些类似于字段的设计锚点。这些数据结构是NPC的核心,可以理解为NPC的内部空间。您可以将外部和内部方面分开。中间层的NPC,即LLM,是赋权的一部分。这个中间层可能就是我之前提到的,以帮助您的设计。这绝对可以做到。
当前的主流方法可能还集中在如何配置中间层。配置越详细,功能和性能就越复杂。同时,LLM最终是一个开放、发散的模式。如果需要约束,那么实现层面的成本就很高,并且类似于AI不可能三角中提到的问题,你可能最好使用行为树。这种做法本身是非常合理的,是一个值得尝试的好点,但它是否能够真正提供你想要的功能则是另外一种情况,我们将回到堆栈并验证其合理性。
陈志
在目前的交互水平下,让NPC 表现得像人类有多困难?
郑锡良
回到大规模语言模型的出发点,它解决什么问题?
在大语言模型流行之前,我们花了很多年的时间开发交互系统,使用相对传统的人工智能技术:浅层神经网络来解决人机交互问题。多轮对话当时,要实现5轮、10轮对话已经非常困难了。
自从GPT2等大规模语言模型出现以来,我们逐渐意识到大规模语言模型可以显着解决传统神经网络遇到的重要问题,例如短期记忆和知识引用。对话过程中,AI不会跟着前面的句子走或者犯一些基本的逻辑问题、语法问题等错误。今年GPT流行起来,它解决了更多基础语言层面的问题,坦白说,就是让AI像正常人一样说话。
其实老师们提到了很多游戏设计方面的挑战和要求,但我觉得他们对LLM的期望可能有点太高了,特别是在游戏框架和帮助设计游戏框架的语言模型的逻辑特征方面,我认为不是。这对LLM来说连接游戏的主要环节是非常困难的。
GPT4是目前世界上最强大的大规模语言模型和参数化程度最高的商业模型,能够学习大量的COT或逻辑推理数据并通过策略组织推导问题。在某种程度上。现在也有几种代理解决方案。在《我的世界》等沙盒游戏中,设计了一套策略来帮助AI感知周围的环境,例如杀死怪物、收集资源和生存。与人类相比,它们还处于婴儿期,但逻辑能力却很强。法学硕士的下一步应该是提高你的一般逻辑能力,能够更好、更深入地处理问题,并建立独立思考和长期记忆能力。
虽然LLM的发展过程往往与人类智力的成长不同,我们首先学会说话和最基本的表达,但这实际上是一种概率推理的方法,本质上是一种独立的思维。
我们也在研究大型拟人模型,去年我们发布了AI Utopia产品作为角色AI的标杆,但里面的角色实际上并不思考,他们主动使用用户输入的信息。具体我不记得了。类似于人脑的前额皮质,深入思考的能力是逐渐训练出来的。这是基于对海量数据、计算能力以及更好和更新的模型架构的支持。
因此,拟人化也是有步骤的,第一步是模拟人类语音,第二步是让AI智能体理解人在对话过程中的情绪和叙述,而人类理解情绪来赋予反馈有关。连接和调频的过程让通话体验更加流畅。但从根本上来说,我们虽然还处于学习说话的过程中,但我们的技能会变得更加丰富,我们的情感内容会变得更加明显,我们将能够在一定程度上理解人类的情感。
下一步,法学硕士需要真正理解世界(特定角色、分配给他们的相关角色、关系等),所有这些都必须通过模型清晰、充分地表示。这是一个更高级的挑战,需要逻辑。和建筑设计能力。现在很多互动文字游戏比如《海龟汤》更多地利用了代码解释器的能力,通过半结构化的脚本进行模拟执行,但本质上这些都是LLM们自发搭建的,并不是什么东西。
我非常同意,无论是游戏还是具有复杂世界观的应用程序,无论是虚拟世界还是现实世界,人类设计师永远是主角。
我们会继续努力一点一点地扩展语言模型,以适应现在的节奏。今年早些时候,我们还开始致力于为游戏工作室提供智能NPC,让他们能够将世界设置应用到角色创建中。在同时,如外部小游戏和营销推广活动。
然而,随着当时大型语言模型的出现,OOC 是很难避免的。没有特别成功的NPC互动案例。反之,如果我不得不妥协使用语言模型进行交互文本创作,比如我和主创把人物设定好之后,我们一起写交互剧本,那么电影的策划和剪辑就会进一步细化。这部电影将被放映。
说到拟人化实际的NPC,我觉得这个游戏是一个非常有挑战性、严肃、困难的场景,但是LLM有很多工程内容,辅助模型,代理架构等等,让游戏达到目的。设计周围的元素。目标.语言模型本身没有相应的功能。
拟人化是一个非常具有挑战性但又很重要的方向,但总体来说它有着广阔的前景。近几个月来也取得了快速进展。我认为在克服了涉及到的很多问题之后,它可以用于更多的场景。下面实施。
探索AI+玩法的真正落地程志
现阶段也有很多有趣的AI小作品,不过我们来谈谈志翔在项目中是如何利用AI技术来为玩家提供更好的体验的。
黄志祥
我使用人工智能在两个不同的方向上创建了游戏。一种是纯粹让AI来做美术和参考工作,另一种是利用LLM将AI连接到游戏并生成供玩家玩的内容。
最终,我们发现使用人工智能生成艺术素材并加速开发的游戏得到了玩家非常积极的反馈。相反,我发现与LLM密切相关的游戏感觉不像游戏。如果没有仔细的叙事设计和支持美术资源,生成NPC 对话与文字游戏没有太大区别。玩家受到各种程序的限制,从而限制了交互格式。那么为什么不直接与聊天机器人聊天呢?我认为这是LLM游戏的另一个应用,但我错了。
另一方面,当我以前玩GTA时,每次重玩任务时NPC都会说不同的话,但通过将其留给AI,事情不会失控,而且感觉不那么重复。Ta。
其次,如果过度依赖AI,不一定能降低成本或提高效率,开发周期可能会变长。比如我在制作《逸剑风云决》的时候,想要画诸葛连弩,但是没有大模型的素材,所以我必须寻找参考素材来制作丹药。和直接画图一样好。还有一点是,AI可以生成大量的素材来填充游戏的内容,但这并不一定会让游戏变得更有趣,它只是让它变得更加罐头化。
对于独立游戏开发者和个人开发者来说,利用LLM创作像甲鱼汤这样相对较长的文本交互内容还困难吗?
洛朗
这取决于你如何理解困难。在我看来,是有可能的,也有人在做,但是做的过程并不是一朝一夕就能完成的。这肯定需要不断的设计冲突和不断尝试设计原型。挑战在于设计层面的进步,而不是技术本身的可行性,因为它需要不断调整设计架构、约束和上下文逻辑。
陈志
您目前在技术方面正在研究什么?您期待行业有哪些探索?
海藻
我们目前正在制作与我们的人工智能合作伙伴相关的内容。严格来说,这是一个会话产品。如果在实施过程中遇到问题,就需要设计。二
M现在还不是一个足够通用的世界模型,你可以从参数进行一系列限制,比如说上下文长度,你可以把它类比成内存,我们做AI的时候大部分是去用它的推理能力,而推理能力会有计算错误率,使得它跟以前的程序计算有非常大的区别,它会有一定概率出错。比如GPT4的有8K的上下文长度,但并不意味着都能拿来做推理,当上下文超过1000个token时推理就会有小概率开始出错。 在这个前提下,你并没有办法把所有的想推理的任务跟信息丢进去,导致你必须要去做一些额外的系统,比如RAG、 TAG之类,需要把整个系统进行召回和拆分,这样又会涉及到一些外部系统来帮助LLM按照事实做出比较好的推理结果,所以最后问题就回到了你要先有某个需求场景,根据这个需求场景其实是一套专家设计,后续的评价和反馈数据也是针对这个需求场景进行。 清华发了一篇论文《Agent Bench》,跟我们实际的体验非常相似,虽然GPT4非常贵,导致你一开始会想尽办法不去用它,但当你去做推理任务的时候,尽管会有Llama2以及其他开源模型在部分指标上看起来更好,但实际应用构建最终结果上看没有GPT4始终是不行的。 Rolan 关于技术层面可以做的事情,其实有很多是比较具体的LLM的落地,尤其是偏工程侧,我这边说一些偏功能侧的东西,我认为很多创业者或者大厂试验性项目的同学已经有这个感知了,当把LLM运用到具体项目的时候,最明显的问题就是如何让大语言模型去懂你这个项目。 现在我们看到很多,比如说论文《Generative Agent》,它没有任何背景或只是个常识场景,GPT3.5甚至一些国产大模型其实都能cover大部分内容。或者是很火的游戏,Jim Fan的论文《Voyager》在MC上用GPT4和3.5一起做的,核心原因是MC已经有相当多的信息已经在GPT的训练语料里面。 而当我们实际去跑的时候,会遇到两类问题,但核心本质上都是一样的,第一,如果游戏本身需要AI去做一些简单推理(复杂推理确实我们不会期待),游戏设计师们很希望有一个所谓的常识引擎,而这一波大模型比起复杂推理,他们更兴奋的一个点正是因为有了常识引擎。但如果项目场景,尤其世界观设定比较特别时,常识引擎不管是用来生成对话、文案辅助、甚至只是效率工具,都有可能因为架空而导致严重的幻觉,非常影响实际效果,这是我们在项目端落地AI功能时,一个需要亟需解决的技术层面问题。 另一个方面是在玩法端,比如刚才提到NPC的内在建模、环境规则演化的建模,目前不是所有的模型都很擅长这方面,GPT4虽然已经能够模拟大部分,但实际用的时候仍会出现不可控的情况,做线上功能的时候,我们对预期的输出是几乎零容忍的,但GPT天然有助人情结,在实际使用当中经常跳出人设,以及GPT自带的安全协议等问题,会让它屏蔽掉很多场景是的输出。 以上本质上都是如何去去获得一个懂你项目,不管是玩法设计还是世界观等的LLM,游戏项目,尤其是在研项目,本身都是很specific的存在,必然是比较特殊和离群点的存在,然而LLM是世界模型,它一定是比较中心化的东西,这里会存在对齐问题。所以如何去把一个大模型对齐到自己项目的过程,就已经足够我们这些AI组吃一壶的了。 不管你底下用什么技术栈,其实都是为了这个功能目的,而这会直接影响AI能力的完整性、易用性、以及成本。 只有当AI足够懂你项目的时候,很多成本,不管是部署成本、算力成本、还是使用时人的心理和复杂程度的成本才会整个下降,才能够真正意义上成为一个管线级别的工具,虽然不确定一年之内能不能搞定,但我认为它正在发展中。 观众 LLM驱动VTuber是一个可行的方向吗? Rolan 已经是有了,像Neuro Sama已经是古早的存在了,但其实大部分时候它不值得上资源,最后能够做到头部Top3才可能有资源。这个比较偏具体的产品领域,属于商业素质问题。 如果时间放到五年,我个人觉得是有希望的,但不是以商业层面的数据为依据,我觉得这一块有很多东西没挖,核心原因是VTuber本身这个业态比较吃力不讨好,哪怕上真人也好,其实都很卷,而且真人VTuber会有很多其他配套的东西,这些配套目前在AI VTuber上基本没有看到,目前走得相对比较前的是米哈游的鹿鸣。 如果把很多其他的运营、渠道等方面算进去,智能化应该是比现在所看到的情况还要大的,所以如果拉到五年的时长,我认为不仅是AI技术层面的功能,还有产品设计层面的功能等很多东西没做,至于说最后ROI能否打平也不好说。 注:以上内容仅代表嘉宾个人观点,不形成任何普适性结论