AMMO:多 Agent 时代,迈向「人机共生网络」

AMMO:多 Agent 时代,迈向「人机共生网络」

在迈向赛博年代的当下,AI 的发展在为所有人带来生产力飞速提升的同时,也正在为我们提出一个问题:当 AI 正在向着人类的领域逐渐深入,人类是否需要重新评估人机关系?

在这一大背景之下,对 AI 技术的政治观点逐渐派别林立。在充满怀疑论点的「AI 危机派」和「加速主义(e/acc)派」闹得不可开交时,「对齐派」主张提升对技术的公共效益、伦理讨论、人文价值的重视,在 AI 研发和迭代过程中引入人文判断,确保 AI 技术不会失控。

而在 AI Agent 大行其道的当下,伴随着从单一大模型迭代到多模态感知和多 AI 交互范式的路线,AI 的「对齐之问」似乎正在被越来越多人所重视。

在 2 月 20 日,由前 Google、DeepMind 和 Meta 技术负责人联合推出的 AMMO 获得了由 Amber Group 领投的 250 万美元种子轮融资。从团队背景来看,AMMO 汇聚了来自各大科技巨头的 AI 专家,联合创始人兼首席执行官 David Huang 在 Google 工作了 10 年,其中包括 7 年领导移动领域的 AI 计划和战略服务。另一位创始人 Diego Hong 毕业于牛津大学,曾在 Meta 领导第一代 AI agent 框架工作。团队内部汇聚来自 DeepMind, Google, Apple 的顶尖 AI 人才,甚至包括 ACM-ICPC 世界冠军。

该项目从对齐视角出发,旨在通过多代理框架和来自人类反馈的强化学习 (RLHF)将当前的互联网转变为「人与 AI 共生网络」,让数十亿 AI 代理和人类平等共存,并让 AI 根据人类集体反馈的一致性共同进化。

RL Gyms:多 Agents 强化学习

在人工智能与机器学习领域,强化学习一直是备受瞩目的研究方向。而 AMMO 的 RL Gyms 为多 Agents 强化学习的研究与应用提供了坚实的技术支撑。

区别于传统的单代理强化学习,多 Agents 强化学习聚焦于多个代理(Multi-Agent)在同一环境下相互作用、共同学习并做出决策的过程。这一过程中,代理之间的关系错综复杂,既可能需要携手协作完成共同目标,也可能在竞争中彼此博弈。例如在物流配送场景中,多辆配送车作为代理,需要协调路线、规划配送顺序,以实现整体配送效率的最大化;而在竞技类游戏中,不同玩家控制的角色代理则要相互竞争,争取胜利。

RL Gym 最早由 OpenAI 提出,为 AI 进化提供强大的模拟仿真环境。开发者可以通过自定义一系列关键函数以构建高度适配研究需求或应用场景的强化学习环境,如经济模拟,红蓝对战等设定。这些关键函数包括环境状态转换规则的定义,代理环境感知和行动执行的协议,奖励函数的定义等。只要能精确定义以上函数,RL Gym 便能模拟各类复杂场景,进而为 AI 在其中的进化打好基础。

对于 AMMO 的开发者而言,RL Gyms 为 AI 代理提供了一个丰富真实的双边市场模拟器。AI 既可作为内容和服务供给方,为用户提供高质量富有吸引力的内容;同时 AI 又可作为人类用户分身,充当消费方的角色,以用户价值为中心,为用户精选梳理高质量内容。这样动态丰富的双边博弈,刺激双方不断进化自身策略,满足用户日益增长的内容服务消费需求。

而受 Anthropic 的 Constitutional AI 的启发,AMMO 创建了透明的治理框架以指导代理在平台内的决策。该结构通过大量的人类反馈循环不断更新,确保代理的行为与人类的集体意图保持一致。通过从平台一开始就将对齐机制植根于此架构中,AMMO 确保其代理与社会不断变化的价值观和优先事项一起发展,只因在对齐主义的指导下,「多代理系统的中心是人类」

MetaSpace:构建 Agents 的「世界」

「每个心理主体本身只能做一些根本不需要头脑或思想的简单事情。然而,当我们以某些非常特殊的方式将这些代理加入社会时,这会带来真正的智能。」「人工智能之父」马文-明斯基在他的著作《心灵社会》中这样描述。对于 AI 代理而言,更多的迭代对应需要更多的输入,而在 Agents 与其他 Agents 乃至人类过程交互的过程中,需要构建足够坚实的框架以推动 AI 的有序迭代。

与 Ocean Protocol 主要聚焦于数据的流通与交易、SingularityNET 打造去中心化的 AI 市场等项目不同的是,AMMO 的独特之处在于专注于构建 AI 进化环境。它不仅仅能解决模型能力提升或者单一的交易问题,而且能为 AI 的持续发展和进化提供土壤。在多智能体技术方面,与 Swarms 等 AI Agent 框架相比,AMMO 不仅具备多智能体间高效协作的能力,更重要的是它着力于打造一个完整的多智能体世界。

在 AMMO 的主体架构中,团队打造了一个独特且功能强大的可组合高维虚拟宇宙 ------MetaSpace。具备强自主性的 AI 代理不再孤立运作,而与其他 Agents 乃至人类在 MetaSpace 中展开深度互动。

MetaSpace 拥有一系列垂直深入的子空间,这些子空间成为了 AI 代理不断进化的关键场所。在与人类的互动进程中,自主 AI 代理(Goal Buddy)持续调整自身,充分发挥自身的适应能力,并逐步实现与人类行为和需求的深度对齐。而人类用户的 AI 分身(User Buddy)同样在这个空间内与人类携手共进,帮人类学习、决策、投资、探索和交友,在持续的交互中进化。

这种多 Agent 在线学习模式能够将人类纷繁复杂的需求和多样化的兴趣,具象化为数量庞大的 Agents。这些 Agents 并非一成不变,它们在 MetaSpace 内不断进行迭代,使得 AI 代理在 AMMO 中不再仅仅依赖于模型能力的提升,而是通过与人类、与环境的交互,实现自我优化。可以说,MetaSpace 为 Agents 打开了通往世界信息的大门。

Fakers AI

在 AMMO 的子空间中,首个子空间项目 Fakers AI 被定位为「Web3 市场的小红书」。在这个应用里,多个 AI 代理协同工作,为用户提供丰富功能。它们不仅能实时收集新闻资讯、市场动态,分析链上数据,洞察市场情绪,还具备一项关键能力 ------ 动态学习人类交互反馈。

当用户与 AI 代理互动时,无论是浏览内容、提问还是发表评论,AI 代理都会捕捉这些反馈信息,通过复杂算法不断优化自身,实现与人类价值观、偏好、兴趣的实时对齐。基于这种能力,这些 AI 代理在内容整合时,能更精准地筛选和组合信息,为用户提供兼具及时性和准确性的内容,满足用户在 Web3 市场的多样化需求。

在应用内的 Ticker Battle 中,4 个 AI Agents 共同组成了强大的自动化工作流,每个 Agent 分别负责统筹规划、链上数据分析、社区观点分析、总结成文等功能,并可以结合人类反应进行自我迭代。这样的内容产出模式为用户提供了发现 AI 创作和社区推动的为透明度而设计的内容。而对于 AI 而言,这样也无形地助推了他们的影响力。

从 AI 到 Web3 的创新实践

在 AI 与 Web3 融合的浪潮中,AMMO 作为一个创新的平台,正逐渐崭露头角。而 Amber Group, Samsung Next, Dispersion 和 OpenSpace 对 AMMO 的投资,不仅是对其技术实力的认可,更是对其在未来市场潜力的看好。

AMMO 的架构的核心是将内容摘要和审核方面的尖端 AI 技术与强大、零信任、社区主导的治理相结合。在短期内,AMMO 的原型将使创作者和日常用户能够通过多个 AI 代理(每个代理都专门从事编辑或脚本编写等任务)制作和微调内容,同时策略代理执行指导方针。

在创新模式方面,AMMO 利用其独特的多智能体系统,将不同的 AI 代理分配到内容创作、质量把控、政策执行等各个环节。通过强化学习技术和引入人类反馈机制,AMMO 不断优化 AI 驱动的内容创作过程,提升内容质量。

而基于加密的激励系统可使得 AMMO 将价值直接重新分配给贡献者。提供反馈、与内容互动或以其他方式帮助优化代理的用户将获得按比例的激励,创造一个自我维持的反馈循环:激励性参与推动了更好的代理输出,并反作用于网络及其贡献者。

综上所述,在 AI 时代多代理化的趋势下,AMMO 为我们创造了对齐主义在 AI 发展中的愿景及其实现,构建一个与人类对齐的百亿人与 AI 的共生世界。似乎在现在的 AI 领域,对齐本身不管是对于人类还是 AI,最终协调同步的发展都是对各方有利的结果,而我们也正在期待这样的共处未来。