《星际争霸2》12月19日测试比赛录像公布

来源：爱酷猪责编：网络时间：2024-02-05 13:01:48

从哪儿冒出来！

刚刚推出后，已被推上历史舞台两年，创造了第一个击败星际争霸2顶级职业选手的AI。

昨晚发布了 12 月 19 日举行的一系列测试赛的视频，队友达里奥“TLO”在一次成功的基准测试后以 5-0 果断获胜。击败了世界上最强的职业星际争霸选手之一。

虽然人工智能在 Atari、Mario、 III Arena 和 Dota 2 等视频游戏中取得了巨大成功，但到目前为止，人工智能仍难以应对星际争霸的复杂性。

《星际争霸2》由暴雪娱乐制作。故事以虚构的科幻世界为背景，具有丰富的多层次游戏玩法，旨在挑战人类智力。由于其高度的复杂性和策略性，该游戏已成为历史上规模最大、最成功的游戏之一，玩家参加电子竞技锦标赛已超过 20 年。

这一次AI击败顶尖高手，真正突破了人类智能的最后前沿！

10段视频见证大规模杀戮，人类玩家现场反击

比赛开始前，召集了两名人类职业选手，每位选手进行了五轮的对决。然后在现场，人类和AI进行了最后的博弈，保住了面子。让我们来看看。

本次终极1V1人机大战使用的地图为LE，游戏版本为4.6.2。

相互竞争的人类玩家分别是TLO和MaNa。

TLO是来自德国的现役职业球员Dario Wünsch，隶属于荷兰队“Team”。他在2018年WSC中排名第44位。 TLO在玩家中很有名气，因为他经常在直播中发挥出自己的最佳水平。

另一位选手是25岁的现役职业选手“MaNa”，被誉为波兰王牌。 MaNa习惯了玩神族。在刚刚结束的IEM科隆站比赛中，MaNa在小组赛中以2:1击败了韩国选手。

MaNa目前在2018年WSC中排名第13位。他是去年WCS的亚军和2015年WCS第3赛季的亚军。此前，MaNa赢得了夏季赛冠军。

以下是 10 场比赛视频的精彩片段，以及激动人心的现场战斗。

第一轮：7分钟，人类顶尖选手终结

一开始，人类玩家带头派出一名农民探路来回AI的家。

2分50秒，人类玩家派出两名高级神殿开始第一波骚扰，并派出一些强者狙击消灭。

随后，人类玩家继续骚扰，与此同时，AI开始反击，派出追踪器攻击主基地。

不知不觉间，AI已经积累了6个追随者，正在向人类玩家群体大步迈进。

双方展开第一波GANK，但LTO派出了老少家属抵挡攻击。然而，AI的补给部队已经抵达战场。 LTO 已经没有希望了。

：人类玩家攻击性很强，而AI则步步小心，计算准确。

尽管如此，双方前期仍继续缠斗。大约6分钟后，他们率先派出10只追踪者攻击LTO，人类玩家成功防守。

在此期间，实施了减少气体收集的策略。

然后，人类玩家和人工智能各自发展经济，创建单位，并在整个领域进行小圈子战斗。

第14分钟，制胜点出现。看起来人类玩家正在追赶AI，却突然被另外两个方向而来的士兵截断，惨遭杀害。

人类玩家无力再次获胜。

-5：部队来到城下，从四面八方围剿，简直就是残酷的对待。

接下来播放的视频是另一位人类顶尖选手MaNa的战斗。

我们来看看录制视频中三个完整的酷刑场景。

行走的农民被勒死。

赶紧推一波。

三路围剿，峡谷惨败。

现场比赛：人类选手逆袭，赶走AI。

也许是因为人工智能太强大了，人类需要证明自己的实力。最后，职业选手MaNa进行了现场实时比赛。

与视频相比，人类玩家这次采取了更为保守的策略，选择发展经济和“招募军队”；而人类玩家则率先发起挑衅。

而且，他们还继续迂回骚扰群众，基地周围和探路的农民也遭到枪击。

在保守打法的基础上，MaNa积累了一定的兵力。当他发现部队离开巢穴后，他立即出兵攻击。同时，我们也不忘记建立分基地，两条线运营星际争霸2人族开局，非常稳定。

此时部队并没有及时赶回来救援，玛娜趁此机会直接拆除了分基地。

面对刚刚归来的军团，马娜凶猛如虎，直接击退了其部队，然后果断进攻黄龙。

最终，人类奋起反抗，战胜了人工智能。

全世界观众顿时失态，评论区炸了——为人类的胜利欢呼——或许是为了挽回人类最后的颜面。

精炼说明：每个agent使用16个TPU

该行为由深度神经网络生成，该网络接收来自原始游戏的输入数据（单位及其属性的列表）并输出构成游戏内动作的指令序列。更具体地说，神经网络架构将变压器主干应用于该单元，结合了 LSTM 核心、带有指针网络的自回归策略头和集中值基线。

我们相信，这种先进的模型将有助于解决机器学习研究中的许多其他挑战，涉及长期序列建模和大输出空间，例如翻译、语言建模和视觉表示。

还使用了新的多智能体学习算法。该神经网络最初是通过暴雪发布的匿名人类游戏的监督学习来训练的。这使得能够模拟玩家使用的基本微观和宏观策略。这个初始代理在 95% 的游戏中击败了内置的“精英”AI 级别（人类玩家的黄金级别）。

然后将它们用于构建多代理强化学习过程。一个持续的联盟被创建，它的代理人——竞争对手——互相玩游戏，就像人类一样。

通过从现有竞争对手中分支出来，新的竞争对手动态地添加到联盟中；然后每个智能体从与其他竞争对手的游戏中学习。这种新的训练形式进一步发展了基于人群的强化学习概念，创造了一个不断探索星际争霸游戏玩法巨大策略空间的过程，同时确保每个参赛者在最强策略面前都能有出色的表现。并且不要忘记如何击败早期的策略。

随着联盟的发展和新竞争对手的出现，新的反击策略就会出现，可以击败以前的策略。虽然一些新竞争对手执行的策略只是对先前策略的改进，但其他竞争对手却发现了全新的策略，包括全新的构建订单、单元组合和微观管理计划。

例如，在英雄联盟早期，一些“俗气”的策略，例如使用光子炮或黑暗圣堂武士进行快速仇恨，受到了玩家的青睐。随着训练的进行，这些冒险的策略会被放弃，从而产生其他策略：例如，通过过度扩张拥有更多工人的基地来获得经济实力，或者牺牲两个预言机来破坏对手的工人和经济。这个过程类似于自《星际争霸》发布以来多年来玩家如何发现新策略并能够击败以前喜欢的方法。

为了鼓励联盟的多样性，每个智能体都有自己的学习目标：例如，该智能体应该旨在击败哪些竞争对手，以及影响智能体表现的任何其他内部动机。一个智能体的目标可能是击败特定的竞争对手，而另一个智能体可能必须击败整个分布的竞争对手，但这是通过构建更具体的游戏单元来实现的。这些学习目标在培训过程中进行了调整。

最好的结果可能来自于手工制作系统的主要元素、对游戏规则施加重大限制、赋予系统超人的能力，或者在简化的地图上进行游戏。即使有了这些改进，仍然没有任何系统可以与职业玩家的技能相媲美。相比之下，《星际争霸 2》中的完整游戏使用的是通过监督学习和强化学习直接从原始游戏数据训练的深度神经网络。

对于训练，使用 v3 版本的 TPU 构建了高度可扩展的分布式训练设置，该设置支持大量代理从星际争霸 2 的数千个并行实例中学习。联赛运行了 14 天，每个代理使用 16 个 TPU。在训练过程中，每位特工都体验了长达200年的星际争霸实时游戏玩法。最终的代理由联合纳什分布组成，换句话说，是已发现的最有效的策略组合，在单个桌面 GPU 上运行。

此外，关于这项工作的论文即将发表。

实践技能分析

说完训练过程，我们来分析一下实战过程。

TLO 和 MaNa 等职业星际争霸玩家平均每分钟可以执行数百个动作 (APM)。这远远低于大多数现有机器人，后者独立控制每个单元并始终保持数千甚至数万个 APM。

在与TLO和MaNa的比赛中，平均APM在280左右，虽然动作可能更加精准，但远低于职业选手。

APM 较低的部分原因是使用重播来开始训练，从而模仿了人类玩游戏的方式。此外，观察和响应行动之间的平均延迟为 350 毫秒。

在与TLO和MaNa的比赛中，它通过原来的接口连接到星际争霸2引擎，这意味着它可以在不移动相机的情况下直接观察自己的属性和对手在地图上的可见单位。

相比之下，人类玩家必须明确管理“注意力经济”并决定将相机聚焦在哪里。

然而，对游戏的分析表明，它管理着隐含的注意力焦点。平均而言，代理每分钟“切换内容”约30次，类似于MaNa或TLO的操作。

此外，比赛结束后，还开发了第二个版本。与人类玩家一样，该版本选择何时何地移动摄像机，其感知仅限于屏幕上的信息，其行动位置仅限于其可见区域。

两名新特工接受了培训，一名使用原始数据，另一名必须学习控制摄像机进行竞争。

每个代理最初都通过人类数据的监督学习进行训练，然后遵循强化学习过程。使用相机接口的版本几乎与原始版本一样强大，在内部排行榜上超过了 7000 MMR。

在表演赛中，MaNa击败了只训练了7天的原型版本。

这些结果表明，针对 MaNa 和 TLO 的成功实际上是由于卓越的宏观和微观战略决策，而不是快速行动、更快的反应时间或 RAW。

挑战人类20年，AI攻克星际有5大难关

游戏规则规定，玩家必须从三种不同的外星“种族”中选择一种——虫族、神族或人族，每种种族都有自己的特点和能力（尽管职业玩家往往只关注一种种族）。每个玩家从几个工作单位开始，收集基本资源来建造更多单位和结构并创造新技术。这些反过来又允许玩家获取其他资源，建造更复杂的基地和结构，并开发可以用来智取对手的新能力。

游戏的难度在于，为了获胜，玩家必须在宏观经济的宏观管理和微观个人控制之间保持谨慎的平衡。

平衡短期和长期目标以及适应意外情况的需要对通常脆弱且缺乏灵活性的系统提出了重大挑战。为了解决这个问题，人工智能研究需要克服几个挑战，包括：

博弈论：星际争霸是一个没有最优策略的石头剪刀布游戏。因此，AI过程需要不断探索和拓展战略知识的前沿。

信息不完整：与国际象棋或围棋中玩家可以看到所有信息不同，关键信息对星际玩家来说是隐藏的，必须通过“侦察”主动发现。

长期规划：像许多现实世界的问题一样，因果关系不是瞬间发生的。游戏也可能需要一个小时才能完成，这意味着游戏早期采取的行动可能不会在很长一段时间内得到回报。

实时：与传统棋盘游戏玩家交替进行后续动作不同，《星际争霸》玩家必须随着游戏时间的推移不断执行动作。

大型活动空间：必须同时实时控制数百个不同的单元和建筑物，形成可能的组合空间。

正是因为这些巨大的挑战，星际争霸才成为人工智能研究中的“巨大挑战”。自2009年API发布以来，星际争霸和星际争霸2的竞赛一直在持续进行，包括AIIDE星际争霸人工智能大赛、CIG星际争霸大赛、学生星际争霸人工智能大赛和星际争霸2人工智能天梯大赛。

2016年和2017年，我们与暴雪合作发布了一套名为PySC2的开源工具，其中包括有史以来最大的匿名游戏重播集。

如今，经过两年的建设，刚刚启动的项目进展迅速。

关于书籍

《深度学习：入门、原理与进阶实践》和《带我起飞——入门、进阶与商业实践》两本书是Code 团队精心编撰的关于如何入门和提高AI的优秀书籍。丰富的配套资源：配套视频、QQ读者、示例源码、配套论坛：。有关更多信息，请参阅：