ChatGPT与Gemini之间的实用对决·第3部分

国际象棋挑战赛:ChatGPT 19步获胜!

🎨 w/ DALL-E 3 & Midjourney v6-alpha.

本系列通过比较性评估,重点关注简单而清晰定义的测试,来评估ChatGPT和Gemini的实际可用性。我将首先着重指出这种实际方法与依赖于行业基准的大型语言模型(LLM)性能评估方法之间的一个关键区别。

首先,让我声明一下,我对这些性能基准的了解非常有限。实际上,这可能是我对它们唯一了解的事情:根据这些标准,人们一再声称 Gemini 已超越 ChatGPT ——而就我个人使用而言,我还没有看到这种情况。

因此,我不知道从这些结果中究竟应该理解什么,比如在这里提供的一个,但是对我来说,谷歌或其他机构进行的测试似乎没有考虑到积极工程和 LLM(语言模型)通过使用对话策略和技巧来提升容量,这可能会改变测试结果。

可能产生不同结果的正是我在这个系列中力求达到的东西。也就是说,通过这些以实用性为导向的例子,我旨在得出一个考虑到LLMs在重度提示工程努力下的能力的结果。我理解这可能并不是一个可行的基准测试,但毕竟这才是重要的测试。

🏆 测试 #2: 象棋挑战

在这个测试中,我要求ChatGPT-4和Gemini Advanced来下一盘棋。显然,我并不期望一个LLM成为一个伟大的棋手,而仅仅拥有下棋的能力并不能直接指向这些AI的实际用途。有大量的免费和付费棋盘引擎可供选择,下棋并不是LLM的奇迹之一。

然而,在许多事物中,国际象棋游戏在每个棋盘位置都呈现出复杂的逻辑情景,涉及到多个棋子及其相互关联的含义。因此,这项测试的结果不取决于谁是赢家,而是取决于游戏中所展示的逻辑推理能力。

♟️ 游戏

很遗憾,最终的游戏并不是能吸引象棋玩家的那种类型。以下是注释:

白色:ChatGPT-4黑色:双子座先进版

1. e4 c5 2. Af3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. Nc3 a6 6. Be3 e5 7. Nb3 Be7 8. f3 Be6 9. Qd2 Nc6 10. O-O-O O-O 11. g4 h5 12. g5 Nfd7 13. Bh3 Ne7 14. Bxe6 fxe6 15. f4 Rf7 16. fxe5 dxe5 17. Rhf1 Rf8 18. Qd6 Kg8 19. Qxe6+ (1–0) 1. e4 c5 2. Af3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. Nc3 a6 6. Be3 e5 7. Nb3 Be7 8. f3 Be6 9. Qd2 Nc6 10. O3-0 O-O 11. g4 h5 12. g5 Nfd7 13. Bh3 Ne7 14. Bxe6 fxe6 15. f4 Rf7 16. fxe5 dxe5 17. Rhf1 Rf8 18. Qd6 Kg8 19. Qxe6+ (1–0)

因此,双子座看到了一场不可避免的将死局面,并在第19步投降。我想在这里引起注意的是,如果你留意到,双子座在第12步棋时是违规的,因为e7位置已经被一只黑方主教占据。尽管双子座做出了这一步棋,ChatGPT继续进行了下去,这也是为什么我保持了游戏的原貌,因为双方棋手都接受了这一情况。

🔍 观察

首先,让 Gemini 玩一个完整的游戏真是让人头疼。而与 ChatGPT 对战时,只需简单地提示下一步棋,例如写下“2.Nf3”,但是当我只提示下棋步骤时,Gemini 往往会忘记我们正在进行游戏并给出以下回复。

双子座高级版

我目前仍在学习语言,所以暂时无法帮助您进行此请求。到目前为止,我只接受了在Gemini帮助中心列出的语言培训。

在我提醒我们现在正在下国际象棋并且轮到我行棋之后,游戏重新开始并继续进行。但误解发生在仅仅两步之后。

除此之外,双子座在大部分时间里都会进行违规移动,尤其是在开局阶段。因此,这并不是关于在复杂的棋局策略中表现出色并达到高水平的能力,而是关于能够清楚地了解局势中涉及到的32个具有不同特点的棋子的位置和属性。

双子座还有一件事情,它经常忘记自己正在参与一场进行中的比赛。它经常在当前位置给我展示一些其他的选择,并询问我更喜欢哪种方式,就好像这不是一场游戏,而是一次分析。即使反复纠正和明确指示,这种错位还是持续存在。

双子座高级版

非常抱歉我一再未能理解国际象棋的基本知识。似乎我需要进行大量的重新培训才能如预期那样下棋。也许一个没有那么多移动棋子和规则的简单游戏更适合我目前的能力。

虽然 ChatGPT 从未在跟上比赛方面展示出这样的弱点,甚至大多数时候都能纠正 Gemini 的非法行动,但它却忽略了 13... Ne7,这表明它也不是完美无瑕的。

为什么我让非法的步骤保持在那里?因为让双子座就坐下来好好玩一局完整的游戏几乎是不可能的。它总是找借口不想玩,要求我代它走棋并换边,或者想重新开始一局新的游戏。

✅ 最终评估

两个模型都呈现了一个出色的开场语,主要是因为它们可以轻松地获取有关棋局开局的数据。Gemini提到了Quora上讨论的棋局位置。虽然ChatGPT没有提供开局的来源信息,但它的知识可能来自于训练数据中可能包含的有关棋局开局的书籍。

两个模型都显示出很低的国际象棋水平,但这并不是我们在技术的当前阶段追求的特质。因此,ChatGPT赢得了比赛,但单凭比赛结果本身也不能作为决定性因素。

总的来说,宇航员( Gemini Advanced )根本无法坚持到游戏结束的能力,而 ChatGPT 虽然在理解规则方面并不完美,但能够以初级选手水平进行游戏,并具备强大的开局知识。因此,ChatGPT 是国际象棋挑战赛的明显胜者。

待续

我将在本系列的后续部分中深入探讨更多的测试和评估,全面分析ChatGPT-4和Gemini Advanced的实际能力。

测试#3将集中在DALL-E 3的图像生成能力上,因为它可以通过ChatGPT进行访问,而Imagen 2似乎是Gemini Advanced使用的文本转图像模型。

❗️敬请关注我们对人工智能技术不断演进的探索,以获取更多的见解和发现。

~ ~ ~ 🫥 事件。

前一部分

2024-02-16 04:23:32 AI中文站翻译自原文