知识分享壶

作者

MrCoffeeTalker

读者

内容

一档关注创作、学习和生活的专栏，分享我日常输入的所学所想。离开了 7 年游戏研究的工作后，我发现研究依然是那么的迷人，我喜欢学习、分享知识，也喜欢与朋友们分享手冲咖啡。在《知识分享壶》，我希望像冲咖啡般为你呈上新鲜的分享，要提神醒脑，也要久久回味的余韵。

全部文章

MrCoffeeTalker

2024/04/15

少关注推荐资源，多关注学习动机和享受其中

「你那种画图笔记是在哪学的，上的什么课？」

在一次线下的咖啡闲聊中，朋友提起了我之前经常会做的手绘笔记，问我是不是上了哪里的课学的。

（我之前......

MrCoffeeTalker

2024/02/05

成为更高效的学习者和创作者

但在订阅之前，我希望你能了解下面的信息再做决定。

关于我

这里是 MrCoffeeTalker，为了方便，你可以叫我咖啡。

......

MrCoffeeTalker

2024/02/05

看完小红书前算法工程师的访谈后，我学到的

12 月底到 1 月中旬，我发现一段访谈在我的创作者朋友间高频转发，里面的主角自称是小红书的前算法工程师，谈到了所谓的小红书算法背后的内幕。

我刚开始没太在意，直到后来......

MrCoffeeTalker

2024/01/24

高效创作的秘诀，我从 ConvertKit 创始人学到的「创作者飞轮」

最近这两天在看 HeyCreator 线上分享，和海外的博主们学习创作经验，今天这篇小报童，先来分享下我在第一场直播中学到的，关于高效创作的「创作者飞轮」。

对内容创作......

MrCoffeeTalker

2024/01/16

写 newsletter，免费还是付费？

最近在经营小报童上遇到了不少困惑，翻出来一期以前听过的播客回顾，对接下来该怎么做想清了不少，主要学到了这两点：

如何决定哪些内容付费、哪些免费

免费和付费 ......

MrCoffeeTalker

2024/01/10

小红书笔记第一次阅读 45 万，我学到了什么

生活比我想象得还要戏剧性。

上周末，我同时遇到了一件好事和一件坏事。

好事，是我的一条小红书笔记爆了，阅读量比我过去所有的笔记之和还高。

MrCoffeeTalker

2024/01/04

地铁里时不时看到的盲文，终于知道了如何解读

刷小红书时，翻到了一个关于盲文的冷笑话，原文大意是：

地铁里看到一段盲文，有没有盲人朋友帮忙看一下是什么意思？

原 po 只是拍了印有盲文的地......

MrCoffeeTalker

2023/12/13

读了篇讲 Gemini 的公众号文章，衍生了一些关于产品宣传、事实核查的思考

昨天中午刚好得空，继续研究 Gemini，挑了近期看到的新智元发的公众号文章阅读。

本身选这篇，并不是因为我关注或熟悉这个账号，只是刚好在时间线上刷到。会挑来读，是因为发现其中汇总了一些外网关于 Gemini 的信息，包括视频备受争议的部分，刚好可以和我已知的信息互补。

或许是因为之前研究游戏宣传片制作，加上近期在关注事实核查相关的知识，这次阅读的收获也是关于这两方面的。我发现 Gemini 这次的视频算得上是很有启发的产品宣传案例，而新智元在这篇文章也涉及到了至少 4 个误导性或事实核查的问题。

因为下文基于这次 Gemini 的演示内容展开讨论，如果你还没看过 Google 这次的演示，可以先看一看：

B 站搬运视频：https://www.bilibili.com/video/BV1FH4y1k7KN

YouTube 官方演示：https://www.youtube.com/watch?v=UIZAiXYceBI

Gemini 对产品宣传的启发

先说说产品宣传，因为我之前主要在关注的是游戏宣传片制作（纯兴趣，非相关从业者），这方面可能无法构成产品宣传的指导，相关内容仅作分享交流。

我个人觉得 Gemini 这波演示 Gemini 多模态的视频，算是很有趣的案例。

新智元在文中指出了这次 Google 最具误导性的地方：

这个视频最大的误导性在于，似乎让用户误以为 Gemini 能实时的读取视频信息，并且能够通过自己的理解直接推测用户的问题并直接回复

这部分我也认同，初看视频的时候确实误以为是实时交互了。

用游戏宣传片的角度来看，Google 犯的做大的错误，是用容易引发误解的剪辑方式表达。他们不该过于粉饰「真实的互动方式」，这容易给观众造成误解、透支品牌的信任度。

如果放到游戏里，这可能就像 2077 宣发展示的好像玩家可以用 VR 玩游戏，实际上交互方式依然是 PC 和主机，观众以为的 VR 却是游戏里的超梦体验。

而对比 Google 在视频里展示的，和介绍视频拍摄方法的《How it’s Made》一文，也能推测 Google 可能在多模态 AI 的交互设计上还没敲定。因为宣传片通常会优先用现有的材料加工，如果内部版本已经敲定了交互、不会再有大改，很难说有什么理由不展示出来，可见宣发真的很急。

不过这次视频中备受争议的另一个操作，我和新智元的观点不太一样，文中有提到这么个观点：

但是从产品实现落地的角度看，把读取图片约等于能实时看懂视频，并且过于强调实时性而压缩了交互过程中的延迟，这几乎已经可以理解为虚假宣传了。

混淆看图和看视频确实不好，但「压缩交互过程的延迟」这个我觉得还是有必要的。

作为宣传片，保留一个动作的开头和结尾、去掉无趣片段是很常见的操作。而 Google 这次视频的主要受众是对产品兴趣还没那么强的人，可能都不会坚持看多长的事件，这时就需要在有限的时间内更快速的传达「操作 A 会导致 B」，而不用引入细枝末节的枯燥片段，就像剪视频也会去掉无聊片段。

如果追求了解实际的延迟，其实和更适合看实机演示或直播，这些往往面向对产品兴趣更强的受众，可以延长篇幅容纳更多核心受众关注的细节。

宣传这块总结一下，我觉得结论是：

误导实时交互不好，Google 应该如实展示互动方式
Gemini 的交互设计可能还没敲定，这次的视频可能是又急又要效果的产物
去掉中间过程属于正常操作，与其保留不如分出无剪辑版本给核心受众看，就像游戏宣传片也有多种版本，既有精心剪辑或渲染的先导预告（announce trailer）和上线预告（launch trailer），也有纯粹展示、平铺直叙的开发者评论（developer commentary）和概览预告（overview trailer）

4 个误导性或事实核查的问题

这次 Gemini 引起争议的点，不只是多模态交互的视频有误导，另一个点在于对比 GPT-4 等主流模型的测试结果有「作弊之嫌」。

1. 误导性表达：测试结果作弊，Gemini Ultra 不如 GPT-4

文中指出，官方宣传的所谓在 MMLU 测试中 Gemini Ultra 得分 90%、领先 GPT-4 的 86.4%，是用了更有利于输出好结果的方法。Gemini Ultra 会生成 32 个答案以及关于答案的推理，然后模型会从中选择最常见的作为最终答案。

访问 Gemini 官网，你也能看到这个醒目的测试结果对比 https://deepmind.google/technologies/gemini/#capabilities

但与之对比的 GPT-4 的成绩，并不是用同样的方法测出来的，GPT-4 测试用的是 5-shot。根据 Google 的技术报告，如果看 Gemini Ultra 同样用 5-shot 跑出来的结果，会发现只有 83.7%，反而比 GPT-4 的 86.4% 要低。

这是否意味着 Gemini 就一无是处？

我仔细观察了文中的表格截图、并核查了原始信息的一致性，得出的结论是否。

我发现文中的论证很奇怪，表格中明显可见 Gemini Ultra 和 GPT-4 都有用 CoT 和 5-shot 测试，但这两种情况下双方的高低并不固定。仅看表中的 MMLU 测试结果、对比同种方法的结果：

都用 5-shot 时：Gemini Ultra 83.7%、GPT-4 86.4%，GPT 表现更好
依然 5-shot：Gemini Pro 71.8%、GPT-3.5 70%，Gemini 更好
而都用 CoT 时：Gemini Ultra 90.04%、GPT-4 87.29%，Gemini 表现更好

对比 Google 在宣传中采用的数据，Gemini Ultra 90.0%（CoT@32*）超过 GPT-4 86.4%（5-shot），看起来问题不在于测试方法作弊，而是展示的信息有意做了筛选。在 MMLU 测试结果中，挑选了竞品表现最差的数据和自家表现最好的，拉开了「领先」的差距。

但实际上，如果严谨点对比 GPT-4 用 CoT 的测试结果，Gemini Ultra 依然表现不错。而且按同种测试方法对比两边的结果，Gemini 看起来真的比 GPT-4 表现更好。

2. 误导性表达：引用名人观点，暗示 Gemini Ultra 实际水平不如 GPT-4

紧接着上面对测试结果的解读，文中引用了 HuggingFace 技术主管在推特的观点，但读起来也有点误导的感觉，像是在说「根据 HuggingFace 技术主管的推文，Gemini 实际水平比 GPT-4 低很多」。

我比较认同「不要轻信营销内容」，但这里只谈 5-shot 的数据代替宣传的数据也不妥。

就像 Gemini 和 GPT-4 两个人比拼体测结果，4 项测试中 Gemini 游泳、自行车和跑步都比 GPT-4 表现好，但唯独篮球输给了 GPT-4。Gemini 对篮球避之不谈，挑了自己领先 GPT-4 最多的结果讲。而路人则跳出来，揪着打篮球的结果说 Gemini 整体体测水平烂。

如果要公平对比两边，我们更该关注的是仅在模型不同的情况下，同种测试条件下谁的表现更好、哪一方整体表现好的维度更多。

仔细看原文我们也会发现，HuggingFace 技术主管其实很严谨，在结尾提到了「But yes Gemini Ultra > GPT-4 on CoT@32」。

3. 事实错误：现在能体验 Gemini 的多模态能力

文中提到了一个 Gemini 画画的例子，我觉得是略有不妥的。

我让 Gemini 画了一幅一个人开着电卡车在树林里露营的图，它生成的样子如下。

已知 Bard 确实搭载了 Gemini Pro，但测试 Gemini Pro 的生图能力，这个感觉是没做事实核查了。

我已知的 Google 发布的官方信息中，还没有地方提及有了 Gemini Pro 的 Bard 支持了生图能力。Bard 关于 Gemini 的更新日志中，仅仅是提及了「现在可以支持基于文本的提示词，其他模态不久后就会开放」，并没有任何地方提到生图能力。

这也让我想到了近期在网上刷到的，不少关于 Gemini Pro 测评居然都有提到识图能力，甚至包括像一些科技领域的大号、以及不少在 AI 领域消息比较灵通的创作者。

看起来，大家似乎都默认 Bard 已经装载了 Gemini 的识图能力，但这个假定的事实并没有信息支撑。如果仔细看 Bard 的更新日志就会发现，Bard 早在 2023.7 就已经支持了识图，并非 Gemini 官宣才加入的。

4. 事实错误：Google 发文「回应质疑」

最后这个事实错误是我也没想到的，关于「Google 对视频质疑的回应」。

文中提到，Gemini 在视频中看起来能实时感知人类动作、直接用语音回应，但随着视频发布，越来越多的人质疑 demo 的真实性，比如彭博社的 Parmy Olson 第一个质疑视频造假，而随后 Google 也在官方博客放出了解释。

表现过于惊艳以至引发质疑，官方不得不下场回应，听起来是非常合情合理的发展。

如果不是真的核查了这块的事实，我也以为 Google 是质疑后才发文章解释的了。

因为 Google 的博客是第一方的，有二次篡改发布时间的可能。为了防止 Google 这方面的小动作，我用到了一个网站，Wayback Machine，上面会记录网页历史的版本，即便网页公开后经过了改动，只要 Wayback Machine 里面有存档，就可以看到以前的样子，这个网站也是我从法务朋友那里知道的。

根据我查到的情况，这里提到的 Parmy Olson 的推文、Google 官方博客对视频拍摄的解释都却有其事，但时间却是反过来的。早在 Parmy 提出质疑之前，Google 解释拍摄方法的文章就已经发出来了：

Parmy 那条质疑推文，发布于 2023年12月8日01:16
Google 解释宣传视频拍摄的文章，最早的记录可以追溯到 2023年12月6日15:19

两个时间一对比，显然是先有了 Goolge 解释拍摄方法的文章，之后才有了 Parmy 的质疑推文。

但 Parmy 显然不可能是看了文章还提出质疑，因而我们这里还要加上 Gemini 多模态演示视频的发布时间，YouTube 上可见是2023年12月6日发布，根据 Wayback Machine 则可知更具体的时间是2023年12月6日15:35。

重新梳理一下事件的经过：

2023年12月6日15:19，Google 在官方博客发文，介绍 Gemini 拍摄的方法
2023年12月6日15:35，Google 在 YouTube 发布 Gemini 多模态演示视频
2023年12月8日01:16，Parmy 发推质疑视频的真实性

这么再来看，Google 似乎比我们想象得还复杂，一方面，Gemini 视频里表现的交互很具误导性，另一方面，在视频发布之前就已经准备好了拍摄方法的介绍文章。

整体来说，新智元的这篇对我还是很有参考性的，确实帮我补充了关于 Gemini 受到质疑的事件信息，以此为契机，启发了我思考如何做产品宣传，也发现了新闻类内容在传播中可能出现的各种解读变化、事实核查的问题。

如果要说学到了什么，我觉得是：

产品宣发要有底线，宁可展示独特卖点，不要营造误导
看起来合情合理的发展，不一定是真相
评价一个产品或功能前，最好确认下评价的是不是我们以为的那个东西

参考来源

新智元讲 Gemini 的公众号文章 https://mp.weixin.qq.com/s/YqeuRHazPZpuR3GoLtFdDQ
我之前写过的游戏宣传片教程 https://www.gcores.com/articles/158751
最近在即刻分享的有据核查的《事实核查手册》 https://m.okjike.com/reposts/6579288679cb2b9f3522575e
Gemini 多模态官方演示 https://www.youtube.com/watch?v=UIZAiXYceBI
Google 官方博客解释 Germini 多模态视频实际的交互方式 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
对于宣传片制作，掐掉无趣片段是基础操作 https://www.derek-lieu.com/blog/2022/4/11/starting-with-chronological-game-trailer-structure
游戏宣传片的各种类型及对应的投放阶段， https://www.derek-lieu.com/blog/2018/9/11/game-trailer-varieties-and-when-to-make-them
Google Deepmind 发布的 Gemini 技术报告 https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf#page=7
Bard 更新日志（已知需要更改 Google 账号首选语言为英文才能看到 Gemini 的部分） https://bard.google.com/updates
Parmy Olson 质疑 Gemini 视频的推文 https://twitter.com/parmy/status/1732811357068615969
Gemini 多模态拍摄介绍文章在最早的记录 https://web.archive.org/web/20231206151945/https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
Gemini 多模态演示视频最早的记录 https://web.archive.org/web/20231206153537/https://www.youtube.com/watch?v=UIZAiXYceBI&t=158s