您现在的位置是：时尚 >>正文

谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了

时尚981人已围观

简介Jeff Dean 表示：“更多的进展即将到来。”欢迎关注“新浪科技”的微信订阅号：techsina 文/杜晨来源：硅星人ID:guixingren123)近几年科技行业疯狂加注超大规模语言模型，一个 ...

Jeff Dean 表示：“更多的谷歌个进展即将到来。”

欢迎关注“新浪科技”的又炫微信订阅号：techsina

文/杜晨

来源：硅星人（ID:guixingren123)

近几年科技行业疯狂加注超大规模语言模型，一个最主要的技派成果就是“人工智能创造内容”（AIGC）技术突飞猛进。两年前 OpenAI 通过 GPT-3 模型展示了大语言模型的科幻昆把多样化实力。而最近各种 AI 基于文字提示生成图片的大师产品，更是刘宇数不胜数。

有趣的小说写是，今年以来 AIGC 的谷歌个风头基本都被Stable Diffusion、Craiyon、又炫Midjourney等“小玩家”给抢了——像谷歌这样的技派 AI 巨头，反而没怎么见动静。科幻昆把

但其实谷歌并没有“躺平”。大师

临近年底，刘宇在11月2日早上，小说写谷歌终于放出了大招。谷歌个这家在 AI 研究上最久负盛名的硅谷巨头，居然一鼓作气发布了四项最新的 AIGC 技术成果，能够根据文本提示生成：

高分辨率长视频

3D模型

音乐

代码

以及可控文本生成技术。

图片来源：Google Research

“用 AI 赋能的生成式模型，具有释放创造力的潜能。通过这些技术，来自不同文化背景的人们都可以更方便地使用图像、视频和设计来表达自己，这在以前是无法做到的，”谷歌 AI 负责人 Jeff Dean 说道。

他表示，经过谷歌研究人员的不懈努力，现在公司不仅拥有在生成质量方面在行业领先的模型，还在这些模型基础上取得了进一步创新。

Jeff Dean 图片来源：谷歌

这些创新，包括“超分辨率的视频序列扩散模型”——也即将AI“文生图”扩展到“文生视频”，并且仍然确保超高清晰度。

以及 AudioLM，一个无需文字和音乐符号训练，仅通过聆听音频样本，就可以继续生成填补乐曲的音频模型。

从生成文字，到生成代码、音频、图片、视频和3D模型，谷歌似乎正在证明 AIGC 技术的能力还远未达到边界，并且大有用武之地。

接下来，一起好好看看谷歌这次都放了哪些大招。

| AI 写作助手，深受刘宇昆喜爱？

说实话，看到谷歌做了一款 AI 写作工具的时候，硅星人是略微有点担心失业的……

但是了解了关于这款工具更多的情况之后，这种心情更多地转化成了欣慰。

我们一直在强调AI背后的“大语言模型”技术背景。而谷歌推出的 LaMDA Wordcraft，就是这样一款将语言模型核心功能发挥到极致的技术

LaMDA Wordcraft 是在 LaMDA 大语言模型的基础上开发了一个写作协助工具，是谷歌大脑团队、PAIR（People + AI Research）团队，以及 Magenta 音频生成项目组的合作结晶。

它的作用，是在创作者写作的过程当中，根据现有的文本产生新的想法，或者帮助重写已有文句，从而帮助创作者突破“创作瓶颈” （writer‘s block）。

Wordcraft 用户界面图片来源：Google Research

LaMDA 本身的设计功能很简单：给定一个单词，预测下一个最有可能的单词是什么，也可以理解成完形填空或者句子补完。

但是有趣的是，因为 LaMDA 的模型规模和训练数据量实在是太大了（来自于整个互联网的文本），以至于它获得了一种“潜意识”的能力，可以从语言中学习很多更高层次的概念——而正是这些高层次概念，对于创作者的工作流程能够带来非常大的帮助。

谷歌在 Wordcraft 用户界面中设计了多种不同的功能，能够让创作者自己调整生成文本的风格。“我们喜欢把 Wordcraft 比喻成‘魔法文字编辑器’，它有着熟悉的网页编辑器的样子，背后却集成了一系列 LaMDA 驱动的强大功能，”谷歌网页如是写道。

你可以用 Wordcraft 重写语句，也可以让他把调节你的原始文本从而“更有趣”（to be funnier）或者“更忧郁” （to be more melancholy）一点。

在过去一年时间里，谷歌举行了一个“Wordcraft 作家研讨会”的合作项目，找来了13位专业作家和文字创作者进行了长期深入的合作，让他们在自己的创作过程中借助 Wordcraft 编辑器来创作短篇小说。

值得注意的是，知名科幻作家刘宇昆（热剧《万神殿》背后的小说作者、《三体》英文版译者）也参与了这一项目。

他在写作过程中遇到了一个场景，需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路，但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表，节约了自己的脑容量，可以专心去写对故事更重要的东西。

而在另一个场景中，他发现自己的想象力被限制了，一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA，让它来开头，“这样就能够逼迫我探索一些从未想到过的可能性，发现新的写作灵感。”

你可以在 Wordcraft Writers Workshop 的官方页面（阅读原文按钮）中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies。顺便，他还借用 Imagen 为小说生成了几张插图：

图片来源：Emily Reif via Imagen

| 超长、连贯性视频的生成，终于被攻破了？

大家对于 AI 文字生成图片应该都不算陌生了。最近一年里，有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon（不分先后）等知名产品问世；而谷歌也有自己的AI 文字转图片模型，并且一做就是两个：Imagen（基于大预言模型和行业流行的扩散模型），和 Parti（基于谷歌自家的 Pathways 框架）。

图片来源：Google Research

尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了，低调沉稳的谷歌并没有躺平。

当其他人都似乎“阶段性”满足于用文字提示做小图片时，谷歌其实已经在加速往前冲了：它比任何人都更早进入了“文字生成高分辨率视频”，这一从未被探索过的复杂技术领域。

“生成高分辨率，且在时间上连贯的视频，是非常困难的工作，” Google Research 高级研究总监 Douglas Eck 表示。

“不过好在，我们最近有两项研究，Imagen Video 和 Phenaki，可以解决视频生成的问题。”

图片来源：Google Research

你可以这样理解：文字转图片就是根据一段文字提示来生成一张（或者多张平行的图片），而 Imagen Video 和 Phenaki 是可以根据多条文字提示，来生成在时序上连贯的多张照片——也就是视频。

具体来说，Imagen Video 是通过文本生成图像的扩散模型，能够生成具有前所未有真实度的高清画面；同时由于建立在基于 Transformer 技术的大规模语言模型上，它也具备极强的语言理解能力。

而 Phenaki 则是完全通过大语言模型，在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长（数分钟）的视频，且画面的逻辑和视觉连贯性更强。

Tags：

上一篇：特定养老储蓄产品登台 5年期利率最高可达4％

下一篇：北京朝阳：流调发现有的感染者与病毒擦肩而过就被感染请戴好口罩

中通国脉主要股东“破镜重圆” 撤回解除一致行动协议声明
时尚
每经记者程雅 11月22日，SH603559，股价13.35元，市值19.13亿元）发布公告，为保证上市公司实控权的稳定性，经张显坤、王世超、李春田、孟奇、张秋明、张利岩六名股东与海南吉地优投资合伙 ...

2025-07-06 18:37【时尚】
阅读更多
如何看待银行业网点关停？缓交房贷是否具有普遍推广可行性？银保监会回应12个市场热点！
时尚
图片来源：视觉中国-VCG211135286175日前，央行举行2022年第一季度金融统计数据新闻发布会。先看会上公布的一组重要数据：1、1-3月，境内各项贷款新增8.6万亿元，同比多增4455亿元。 ...

2025-07-06 18:34【时尚】
阅读更多
神十三即将回家，将成我国在轨驻留时间最长、返回最快飞船
时尚
据中国载人航天工程办公室消息，神舟十三号载人飞船已完成全部既定任务，将于近日择机撤离空间站核心舱组合体，返回东风着陆场。在轨工作生活6个月后，3名航天员终于要回到地球家园。值得关注的是，神舟十三号不仅 ...

2025-07-06 18:17【时尚】
阅读更多

您现在的位置是：时尚 >>正文

谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了

相关文章

中通国脉主要股东“破镜重圆” 撤回解除一致行动协议声明

如何看待银行业网点关停？缓交房贷是否具有普遍推广可行性？银保监会回应12个市场热点！

神十三即将回家，将成我国在轨驻留时间最长、返回最快飞船

热门文章

最新文章

友情链接