咸鱼停车场: 文生冒险

September 5, 2024

声明:我可不怎么好学

小时候我最爱干的两件事就是:看书和看电视。

看书不是因为好学啊,单纯是因为那时候真的是闲出屁来了。

你说,被严格要求三点一线的小学生放学时间能干嘛?我倒是想和小伙伴儿们去快乐吃喝,奈何兜里啥钱都没有,成天蹭人吃喝也不太好吧,于是只能按时灰溜溜地回家待着去。但家里又很没意思,就只能看点书,消磨点时光,让想象力在世界畅游。

为什么不看电视呢?

哎呀,那会儿我家长凶得很。看电视得先请示,十有八九得被驳回。虽然他们都不在家,但我这偷偷按开嘛,心里也难受的很,时常得耳听八方注意门锁有没有被拧开的声音。要是听到钥匙的声音,就立马要飞到厕所里弄一卷湿巾,给电视机人工降热以防检查。这担惊受怕的日子,我这么年纪小小的可承受不了。

就这么个原因,书就逐渐看得多了起来。

久而久之就就养成了个习惯。相对于精细制成的画面,我更偏向于文字间的模糊,那是允许我独自享受的空间。

我经常觉得,能够深层地感受到文字的人是很快乐的,文字给画面巨大的留白,而在这些广阔的区域里,挥笔的人是阅读者。

这也就相当于说,每一次的阅读都是我在看由自己策划出品的电视节目。

文字翻译器

好的,在各位了解了我不爱学习和童年为何在回家后会被男女混合双打的原因后,我们终于来到这篇的重点:文生科技。

近期以来,我们可以看到文生科技被广泛应用在娱乐方面。

例如,前几年我划拉手机的时候,就看到这么一则贴文(很可惜在历经数次尝试后,还是找不回来)。 贴主是参与一类文生游戏的开发者。这款神奇的游戏大概是这么操作的,玩家要在输入框里用具体的描写去驱动主人公的动向和行为。而在游戏中如果遇到需要借助道具的帮助才能完成的任务,玩家们需要输入想要的物体名称才能获取道具。当时看到这款游戏的时候,我深感震惊,这么发展下去,我以后玩游戏都要拼的是想象力了。能出什么道具看的不是我氪金了吗,而是我能想出什么怪东西来打败敌人。

那再有一个例子就是,今年惊艳面世的Sora视屏生成平台。

根据用户提供的指令,Sora可以制作长达一分钟的三维高保真视频。这项技术给影视制作业带来了巨大的冲击,因为这意味着制造画面特效的成本会大幅度降低,而且随着sora不停地训练和成长,它将有潜力令使用者的想象力和创造力跳脱出技术层面的限制,但同时也会影响业界的一些职位。要知道,在2023年5月份,由于不达预期的薪资和AI在视频界的应用,好莱坞才经历了一次编剧和作家罢工。这场罢工持续了148天,虽然经过协议后双方达成了一定的共识,但是AI使用场景的问题并没有被完全解决。现如今Sora的诞生,将会给业界带来更多的竞争和不安。

虽然AI和大数据在影视界掀起了一番腥风血雨,但在站着说话不腰疼的我看来,文生游戏和视频的诞生是文字崛起的真正的开始,文字的力量想象的空间正在逐渐变得可视化。

文生视频的工作原理

说好了是个科技文章嘛,就简单给大家说下文生科技:主要是文生视频 —— Sora的长视频实现。

Sora工作原理的成功除了归功于非常广泛的数据采集,和精确的分类外,还有以下三点:

  • 运用大语言模型将各种文本形式去进行了一定的统一化。
  • 运用文本解析技术去理解接收到的提示词,为实现文本转视频内容做好准备。
  • 运用扩散模型和Transformer架构去处理视频数据。

Sora的独特之处在于,它突破了以往文转视频的训练方式且能有逻辑性地制作一分钟视频。

先来讲讲训练方式。

从前文转视频技术中所有参与训练的图像或视频都得是同样的大小。但Sora脱离了视频帧,是基于时间空间补丁进行训练的,它就不再收到这方面的影响,可以有效地去掉前期的裁剪工作,这也就说明Sora会拥有更广的训练数据。

再来说说视频制作。

Sora并非是直接文转视频。反之,Sora依靠的是空间时间补丁去实现填补视频所需要的细节内容,它真正处理的是时间和空间上的变化。这就不得不提到我们的第三点:扩散模型和Transformer结构。它俩各司其职,扩散模型主要负责对抽象的补丁噪音进行逐步精细化处理直到呈现出高清的图像。而Transformer架构就负责分析各种补丁之间的关系,确保流动画面上的逻辑性。能够成功地实现这点代表Sora拥有非常丰富强大的知识图谱,它对空间、物理环境和要求对象之间的相互作用有着十分深刻的了解,以至于它可以将各种核心要素拼接起来,预测下一个应该使用的补丁、而且不突兀地连贯起来并保持一致性。

文字野草

Sora和各种文生科技是基于文字和想象力创造出来的世界。

当科技不再是想象力的壁垒的时候,文字的力量就会体现出来。

小时候读的这么多杂书,我居然有机会去实象化它们了。

Image by Sergei Belozerov from Pixabay