突然接到某讯APP的视频制作体验测试的信息弹窗,毫不犹豫加入体验。
经过几次尝试,感觉并不友好,基于没有理解到我们对视频制作的描述期望,生成的内容与需求描述存在较大的差异。
简单的理解,其依旧是通过大语言模型对我们需求语言 进行“编码”,从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后“编码”回内容的一个过程,理解起来并不太复杂。具体可能是基于时空信息的数据的碎片内容,进行拆解组合被用作Transformer的Token来处理和理解需求描述的视觉数据,在说简单点就是个编码器和解码器的深度应用。当然,这种视频的生成感,主要是过于生硬,可以理解其是对碎片信息的组合。但常规理解碎片它通过将图像或视频分解为小块区域,是可以使得复杂的视觉任务更加高效和准确地完成。
对此,尝试了Sora,这个感觉确实“差异过大”。同样是对自然语言理解,其对生成视频文本描述感觉是基于丰富的文本内容作为合成数据训练, 描述内容及语言的精确和关联度更强,可以说在Token与Patch之间形成了统一的“文字”信息。图像视频作为prompts,基于用户提供的图像或视频又可以自然的编码为时空碎片,用于各种图像和视频编辑任务,静态图动画、扩展生成视频、视频连接或编辑等,直接提升的生成视频内容的丝滑程度。
多次对比尝试,还是能够感觉到,基于扩散模型的Transformer,确实从高维的信息碎片中存在一个观察和提取关联信息并演化的动态过程,类似数据信息的采集和视觉观察提炼的动作。
虽然不是很清晰到底是用哪一种方式在背后进行处理,但猜测视频碎片内容可能是假定三维空间的点集的运动形态或者说是个四维时空模型,而基于这个生成模型先去从中实现提取出关键信息,通过表面内容,在视频生成上展现出强大的涌现能力,保障了人景物在三维空间移动一致性,让仿真状态更加融合。
换个角度,基于语言需求的描述,系统并未达到智能,或者说并没有足以产生意识的信息和同时加工的处理过程。由这个体验测试的过程来看,从反馈中进行强化学习是一种训练人工智能系统与人类目标相一致的技术策略,虽然已成为优化大型语言模型的重要方案,但对其缺点的系统化整理感觉相对较少。对于,我们测试体验而言,还是提供了可靠且相对高质量的反馈,应该有利于后续的策略优化内容,或者说选择有代表性的人群并让他们提供高质量的反馈其实是存在困难的,因为部分观察性以及数据收集的本身都容易产生偏见。
虽然是一个很小的体验过程,也尽管AI测试的价值对齐是一项难题,但辩以明志,分析和讨论也将引领我们踏上正确的路。