今晚本来想写GPT 4o的技术解答文章的不过有点迟了写到哪儿算哪儿,剩下的后面找时间继续写!
首先可能很多朋友只刷到过特别火也争议特别大的那个吉卜力风格化,但这其实不是什么新鲜的玩法了,只不过在效果上又更进一步。更加值得关注的其实是这次GPT-4o出了超多特别惊人的技术,基本上可以说是GPT本T长了手能画画了,不再存在GPT生成prompt命令呼叫 DALLE3导致的信息损耗了。(最开始GPT还不会自己画图的时候,是通过调用文生图大模型DALLE3来画图的,而不是它本身能产生图片)
例如它可以写非常非常长的文字(图一)
例如给定风格参考图让它画一个类似的海报(图二)
例如直接通过对话修改图片(图三)
例如画一些漫画或者插画(图四)
更多例子:
https://openai.com/index/introducing-4o-image-generation/
以上这些例子,都可以从各种意义上体现出,GPT模型自己长了个会画画的手,比调用另一个绘图模型在使用上有多大的变革。
比如说制造抹茶那个四格,如果是之前的流程,可能需要先让GPT生成抹茶做法的四个步骤,然后再让它把步骤转换成文生图模型的prompt,再调用DALLE3把图片画出来。每一个步骤都可能有损耗,尤其是最后一步,DALLE3可能没办法有这么好的文本对应性能精准画出这样的内容。但是GPT如果本来就会画画,事情就会变得很自然了。我们都知道GPT内部肯定是已经有关于如何制作抹茶的知识的,不止如此,GPT 4o还是一个多模态大模型。多模态的意思是它能够理解各种形式的信息,例如文字、图片、语言等。所以它同样也见过大量的“如何制作xx“这样的海报。于是它就可以直接结合这些知识生成图四这个结果。
又例如图二给定参考图来画新的图和用对话编辑图片也是非常自然。原本如果要做这些,用过SD系列工具的人会知道,你需要有一个实现这些功能的workflow,把各种模块组合在一起,让这些参考图以各种形式注入信息到模型,然后diffusion模型再接受这些信息作为生成图片的条件去完成指令。但其实diffusion原生是不支持这些编辑功能的,所以每个功能都需要单独作为一个任务去训练优化。但是其实这些任务本质上都是差不多的,只不过diffusion没有auto regressive model这样一切皆可tokenized的flexibility(这部分技术后面再解释)。所以GPT一旦能够生成高质量的图片,这些图片编辑操作能做得比diffusion模型好是非常自然而然水到渠成的事情。
OpenAI在做GPT 3.5(也就是最初的ChatGPT)的时候就很喜欢这种大一统的路线,在大家都在做专用模型(翻译模型、打分模型、聊天机器人等)的时候坚持做通用模型(一个模型解决所有任务),在diffusion风头正盛的时候坚持用自回归生成图片(DALLE3是先把图片tokenized后再用transformer生成的)之所以这么坚持就是为了有一天把文字和图片的token统一到一起。
编辑:最后一段我的记忆出现错误了。我重新核查了一下,dalle1是基于自回归的,dalle2论文里尝试了自回归和扩散两个方案,后者胜出,dalle3就是完全基于ldm了,应该是openai内部一直没有放弃自回归路线吧。
哈喽哈喽,极地生活居然又更新了!这次要特别感谢符箓的葬礼实况录音!
请大家随缘收听!
https://creators.spotify.com/pod/show/1tgajb90m2o/episodes/ep-e316r2k
另外,大家搞创作的时候,记得时不时站起来休息休息喔!
#奇怪电台