Show newer

吃药!连续吃了几天止痛药,西化了!
(走来走去
为什么为什么为什么为什么好着急
(走来走去

要不要再买一只美术钢笔,这样一次就可以带两支不同颜色去画画了
但,真的有必要吗?
嗯,没有必要

今晚本来想写GPT 4o的技术解答文章的不过有点迟了写到哪儿算哪儿,剩下的后面找时间继续写!

首先可能很多朋友只刷到过特别火也争议特别大的那个吉卜力风格化,但这其实不是什么新鲜的玩法了,只不过在效果上又更进一步。更加值得关注的其实是这次GPT-4o出了超多特别惊人的技术,基本上可以说是GPT本T长了手能画画了,不再存在GPT生成prompt命令呼叫 DALLE3导致的信息损耗了。(最开始GPT还不会自己画图的时候,是通过调用文生图大模型DALLE3来画图的,而不是它本身能产生图片)

例如它可以写非常非常长的文字(图一)

例如给定风格参考图让它画一个类似的海报(图二)

例如直接通过对话修改图片(图三)

例如画一些漫画或者插画(图四)

更多例子:
openai.com/index/introducing-4

以上这些例子,都可以从各种意义上体现出,GPT模型自己长了个会画画的手,比调用另一个绘图模型在使用上有多大的变革。

比如说制造抹茶那个四格,如果是之前的流程,可能需要先让GPT生成抹茶做法的四个步骤,然后再让它把步骤转换成文生图模型的prompt,再调用DALLE3把图片画出来。每一个步骤都可能有损耗,尤其是最后一步,DALLE3可能没办法有这么好的文本对应性能精准画出这样的内容。但是GPT如果本来就会画画,事情就会变得很自然了。我们都知道GPT内部肯定是已经有关于如何制作抹茶的知识的,不止如此,GPT 4o还是一个多模态大模型。多模态的意思是它能够理解各种形式的信息,例如文字、图片、语言等。所以它同样也见过大量的“如何制作xx“这样的海报。于是它就可以直接结合这些知识生成图四这个结果。

又例如图二给定参考图来画新的图和用对话编辑图片也是非常自然。原本如果要做这些,用过SD系列工具的人会知道,你需要有一个实现这些功能的workflow,把各种模块组合在一起,让这些参考图以各种形式注入信息到模型,然后diffusion模型再接受这些信息作为生成图片的条件去完成指令。但其实diffusion原生是不支持这些编辑功能的,所以每个功能都需要单独作为一个任务去训练优化。但是其实这些任务本质上都是差不多的,只不过diffusion没有auto regressive model这样一切皆可tokenized的flexibility(这部分技术后面再解释)。所以GPT一旦能够生成高质量的图片,这些图片编辑操作能做得比diffusion模型好是非常自然而然水到渠成的事情。

OpenAI在做GPT 3.5(也就是最初的ChatGPT)的时候就很喜欢这种大一统的路线,在大家都在做专用模型(翻译模型、打分模型、聊天机器人等)的时候坚持做通用模型(一个模型解决所有任务),在diffusion风头正盛的时候坚持用自回归生成图片(DALLE3是先把图片tokenized后再用transformer生成的)之所以这么坚持就是为了有一天把文字和图片的token统一到一起。

编辑:最后一段我的记忆出现错误了。我重新核查了一下,dalle1是基于自回归的,dalle2论文里尝试了自回归和扩散两个方案,后者胜出,dalle3就是完全基于ldm了,应该是openai内部一直没有放弃自回归路线吧。

哎烦死了!这个配套头纱怎么是个夹子的,怎么是个夹子的,怎么是个夹子的,我哪里有头发给你夹啊啊啊啊啊!!!!

Show thread

什么?魅魔cos服,那我要点开看看!!!!!!
……是怎么想到把情趣内衣叫xx cos服的!?!

明早开俩会,第一个审薪酬办法
但我担忧的是,不会又降工资吧!!啊!我真的带点臭鸡蛋去啊啊!以备不时之需!!

特逗
我:(截图)哇!我们这一期播客有一个人听了!
符箓:是我

之前听说给视频人脸打码挺麻烦的,是剪辑里最麻烦的工作,今天试了一下,确实!烦得要死!

今天的笨蛋:看不懂刷kindle的操作说明书里面写的这些是什么,看着看着莫名其妙就急起来,并乱发脾气,对不起 

为什么你们谁都可以对艺术创作指指点点,但我却看不懂这些东西!我也想指指点点!这说明书我根本就看不懂!!!!!!
我不是笨蛋!我不是!我不是我不是我不是我不是我不是!!!!!
(突然哭了起来

termoscopio 温度计
telescopio 望远镜
microscopio 显微镜
那scopio是啥?一个后缀,表示观察检查,来自希腊语skopía

应该把葬礼上叮叮当当念的敲的放到电子乐里!

哈喽哈喽,极地生活居然又更新了!这次要特别感谢符箓的葬礼实况录音!
请大家随缘收听!​:toothumbrella:
creators.spotify.com/pod/show/
另外,大家搞创作的时候,记得时不时站起来休息休息喔!​:toothsit:

符箓怎么还没听完,好着急发啊(走来走去,走来走去,走来走去

“咪咕那种Android系统的请拆机解除启动验证”看到这句话我悬着的心差不多要死了​:ablobsweats:

好好笑,每次都觉得播客的不正经内容比正经内容好玩多了

在家剪辑和在公司剪辑的最大烦恼是:ctrl和command键位置不一样​:ablobsweats:

Show older
Rhabarberbarbarabar

本吧服务器位于德国。欢迎小伙伴们分享生活和语言豆知识。
新用户注册请
1. 填写详细的申请理由,或者附上别处的社交账号。
2. 给出 Rhabarberbarbarabar 的中文翻译。