AI视觉填字游戏爆炸！门罗转了180秒变成了爱因斯坦

日期：2023-12-04 18:20:08 / 人气：1778

AI视觉填字游戏爆炸！门罗转了180秒变成了爱因斯坦。“柯瑞西·肖骁起源于凹庙。
量子比特|微信官方账号QbitAI

艾画的玛丽莲梦露颠倒180°变成爱因斯坦？！
这是最近在社交媒体上爆红的一幅扩散模型视错觉画。只需给AI两组不同的提示，它就能给你画出来！
甚至可以使用完全不同的对象，比如一个男人，经过反色处理后神奇地变成了一个女人:
连文字都可以翻出来创造新的效果，快乐和假日只在一个旋转中:
原来这是密歇根大学对“视觉填字游戏”的一项新研究。论文一发表，就在黑客新闻上炸开了锅，热度飙升至近800。
英伟达高级AI科学家Jim Fan称赞道:
这是我最近见过的最酷的扩散模型！
有网友感叹:
这让我想起了我在分形压缩方面的经历。我一直以为是纯艺术。
要知道，要创作一幅经过旋转、反转、变形后的新主题的画，需要画家对色彩、造型、空间有一定的了解。
现在连AI都能画出这样的效果。是如何实现的？实际效果有这么好吗？
我们尝试了一下，并探索了其背后的原理。
Colab可以尝试一下。
我们用这个模型画了一组Lowpoly风格的画，让它看起来像一座山，反过来又像城市的天际线。
同时我们让ChatGPT(DALL E-3-3)试着画了一下，结果除了清晰度更高之外似乎没有什么优势。
作者本人展示的效果更丰富，更精彩。
雪后山峰90度变成马；从另一个角度看，餐桌变成了瀑布...
最奇妙的是下图——从上下左右四个角度看，每个方向的内容都不一样。
这里给读者做个测试。你能看出这四种动物是什么吗？)
以兔子为初始状态，每逆时针旋转90度，依次看到小鸟、长颈鹿、泰迪熊。
下面两张图做了三个不同的方向，虽然四个方向都没有做“新内容”。
除了旋转，它还可以将图像切割成拼图，然后重新组合成新的内容，甚至可以直接分解到像素级别。
风格千变万化，水彩、油画、水墨画、线描……应有尽有。
那么在哪里可以玩这个模式呢？
为了让更多的网友体验这款新玩具，笔者准备了一款Colab note。
但是免费版的Colab的T4驱动不了，V100偶尔内存溢出，需要A100才能稳定运行。
连作者自己都说，如果谁发现免费版可以动，请马上告诉他。
反正第一行代码运行完，我们就填拥抱脸令牌，给出访问地址。
同时，您需要同意DeepFloyd的项目页面中的用户协议，然后才能继续下面的步骤。
准备工作完成后，依次运行这三部分代码，完成环境部署。
需要注意的是，作者目前还没有为模型设计图形界面，效果的选择和提示的修改都需要我们手动调整代码。
作者在他的笔记中放了三种效果，取消注释他想要使用的效果(删除该行前面的英镑符号)，删除或注释掉未使用的效果(添加英镑符号)。
这里列举的三种效果并不是全部。如果要使用其他效果，可以手动替换代码。具体支持的效果如下:
修改后运行这行代码，然后提示还是一样的:
修改操作后可以进入生成环节，在这里还可以修改推理步数和引导强度。
需要注意的是，必须先运行image_64函数生成小图，然后用后面的图片把它变成大图，否则会报错。
综上所述，我们体验后的一个感受是，这款机型对提示词的要求还是很高的。
作者也意识到了这一点，并给出了一些提示:
机翻，仅供参考。
那么，研究团队是如何实现这些效果的呢？
“混合”多视图图像噪声
首先我们来看作者产生视错觉图像的关键原理。
为了使图像根据不同视角的不同提示呈现出不同的画面效果，作者特意采用了“噪声平均”的方法来进一步融合两个视角的图像。
简单来说，扩散模型(DDPM)的核心是通过训练模型对图像进行“打破和重组”，并基于“噪声图”生成新的图像:
因此，为了使图像在变换前后根据不同的提示生成不同的图像，需要改变扩散模型的去噪过程。
简单来说，就是把原始图像和变换后的图像同时用扩散模型“砸”出来做一个“噪点图”，在这个过程中，把处理后的结果进行平均，计算出一个新的“噪点图”。
随后，基于这种新的“噪声图”生成的图像可以呈现出变换后想要的视觉效果。
当然，这种变换的图像处理过程必须是正交变换，也就是我们在显示效果中看到的旋转、变形、断裂重组或反色等操作。
具体到扩散模式的选择，也是有要求的。
具体来说，本文使用DeepFloyd IF生成视错觉图像。
DeepFloyd IF是一个基于像素的扩散模型。与其他扩散模型相比，它可以直接在像素空间(而不是势空间或其他中间表示)上操作。
这也使得它能够更好地处理图像的局部信息，尤其是在生成低分辨率图像时。
这样，图像才能最终呈现出视错觉的效果。
为了评估这种方法的效果，作者基于GPT-3.5编译了一个由50个图像变换对组成的数据集。
具体来说，他们让GPT-3.5随机生成一个图像风格(比如油画风格和街头艺术风格)，然后随机生成两组提示(一个老人和一座雪山)，交给模型生成一幅变换画。
这是一些随机变换的结果:
随后，他们还使用CIFAR-10测试了不同模型之间的图像生成:
然后用CLIP进行了评测，结果显示改造后的效果和改造前一样好:
作者还测试了这个AI可以承受多少图像块。
事实证明，从8×8到64×64，破碎和重组的图像看起来都不错:
对于这一系列的形象转变，有网友感叹“印象深刻”，尤其是一个男人变成女人的形象转变:
我看了大概10遍。
有网友已经想把它做成艺术品挂在墙上，或者用电子墨水屏:
然而，一些专业摄影师认为，AI在现阶段生成的这些图像仍然不好:
仔细看，会发现细节经不起推敲。敏锐的眼睛总能看出不好的地方，但大众并不在意。
那么，大家怎么看待AI生成的这一系列视错觉图像的效果呢？还能用在哪里？"

作者：焦点娱乐

AI视觉填字游戏爆炸！门罗转了180秒变成了爱因斯坦

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →