前段时间由于SD3的问题,开源的图片生态发展一度停滞,值得关注的新项目和模型几乎没有。
FLUX上周发布后这个态势被快速改变了半岛全站,由于其优秀的图片质量,高昂的训练成本并没有阻止开源社区。
而且由于在其偏向真实的美学风格半岛全站,也使生成的发布会写实图片在推上的热度爆发使得FLUX模型快速出圈。再加上Runway把那张AI生成的照片变成视频让更多人对现在图像和视频模型的发展进度有了更多的了解。
Xlabs 也跟Lora训练脚本一起发布了他们的多个Lora,其中这个火遍推特的图片就是用那个写实Lora做的。
另外社区也开始利用这些训练脚本训练 Lora了,比如这个动漫 Lora。
Figure上周发布了Figure 02人形机器人,他们说这是世界上最先进的Al硬件。2023年2月他们就完成了Figure 02的概念设计,用了18个月才将这个机器人变成实体。
前几天引起人们对AI写实能力警惕的另一个项目,只需要一张图片就可以实现实时的直播换脸。
从演示来看角度大的话还是会穿帮,另外换脸的清晰度和原来视频的清晰度差别比较大,不过这玩意确实很危险,简单的可以用来顶替面试,严重点用来诈骗。
使用方式的话先选择一个脸部,然后点击直播,等待十几秒钟,直播会跟线秒的延迟,取决于硬件水平。
1.阿里发布通义发布支持语音输入的模型Qwen2-Audio,该模型能够分析音频信息半岛全站,包括语音、声音、音乐等,并配有文本说明。
3.谷歌的Gemini 1.5 Flash也降价了。输入成本下降了78%,输出成本下降了71%。1.5Flash现在所有人都可以微调。
4.Mistral发布了La Plateforme。支持用自己的数据对已有的Mistral模型进行微调。另外还有Agents平台,支持对模型进行详细调整构建Agents。
6.GPT-40 0806模型推出,输入Token便宜50%,输出Token便宜33%。还支持了结构化输出,另外支持16K的输出长度。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。半岛体育全站半岛体育全站半岛体育全站