🎵 M2UGen融合音乐理解和多模态任务,支持文字、图像、视频生成音乐。
2023年,我们看到了扩散模型推理速度方面的一些重大理论改进,例如Song等人的原始一致性模型论文,以及最近的LCM。(另外,对抗扩散蒸馏。)我们已经开始看到使用这些想法的项目,例如Dan Wood的Art Spew(每秒77512×512图像,在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。
8. 合成数据激增。合成数据在AI领域正变得至关重要,尤其是在医疗保健和金融等敏感领域(作为隐私和偏见的解决方案)。如果我们能解决合成数据问题,它将有利于开源,因为在开源领域,购买海量数据集并不是一种选择。
哈佛大学地球与行星科学教授Brendan Meade能够使用神经网络预测余震的位置。加州理工学院的Zachary Ross和其他研究人员使用深度学习技术从噪声水平很高的数据中分辨出地震信号,从而使得科学家检测出更多的地震。
模型下载地址:https://huggingface.co/damo-vilab/dreamtalk