阿里巴巴EMO(Emote Portrait Alive)是一款由阿里巴巴研究团队推出的AI框架,该框架能让照片中的人物“开口说话”。
要使用阿里巴巴EMO,首先需要输入人物照片和音频。EMO基于英伟达的Audio2Video扩散模型打造,并使用超过250小时的专业视频进行训练。其工作过程分为两个主要阶段:首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,然后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。研究人员分享了几段由EMO框架生成的DEMO演示片段,并在ArXiv上发布了模型的工作原理。感兴趣的人可以访问GitHub查看项目。阿里巴巴EMO是一个专业级别的AI框架,如需具体的使用步骤或详细指南,建议访问阿里巴巴的官方网站或相关技术论坛,以获取更详细的信息和指导。同时,由于该技术的复杂性和专业性,建议在使用前具备一定的技术背景和基础知识。