数字人强不强,就看逼真不逼真?
使用 phoenix 模型创建人类逼真视频模型。
Phoenix 模型是一个完全合成的基于 3D 的模型,只需一个脚本即可生成逼真的复制视频,并具有与本人和生成的声音同步的自然面部(嘴唇、脸颊、鼻子、下巴)动作和表情。
该模型使用一种绕过传统方法的新方法,并使用神经辐射场 (NeRF) 构建动态的三维面部场景。
仅使用 2 分钟的训练数据即可创建副本,旨在了解某人的说话和声音、外观以及他们在说话时如何移动脸部。
最多可支持 30 种语言。
核心是:提供高质量的输入视频,就会获得更出色的输出。
即使以不同的语言,数字人也会模仿对应的手势和动作,以及口音。
那么要获得高质量有哪些技巧?
设置:环境
🌞 照明
确保您的脸部光线均匀,没有阴影。
例:如果窗户在您的脸上投下阴影,请改变方向或使用环形灯将其拉平。
大的漫射光效果最好,为整个脸部提供一致均匀和中性的照明。
这有助于 Phoenix 正确映射您的脸部,从而使视频整体看起来更好看。
🔊 噪声
您的空间应该是无声的或几乎无声的。
避免空调、建筑、交通、冰箱和谈话产生的噪音。
选择混响最小的房间,以防止声音放大。
干净的音频,没有背景噪音,将为您的复制品产生最佳的音频输出。
🌆 背景
保持你的背景清晰。
移除移动对象。
确保视频中看不到其他人。
设置:设备
📷 相机和放置
使用至少 2K 像素的高质量相机。
例子:数码单反相机、较新的笔记本电脑、iPhone、三星 Galaxy 或 Google Pixel。
每秒帧数:最佳 FPS 为 30,但 24-60 FPS 是可以接受的。
距离:与相机保持 3 英尺至 6 英尺(或 0.9 米至 1.8 米)的距离。
水平:相机应与视线齐平。
镜头:确保相机镜头没有污迹。
🎙 麦克风
从手机或计算机的麦克风开始。
高质量的麦克风可以减轻背景噪音/回声。
对于外部 USB 或 XLR 麦克风:将麦克风放在距离嘴 1 英尺(0.3 米)的地方,不超过 2-3 英尺(0.5-0.9 米)。
将麦克风放置在下巴下方至少 1 英寸处,以免堵塞嘴巴。
由于麦克风质量差,不建议使用无线耳塞,例如 Apple AirPods 或三星 Galaxy Buds。
👾 软件
禁用任何基于软件的音频增强功能。
关闭压缩器、均衡器、噪声抑制等,因为我们在录音后进行自己的声音处理。
设置:您自己
👀 目光
与相机保持视线水平,动作自然。
🗣 说话氛围和节奏
做你自己,放松。
步伐:慢慢来,不要着急。
暂停:停顿时闭上嘴唇(脚本会提醒你)。
语气:以乐观的基调为目标,以保持内容的积极性和吸引力。与相机保持持续的眼神交流。在你的嘴巴、眼睛和脸颊上保持活力。
手势:尽量减少手势,避免挡住脸。
错误:如果你绊倒了,请继续说话。完美不是必需的。
🎅 配饰和胡须
如果可能,避免留胡须、眼镜和配饰。
模型仍在完善中,以更好地处理这些元素。
这份指南可确保为复制品捕获最高质量的素材,从而实现更真实、更引人入胜的数字表现。