数字人强不强，就看逼真不逼真？

使用 phoenix 模型创建人类逼真视频模型。

Phoenix 模型是一个完全合成的基于 3D 的模型，只需一个脚本即可生成逼真的复制视频，并具有与本人和生成的声音同步的自然面部（嘴唇、脸颊、鼻子、下巴）动作和表情。

该模型使用一种绕过传统方法的新方法，并使用神经辐射场（NeRF）构建动态的三维面部场景。

仅使用 2 分钟的训练数据即可创建副本，旨在了解某人的说话和声音、外观以及他们在说话时如何移动脸部。

最多可支持 30 种语言。

核心是：提供高质量的输入视频，就会获得更出色的输出。

即使以不同的语言，数字人也会模仿对应的手势和动作，以及口音。

那么要获得高质量有哪些技巧？

设置：环境

🌞 照明
确保您的脸部光线均匀，没有阴影。

例：如果窗户在您的脸上投下阴影，请改变方向或使用环形灯将其拉平。

大的漫射光效果最好，为整个脸部提供一致均匀和中性的照明。

这有助于 Phoenix 正确映射您的脸部，从而使视频整体看起来更好看。

🔊 噪声
您的空间应该是无声的或几乎无声的。
避免空调、建筑、交通、冰箱和谈话产生的噪音。

选择混响最小的房间，以防止声音放大。
干净的音频，没有背景噪音，将为您的复制品产生最佳的音频输出。

🌆 背景
保持你的背景清晰。
移除移动对象。
确保视频中看不到其他人。

设置：设备

📷 相机和放置
使用至少 2K 像素的高质量相机。

例子：数码单反相机、较新的笔记本电脑、iPhone、三星 Galaxy 或 Google Pixel。

每秒帧数：最佳 FPS 为 30，但 24-60 FPS 是可以接受的。

距离：与相机保持 3 英尺至 6 英尺（或 0.9 米至 1.8 米）的距离。
水平：相机应与视线齐平。
镜头：确保相机镜头没有污迹。

🎙 麦克风
从手机或计算机的麦克风开始。
高质量的麦克风可以减轻背景噪音/回声。

对于外部 USB 或 XLR 麦克风：将麦克风放在距离嘴 1 英尺（0.3 米）的地方，不超过 2-3 英尺（0.5-0.9 米）。

将麦克风放置在下巴下方至少 1 英寸处，以免堵塞嘴巴。

由于麦克风质量差，不建议使用无线耳塞，例如 Apple AirPods 或三星 Galaxy Buds。

👾 软件
禁用任何基于软件的音频增强功能。
关闭压缩器、均衡器、噪声抑制等，因为我们在录音后进行自己的声音处理。

设置：您自己

👀 目光
与相机保持视线水平，动作自然。

🗣 说话氛围和节奏
做你自己，放松。
步伐：慢慢来，不要着急。
暂停：停顿时闭上嘴唇（脚本会提醒你）。
语气：以乐观的基调为目标，以保持内容的积极性和吸引力。与相机保持持续的眼神交流。在你的嘴巴、眼睛和脸颊上保持活力。
手势：尽量减少手势，避免挡住脸。
错误：如果你绊倒了，请继续说话。完美不是必需的。

🎅 配饰和胡须
如果可能，避免留胡须、眼镜和配饰。

模型仍在完善中，以更好地处理这些元素。

这份指南可确保为复制品捕获最高质量的素材，从而实现更真实、更引人入胜的数字表现。

{{userData.name}}已认证

数字人强不强，就看逼真不逼真？

小红书AI绘画，7天涨粉2000+

一个非常实用的 chrome 插件 — Elmo