数字人强不强,就看逼真不逼真?

 

数字人强不强,就看逼真不逼真?

使用 phoenix 模型创建人类逼真视频模型。

Phoenix 模型是一个完全合成的基于 3D 的模型,只需一个脚本即可生成逼真的复制视频,并具有与本人和生成的声音同步的自然面部(嘴唇、脸颊、鼻子、下巴)动作和表情。

该模型使用一种绕过传统方法的新方法,并使用神经辐射场 (NeRF) 构建动态的三维面部场景。

仅使用 2 分钟的训练数据即可创建副本,旨在了解某人的说话和声音、外观以及他们在说话时如何移动脸部。

最多可支持 30 种语言。

核心是:提供高质量的输入视频,就会获得更出色的输出。

即使以不同的语言,数字人也会模仿对应的手势和动作,以及口音。

那么要获得高质量有哪些技巧?

设置:环境

🌞 照明
确保您的脸部光线均匀,没有阴影。

例:如果窗户在您的脸上投下阴影,请改变方向或使用环形灯将其拉平。

大的漫射光效果最好,为整个脸部提供一致均匀和中性的照明。

这有助于 Phoenix 正确映射您的脸部,从而使视频整体看起来更好看。

🔊 噪声
您的空间应该是无声的或几乎无声的。
避免空调、建筑、交通、冰箱和谈话产生的噪音。

选择混响最小的房间,以防止声音放大。
干净的音频,没有背景噪音,将为您的复制品产生最佳的音频输出。

🌆 背景
保持你的背景清晰。
移除移动对象。
确保视频中看不到其他人。

设置:设备

📷 相机和放置
使用至少 2K 像素的高质量相机。

例子:数码单反相机、较新的笔记本电脑、iPhone、三星 Galaxy 或 Google Pixel。

每秒帧数:最佳 FPS 为 30,但 24-60 FPS 是可以接受的。

距离:与相机保持 3 英尺至 6 英尺(或 0.9 米至 1.8 米)的距离。
水平:相机应与视线齐平。
镜头:确保相机镜头没有污迹。

🎙 麦克风
从手机或计算机的麦克风开始。
高质量的麦克风可以减轻背景噪音/回声。

对于外部 USB 或 XLR 麦克风:将麦克风放在距离嘴 1 英尺(0.3 米)的地方,不超过 2-3 英尺(0.5-0.9 米)。

将麦克风放置在下巴下方至少 1 英寸处,以免堵塞嘴巴。

由于麦克风质量差,不建议使用无线耳塞,例如 Apple AirPods 或三星 Galaxy Buds。

👾 软件
禁用任何基于软件的音频增强功能。
关闭压缩器、均衡器、噪声抑制等,因为我们在录音后进行自己的声音处理。

设置:您自己

👀 目光
与相机保持视线水平,动作自然。

🗣 说话氛围和节奏
做你自己,放松。
步伐:慢慢来,不要着急。
暂停:停顿时闭上嘴唇(脚本会提醒你)。
语气:以乐观的基调为目标,以保持内容的积极性和吸引力。与相机保持持续的眼神交流。在你的嘴巴、眼睛和脸颊上保持活力。
手势:尽量减少手势,避免挡住脸。
错误:如果你绊倒了,请继续说话。完美不是必需的。

🎅 配饰和胡须
如果可能,避免留胡须、眼镜和配饰。

模型仍在完善中,以更好地处理这些元素。

这份指南可确保为复制品捕获最高质量的素材,从而实现更真实、更引人入胜的数字表现。

Ai破局

小红书AI绘画,7天涨粉2000+

2024-4-17 2:46:37

Ai破局

一个非常实用的 chrome 插件 — Elmo

2024-4-17 2:51:56

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索