TikTok AR 的主要类型

识别与触发能力

TikTok AR 提供多项识别机制,可作为互动逻辑的基础:

人脸识别

最多同时检测5张人脸,输出关键点和位置信息

人脸动作识别

识别精确动作(眨眼、张嘴等),实时响应

人脸表情识别

识别7类情绪级表情(高兴、生气等)

头部动作识别

检测点头、摇头、倾斜等大角度动作

手部检测

识别单手或双手是否出现

手势识别

识别30+种手势(OK、Victory等)

手部关键点追踪

提供手部关键点、中心点、旋转等信息

身体检测与动作识别

检测身体入镜和识别动作序列

音频识别

识别关键词和动物声

宠物脸识别

检测猫脸和狗脸,识别关键点

链路展示

观看含有特效的视频时,点击左下角的"魔法棒"图标,可进入该特效的聚合展示页。
品牌特效可展示在拍摄界面的特效面板中,用户在浏览特效列表时即可直接使用。
访问创作者或品牌主页,可在"特效"Tab 中查看已发布的滤镜。(自然入口,非官方付费展示位)

入口页面

UGC Magic Stick Entry

聚合页

Aggregation Page

拍摄页

Camera Entry

最佳实践

AR 特效创作中的关键设计与互动原则

主体突出,面部无遮挡

用户面部永远是舞台中心。设计应避免复杂装饰压住五官或关键特征,让美颜和特效是"加分",而不是"遮挡"。让用户都看见"自己",而不是被特效淹没。

品牌露出克制得体

品牌要在场,但不要抢戏。Logo、品牌元素保持适度存在感,不挡脸、不压主体,让用户先看到自己,再注意到品牌,而不是相反。

交互路径一目了然

用户进入特效后,应在几秒内知道"要做什么、会发生什么"。避免复杂菜单和多层级逻辑,让交互更接近本能反应,而不是考试题。

明确单主线叙事

少即是多。避免在一个特效里堆叠多个互不相关的体验。一次只讲好一个故事,降低认知负荷,让用户更愿意完成一条内容。

半身构图优先考虑

以半身构图为基础设计,减少对拍摄空间的要求。用户坐着、站着、室内、户外都能轻松使用,不需要为特效"腾位置"。

触发动作简单好做

触发动作宜短、易做、易记,比如ok、点赞、眨眼、摇头等。尽量用一个动作完成关键互动,避免复杂连招,让用户拍一次就上手。

引导可视化

别让用户猜。用直观的图标和动效(比如张嘴、眨眼的小图标)替代大段说明,让用户在 1 秒内理解互动方式,而非依赖试错。

主体突出,面部无遮挡

用户面部永远是舞台中心。设计应避免复杂装饰压住五官或关键特征,让美颜和特效是"加分",而不是"遮挡"。让用户都看见"自己",而不是被特效淹没。

品牌露出克制得体

品牌要在场,但不要抢戏。Logo、品牌元素保持适度存在感,不挡脸、不压主体,让用户先看到自己,再注意到品牌,而不是相反。

交互路径一目了然

用户进入特效后,应在几秒内知道"要做什么、会发生什么"。避免复杂菜单和多层级逻辑,让交互更接近本能反应,而不是考试题。

明确单主线叙事

少即是多。避免在一个特效里堆叠多个互不相关的体验。一次只讲好一个故事,降低认知负荷,让用户更愿意完成一条内容。

半身构图优先考虑

以半身构图为基础设计,减少对拍摄空间的要求。用户坐着、站着、室内、户外都能轻松使用,不需要为特效"腾位置"。

触发动作简单好做

触发动作宜短、易做、易记,比如ok、点赞、眨眼、摇头等。尽量用一个动作完成关键互动,避免复杂连招,让用户拍一次就上手。

引导可视化

别让用户猜。用直观的图标和动效(比如张嘴、眨眼的小图标)替代大段说明,让用户在 1 秒内理解互动方式,而非依赖试错。

文案短句直达要点

提示文案控制在短句级别,不堆叠形容词,不讲故事。文字只承担"点醒"作用,而不是主角,尽量为不同语言预留翻译空间。

加入必要反馈

每个关键动作之后,都应该有看得见的反馈——变色、亮起、动画、音效皆可。避免"做了动作却没反应"的空档,让用户始终感觉特效是"活着的"。

拍摄友好且轻量

资源包体积小、加载速度快,用户点开就能用,而不是等进度条。优化渲染性能,尽量保持流畅帧率,尽可能减少卡顿和发热,让用户敢多拍几条。

场景数量保持精简

一个特效里场景不宜过多,一般控制在 4 套以内更稳妥。每多一套场景,都在增加理解成本和性能压力,精简结构比"塞满内容"更有价值。

手势设计考虑文化差异

同一个手势在不同地区可能有完全不同的含义。面向多国家、多地区发布时,优先选择风险低、普适性高的动作,避免产生不必要的误读或争议。

节奏对齐 15 秒结构

15 秒是平台默认的拍摄时长。让用户无需切换模式即可自然完成内容拍摄。

关键信息放在安全区

Logo、按钮、文字提示、引导元素等,都建议放在界面安全区内,避免被平台ui遮挡。

文案短句直达要点

提示文案控制在短句级别,不堆叠形容词,不讲故事。文字只承担"点醒"作用,而不是主角,尽量为不同语言预留翻译空间。

加入必要反馈

每个关键动作之后,都应该有看得见的反馈——变色、亮起、动画、音效皆可。避免"做了动作却没反应"的空档,让用户始终感觉特效是"活着的"。

拍摄友好且轻量

资源包体积小、加载速度快,用户点开就能用,而不是等进度条。优化渲染性能,尽量保持流畅帧率,尽可能减少卡顿和发热,让用户敢多拍几条。

场景数量保持精简

一个特效里场景不宜过多,一般控制在 4 套以内更稳妥。每多一套场景,都在增加理解成本和性能压力,精简结构比"塞满内容"更有价值。

手势设计考虑文化差异

同一个手势在不同地区可能有完全不同的含义。面向多国家、多地区发布时,优先选择风险低、普适性高的动作,避免产生不必要的误读或争议。

节奏对齐 15 秒结构

15 秒是平台默认的拍摄时长。让用户无需切换模式即可自然完成内容拍摄。

关键信息放在安全区

Logo、按钮、文字提示、引导元素等,都建议放在界面安全区内,避免被平台ui遮挡。