AI时代探索影像创作的新模式_火狐体育直播平台

产品特点

2022年底，智能聊天机器人程序ChatGPT一经推出便风靡全网；不久后的2023年3月，AI绘图工具Midjourney V5及其作品也在全世界引起不小的轰动，各行各业的“游戏规则”也开始因AI悄然发生变革。AI技术发展的日新月异，似乎瞬间将绘画、摄影、动画、影视剧等在内的影像行业，带入了一个全新的创作时代。2024年6月21日，华为开发者大会（HDC 2024）在广东东莞举行，会上华为云重磅发布了盘古大模型5.0，其中展示的媒体大模型，在实拍转绘、影像译制和语音生成以及AI多语种实时翻译三个方面做了技术创新，这让处在AI时代下深刻变革的国内影像行业，在未知挑战中迎来更多机遇。这些AI新技术和新工具无疑潜力深厚，众多影像从业者或许因此实现以往没办法完成的视觉创作，发掘出影像内容生产和应用的更多创新模式。

AI生成的视频技术正在革新我们的视觉体验，为动漫、视频行业带来新的想象。在视频生成方面，华为云盘古媒体大模型通过训练几十张特定美学风格的图片，如吉卜利、二次元等风格，输入实拍视频就可以快速生成该风格的动漫视频，实现按需时长生成稳定的动漫视频，这为动漫的生产提供了新的模式。在之前，视频生成技术在动漫视频生成时，都是按每一帧画面进行风格化，然后重新串联成视频。由于AI转换的不确定性，有可能会出现角色前后特征发生明显的变化，变成另外一个人，或者在人物运动、转身、侧脸等情况下细节特征发生明显的变化。盘古媒体大模型通过ID一致性模型，对生成画面中的关键角色进行一致性处理，保持视频中角色样貌特征前后始终一致，在侧脸、运动轨迹下的视觉效果同样合理一致。并且，视频中的关键道具也能保持前后一致性。这种可控的视频生成技术，更容易满足真正的工业场景应用需求。

例如，在第十四届北京国际电影节“AIGC电影短片单元”竞赛中获得最佳影片奖的AI动画短片《致亲爱的自己》，由中国传媒大学动画与数字艺术学院及Ainimate Lab在华为云的支持下共创生成。在这支作品中，有大量、大幅度舞蹈动作，人物与镜头运动轨迹大，基于ID一致性模型，人物的面部轮廓、发型、五官等样貌特征从始至终保持稳定生成、一致，所以观众能看出前后一直是同一个人。同时视频中的关键道具蒲公英造型戒指，也在多个画面中保持一致。

另外，当前很多AI影片的不足之处，在于故事情节多依靠旁白串联全篇，片中主人公的微动作和表情几乎都无法表现。这种AI视觉叙事能力的缺失，让人物失去了情绪表演的递进和感染力，观众无法与之共情，所以故事的深刻和细腻很难传达出来。基于这样的一个问题，华为云基于MetaStudio的一站式云上数字内容生产平台能力，让影片内容生产方式发生质的跃迁，比如这项技术能严格要求演员表情细节、肢体动作细节，能在最关键的几个要传达情绪的镜头里，把角色的表情保留下来，保证作品故事信息有效传递。

讲好中国故事、传播好中国声音，展示真实、立体、全面的中国，是加强我国国际传播能力建设的重要任务。近年来，凭借丰富题材、新颖视角和独特风格，我国的影视、短剧出海需求愈加旺盛。但传统的视频译制，需要配音演员熟悉翻译后的台词、体会角色情感，再对视频进行目标语种的重新配音。因此，影片质量完全取决于配音演员的专业能力，而且角色原先的声音和情感都会被重塑。并且，受限于人工译制成本高，影片的质量也参差不齐，产能有限。但通过媒体大模型提供的视频翻译能力，用AI能将视频翻译为目标语言，并且影片中原始角色的音色、情感、语气可以完好保留；并且除中英译制外，联合逻辑智能伙伴的能力，能轻松实现韩语、法语、德语、西语、泰语、阿语等15种语言的译制，并达到影视级译制效果。除了声音外，通过媒体大模型的口型驱动模型，能轻松实现音唇同步，给观众带来更好的观看体验。尤其是当影片中人物处于侧面、多人对话、物体遮挡以及移动等场景，也能做到很好的口型匹配。正如华为云与中影集团合作，将媒体大模型应用到了影视工业，共同打造出影视译制大模型，通过AI将视频译制成不同语言，支持口型匹配的同时保留了原始角色的音色、情感、语气，为影片译制提供了全新的AI制作方式。华为云媒体大模型的视频译制能力，更为影视、短剧出海提供了一种新的生产力工具，更好地实现内容高效、高质量的供给。

另外，在语音生成方面，媒体大模型重塑了个性化语音生成以及情感化。个性化语音在很多行业场景中已经普遍的使用，例如数字人、有声书配音、培训课程制作、虚拟NPC等。传统的声音克隆模型都是小模型，需要几百句话的录音，通过人工标注，反复训练提取音色。基于媒体大模型语音生成能力，只需要几句话、几秒钟的声音，即可学习到个性化的音色、语调、表达韵律，从而获得高质量的个性化语音。同时，这项技术上的支持喜怒哀乐等拟人情感语音，支持闲聊、新闻、直播等10多种语气风格，让生成的语音更拟真，更具情感，符合更多场景所需。

AI大模型辅助语言的翻译不仅应用在影视行业，对于人们的日常交流、工作也有着重要的意义。在AI翻译方面，媒体大模型能够最终靠AI实现多语种实时传译，准确性大于93%。这项技术可应用于实时通话、云会议等需要实时翻译的场景，重塑了跨语言沟通体验。并且，基于大模型的语音复刻、AI文字翻译以及TTS技术（文语转换技术），能轻松实现语音的同声传译。通过这项技术，每个人跨语言沟通时都可以用自己的母语说话，听的时候选择自身的母语收听，AI就会将每个人的发言以预置声音或者真人的声音翻译为收听语言，实现跨语言母语沟通体验。结合数字人技术，在人们不方便开摄像头时，还可以用数字人参会，并通过口型驱动实现数字人以各种语言说话且都能精准匹配口型，就如同本人说话一样。

如今，像华为云媒体大模型这类AI有关技术和应用工具的迅速发展和普及，深刻影响着影像工业制作流程，更让一些影像从业者从新技术的诞生中获得创作的新启发、新认知和新创意。或许，更善于与AI打交道的影像艺术家，将在未来创作中获得更有力的辅助和更创新的影像创作模式。