:在上周的开发者大会上,微软宣布了其在人工智能竞赛中的最新贡献:一款可以生成新头像和声音,或复制用户现有外观和语音的软件,这引发了人们对它可能加剧深度伪造创造的担忧。深度伪造是指使用 AI 制作的未曾发生事件的视频。
在 2023 年的 Microsoft Ignite 大会上宣布的 Azure AI Speech,经过人类图像训练,允许用户输入脚本,然后可以由用人工智能创建的逼真头像「朗读」该脚本。用户可以选择预加载的微软头像,或上传他们想要复制其声音和相貌的人的录像。微软在上周三发布的博客文章中表示,该工具可用于构建「对话代理、虚拟助手、聊天机器人等」。
文章中写道:「客户可以为他们的头像选择预建的或自定义的神经声音。如果用于自定义神经声音和自定义文本到语音头像的是同一个人的声音和相貌,头像将与那个人非常相似。」
微软表示,新的文本到语音软件发布时配备了多种限制和保护措施,以防止滥用。「作为微软对负责任 AI 的承诺的一部分,文本到语音头像的设计意图是保护个人和社会的权利,促进透明的人机互动,并抵制有害深度伪造和误导性内容的泛滥,」公司说。
「客户可以上传自己的 Avatar talent 的视频录像,该功能用于训练自定义头像说话的合成视频,」博客文章中写道。「 Avatar talent」是为 AI 的比喻性摄像机摆姿势的人。
该公告迅速引起批评,称微软发布了一个「深度伪造制造器」,这将更容易让一个人的相貌被复制并使其说出和做出该人未曾说过或做过的事情。微软自己的总裁在 5 月表示,深度伪造是他对人工智能崛起的「最大担忧」。
在一份声明中,微软公司对这些批评进行了反驳,称定制头像现在是一个「限制访问」的工具,客户必须申请并获得微软的批准。用户还将被要求披露在创建合成声音或头像时使用了 AI。
微软的负责任 AI 工程部门的 Sarah Bird 在一份声明中说:「有了这些保障措施,我们有助于限制潜在风险,并使客户能够以透明和安全的方式将先进的语音和语音能力融入他们的 AI 应用。」
文本到语音头像制造工具是主要科技公司近年来抢占人工智能热潮的最新工具之一。在微软支持的公司 OpenAI 推出的 ChatGPT 大受欢迎后,像 Meta 和 Google 这样的公司也推出了自己的人工智能工具。