借助人工智能 (AI) 的力量,您可能很快就能与您的计算机进行更自然的聊天。
Meta 表示,它在创建更逼真的人工智能生成语音系统 方面取得了重大进展。该公司的人工智能团队表示,除了实时“自发的闲聊”之外,它还在模拟笑声、打哈欠和哭声等富有表现力的发声能力方面取得了进步。
该团队在最近的博客文章中写道:“在任何给定的对话中,人们都会交换大量的非语言信号,比如语调、情感表达、停顿、口音、节奏——所有这些对人类互动都很重要。” “但今天的人工智能系统无法捕捉到这些丰富的、富有表现力的信号,因为它们只能从书面文本中学习,这些文字捕捉到了我们所说的内容,而不是我们所说的方式。”
更智能的语音
在博文中,Meta AI 的团队表示,他们正在努力克服传统 AI 系统无法理解语音中的非语言信号(例如语调、情绪表达、停顿、口音和节奏)的局限性。系统之所以受到阻碍,是因为它们只能从书面文本中学习。
但 Meta 的工作与之前的努力不同,因为它的 AI 模型可以使用自然语言处理模型来捕捉口语的全部性质。元研究人员表示,新模型可以让人工智能系统传达他们想要传达的情绪——比如无聊或讽刺。
“在不久的将来,我们将专注于应用无文本技术来构建有用的下游应用程序,而不需要资源密集型文本标签或自动语音识别系统 (ASR),例如问答系统(例如,“天气怎么样?”), “该团队在博客文章中写道。“我们相信语音中的韵律可以帮助更好地解析句子,这反过来又有助于理解意图并提高问答的性能。”
人工智能增强理解力
计算机不仅在传达意义方面变得更好,而且人工智能也被用于推动语音识别的改进。
AI Dynamics 的首席技术官Ryan Monsurate在给 Lifewire 的电子邮件中说, 至少从 1952 年以来,计算机科学家一直致力于计算机语音识别,当时贝尔实验室的三名研究人员创建了一个可以识别单个数字的系统。到 1990 年代,语音识别系统已经商业化,但错误率仍然很高,足以阻止在医疗保健等非常特定的应用领域之外使用。
“现在深度学习模型已经使集成模型(如微软的模型)能够在语音识别方面获得超人的性能,我们拥有能够与计算机进行大规模的独立于说话者的口头交流的技术,”蒙苏拉特说。“下一阶段将包括降低成本,以便使用 Siri 或谷歌人工智能助手的每个人都可以使用这种级别的语音识别。”
AI语音公司 Verbit.ai 的首席营收官兼总经理Ariel Utnik 在电子邮件采访中告诉 Lifewire,AI 对语音识别很有用,因为它可以通过学习随着时间的推移而改进。例如,Verbit 声称其内部 AI 技术可以检测并过滤背景噪音和回声,并转录说话者,无论其口音如何,以从现场和录制的视频和音频中生成详细、专业的成绩单和字幕。
但 Utnik 表示,目前大多数语音识别平台的准确率只有 75-80%。
“人工智能永远不会完全取代人类,因为抄写员、校对员和编辑的个人审查对于确保高质量和最高准确性的最终成绩单是必要的,”他补充说。
语音识别公司 Mitek Systems 的全球产品和企业发展副总裁Sanjay Gupta在一封电子邮件中说, 更好的语音识别也可以用来防止黑客攻击。他补充说,研究表明,在两年内,所有成功的帐户接管攻击中有 20% 将使用合成语音增强。
“这意味着随着深度造假技术变得越来越复杂,我们需要同时创建先进的安全性,以对抗这些策略以及图像和视频深度造假,”古普塔说。“打击语音欺骗需要活体检测技术,能够区分真人语音和录制的、合成的或计算机生成的语音版本。”
更正2022 年 4 月 5 日:更正了第 9 段中 Ryan Monserate 姓名的拼写。