AI语音技术在如火如荼地发展,在另外一个空间维度,一些触动人心的神秘的事件却在悄然发生。如果你是

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-08-22
AI语音技术在如火如荼地发展,在另外一个空间维度,一些触动人心的神秘的事件却在悄然发生。

如果你是一名网红、一名演员、一位领导人、一家公司的创始者,或者你在短视频网站上有很多公开的音视频,非法分子就极有可能用它来合成并生成你的声音,业界称为语音欺诈(Deepfake)。

在2019年3月,一家英国某能源公司的高管,接到了德国母公司的“CEO老板”的紧急电话,“CEO老板”要求他将资金汇给匈牙利供应商,来电者表示“该请求非常紧急”,要求行政人员在一小时内付款220000欧元(约1730806人民币)。这位英国高管开始并没有意识到有什么问题,在整个通话过程中,CEO轻微的德国口音都展现得淋漓尽致,该高管完全没有任何的怀疑,直到被要求再次转账时才发觉了事件异常。犯罪分子总共打了三次电话,当第一笔220000欧元转移后,他们打电话说母公司已经转移资金偿还英国公司,然后他们在当天晚些时候进行了第三次电话会议,再次冒充CEO,要求第二次转账。由于第三次电话是来自奥地利的电话号码,英国公司的行政部门开始怀疑,没有再次转账。事后调查发现,这 22 万欧元并没有转到所谓匈牙利供应商,而是被转移到了墨西哥等多个国家。警方对这起事件进行调查后发现,诈骗者用了一种 AI 语音合成软件来模仿德国母公司 CEO 的声音,但至今仍无法找到幕后的诈骗者。

一位科技记者受了前密西根大学社交媒体责任中心CTO Aviv Ovadya言论的影响,做了这样一次实验,他使用AI合成软件模仿了自己的声音,然后打电话给自己的母亲,世界上最熟悉你自己声音的人是谁?最熟悉你声音肯定是你的母亲,但令人后怕的结果是,母亲完全没有听出来有什么异样。

三名蒙特利尔大学博士联合创办的名为“琴鸟”(Lyrebird)的公司开发出了一种“语音合成”技术,只要对目标人物的声音进行1分钟的高质量录音,丢给“Lyrebird”处理,就能得到一个特别的密钥,利用这个密钥可以生成目标人物任何想说的话。“琴鸟”不仅能利用语音模仿演算模仿出任何人的声音,还能在声音中加入“感情”元素,让声音听上去更为逼真。

即使不是名人,我们普通的用户也在手机社交语音平台上留下了数以万计的历史语音。通常APP内语音不能被转发,但网络上出现了“增强版 软件”可以留存、转发APP内的对话的语音文件,这样只要盗用了好友的账号,又获得了好友语音声音,非法分子就可以轻易合成听起来熟悉的家人朋友的声音了。

知此知彼:几种主要的语音欺诈、攻击手段
为做到知此知彼,百战不殆,需要要对常见的语音攻击欺诈手段做一个深入的了解和研究。目前常见的语音攻击欺诈手段主要有三种,分别是语音合成(Text-To-Speech,TTS)、语音转换(Voice Conversion,VC)和录音重放(Replay)。在世界顶级赛事ASVspoofing中,将语音合成和语音转换统的场景称为LA (Logical Access),录音重放的场景称为PA(Physical Access)。

语音合成和语音转换工作原理如图1所示,基于神经网络的Waveform Modelling技术类似WaveNet产生的语音和真人发声已经很接近。在Voice Conversion Challenge 2018 挑战赛中的最佳系统产生的语音,已经极大提高了自然度和模拟人声的相似度。

图1 语音合成和语音转换工作原理
ASVspoofing挑战赛是近些年来世界级的研究语音攻击、试图解决此问题而设立的大赛,目标是旨在设计出有效的防攻击安全系统,可以准确发现由最新算法或者不同算法、甚至不可见的算法来产生的伪造假语音。迄今为止已经举办了三届,分别是ASVspoofing2015,ASVspoofing2017,ASVspoofing2019。多家顶级研究机构和知名公司都参与到其中。在ASVspoofing2019举办方提供的训练、测试和验证数据集中列举了并囊括了目前业界最新的攻击算法和手段, 其中TTS的主流算法10种,VC的主流算法4种,TTS和VC的融合算法 3种,算法及结果如图2所示,可以了解到最新的算法主要使用了神经波形模型(Neural Waveform Models) 和波形过滤器(Waveform Filtering),或者是这些技术的变种。同时TTS/VC的最新的算法也借鉴了一些说话人识别中的核心技术点。这些算法可以基于一些工具包如Merlin,CURRENT,MarryTTS等来生成。同时我们可以观察到另外一些重要的细节,评价一个说话人识别(Automatic Speaker Verification,ASV)系统性能的重要指标是等错率EER,EER越低,ASV识别的性能越好。在没有假语音攻击时,ASV的性能只有2.48%,但当系统受到了TTS和VC合成的假语音的攻击时,性能急速下降,从图2中可以看到,EER最高可以升到64.78%,可见攻击语音对说话人识别、声纹识别这样的语音系统的影响之巨大,以及鉴伪抗攻击安全措施的重大意义。

  • AI语音技术在如火如荼地发展,在另外一个空间维度,一些触动人心的神秘...
    答:语音合成和语音转换工作原理如图1所示,基于神经网络的Waveform Modelling技术类似WaveNet产生的语音和真人发声已经很接近。在Voice Conversion Challenge 2018 挑战赛中的最佳系统产生的语音,已经极大提高了自然度和模拟人声的相似度。图1 语音合成和语音转换工作原理 ASVspoofing挑战赛是近些年来世界级的研究语音...
  • 国内AI应用如火如荼,跨领域跨行业创新到底怎么样?
    答:国内AI应用跨领域跨行业创新正在蓬勃发展。在基础层领域,AI芯片产业蓬勃发展,寒武纪云端芯片、地平线的BPU芯片等代表了国内最领先的创新实力,天数智芯、燧原、依图、平头哥、黑芝麻等企业围绕芯片关键技术加速突破;在技术层领域,语音识别、计算机视觉、深度学习等领域产生了大量专利成果,在基础算法方面...
  • ai发展到什么程度了
    答:ai发展程度具体如下:近年来,人工智能的发展可谓如火如荼。从早期的语音识别、自动驾驶、人脸识别到如今的智能家居、智能机器人,人工智能已经渗透到了我们的生活中的方方面面。那么,人工智能技术发展到了什么程度?人工智能的主要任务是完成人类不能完成的任务,或者完成人类完成任务效率不高的任务。为了...
  • 人工智能对我们的生活有哪些影响?
    答:自动化:人工智能技术可以自动执行各种任务,提高生产力和效率。例如,机器人在制造业中的应用,使得生产线上的工作更加高效和精确,减少了人力成本和生产时间。个性化体验:人工智能可以通过分析大数据和用户行为,为我们提供个性化的体验和服务。例如,推荐系统根据我们的兴趣和偏好,为我们推荐适合的产品、电影...
  • 中国人工智能现状
    答:五是专家系统。市场规模:中国人工智能行业呈现高速增长态势人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。目前,人工智能已经可以实现自然语言处理、计算机视觉、语音识别、自动驾驶等一系列任务。近年来,...
  • AI驶入“高速路”:交通AI化的应用场景与实例
    答:3. 智能交通领域备受瞩目,人工智能、5G、工业互联网等数字化技术为交通带来的发展理念、管理模式和服务体验迎来了全局“智变”。4. 各地高速公路的智慧建设如火如荼,随着全国高速公路正式迈进“一张网”运营时代,AI在高速颂前路上的应用,驶入了高速发展阶段。5. 招商华软信息有限公司依托“AI+云”...
  • 用AI做Excel,说人话自动处理表格,太爽了!
    答:近期,AI技术的热潮如火如荼,特别是Microsoft 365 Copilot和ChatExcel的出现,引发了广泛的讨论。有人不禁疑问,AI是否能替代我们学习Excel?答案是,它确实提供了便利,但并非完全替代。Copilot在Excel中的应用,例如,能根据数据自动创建图表,帮助分析销售趋势,只需简单指令,它就能生成新的工作表进行...
  • 人工智能的前景怎么样?
    答:从2006年开始,人工智能进入了加速发展的新阶段,并行计算能力、大数据和先进算法,使当前人工智能加速发展;同时,近年来人工智能的研究越来越受到产业界的重视,产业界对AI的投资和收购如火如荼。 人工智能技术迈入深度学习阶段 机器学习是实现人工智能的一种重要方法,深度学习(Deep Learning)是机器学习(Machine Learning)的...
  • 影响智能家居未来的关键技术有哪些
    答:影响智能家居未来的关键技术有哪些【1】大数据智能家居市场涉及多个领域。物联网产生大数据,大数据可以支持智能家居。从智能家居到数据再到智能化,构成了从感知,到认知的全过程。大数据是智能硬件竞争的制高点,可以帮助硬件厂商挖掘用书使用行为,建立用户画像,从而优化产品策略和市场测了,最终达到用户的...
  • 2023年的AIGC行业总结
    答:投融资活动在2021-2023年间如火如荼,应用层面充满机遇。尤其是模型层,尽管ChatGPT的出现带来一定影响,但多模态技术的前景却如日中天。AIGC技术分为文本、图像、语音等多元模态,其中音频技术发展成熟,图像生成领域虽有挑战但仍具潜力。技术迭代日新月异,多模态融合成为未来行业发展的核心趋势。技术焦点...