Lyra音频编解码器以3kbps的比特率实现高质量的语音通话

我们经常写关于新的视频编解码器,比如亚博体育官下载AV1H.266最近,我们报道了AVIF图片格式与WebP和JPEG相比,它提供了更好的质量/压缩比,但在音频编解码器方面也做了一些工作。

值得注意的是,我们注意到1.2作品在2017年发布时,Opus 1.3提供了良好的语音质量,比特率低至12kbps, 2019年发布的Opus 1.3进一步改进了编解码器,高质量的语音可能仅为9kbps。但谷歌的人工智能最近公布了莱拉用于语音压缩的非常低比特率编解码器,在比特率低至3kbps的情况下实现高语音质量。

Lyra音频编解码器vs Opus vs Speex

在我们讨论Lyra编解码器的细节之前,谷歌比较了一个参考音频文件,其中Lyra以3kbps编码,Opus以6kbps编码(Opus的最小比特率),Speex以3kbps编码,用户报告说Lyra的声音最好,接近原始。你可以自己试试。

干净的演讲
原始
作品@ 6 kbps
莱拉@ 3 kbps
Speex @ 3 kbps
嘈杂的环境
原始
作品@ 6 kbps
莱拉@ 3 kbps
Speex @ 3 kbps

Speex 3kbps听起来对所有的样本都很糟糕。我觉得Opus 6kbps和Lyra 3kbps在清晰的语音样本中听起来差不多亚博体育官下载,但Lyra在嘈杂的环境中复制背景音乐更好。

那么莱拉是如何工作的呢?谷歌AI解释了Lyra编解码器的基本架构依赖于以下特性(日志梅尔·色),或不同的语音属性,表示不同频带的语音能量,每40ms提取一次语音,然后压缩传输。在接收端,生成模型使用这些特征来重建语音信号。

天琴座是如何工作的? 莱拉的工作原理与混合激励线性预测(MELP)美国国防部(US DoD)为军事应用和卫星通信、保密语音和保密无线电设备开发的语音编码标准。

Lyra还利用听起来很自然的生成模型来维持低比特率,同时实现高质量,类似于高比特率编解码器所实现的。

以这些模型为基础,我们开发了一种新模型,能够用最少的数据重建语音。Lyra利用这些新的听起来很自然的生成模型的力量来维持低比特率的参数编解码器,同时实现高质量,与当今大多数流媒体和通信平台使用的最先进的波形编解码器相当。波形编解码器的缺点是,它们通过压缩和逐样本发送信号来实现高质量,这需要更高的比特率,在大多数情况下,并不是实现自然语音的必要条件。

生成模型的一个问题是它们的计算复杂性。Lyra通过使用一种更便宜的循环生成模型来避免这个问题WaveRNN变异,它以较低的频率工作,但在不同的频率范围内并行产生多个信号,然后以所需的采样率合并成单个输出信号。这个技巧使Lyra不仅能在云服务器上运行,还能实时地在中档手机上运行(处理延迟为90ms,与其他传统语音编解码器一致)。然后,生成模型在数千小时的语音数据上进行训练,并像WaveNet一样进行优化,以准确地再现输入音频。

即使在信号质量差、带宽低和/或网络连接拥塞的情况下,Lyra也能实现清晰、高质量的语音通话。它不仅适用于英语,谷歌还使用开源音频库,用超过70种语言的扬声器训练了数千小时的音频,然后与专家和众包听众验证音频质量。

该公司还预计,由于AV1视频编解码器和Lyra音频编解码器的结合,视频通话在56kbps拨号调制解调器连接上成为可能。第一个使用Lyra音频编解码器的应用程序之一将是谷歌两视频电话应用程序,它将用于非常低的带宽连接。该公司还计划利用gpu和人工智能加速器进行加速,并已开始研究是否可以利用Lyra使用的技术,为音乐和非语音音频创建通用音频编解码器。更多细节可在谷歌AI博客帖子

分享:

支持CNX软件!www.yabo188.vip通过捐款贝宝cryptocurrencies成为一个老板Patreon,或者购买评论样本

订阅
通知的
客人
评论表单收集您的姓名、电子邮件和内容,以便我们跟踪网站上的评论。请阅读并接受我们的网站条款和隐私政策发表评论。
18评论
最古老的
最新的
痒n沙哑
痒n沙哑
6个月前

不幸的是,我不能在我的手机上玩莱拉的样品。

如果能包含一些codec2的样本将会非常有趣,因为它也在与melp竞争。

codec2 / rowetel.com的David Rowe也在试验codec2的人工智能解码,目前这似乎是一个非常有趣的领域。

panicopticon
panicopticon
6个月前

就跑。没料到你会抢先我一步。

大卫·威尔莫
大卫·威尔莫
6个月前

他们转而使用LPCNet,它使用人工智能训练函数来编码系数,并得到了更低的比特率。

匿名
匿名
6个月前

“我觉得Opus 6kbps和Lyra 3kbps在干净的语音样本中听起来差不多亚博体育官下载”

我不同意。在我看来,即使是那样,莱拉听起来也更好。这似乎是谷歌技术上的胜利。

我期待看到其他的比较,比如Lyra需要多少比特率才能匹配32kbps的Opus。

eM-13
eM-13
6个月前

同意了。也许他没有用耳机。我对莱拉的样品印象深刻。

匿名
匿名
6个月前

我没有戴耳机

痒n沙哑
痒n沙哑
6个月前

Lyra很可能不会在更高的比特率上有效,因为它似乎是一个纯声码器。

布莱恩
布莱恩
6个月前

这种编解码器完全不像MELP,它是基于fft的,而不是基于LPC的,更接近于语音识别系统使用的,更密集的计算但更清晰的结果。现在看起来也不是开源的

痒n沙哑
痒n沙哑
6个月前

方法不同,结果仍然相似,melp, ambe, codec2都在同一个操场上玩耍,只是比率略有不同。

McNamey
McNamey
6个月前

天琴座嘈杂的声音听起来怪怪的:“someblip已经接受了”。
一般来说,Lyra的发音是将每个单词的前几毫秒和后几毫秒剪掉。听起来不自然。《Opus》听起来更自然,尽管更嘈杂。

miliardo年轻
miliardo年轻
6个月前

应该对BT免提模式有好处,因为在带宽+延迟的问题下,BT的声音质量仍然很差

panicopticon
panicopticon
6个月前

这让我想起了David在Codec2上所做的工作(https://www.rowetel.com/?page_id=452)及其后的FreeDV (https://freedv.org/

痒n沙哑
痒n沙哑
6个月前

那两个人实际上是表兄弟

威利
威利
6个月前

这真的令人印象深刻。我记得,在1996年,我们和一个朋友开始了一项音频压缩挑战,只是为了好玩。我使用了fft,并获得了相当不错的结果(那时我还从未听说过即将推出的MP3)。亚博体育官下载听到继父的Radiocom 2000电话发出的可怕的声音,我想知道是否可以用我的方法压缩声音。它工作得非常好,但比特率并不像GSM那时已经能做的那样有趣,我认为4kbps确实是绝对的限制,超过了压缩工件...阅读更多»

痒n沙哑
痒n沙哑
6个月前

实际上,在Inmarsat的F4卫星(BGAN, Swift宽带,lsatphone)的电路交换语音服务中使用了AMBE 2+编解码器,2.4kbps的声音非常好。

所以谷歌并没有做任何突破性的事情,只是他们将使该技术更容易获得,正如codec2也在做……

围容
围容
6个月前

有人能在这里发布github链接吗?

广告