播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

这个是修正版!主要修正了以下问题:1.优化了图像,现在的图像更加准确了;2.更正了对flac的描述;3.重新了采样定理相关的内容,原版几乎是错的,给大家磕头了;4.修正了解码部分的描述。

省流助手:全文约5300字,看完后基本可以解决以下问题:声音是如何产生的?采样率、比特深度是什么?尼奎斯特采样定理是什么?为什么常见采样率是44.1kHz和48kHz?音频录制的基本原理?什么是DSD、PCM调制?DSD和PCM调制有什么联系与区别?“DSD”是否等于“音质更好”?mp3和flac文件有什么区别?播放DSD音乐的条件?什么是模拟信号和数字信号?我们的电脑解码歌曲要经过哪些步骤?(怎么感觉一点也不省流…)可以插个眼备不时之需(但愿)。

兄弟们好,今天和大家聊一下音频的录制与收听。

1、声音的产生。

我们先从最浅显易懂的部分讲起,初中物理就讲过声音是由物体振动产生的,物体通过振动产生对应的声波,这里不难理解物体的振动频率越高那么对应声波的频率也越高,而后声波经由介质传入我们的耳中,被我们识别。我们在下文中称这种最初的声波信号为“原始信号”

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

不难理解在左端(即低频部分)我们的采集效果更好,因为低频段相较高频段每秒产生的波形更少,我们的低频段采集是对很少的波形进行了5次的采集,而在高频段则是对很多的波形进行了5次的采集,最后分别得到的五个点前者更像原始信号。讲得更浅显一点,就是高频段信息相对更多,采集率越高对高频段信息的影响越大,得到的采集效果越好。

我们人类的听觉频率范围在20-20000Hz,也就是说我们的录音只需要采集原始信号在20-20000Hz的声波,这个时候便涉及到了电信号的尼奎斯特采样定理(Nyquist's law)。定理的正规描述:只要采样频率大于或等于有效信号最高频率的两倍,采样值就可以包含原始信号的所有信息,被采样的信号就可以不失真地还原成原始信号。简单解释:我们想要对一段信息进行较好的采集,那么我们的采样频率应该大于或等于波本身频率的二倍(可十分粗浅地与“两点间确定一条直线”联系理解,注意只是十分粗浅地)

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

其实不难理解,这就像数学中画sinX图像一样,确定了一个波形的最高点和最低点我们便可以大体地描绘出来波形了。而我们人耳的最高可识别频率是20000Hz,即每秒存在20000个波形,那么根据尼奎斯特采样定理,我们的采样率最少应该为40000Hz才可以较好地对原始信号进行采集。但这个时候又相应地产生了一个问题,在实际录音过程中难免会有其他形式的波干扰录音,我们需要用滤波器进行滤波以提升录音效果。

现实让每个理想主义者心碎,在实际滤波操作中我们不能实现理想的滤波效果。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

如图1为低通滤波器的图解

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

图1

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

图2

那这个时候该怎么办呢?其实很简单,我们只需要再稍提高采样率,通过多出的频率来给滤波器提供造作空间(如图2)。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

所以后来sony和philips这俩公司合计出得解决办法就是以 44.1kHz为普适采样率,但由于一些更为更为复杂的原因(系统、声卡等被44.1kHz掣肘限制),某些歌曲在制作时制度人更喜欢用48000Hz以优化操作空间。图为44.1kHz和48kHz的歌曲,主流音乐平台歌曲的采样率基本上都为这两种规格。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

图为44.1kHz和48kHz的歌曲,主流音乐平台歌曲的采样率基本上都为这两种规格。

  • 再来讲比特深度。

我们已经说过,采集原始信号的根本目的是要得到数字信号,而比特深度便是以某种标度去刻画采集到的声波信息点。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

还是以图为例,假设我们用5个等级去刻画我们以5Hz采集到的若干信息点,并规定这五个等级分别为KLMNO,那么我们便可以通过坐标来表示图中框住的点了,该点应为(0.4s,N),所表示的意思为:在开始采集后的第0.4秒发出N等级的声波。我们实际用二进制去描述等级,即把KLMNO这五个等级用二进制表示出来,以达到转化为数字信号的目的。可以粗浅地认为比特深度是配合采样时间去组成一个坐标系来描述信息。比特深度越高(即等级越多),我们对应的标度越精确,主流音乐媒体的录音比特率为16bit,总有2^16=65536种等级。

问:比特深度的提高可以对录音质量带来什么影响?是不是比特深度越高越好?

经由前面的解释,我们不难理解,比特深度是一种量化的描绘方式,它只能记录下特定等级的信息点,而有另一部分的信息点因为不符合规定等级被排除在外不被进行记录。当比特深度提高,我们对原始信号的刻画就会变得更加细腻(例如刚才的图中有些点是不准确落于等级线上的,要进行模糊处理,等级越多需要迷糊处理的点就越少,也就是我所谓的更加细腻)。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

比如8bit规格总有2^8=256种等级,相较16bit少了很多,我们将16bit音频降为8bit的音频后再次播放,会明显听到背景有沙沙声,这些声音的产生就是因为8bit规格下的刻画不够细腻,有一部分的信息点被迷糊处理,沙沙声就是因此而来的。而对于16bit规格,它的刻画已经十分细腻,再进一步提升到24bit,即总有2^24=16777216种等级去刻画信息,客观上来讲最后呈现的音频质量肯定是更加还原的,但是人耳可以明显感受到的提升却微乎其微。而且碍于录制设备和各种原因,很多录音原生就是16bit,我们在播放时选择往上提升的意义并不太大。

问:.mp3和.flac格式文件究竟有什么联系和区别?

为了解决这个问题,我们先要介绍采集录音阶段的两种不同调制系统:DSD和PCM。我们上文所介绍的以采样时间为横轴、一定数量的比特深度为纵轴的采集录音方式大体上便是PCM调制的录音原理。我们不难理解,当我们播放一首PCM调制的音频,其实质就是去一个一个地调度记录下时间、比特深度的采样点(说白了就是用点去画线)这样的调制下每个采样点间都是相互独立、不相关联的。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

而对于DSD调制系统,仍是以采样时间、比特深度为横、纵两轴来记录信息,但不同的是,在纵轴DSD调制只有1bit深度,即只有两个记录等级。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

DSD调制系统下,我们规定一个固定值*(我们先暂且称这一固定值为“*”),通过比较当前采样点和前一个采样点之间的深度差是否满足*,若“满足”则输出“1”,“不满足”则输出“0”。有别于PCM提升采样率和比特深度以提升采样效果,DSD调制系统需要调小比较量度“*”和提高采样率以提升采样效果,同时采样率必须非常非常的高(相应记录的数据也更多,最终展现为音频文件的大小更大),最低规格的DSD64采样率为2.8224MHz是CD采样率(44.1kHz)的64倍。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

我们不难理解,DSD系统下各采样点间是彼此相依存的,有了前一个采样点才会有后一个采样点,虽然其横纵两轴的度量单位与PCM相同,但其记录方式是与PCM截然不同的。由于其记录方式的特殊性(各记录点之间相互关联),想要对DSD调制音频进行调整、修改是极其极其困难的,这也是其不常被使用的原因之一。那么是否意味着“DSD=音质更好”?是又不是。其音质更好是确凿无疑的,但较PCM人们能明显感知到的差别已经很小了,所以客观上更好,但主观上基本无差。

我们常见的.mp3或.flac都是PCM调制,主流音乐媒体中歌曲均为PCM调制;而较为罕见的.dsf、.dsdiff则为DSD调制。而对于.mp3和.flac间的区别,这就是老生常谈了。粗浅地去理解,flac是未经压缩过的数字信号,采集录音时是什么样,转化成的数字信号就是什么样;而mp3是经过压缩的数字信号,即声音由原始信号过渡为数字信号后损失掉了一些信息,在压缩成.mp3后又损失掉了一些信息。

3、解码与收听!数字信号转化为模拟信号。

当我们在音乐平台上点击一首歌曲到收听的过程,实际上是一个黑盒。前面已经讲过,歌曲在电脑中的存储形式是数字信号,是0和1构成的数字码流,我们碳基生物是识别不了这些东西的,这个时候便需要将数字信号转变为模拟信号。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

问:模拟信号又是个啥?模拟信号、数字信号、原始信号间有啥区别?

我觉得对于第一个问题最准确的回答就是官话儿:模拟信号是指用连续变化的物理量表示的信息,其信号的幅度,或频率,或相位随时间作连续变化,或在一段连续的时间间隔内,其代表信息的特征量可以在任意瞬间呈现为任意数值的信号。

看不懂?没关系,我也看不懂。简单解释一下,模拟信号,就是通过一种模拟方式来模拟现实世界中信号的信号(开始套娃了是吧),它可以被我们碳基生物识别,但不能被计算器识别。模拟信号最重要的特征是连续性,比如我们汽车的仪表盘,其所表示的车辆速度信息就是一种具有连续性的模拟信号。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

那啥是连续性?依旧来拿仪表盘举例,仪表盘上的数字指针可以表示出仪表盘量程范围内的任意数值,比如其既可以表示出15km/h也可以表示出来15.0000001km/h;

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

但我们如果用屏显式的测速仪去测量车辆的速度,屏显出的数字就是数字信号,因为其是非连续的,只能显示出规定精度范围内的数字,15.0000001或许就被四舍五入成了15.0km/h。我们最开始说的所谓“原始信号”,实际上也是一种模拟信号,不过为了更好理解,我称它为原始信号,正式是没有这个名称的。话说回来,我们向录音设备输入的,或者说,录音设备检测到的声音就是模拟信号,而其输出的则是数字信号,是不100%精确的。而“原始信号”(这里我就得给原始信号加上引号了哈哈哈)、数字信号和模拟信号三者间的关系可以用下图表示:

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

单拿歌曲来举例,我们第二次信号转换的过程有以下步骤:

  • 经软件或者数字播放器识别格式进行初解,在这个过程中,我们使用的播放软件会识别出音频的调制编制格式,并调用对应的解码方案,再输出经解的数据到更后面的步骤。说白了就是你想播放一首.mp3的歌曲,那你就得用网易云播放,不能用爱奇艺播放。
  • 软件进行初解后,会产生PCM或者DSD格式的音频码流,通过以下方式继续传输:通过主板传送到板载声卡或内置声卡(经由PCIE);通过SPDIF(即同轴线或光纤线)、通过Usb(AtoB)或者rca莲花线传送到DAC(也就是数模转化器,我们俗称的解码器)

注意,这里比较容易引起歧义,我所谓的码流只传输到声卡或者DAC两者之一,同时只经过SPDIF、USB、rca以及其他线路传输方式之中的一种传输到DAC。

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

光纤(左)和同轴(右)接口

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

光纤线(我手上没有同轴线qwq)

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

一根3.5转rca的线

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

USB-A

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

USB-B

播放一首歌竟然这么复杂?歌曲究竟是怎样被录制与收听的?(新)

PCI-E插槽

  • 经由我们的解码电路进行最后的解码,输出为可以被我们的耳机、音响或者耳放、功放识别的模拟信号。
  • 我们通过耳机与音响喇叭的振动接受可以被我们识别的声波,完成收听行为。

问:我怎样才能播放DSD音乐?

想要播放DSD音乐也算是比较费劲的事了。首先我们要有DSD调制的音乐,光这步就十分困难,因为DSD的稀有性,我们要去特定的音乐平台购买DSD音乐,价格一般不便宜。而市面上流传的免费的DSD音乐的性质我也不好说,难辨真假,主要听个乐呵吧……但是可以保证的是正规购买的DSD音乐是100%的DSD。因为主流音乐媒体是没有DSD音乐的解码插件的,所以有了DSD音乐之后我们还需要找一款可以解码DSD的音乐软件。到这步还没算完,光输入进去了DSD音乐,那输出呢?如果只给软件加装了decoder即解码插件,它仅能实现识别DSD,而输出的仍是PCM,这仍不是我们想要的效果。我们还需要一个支持ASIO模式的解码器,以实现输入DSD同时输出DSD的效果。(后续我会出详细教程,感兴趣可以关注)

还想看?没啦!

我仅仅是通过搜索网上相关信息进行学习,并不系统,如果有纰漏还望在评论区指正!喜欢的话点个赞吧!

#知识#    #冷知识#   #小书盒#  #今日份小知识# 

#免责声明#

①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。

②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。

③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!

④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。

⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!

给TA打赏
共{{data.count}}人
人已打赏
生活杂谈

为什么只有熊出没系列成了动漫贺岁档的年货?

2023-2-7 0:00:00

生活杂谈

【桌游资讯】水门事件出版商新游公布,死亡细胞推出桌游版!

2023-2-9 0:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索