说唱人声的混音技巧

作者：Pro Audio Files
编译：陈沛宇
出处：https://theproaudiofiles.com/mixing-rap-vocals/

我每周会混四到五首说唱歌曲，有时一首歌还会包含多个说唱歌手，在这过程中我逐渐形成了一套公式化流程，分享给大家。不过每首歌、每个歌手都不一样，公式化流程不代表公式化操作，并且这也只是我个人的见解。

预期效果

我一直觉得，在进行任何混音操作之前，首先得在脑海里有一个最终混音的预期效果。虽然在具体的混音过程中，你心中的预期效果可能会变化，这是很正常的。但最主要是得“有”一个预期效果，不然任何的操作都会是无意义的。

对于说唱人声的混音，很多人有个误区，那就是只考虑到“人声”，没考虑到“说唱”。说唱包含了许多的流派风格，例如1994纽约风格与2010洛杉矶风格是完全不同的。甚至在同一个风格中，也会有不同的混音方式。例如以下两首歌：

试听附件：LL Cool J Loungin
试听附件：A Tribe Called Quest - 1nce Again

Loungin 是典型的“Bad Boy”风格，由Rich Travali混音。与112, Total, Mariah Carey等艺人的风格很像。

1nce Again则是混音师Bob Power的风格，是早期纽约主流的风格。

仔细对比两首歌的人声，可以发现Loungin的人声音量较大，和军鼓一样突出。高频非常丰富，中高频清晰且声场宽阔。而1nce again的人声则略逊于军鼓，中频非常靠前，低频与高频都有明显的滤波处理。在人声压缩方面，Loungin的压缩比较轻柔，1nce again则很激进（特别是歌手Phife的部分）。

我们再来看一首更现代的曲子，Nicki Minaj的Massive Attack。

试听附件：Nicki Minaj - Massive Attack

人声的高频和临场感很强，处于整体混音主导地位，和Loungin相比少了很多中低频。

以上三首歌曲在混音上都有明确的目标：

“1nce Again” - 前卫与激进，典型早期纽约风格，很好地展现当时说唱歌手的形象。
“Loungin” – 听感舒缓温和，接近节奏布鲁斯的听感。
“Massive Attack” – 非常清晰，给中低频的鼓让出了许多空间，非常适合现代club的混音。

总结来看，我们需要在混音前明确歌手的风格，听众人群，主要回放方式等问题，才能对混音结果有一个明确的预期，才能在混音过程中进行调整。

那么有预期效果之后，如何进行实操呢？

整理素材

混音之前，我们需要对人声素材进行整理，常见以下问题。

录音条件导致的录音效果不理想。人声素材有可能是在衣橱里或浴室里录制的。有许多人认为在这两个地方能获得更好的录音效果，但事实恰恰相反。

在浴室录音可能有明显的混响，那么使用一点点门限效果加上EQ来减弱混响的感觉，或直接使用混响消除软件如SPL De-Verb。不过人声自带的混响也可能融合在整体混音中，只要效果自然也可以不消除。

在衣橱内录音会导致梳状滤波效应，让频谱产生许多凹陷。常用解决方法是叠加人声，微调多个音频素材的音高，再叠加在一起。这样可以互相填补梳状滤波效应导致的频率凹陷。虽然无法完全修补那些凹陷，但可以使其变得不明显。

录音电平太高。录音效果并不是越大声越好，太高的电平容易导致削波等问题。如果是在24比特格式下录音，那么更不需要担心电平。如果录音素材有削波失真等问题，可以尝试用修复软件如iZotope RX De-Clipper修复。一些失真还会带来频率共鸣问题，这可以用EQ来解决。

处理素材

整理好素材后，就可以开始考虑如何进行混音。不过我无法告诉你怎么做才是对的，只能大概给你一些思考的方向建议。

平衡

第一步也是最重要的，把握好人声与其他乐器的平衡，特别是相同频率范围内的乐器。从音乐风格出发，例如Hip-Hop的人声和鼓的关系很密切，军鼓是最容易和人声产生冲突的。让人声和军鼓都突出，互不干扰，可以为混音打下坚实的基础。

在歌曲“1nce Again”中，你会发现军鼓比人声大了一点，高频更为突出。而人声则更多为中频。这是考虑到风格的特意调整。而在歌曲“Loungin”中，人声和军鼓处于同等地位，“Massive Attack”则是人声更为主导，军鼓处于中低频。

空气感

Hip-Hop的人声一般没有太多的混响，主要有三个原因：

说唱人声的节奏一般较快，节奏感较强，长混响会模糊节奏和念词。
Hip-Hop风格主打激进的人声，混响会让人声处于声场靠后的位置。
大多数同类型歌曲的人声混响较少，模仿这种风格可以获得更为“标准”的听感（但不强制）。

需要注意，空气感主要取决于混响的空间特质。较短的混响时间，较宽的混响声场，较低的混响干湿比可以很好地营造空气感。

还可以使用延迟效果，记得降低延迟效果声的高频，使其融合在背景中，反衬出人声靠前的感觉。

如果录音环境很理想，那么可以用压缩轻微带出录音环境本身的环境声，产生一种自然的空气感。压缩器的设置可以尝试较慢的启动时间，相对快的释放时间，如果是多段压缩可以更注重高频的压缩，这样可以很好地带出空气感。

滤波

人声频段之外的信息和人声本身一样重要，仔细调整这些信息对人声混音大有益处。例如，许多混音师会把所有的乐器进行低切处理，给鼓和贝斯留出低频空间。同样，许多乐器，甚至包括贝斯也含有许多高频信息，这些信息会和人声的高频产生冲突，掩盖掉人声的空气感。对一些高频信息不是很重要的乐器进行高切处理可以给人声更多表现的空间。
至于低切，不需要将人声低于120Hz的信息全部切除，除非你想模仿Bob Power。无论男声还是女声，在120Hz以下都是有共鸣声，大约在80Hz。所以我们可以从低切80Hz开始进行调整，或者不需要进行低切。

频率位置

考虑人声主要所处的频率位置。中频为主的人声会有“通话声”的感觉，中低频为主的人声则更为“温暖”。我们在混音时可以削弱喉腔共鸣以及近讲效应（250-600Hz），突出胸腔和头腔共鸣声（嘴巴舌头和牙齿的共鸣，2k-5k Hz）。但是不要太关注频率数字，一定要用耳朵聆听进行调整。

人声本身

人声本身的特色是很重要的。大多数说唱人声适合明亮的，靠前的感觉。可以从中高频入手，使用高架滤波增强高频。不需要针对性很强的增强某个频段的高频，而是最好总体提升高频。Pultecs、UBK Clariphonic、Waves HLS、LinEQ是很好的选择。当然，宿主自带的均衡器也能带来很好的效果。我推荐在10k Hz范围高架滤波提升4dB，以此为起点进行调整。

齿音

正确录制的人声通常不会有很严重的齿音问题，但有时候歌手的唱法会带来许多的齿音。使用齿音效果处理器一般都能解决问题，不过需要注意把齿音效果处理器放在效果器链靠前的位置，尽量在均衡和压缩之前，这样可以减少最后的人工痕迹。

临场感

临场感由人声的中高频，嘴部念词噪声等组成，将人声推向前场约等于增强临场感。此处的重点是均衡器的Q值，尽量使用窄的Q值来精确提升临场感，使得人声中频不会过于突出。需要注意，在独奏人声时，听起来的中频往往会比混音中更多，尽可能在混音总体中调整。

中低频

中低频是人声的基础，是人声特色的来源，需要根据每个人声的特点来决定。尽可能突出人声的特色使其更容易让人记住，例如DMX或Xzibit的沙哑感，Snoop Dogg或Q-Tip的鼻音。但不要过度强调特色，整体的听感始终是第一位。

低频

最后，不要随意低切人声，仔细聆听人声的低频再作决定。很有可能录音师在录音阶段就使用了一点低切效果。如果低切了人声，也可以再用均衡器提升低频，这不矛盾。灵活使用效果器可以更精准地调整低频。

关于话筒

人声录制离不开话筒，我们不仅要突出人声的个性，又要学会利用话筒的特色，以及处理话筒带来的一些问题。

近讲效应：如果歌手录制时过于靠近话筒，就会产生近讲效应，也就是中低频会过于突出。如果你能参与人声录制，尽可能使得歌手与话筒处于合适的相对位置。如果已经录制完成，那么可以使用均衡器来减少近讲效应带来的浑浊感。不要一股脑切除低频，这样会丢失很多信息。而是要使用较温和的搁架式滤波一点点调整中低频，尽可能保留人声的低频信息。

中频：话筒在中频一般很敏感，很有可能在300-600Hz的范围内产生一些共鸣峰，使用窄陷波一点点寻找共鸣点来消除（大约-2dB即可），但如果听起来本身就很自然就不要处理。中频是人声的基础，减弱太多的中频会使人声失去体积感，听起来很“塑料”，小心处理！

动态

轻微的压缩一般能给人声带来积极的效果，使其更好融入混音中。人们常常对Hip-Hop的人声进行过度的压缩，但这只适用于复杂的编曲，在配器简约的歌曲中，压缩量一定不能太大。如果人声无法在混音中突出，再考虑使用大量的压缩效果。如果想要追求某种特殊的压缩效果风格，那么可以随意使用压缩。

首先我们进行快速的全局压缩，让人声在整首歌曲中都处于平稳的音量。使用较少的压缩比，较慢的启动和释放时间，压缩阈值只捕捉过于突出的部分。虽然这部分的调整最优方式是手动绘制音量包络线，但如果时间不允许也可以直接使用全局压缩代替。

然后再进行精细的压缩，处理某些突出的念词和爆破音。这类声音仅仅在音头有较大的音量，使用全局压缩无法捕捉到这些细节。为什么要处理这些音头呢，因为音量过大的音头会很快挤占动态空间，并且干扰到之后的压缩处理。所以我们可以使用较快的压缩启动时间和释放时间，依旧较少的压缩比，但把压缩阈值设置的尽量低，以便捕捉有问题的音头。这一步尽量不要使用限幅器，而是使用数字压缩器，例如Logic或Pro Tools的原厂压缩，或Waves的C1，或Empirical Labs Distressor。此处启动时值是最重要的参数，大约在2到3毫秒，尽可能短。

压缩会减少突出音量的部分，所以我们需要提升总体的人声音量。使其在混音中一直处于主导地位——特别是说唱人声。我们的目标是把人声提到和底鼓军鼓一样的位置，一直保持在前场。因为我们将人声整体音量变得更为平稳，所以在提升总体音量后，人声就不会轻易被掩盖。

如果你有条件使用硬件压缩器，我很推荐光学压缩器，非常适合人声压缩。例如CL1B，LA2A，LA3A。也可以使用软件模拟的硬件压缩，如Logic原厂压缩器，Waves的RComp，RVox，它们都有Optical光学模式。而且光学压缩通常只有一个参数控制压缩，调节更简单。

除了光学压缩之外，普通压缩也可以，不过更需要注意启动时值和释放时值。很多人会推荐具体的时间数值，例如300毫秒，但是不同的压缩器参数是不能通用的。一个压缩器设置75毫秒的效果可能等于另一个压缩器300毫秒的效果。所以我们应该注重想要的结果，例如让人声更平稳，但不过度削弱念词。

说到念词，念词的清晰度和压缩启动时值有关。总体来说不要设置过短的启动时值，这会模糊其中的辅音，也不要设置过长的启动时值，这会使辅音突出。有一个技巧是先把压缩阈值设置较低的位置，快速寻找到合适的启动时值，再调节回阈值到合适位置。至于释放时间，主要是为了保持人声的稳定感，所以较短的释放时间比较合适。

最后是压缩的压缩比，我会根据音乐风格来定。如果是轻柔的曲风，那么人声的自然感比较重要，所以约为3:1到4:1的感觉。如果是激进的曲风，那么人声需要一直处于主导地位，那么就需要4:1到8:1的压缩比来保证人声位置。说唱人声不是很注重“优美的感觉”，所以较为明显的压缩痕迹也是可以接受的。

有一个常用的技巧叫做平行压缩，越就是把压缩器的干湿比设置为50，一半干信号一半压缩信号（具体比例也可以继续调整）。这样你就可以放心进行更为大胆前卫的压缩处理，再使用干湿比慢慢混合。例如进行非常激进的压缩，带出原本听不到的许多细节和泛音内容，虽然单听很不自然，但混合在一起就会使人声更为丰富。UBK-1效果器可以很方便地利用平行压缩的技巧。

非常激进的压缩有时候也可以通过饱和效果器来达到，说唱人声往往需要坚实的中频，饱和效果器可以很好地加厚人声，增强体积感。这也同样推荐使用平行技巧，通过干湿比调整饱和的效果。

最后我们来谈谈多段压缩。多段压缩很多时候可以作为均衡器的替代，甚至更优。均衡器大多数是静态的，会一直削弱或者增强某些频率，但这不适合一直在变化的人声。也许在主歌部分合适的均衡在副歌就不太够。多段压缩可以针对特定频率进行控制，能做到根据声音内容灵活适应，不过现在有越多的动态均衡器，其实原理很相似。压缩的侧链还可以很好地替代避让用的均衡处理，例如人声避让贝斯频率范围。如果使用静态压缩，那么无论贝斯是否存在，人声的低频都被削减。但是侧链压缩就可以做到只有在贝斯存在时进行避让，其他情况下保持饱满的低频。