Celemony Melodyne 设计者 PETER NEUBÄCKER 大叔访谈
文:Mike Senior
编译:PrincessX
不仅仅是他们在前三个版本的Melodyne软件中一直处于行业领先地位的单音音高和时间操控技术,而且他们的Direct Note Access(复音分解技术,也就是DNA)算法也在一定程度上重写了传统的工作室规则。这个技术可以让我们把一个缩混好的多复音音频文件分解出来,单独控制它的每一个音符--这也是一个现在他们所掌握的,而他们的竞争对手非常难以企及的一个技术。
在这个成功的软件背后的主要技术支持就来自于PETER NEUBÄCKER,最近借着他们公司周年庆的机会,我在他的家乡德国的慕尼黑采访到了他。纵观这个说话轻声细语的男人(PETER NEUBÄCKER,如图1)的履历,客观的说,一般的职业顾问都很难预计到他会是一个成功的IT创业者:实际上他是一个有时有点嬉皮,喜欢制作乐器,喜欢占星的人,在八十年代初期PETER NEUBÄCKER曾经是一个因为贪玩逃课而被学校开除的小学生,而且曾经因为拒绝执行国家的强制服兵役政策和拒绝对社会的服务而险遭六个月牢狱之灾,他甚至还在自己家的地下室里建造了一个炼金术实验室!
图1: PETER NEUBÄCKER
然而,几何与音乐似乎一直在PETER NEUBÄCKER的生命里占有重要地位,他最终找到了一个兴趣所在,那就是学习和声学,这是一个解释数学与音乐之间的关系的学科,并且被维也纳的Rudolf Haase教授大力推崇。也正是因为PETER NEUBÄCKER对和声学研究的极大兴趣导致了他接触了电脑,一开始是在Atari平台上,后来又转到了NeXT电脑平台的CSound上。
在九十年代的中期,由于在NeXT程序设计上的共同爱好,他邂逅了Celemony公司的另一个创始人(现任技术总监职位)的Carsten Gehle,当他们促膝长谈时,萌生了Melodyne这个伟大的想法,当时他们立即就做了一个重要的决定,联手成立一个公司,一起把Melodyne这个软件推向市场。"我对专业音频软件的开发这个领域,究竟是怎么一回事,可以说是什么都不懂,而且我可以说是完全低估了从一个原始的想法到一个实际的产品,中间所需要的工作量",PETER NEUBÄCKER率直的承认道。"因此,要不是有Carsten的结构化思维和他的坚实的软件设计基础给我带来的帮助,我很有可能会绝望的尝到失败的苦头"。
从那以后,许多业内的工程师都对Celemony公司的兴衰看在眼里。首先在2001年发表的是一个独立运行版本的Melodyne软件;随后跟进的两个版本是由Melodyne桥插件整合起来的,带有标准的MIDI功能和音序功能的Melodyne软件;然后是一个真实的,多功能为一体的Melodyne插件版本;然后是最近发表的一个版本,在2009年末刚发布的,带有DNA引擎的Melodyne Editor插件。
深究DNA
PETER NEUBÄCKER总是很乐意向我们介绍他的软件处理算法是如何工作的,而他已经告诉了我们一些Melodyne软件的原始工作方式:大致的说来,它将那些周期性的波形元素分离开来,为这些音频信号创造一系列独立的快照文件(这方面有一点点像合成器的波表),每个快照代表原始声音里的一个特定的时间点。这样我就很快的理解了新一代多复音分解技术的Melodyne Editor算法在这样的方式上并不是一个猜想,但必须是一个从零开始开发的艰难工作。"正因为我们无法得到原始声音的复音状态(因为声音都是已经录成音频了的)",PETER NEUBÄCKER解释道。"作为原始版本的Melodyne,我只设计了在时间域上的探测功能,而并没有在频率域上设计这个功能,因为我是朝着周期性来考虑的。但是对于多复音的素材,那就是不可能的了,因为对于声波来说已经没有周期性了。所以这并不像看上去那么简单。你的确可以用现有的技术手段来整体的改变多复音素材,比如人声编码合成,但是当涉及到从一个多复音的素材里分离出组成它的每一个单一的音符时,而你只拥有一个带有丰富的泛音的混合好的文件,这样决不意味着软件能告诉你哪一个泛音属于哪一个音符--换句话说,就是哪一个是基频哪一个是谐波的问题。而现在最大的难题就是分配某一部分的泛音给某一个单音符,另一部分的泛音给另一个单音符"。即使面对着许多持有怀疑态度的他的软件的追随者,PETER NEUBÄCKER还是坚持要主动的寻求开发一个真正的针对多复音的算法,不过这个进展看起来要比他所预期的要快一些,但依然是一个漫长而艰难的开发过程。"其实并不是编程上有多难,主要还是难在思考",PETER NEUBÄCKER显得很有压力。"我原以为,如果一个傅里叶变换能告诉我一个信号的光谱成分,而作为我们,从听众的角度来说,能听清楚那个信号里面有什么内容,那么肯定就会有一种方法能够将这些组成信号的单独内容分离开来,如果压根找不到这种方法,那么我们至少也能控制这个信号里的一些主要的组成部分"。
解决这个问题的一个关键要素在于,开发和研究出一种对于组成音频的每个独立音符的探测方法,因为不同的信号中,各种泛音之间的关系就可以跟它们所属的那些音符相联系起来了。"在光谱分析仪上我可以看到任何我要的东西,我也可以用某种方式来诠释它,但是要把程序设计得像我一样能分析出我看到的任何东西,我就必须要找到一种方式来告诉软件程序,这是我需要的目标,这是一个音符,因此我们可以找到那些关系最紧密的组成部分来着手处理。在这个工程里,最艰难的地方是要找出哪些东西是所需要的并且相关联的,而哪些东西是噪音成分,因为有些时候有可能有一些乐音的音符是我们需要的,但是它可能会比一些噪音更小声,更安静。我们平时最关注的有可能是一些高电平的重要的信号成分,而同时又有一些信号不是这样。如果这时在某些地方存在一些难以听见的谐波,而你又不能确定这些谐波成分是否属于这个音符或者那个音符的话,其实倒也不是什么大问题,因为那些成分已经不那么重要了"。
串音的问题
当PETER NEUBÄCKER在继续着他的研究工作的时候,他一直被声音成分的"相关性"问题磨练着。"我最近对于处理多话筒录制的大合奏音乐特别有兴趣。当我们录制一个乐队现场演奏的时候,会有一大堆的乐器同时在演奏,而每个话筒里多多少少都会录进一些其他乐器的串音成分。如果你想在后期处理的时候重新调整某个乐器的音准,你就必须要重新调整这个轨道里其他所有串音信号的音准。举个例子吧。比如说我所制作的Peter Gabriel的上一张CD,里面有一首歌的圆号部分他们想让我来重新调音准。这就是一个非常典型的情况了:他们有五个单独的圆号手,每个圆号都有它们自己单独的麦克风,当然,这些轨道里带有许多的串音信号。如果你对其中任何一个单独的轨道进行重新调音准,你就不得不同时以相同的量来手动调整其他轨道里的串音成分"。"我的想法是如果你要分析每一个不同的麦克风,这个方法可以很好的帮助你完成你的想法,只要每一个轨道里的主声部都是完整录下来的就行,并且还可以适当的处理好轨道里的其他串音信号。这种方法不能去除那些串音信号--它只是帮助用户来虚拟的分离这些信号而已。用户们只是看到那些他们正在处理的萨克斯风声音,而那些串音信号是不会被看到的,因为那些串音信号将会被自动的处理好。你只需要抓起那些需要处理的乐器音符然后左右移动它们就可以了,然后软件自己会知道同时需要调整串音信号里的哪些其他音符。但这个功能现在还在实验阶段--而我们需要为Peter Gabriel的专辑做的事情就是将它混音成一个立体声的文件然后再重新调整它的音准,这就意味着我们并不用单独重新调整那些歌曲的每一个部分。但那样也意味着他们不能重新使用这些单独的文件来进行一个5.1声道的环绕声混音或者作为其他的任何一种用途了"。
在我们与PETER NEUBÄCKER讨论他对串音问题的处理的看法的时候,他给我播放了一些他作为研究目的使用的一些示例文件,而看上去在他现在的研发阶段来说,他的软件已经能很有效的辨识串音和非串音的信号了。其中最令我印象深刻的例子就是,六个年轻的合唱演员在唱着一段和声,每个人都有他自己的一支麦克风录音,而软件的算法看上去竟然能够辨识出轨道中听起来非常相似的正对着话筒或者非正对着话筒的声音信号,非常惊人的准确度!
"当然,这个技术还不能应用在Melodyne Editor里,因为这只是针对一条轨道的处理技术," PETER NEUBÄCKER补充道,"因此这个技术应该会在接下来某个版本的Melodyne软件里出现。Melodyne Studio的一个重要的目标就是,将来可以让所有的轨道都相互知道其他轨道,并且知道其他轨道里的前后关系。在那个将来的版本里,会有轨道编组的概念,因此你就可以为某些特定的声部指明关系,告诉软件,这些声部是联系在一起的,因此它们就可以被放在一起来进行分析了"。
在音符探测和噪音处理技术上的新发展
PETER NEUBÄCKER的一些其他方面的研究也涉及到了提高软件的多复音探测能力和对更富有情感的内部旋律线条的响应能力。"如果你的软件有更好的对音高曲线的探测功能,"PETER NEUBÄCKER说道,"声音的处理结果往往也会比通常要好一些。一系列具有许多颤音或者滑音成分的音高信息都可以完美的被Melodyne的单复音处理算法搞定,但是我们的DNA技术现在还无法很好的处理这个类型的声音,尤其是多复音的环境下--因为这时候的颤音很可能会由多个不同的音符所组成。不过我现在已经在着手研究如何处理单一乐器里的这种处理方法了,因此,我只要突破了其中的一些部分,那么那些部分的处理结果将会变得更好。因此将来会更少的依赖修复测量的模式,因为我总是集中精力于如何将音符更有条理的辨识出来,比如哪些是音符而哪些是噪音"。看起来似乎这种探测技术针对那些被限制了频带的并且在最低的音符上具有少量基频的信号会具有更好的效果。PETER NEUBÄCKER给我播放的其中一个示例是Caruso在一个完整的管弦乐团的伴奏下演唱的一张非常古老的录音专辑。尽管在这张专辑里,Caruso的声音听起来几乎没有一点基础频率,PETER NEUBÄCKER的改良的关联性评估算法依然可以正确的诠释出人声的基频所在的位置和应有的状态。"就算你的素材里几乎没有基础频率--你只听得到一些泛音",他解释道。"如果我打开关联性评估的功能,你就能立即看到它已经把工作给做完了。这个不一定需要本身存在于素材里的信息,它只是从泛音信息里被重新的构建了出来,当路径跟踪处理开始时,你也会发现这些事情已经完成了"。
当我在SOS 2009年十二月号的杂志里写文章评测Melodyne Editor的时候,我记得我所批评的其中主要的一点就是Melodyne仍然在试图努力的对付那些比较难以预料的,音乐信号中的噪音元素--比如说乐器的瞬态信号部分,当你试图操控音符的时值的时候,通常看起来它们都会以一种难以捉摸的方式响应。对此,PETER NEUBÄCKER暗示道将会有额外的一些控制手段加入这个部分,借助对于他所称为剩余信号的独立操控手段,换句话说就是,保留所有的瞬态信号和其他一切需要的噪音信号,而去除所有的带有音高信息的信号:"在我们推广了DNA处理引擎以后,两年多以前,我们并不是非常确定它的用户界面会是怎样的,而实际上我们已经减少了它的一些功能,因为我们觉得那些东西的存在会使得整个软件的处理变得非常的混乱,而我们更需要的是一些来自于用户方面的意见和经验,比如用户们会希望如何拿它来开展工作之类。因此,我们给音符分配了软件探测到的剩余信号,因此这样就不用用户们去为了这个问题而操心了。尽管我们以后有可能还会在这一方面的处理上,引入另一个级别的处理方法,比如说音频素材录进了工作室的关门声或者一些小的咔哒声,也会被放进剩余信号轨道里,因此你就可以有更多的目标来选择处理了,同时你也可以说我不需要这些元素或者我想要这个部分更大声一点,或者以此类推运用更多的处理手法"。
一个有趣的事情是,如果你向Celemony的水晶球中间凝视,PETER NEUBÄCKER一直渴望指出实际上他们是完全无法保证何时他们的最新研究成果会被应用于最新的Melodyne软件。"我本人也是在学习中,"PETER NEUBÄCKER笑道。"在我们向世人宣布了DNA技术以后,我们经历了一段非常艰难的日子,而且我们花费了将近两年的时间来优化软件使之能达到发布Melodyne Editor的那个程度。这里面什么功能可以起作用,而什么功能无法起作用,我们正在纠结这些实际的问题。我现在正处在一个愉快的境地中,因为当我更多的沉迷于研究所研发工作的时候,我的竞争对手们正在公司里努力的研发某个具体的产品,但我们拥有非常多的想法,存在于我们的研究所里,体现在各种不同的项目和各种程度的研发当中,而这些都是我们不可能有任何信心去说,是否会把某一个技术成果放在某一个更新版本的Melodyne软件中的。就我个人而言,我是很喜欢开放我个人的想法,坦诚告诉大家我正在做的是什么东西,但我只是想要防止人们对我的研究成果抱有太大的期待,总觉得我的新成果要发布了,而万一遇到什么问题不能发表,或者不能像人们想象中那么迅速的发表出来"。
先演奏,再作曲
尽管他已经在Melodyne的核心技术研发上努力探索了十多个年头,PETER NEUBÄCKER给人看起来对他自己所从事的研究工作始终保持着一种坚定不移的狂热的态度,他的强烈欲望驱使他在创造性的研究工作中排除了一切技术上的障碍。"这个技术拥有的潜力实际上是无限的。虽然我总是说,如果你能把握好任何一个音乐元素,那么它们融合起来就成为了音乐制作与作曲,因此究竟是否需要像传统方式那样先作好曲子、再录音已经显得没那么重要了。你完全可以先录一些东西下来,然后再看看你是否能够就着这些东西来进行创作"。
"录音方面的一个问题是,音乐在某些时候其实是冻结的,而这里有一个非常决定性的角色分离发生于作曲家和演奏者之间。我们可以改变这些,如果我们给予这些乐器演奏者、或者主唱、或者音乐家们即兴演奏的自由权力或者在演奏之后变成一个作曲家--意思是让他们以他们自己的视角来重新演奏这个作品。也许每一个作曲家对自己的作品都有自己的一些看法(同时我也相信这种看法对于每一个音乐作品来说都是非常重要的)而导致没有乐手能够胜任这首作品的演奏?或者也许有一些其他的作曲家过后会说嗷,也许这样子听起来又会更好?音乐家其实应该更少的关注技术方面的东西,而应该更注重于如何当好一名音乐家。只要技术可以很好的支持音乐,保证音乐的质量,我始终相信事情只会变得越来越好"。
Melodyne & 再合成
PETER NEUBÄCKER:"在最原始版本的Melodyne里,声音的共振峰其实是不会被按照独立的谐波成分分析出来的,但更多的是按照总体的光谱形态来分析出来。比如说,如果你在老版本的Melodyne里重新调整共振峰,你就会改变共振峰的整个频谱。而我们现在能够使用新的分析方法来做到的,就是同时重新给频谱塑形。对这点我已经做了非常多的实验性的东西。举例子说,通常你有一轨单复音的吉他轨道,Melodyne Editor将会选择Melodic模式,然后将所有的谐波成分进行编组。尽管你可以手动将探测模式转换到多复音模式下来滥用你的创造力,然后将一些泛音标记为音符--如果你对它们重新调整音高,你就可以得到一个听起来更像是大锣的声音而不是吉他声。你也可以拿一段真实录制的长笛素材,然后用这种方法把它变得听起来像是合成器演奏的声音,但是由于原始录制好的长笛乐句已经存在那儿了,那将会比合成器的声音听起来更有生命力。这就意味着你可以用这种方法把任何声音调整成听起来像合成器一样的声音"。
光谱图
最后是一些光谱分析图,来自于PETER NEUBÄCKER自己的实验室的分析软件。图2表明了一组演唱和声的男孩的麦克风录音信号,每六个男孩分配一支麦克风。请注意那些复杂的重重叠叠的麦克风串音信号,这些讨厌的串音会让音符探测的结果非常不靠谱。与不同的麦克风信号做对比,PETER NEUBÄCKER发明的原生的"关联性评估"技术就能够更令人信赖的,以音符探测为目的的从带有串音信号的轨道中分离那些我们所需要信号成分,你可以在图3的光谱分析图中看到明显的对比。
图2:原始麦克风录音信号
图3:用"关联性评估"技术处理后的信号图
PETER NEUBÄCKER最近正在努力为提高Melodyne Editor的DNA音符探测性能,这个功能现在正遇到一些麻烦,那就是在处理多复音素材里的比较深度的颤音的时候。在图4这个例子里,带有伪音的弦乐会被探测成由两个非常简单的歌剧式的女声乐句组成的多复音的音频。这时候手动清除那些不需要的音符已经变得相当简单,而现在我们的目标是,让Melodyne可以自动的探测到更接近我们想要的那个程度。
图4:处理多复音素材的深度颤音
图5、6是另一组的几个光谱分析图,同样来自于PETER NEUBÄCKER的实验室,它们表明了最新的"关联性评估"算法的巨大潜力。图5的光谱分析图显示了一系列直接分析出来的Caruso的老专辑里分析结果,在这里面你可以清晰的看到Caruso的人声音高的轮廓线,但是每个音符的基频上的低电平都消失了。图6里的光谱分析图显示了关联性评估功能是如何令人信赖的识别出声音基频的成分的。
图5:以前分析出的人声音高轮廓线
图6: 用"关联性评估"技术处理后的信号图
转载文章请注明出自 Midifan.com