音乐雷达Shazam背后的音频指纹识别原理

创建于2000年识别音乐名称的Shazam,在2017年12月被苹果公司以4亿美元收购。创始人Avery Wang和Chris Barton都应该赚了不少银子,另外两个创始人Dhiraj Mukherjee, Philip Inghelbrecht由于离开Shazam比较早,不知有没有赚到。

Shazam用着很简单,但它背后的工作原理涉及到音乐理论、信号处理、计算机科学和数学等知识,没点相关科学背景,别说做出来,就是理解都很困难。

Avery Wang是Shazam的首席科学家和识别算法的发明者,他还是美国斯坦福大学的电子工程博士和数学硕士,技术基础非常深厚。

一位叫Christophe Kalenzaga的法国的软件开发工程师,对Shazam涉及的技术知识非常感兴趣,非常想知道Shazam是如何工作的。在2015年,Christophe Kalenzaga写了一篇技术文章,来说明Shazam背后的工作原理:音频指纹识别(audio fingerprinting)。

文章很长,涉及到的知识点很多,这里就不翻译了,还是英文原文表达的比较精准。感兴趣的同学可以仔细研究一下。

文章大纲:
1 Music and physics
1.1 Pure tones vs real sounds
1.2 Musical Notes
1.3 Timbre
1.4 Spectrogram

2 Digitalization
2.1 Sampling
2.2 Quantization
2.3 Pulse Coded Modulation

3 From digital sound to frequencies
3.1 Discrete Fourier Transform
3.2 Window functions
3.3 Fast Fourier Transform and time complexity

4 Shazam
4.1 Global overview
4.2 Spectrogram filtering
4.3 Storing Fingerprints
4.4 Searching And Scoring the fingerprints

5 Conclusion

文章原文:
How does Shazam work

评论

登录注册后才能评论。