作者: | Daniel A. Roberts and Sho Yaida |
语言: | 英文 |
出版年份: | 2022 |
其他分类: | 人工智能 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《The Principles of Deep Learning Theory》是由Daniel A. Roberts和Sho Yaida合著,基于与Boris Hanin的合作研究,由剑桥大学出版社于2022年出版的一部开创性的深度学习理论教材。本书旨在为深度学习模型建立一套理论框架,以解释实际应用中的深度神经网络如何工作。作者借鉴理论物理的研究方法,用清晰易懂的方式阐述了深度学习的原理,填补了深度学习理论研究的空白。
Daniel A. Roberts是Difféo的联合创始人兼首席技术官,该公司被Salesforce收购;他还曾在Facebook AI Research担任研究科学家,并在普林斯顿高等研究院担任研究员。Sho Yaida是Meta AI的研究科学家,曾在斯坦福大学获得物理学博士学位,并在麻省理工学院和杜克大学担任博士后研究员。Boris Hanin是普林斯顿大学的助理教授,曾在德克萨斯A&M大学数学系担任助理教授,并获得NSF博士后奖学金。
本书内容丰富,涵盖了从深度学习的基本概念到高级理论的多个方面。全书共分为11章,每章都围绕一个核心主题展开,逐步深入地介绍深度学习的理论基础。
介绍了深度学习的基本概念,包括神经网络的结构和初始化过程。作者强调了深度学习的成功依赖于对神经网络的精细调整,而理论研究的目标是理解这些调整背后的原理。
深入探讨了高斯积分和概率统计的基础知识,为后续章节的理论分析提供了必要的数学工具。通过高斯积分的计算,读者可以掌握如何处理多变量概率分布。
详细介绍了神经网络的基本组件,包括神经元、激活函数、权重和偏置,并定义了多层感知机(MLP)的结构。此外,还讨论了常见的激活函数及其特性。
以深度线性网络为模型,展示了如何通过递归方法计算网络的统计特性。这一章揭示了网络的深度和宽度对输出分布的影响,并引入了临界性(criticality)的概念。
进一步探讨了深度非线性网络中预激活分布的统计特性。作者通过1/n展开方法,分析了网络的深度和宽度对预激活分布的影响,并引入了重整化群(RG)流的概念。
系统地分析了深度非线性网络中预激活分布的统计特性,并详细讨论了不同激活函数对网络性能的影响。
从贝叶斯概率的角度探讨了神经网络的训练过程,分析了贝叶斯模型拟合和比较的方法。
介绍了监督学习和梯度下降法在神经网络训练中的应用,并探讨了函数逼近的理论基础。
分析了神经切线核(NTK)的统计特性及其在训练过程中的动态变化。
详细讨论了NTK在深度学习中的作用,并分析了其在不同网络结构下的表现。
探讨了核方法在深度学习中的应用,并分析了核学习的泛化能力。
讨论了神经网络如何通过学习输入数据的表示来提高模型的性能,并分析了表示学习的理论基础。
本书适合对深度学习理论感兴趣的研究生、研究人员以及有一定数学基础的从业者。读者需要具备线性代数、微积分和概率论的基础知识,但书中内容的呈现方式使得即使是没有深厚理论背景的读者也能理解深度学习的核心原理。
《The Principles of Deep Learning Theory》不仅为深度学习的理论研究提供了坚实的基础,还为实践者提供了深入理解神经网络工作原理的工具。通过结合理论物理的方法,本书为深度学习的理论研究开辟了新的方向,有望推动人工智能领域的进一步发展。