Bandit Algorithms for Website Optimization

作者：	John Myles White
语言：	英文
出版年份：	2012
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Bandit Algorithms for Website Optimization》是一本面向在线实验与增长优化实践的小书，讲解多臂老虎机算法如何在网站场景中平衡“继续试新方案”和“优先投放当前最好方案”。作者以可运行的 Python 示例为主，不做繁复推导，重点帮助读者建立算法直觉、评估方法与落地意识。

内容主线

全书先提出探索与利用的基本矛盾，再依次讲解 epsilon-Greedy、Softmax、UCB 三类经典策略，并用蒙特卡洛仿真比较它们在不同阶段的表现。后半部分转向真实业务中的实验干扰、指标失真、环境变化、上下文信息与规模化部署，说明老虎机算法不是公式替代品，而是一套持续决策框架。

章节内容

章节	核心内容
第一章	用科学家、商人和运筹学者三个角色说明探索与利用冲突，指出任何在线优化都必须在“学得更多”和“赚得更多”之间取舍。
第二章	定义 arm、reward、trial 等基本概念，解释为何老虎机算法比静态 A/B 测试更适合持续分流和动态优化。
第三章	讲解 epsilon-Greedy：大多数时间选择当前最优方案，少量时间随机探索，并给出核心实现思路与参数含义。
第四章	用蒙特卡洛模拟检验算法表现，比较最优臂命中率、单步平均收益和累计收益，强调评估必须看时间维度。
第五章	介绍 Softmax 按估计回报概率分配流量，并用温度参数与退火机制调节探索强度，减少僵硬切换。
第六章	说明 UCB 通过“当前估计值+不确定性奖励”主动探索信息不足的选项，在少调参条件下取得稳健结果。
第七章	讨论现实复杂性，包括 A/A 测试、并发实验、短期指标偏差、环境漂移、相关臂与上下文老虎机，以及工程扩展问题。
第八章	总结算法选择原则：接受随机性、逐步收敛、显式处理不确定性，并给出继续深入学习的方向。

适用读者

本书适合产品经理、增长团队、数据科学从业者、实验平台开发者，以及需要做广告投放、推荐排序或页面转化优化的人。读者具备基础编程和概率常识即可阅读；若想系统进入强化学习或 bandit 研究，本书更适合作为工程化入门。

总评

这本书的价值在于短、小、直接：它把最常用的老虎机算法压缩进一个可实践的讲解框架里，让读者迅速理解为什么在线决策不能只靠一次性显著性检验。它的优势是示例清楚、问题意识强、工程讨论务实；局限是理论证明和前沿扩展较少，但作为网站优化与在线实验的第一本 bandit 入门书，完成度很高。