| 作者: | John Myles White |
| 语言: | 英文 |
| 出版年份: | 2012 |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Bandit Algorithms for Website Optimization》是一本面向在线实验与增长优化实践的小书,讲解多臂老虎机算法如何在网站场景中平衡“继续试新方案”和“优先投放当前最好方案”。作者以可运行的 Python 示例为主,不做繁复推导,重点帮助读者建立算法直觉、评估方法与落地意识。
全书先提出探索与利用的基本矛盾,再依次讲解 epsilon-Greedy、Softmax、UCB 三类经典策略,并用蒙特卡洛仿真比较它们在不同阶段的表现。后半部分转向真实业务中的实验干扰、指标失真、环境变化、上下文信息与规模化部署,说明老虎机算法不是公式替代品,而是一套持续决策框架。
| 章节 | 核心内容 |
|---|---|
| 第一章 | 用科学家、商人和运筹学者三个角色说明探索与利用冲突,指出任何在线优化都必须在“学得更多”和“赚得更多”之间取舍。 |
| 第二章 | 定义 arm、reward、trial 等基本概念,解释为何老虎机算法比静态 A/B 测试更适合持续分流和动态优化。 |
| 第三章 | 讲解 epsilon-Greedy:大多数时间选择当前最优方案,少量时间随机探索,并给出核心实现思路与参数含义。 |
| 第四章 | 用蒙特卡洛模拟检验算法表现,比较最优臂命中率、单步平均收益和累计收益,强调评估必须看时间维度。 |
| 第五章 | 介绍 Softmax 按估计回报概率分配流量,并用温度参数与退火机制调节探索强度,减少僵硬切换。 |
| 第六章 | 说明 UCB 通过“当前估计值+不确定性奖励”主动探索信息不足的选项,在少调参条件下取得稳健结果。 |
| 第七章 | 讨论现实复杂性,包括 A/A 测试、并发实验、短期指标偏差、环境漂移、相关臂与上下文老虎机,以及工程扩展问题。 |
| 第八章 | 总结算法选择原则:接受随机性、逐步收敛、显式处理不确定性,并给出继续深入学习的方向。 |
本书适合产品经理、增长团队、数据科学从业者、实验平台开发者,以及需要做广告投放、推荐排序或页面转化优化的人。读者具备基础编程和概率常识即可阅读;若想系统进入强化学习或 bandit 研究,本书更适合作为工程化入门。
这本书的价值在于短、小、直接:它把最常用的老虎机算法压缩进一个可实践的讲解框架里,让读者迅速理解为什么在线决策不能只靠一次性显著性检验。它的优势是示例清楚、问题意识强、工程讨论务实;局限是理论证明和前沿扩展较少,但作为网站优化与在线实验的第一本 bandit 入门书,完成度很高。