新書推薦:
《
纯粹·古代中国的历史与制度
》
售價:HK$
62.7
《
生活来来往往 别等来日方长 新版(伍佰:“讲好了这一辈子,再度重相逢。”别等,别遗憾!珍惜当下才是最好的解药)
》
售價:HK$
58.2
《
一个英国军事顾问眼中的二战
》
售價:HK$
277.8
《
就业、利息和货币通论(徐毓枬译本)(经济学名著译丛)
》
售價:HK$
67.2
《
瘦肝
》
售價:HK$
99.7
《
股票大作手回忆录
》
售價:HK$
55.8
《
秩序四千年:人类如何运用法律缔造文明(世界重归混乱,文明岌岌可危,法律与秩序是我们仅有的武器。穿越时间,鸟瞰全球,一部波澜壮阔的人类文明史)
》
售價:HK$
154.6
《
民法典1000问
》
售價:HK$
99.7
編輯推薦:
一句话推荐
本书介绍了设计、开发和部署机器学习应用的必备技能。
编辑推荐
你可从本书学到设计、开发和部署机器学习应用的必备技能。本书将带你从产品构思起步,不断迭代,最终完成一款机器学习应用。无论你是数据科学家、软件工程师,还是产品经理,无论你资历深浅,你都可以从本书学到真实机器学习应用开发各步骤所需工具和最佳实践,掌握常见问题的解决方法。
本书作者是一位经验丰富的数据科学家,负责过人工智能教育项目。他在本书用代码块、插图、软件截屏和业界高手的访谈记录,生动诠释了机器学习概念,非常实用。本书第一部分教你规划机器学习应用并为其制定成功标准。第二部分介绍机器学习基础模型的开发方法,让模型跑起来。第三部分介绍模型改进方法,实现最初产品构思。第四部分则介绍模型部署和监控策略。
专家推荐
“机器学习最难的内容是:提炼问题、调试模型和将模型部署给用户使用。很多书都选择跳过,而本书则重点讲解它们。掌握本书内容,你就可以尝试将自己项目从最初创意变为一款有影响力的产品。”
——Alexander Gude
Intuit公司数据科学家
內容簡介:
本书的主要内容有:定义产品目标,将其转化为机器学习问题。快速搭建第一条端到端流水线,创建初始数据集。训练和评估机器学习模型,解决性能瓶颈。将模型部署到生产环境,持续监控使用情况。
關於作者:
Emmanuel Ameisen现任Stripe公司机器学习工程师。他曾为Local Motion和Zipcar公司开发、部署预测分析和机器学习解决方案。他此前还曾负责Insight Data Science公司人工智能团队,指导过150多个机器学习项目。他先后就读于法国三所顶尖学府,分获人工智能、计算机工程和管理三个理学硕士学位。
目錄 :
目录
前言 .1
第一部分 让机器学习要找对方法
第1 章 从产品目标到机器学习框架 15
1.1 评估什么可行 16
1.1.1 模型 18
1.1.2 数据 26
1.2 探索机器学习编辑器开发方案 . 29
1.2.1 尝试全用机器学习完成:端到端框架 . 29
1.2.2 最简方法:成为算法 31
1.2.3 中间地带:从自己经验学习 . 32
1.3 Monica Rogati:如何选择机器学习项目并安排其优先级 34
1.4 小结 37
第2 章 制定方案 38
2.1 度量成功 38
2.1.1 业务指标. 40
2.1.2 模型性能. 40
2.1.3 新鲜度和分布偏移 . 44
2.1.4 速度 46
2.2 评估范围和挑战 47
2.2.1 利用领域知识 47
2.2.2 站在巨人肩上 49
2.3 机器学习编辑器方案 . 53
2.3.1 编辑器初步方案 . 53
2.3.2 永远从简单模型入手 54
2.4 不断进步:从简单方法入手 55
2.4.1 从简易流水线入手 . 55
2.4.2 机器学习编辑器流水线 57
2.5 小结 59
第二部分 建成可用流水线
第3 章 搭建你的首条端到端流水线 63
3.1 最简框架 63
3.2 机器学习编辑器原型 . 65
3.2.1 解析和清洗数据 . 65
3.2.2 文本分词. 67
3.2.3 生成特征. 67
3.3 测试工作流 . 69
3.3.1 用户体验. 70
3.3.2 建模结果. 70
3.4 机器学习编辑器原型评估 72
3.4.1 模型 73
3.4.2 用户体验. 74
3.5 小结 75
第4 章 获取初始数据集 76
4.1 数据集迭代 . 76
4.2 探索你的首个数据集 . 78
4.2.1 高效始于简单 78
4.2.2 洞察力和产品的关系 79
4.2.3 数据质量规则 80
4.3 标注数据,寻找趋势 . 87
4.3.1 总结性统计信息 . 87
4.3.2 高效探索和标注 . 90
4.3.3 成为算法 106
4.3.4 数据趋势 108
4.4 用数据指导特征和模型 . 109
4.4.1 创建特征,捕获模式 . 109
4.4.2 机器学习编辑器特征 . 113
4.5 Robert Munro:你如何寻找、标注和使用数据? 114
4.6 小结 . 116
第三部分 模型迭代
第5 章 训练和评估模型 . 119
5.1 最简合适模型 . 119
5.1.1 简易模型 120
5.1.2 从模式到模型 122
5.1.3 切分数据集 . 124
5.1.4 机器学习编辑器数据切分 130
5.1.5 判断模型表现 132
5.2 评估模型:超越准确率 . 135
5.2.1 对比数据和预测结果 . 135
5.2.2 混淆矩阵 136
5.2.3 ROC 曲线 137
5.2.4 校准曲线 139
5.2.5 用降维技术分析出错样例 141
5.2.6 Top-K 方法 . 142
5.2.7 其他模型 147
5.3 评估特征重要性 148
5.3.1 直接来自分类器 148
5.3.2 黑盒解释器 . 149
5.4 小结 . 152
第6 章 调试机器学习模型 . 153
6.1 软件最佳实践 . 153
6.2 调试连接:可视化和测试 . 156
6.2.1 从一个样例开始 156
6.2.2 测机器学习代码 164
6.3 调试模型训练过程:让模型学习 . 169
6.3.1 任务难度 170
6.3.2 最优化问题 . 172
6.4 调试泛化能力:让模型有用 174
6.4.1 数据泄露 175
6.4.2 过拟合 175
6.4.3 思考手头任务 179
6.5 小结 . 180
第7 章 用分类器生成写作建议 181
7.1 从模型抽取建议 182
7.1.1 我们不用模型能实现什么? 182
7.1.2 抽取全局特征重要性 . 184
7.1.3 利用模型打的分值 185
7.1.4 抽取局部特征重要性 . 186
7.2 模型对比 188
7.2.1 模型v 1:建议就像统计报告 189
7.2.2 模型v 2:模型更强大但建议更模糊. 189
7.2.3 模型v3:建议可理解 191
7.3 生成编辑建议 . 192
7.4 小结 . 197
第四部分 部署和监控
第8 章 部署模型的注意事项 . 201
8.1 数据使用注意事项 202
8.1.1 数据所有权 . 202
8.1.2 数据偏差 203
8.1.3 系统偏差 205
8.2 建模注意事项 . 205
8.2.1 反馈循环 206
8.2.2 模型更包容 . 207
8.2.3 思考预测背景 208
8.2.4 机器学习模型的对手 . 209
8.2.5 思考模型滥用和挪用风险 210
8.3 Chris Harland:交付实验 . 211
8.4 小结 . 214
第9 章 选择部署方案 215
9.1 服务端部署 215
9.1.1 流式应用或API 216
9.1.2 批量预测 219
9.2 客户端部署 221
9.2.1 部署到设备 . 222
9.2.2 用浏览器端交付 224
9.3 联邦学习:一种混合方法 . 225
9.4 小结 . 226
第10 章 搭建模型防护罩 228
10.1 故障应对举措 228
10.1.1 检查输入和输出 229
10.1.2 模型后盾 234
10.2 模型性能提高举措 . 238
10.2.1 扩展模型,服务多用户 . 238
10.2.2 模型和数据生命周期管理. 241
10.2.3 数据处理和有向无环图 . 244
10.3 寻求用户反馈 245
10.4 Chris Moody:赋予数据科学家部署模型的力量 248
10.5 小结 250
第11 章 监控和更新模型 251
11.1 监控可拯救系统 251
11.1.1 监控告知刷新率 . 252
11.1.2 监控模型,检测滥用行为 . 253
11.2 选择监控内容 254
11.2.1 性能指标 254
11.2.2 业务指标 256
11.3 机器学习系统的持续集成和交付 257
11.3.1 A/B 测试和实验 . 259
11.3.2 其他方法 262
11.4 小结 263