新書推薦:

《
大宋300年(写尽三百载大宋繁华与沉浮、浪漫与风霜)
》
售價:HK$
75.9

《
害马之群:失控的群体如何助长个体的不当行为
》
售價:HK$
96.8

《
性别:女(随机图书馆01)
》
售價:HK$
75.9

《
最后的门徒——我与李小龙回忆录
》
售價:HK$
74.8

《
没有明天的我们,在昨天相恋
》
售價:HK$
47.1

《
流动的白银(一部由白银打开的人类文明发展史)
》
售價:HK$
63.8

《
饮食的谬误:别让那些流行饮食法害了你
》
售價:HK$
63.8

《
三千年系列:文治三千年+武治三千年+兵器三千年
》
售價:HK$
197.3
|
編輯推薦: |
1.本书内容属于前沿科学技术、机器学习范畴,是机器学习领域学者应学的新技术;
2.本书是集成学习国内首本引进版图书;
3.本书内容精炼,全书都是干货,没有冗余的铺垫,读者可以轻松阅读;
4.本书附有代码和算法逻辑框图;
5.本书包含集成学习的基础知识,集成学习技术、集成学习库和实战应用。
|
內容簡介: |
《集成学习入门与实战:原理、算法与应用》通过6章内容全面地解读了集成学习的基础知识、集成学习技术、集成学习库和实践应用。其中集成学习技术包括采样、Bagging、投票集成、Boosting、AdaBoost、梯度提升、XGBoost、Stacking、随机森林、决策树等,从混合训练数据到混合模型,再到混合组合,逻辑严谨、逐步讲解;同时也对ML-集成学习、Dask、LightGBM、AdaNet等集成学习库相关技术进行了详细解读;后通过相关实践对集成学习进行综合性应用。本书配有逻辑框图、关键代码及代码分析,使读者在阅读中能够及时掌握算法含义和对应代码。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书适合集成学习的初学者和机器学习方向的从业者和技术人员阅读学习,也适合开设机器学习等算法课程的高等院校师生使用。
|
目錄:
|
第1章 为什么需要集成学习 001
1.1 混合训练数据 003
1.2 混合模型 004
1.3 混合组合 008
1.4 本章小结 009
第2章 混合训练数据 011
2.1 决策树 013
2.2 数据集采样 018
2.2.1 不替换采样(WOR) 018
2.2.2 替换采样(WR) 019
2.3 Bagging(装袋算法) 021
2.3.1 k重交叉验证 024
2.3.2 分层的k重交叉验证 026
2.4 本章小结 028
第3章 混合模型 029
3.1 投票集成 030
3.2 硬投票 031
3.3 均值法/软投票 033
3.4 超参数调试集成 036
3.5 水平投票集成 038
3.6 快照集成 044
3.7 本章小结 046
第4章 混合组合 047
4.1 Boosting(提升算法) 048
4.1.1 AdaBoost(自适应提升算法) 049
4.1.2 Gradient Boosting(梯度提升算法) 051
4.1.3 XGBoost(梯度提升算法) 053
4.2 Stacking(堆叠算法) 055
4.3 本章小结 058
第5章 集成学习库 059
5.1 ML-集成学习 060
5.1.1 多层集成 063
5.1.2 集成模型的选择 064
5.2 通过Dask扩展XGBoost 069
5.2.1 Dask数组与数据结构 071
5.2.2 Dask-ML 076
5.2.3 扩展XGBoost 079
5.2.4 微软LightGBM 082
5.2.5 AdaNet 088
5.3 本章小结 090
第6章 实践指南 092
6.1 基于随机森林的特征选择 093
6.2 基于集成树的特征转换 096
6.3 构建随机森林分类器预处理程序 103
6.4 孤立森林进行异常点检测 110
6.5 使用Dask库进行集成学习处理 114
6.5.1 预处理 115
6.5.2 超参数搜索 117
6.6 本章小结 121
致谢 122
|
內容試閱:
|
集成学习正迅速成为数据科学界机器学习模型的热门选择。集成方法通过多种有趣方式组合了机器学习模型的输出。即使从事机器学习工作多年的工程师,仍然有可能认识不到集成方法的强大之处,因为在大多数机器学习课程和书籍中,这个主题通常被忽略或仅给出简短的概述。
Kaggle是一个有竞争性的机器学习平台,对机器学习技术进行了公正的评价。在过去的几年里,集成方法始终优于其他学习方法,这本身就诠释了集成学习技术所带来的好处。本书目的在于帮助读者了解集成学习技术,并在实际工作中有效地应用它。
本书第1章首先解释为什么需要集成学习,并对各种集成技术形成基本的理解。第2章、第3章和第4章涵盖了各种集成技术,并按照混合训练数据、混合模型和混合组合的顺序分别进行了阐述。在这些章节中,将认识到一些重要的集成学习技术,如随机森林、Bagging、Stacking和交叉验证方法等。第5章介绍了集成学习库,这些数据库有利于加快训练速度。第6章介绍了将集成技术融入实际机器学习工作流的方法。
本书提出了一个简明、易于理解的方法来学习集成学习技术实际应用案例,无需数据模型初学者进行反复的学习。本书中的代码(Python脚本)可以作为程序的延伸和参考。
|
|