新書推薦:
《
治盗之道:清代盗律的古今之辨
》
售價:HK$
122.1
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:HK$
210.6
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:HK$
300.2
《
欲望与家庭小说
》
售價:HK$
98.6
《
惜华年(全两册)
》
售價:HK$
70.3
《
甲骨文丛书·古代中国的军事文化
》
售價:HK$
99.7
《
中国王朝内争实录(套装全4册):从未见过的王朝内争编著史
》
售價:HK$
244.2
《
半导体纳米器件:物理、技术和应用
》
售價:HK$
177.0
|
編輯推薦: |
(1)内容由浅入深,循序渐进。一方面遵循了读者对机器学习的认知规律;另一方面也便于熟悉机器学习知识的学习者更深入地掌握和应用Scikit-learn框架。(2)语言通俗易懂,轻松易学,配以形象化的图片和代码,生动地把讲解内容呈现给读者,有效降低了学习的门槛。(3)讲解主干明确,脉络清晰。贯穿主题算法,从集成学习、管道、交叉验证,到异常检测和信号分解,层次分明。(4)案例精挑细选,干货多多。几乎每种算法都给出详细的使用案例,这些案例都是作者精心挑选和开发的,紧扣内容,并提供了很多开发技巧,值得认真阅读。
|
內容簡介: |
本书是《Scikit-learn机器学习详解》(潘风文编著)的进阶篇,讲解了Sklearn(Scikit-learn)机器学习框架的各种高级应用技术,包括数据集导入工具、集成学习、模型选择和交叉验证、异常检测、管道、 信号分解、模型持久化以及Sklearn系统高级配置。通过本书的学习,读者可快速掌握Sklearn框架的高级知识,迈入人工智能殿堂的大门。本书适合有志于从事机器学习、人工智能技术开发的人员或爱好者使用,也可作为相关专业的教材。
|
目錄:
|
1 机器学习概述 1
1.1 有监督学习2
1.2 无监督学习3
1.3 半监督学习3
1.4 Sklearn概述4
2 数据集导入工具 6
2.1 通用数据集导入API7
2.1.1 数据集加载器7
2.1.2 数据集提取器8
2.1.3 数据集生成器10
2.1.4 文件导入方法11
2.2 专用数据集导入API14
2.2.1 加载样本图像数据集14
2.2.2 加载svmlight/libsvm格式数据集15
2.2.3 从openml.org 下载数据集16
2.3 加载外部数据集16
2.3.1 列表式数据读取16
2.3.2 多媒体文件读取17
3 集成学习 18
3.1 自助抽样(bootstrap)19
3.2 自助聚合算法(bagging)20
3.2.1 标准自助聚合算法(Bagging)21
3.2.2 随机森林(Random Forest)29
3.2.3 极端随机树(Extremely randomized trees)30
3.3 加速提升算法(boosting)30
3.3.1 自适应提升算法(Adaboost)30
3.3.2 梯度提升树算法(GBDT)38
3.4 投票集成算法(voting)49
3.5 堆栈泛化(stacking)56
4 模型选择和交叉验证 62
4.1 交叉验证评估器64
4.1.1 交叉验证64
4.1.2 交叉验证生成器66
4.1.3 使用交叉验证70
4.2 度量指标和评估(评分)75
4.2.1 评分参数scoring的设置76
4.2.2 哑分类评估器和哑回归评估器86
4.3 模型超参数调优90
4.3.1 穷尽网格超参数搜索91
4.3.2 随机超参数搜索99
4.3.3 非暴力参数搜索方法101
4.3.4 贝叶斯优化103
4.4 验证曲线104
4.4.1 交叉验证曲线105
4.4.2 学习曲线108
5 异常检测 115
5.1 新颖点检测117
5.2 离群点检测123
5.2.1 椭圆包络线算法123
5.2.2 孤立森林算法129
5.2.3 局部离群点因子算法130
6 管道 138
6.1 概念介绍139
6.1.1 评估器(estimator)139
6.1.2 转换器(transformer)140
6.1.3 管道(pipeline)141
6.2 管道机制概述142
6.3 中间评估器及子管道148
6.3.1 获取中间评估器148
6.3.2 获取子管道对象149
6.3.3 设置评估器参数150
6.4 特征聚合转换器150
6.5 列转换机制154
6.5.1 数据泄露154
6.5.2 列转换器155
6.6 模型选择162
7 信号分解 164
7.1 主成分分析PCA165
7.2 核主成分分析KPCA173
7.3 字典学习180
7.3.1 预置字典编码180
7.3.2 通用字典学习186
7.4 因子分析189
7.5 其他信号分解194
7.5.1 独立成分分析195
7.5.2 非负矩阵分解196
7.5.3 隐含狄利克雷分布199
8 模型持久化 200
8.1 针对Python对象的序列化201
8.1.1 使用模块pickle序列化201
8.1.2 使用模块joblib序列化204
8.2 模型互操作方式205
9 Sklearn系统配置 210
9.1 系统环境变量211
9.2 运行时环境变量211
后记 215
|
內容試閱:
|
Sklearn,也称为Scikit-learn,是基于Python语言的开源机器学习库,起源于发起人David Cournapeau在2007年参加谷歌编程之夏GSoC(Google Summer of Code)的一个项目,目前已经成为最受欢迎的机器学习库,已经在很多工程中得到了应用。
Sklearn是一个功能强大的机器学习框架。它基于NumPy、Pandas、Scipy和Matplotlib等数值计算库,实现了丰富且高效的机器学习算法,包括有监督学习、无监督学习和半监督学习模型,几乎涵盖了所有主流的机器学习模型。本书讲述了Sklearn学习框架中比较高级的知识,包括集成学习、管道、交叉验证和异常检测等模型及其应用。作者试图通过通俗易懂的描述、严谨翔实的代码,把晦涩难懂的知识讲解明白,使读者快速掌握Sklearn的高级知识,深入应用到日常工作中。对于需要学习和掌握Sklearn基础知识的读者,请参考潘风文编著的《Scikit-learn机器学习详解》一书。
第1章概述性地回顾了机器学习的基本知识,讲述了有监督学习、无监督学习和半监督学习的概念,并对Scikit-learn做了简要的描述。
第2章讲述了Scikit-learn中sklearn.datasets模块的功能,不仅提供了导入随机样本数据集的方法,也提供了提取外部(网络上)数据集的方法以及生成各种算法所需数据的多个方法。
第3章介绍了集成学习。集成学习是一种综合利用多个预测模型的方法,它本身不是一种传统意义上的机器学习模型,而是一种基于弱学习器的算法。本章介绍了自助聚合算法、加速提升算法、投票集成算法以及堆栈泛化等多种集成学习方法。
第4章介绍了模型选择和交叉验证的知识。模型选择的目标是在一个模型集合中寻找泛化能力最大的一个模型,而交叉验证是一种广泛使用的重采样(resampling)技术,可以评估一个预测模型的泛化能力,也是一种有效的确定模型超参数的方法。
第5章介绍了新颖点检测、离群点检测两类方法;离群点检测的算法:椭圆包络线算法、孤立森林算法和局部离群点因子算法。
第6章介绍了机器学习中的管道机制(Pipeline)。管道机制将机器学习的实施看作是一个流水线式的作业流程,根据不同阶段的任务目标,切割成7个不同的环节,每一个环节都由独立的转换器(Transformer)或评估器(Estimator)负责实现。管道机制使开发者对机器学习过程中相互联系和相互依赖的环节进行有效和高效的控制,更加方便地实现其预期结果。
第7章介绍了Scikit-learn中实现的信号分解的各种方法。信号分解(signal decomposition)是分解提取高维数据集中的特征信号,是一个矩阵分解的问题。在Scikit-learn中,提供了主成分分析、字典学习、因子分析等多种信号分解的算法。
第8章重点讲述了训练后模型的保存、使用方法。这些方法包括使用模块pickle序列化,使用模块joblib序列化,以及跨平台、跨语言的互操作方式:通过预测模型标记语言PMML(Predictive Model Markup Language)保存和部署模型。
第9章介绍了为保障Scikit-learn程序顺畅运行,需要对Scikit-learn整体框架的环境变量进行设置的内容。
本书有如下特点:
■ 内容由浅入深,循序渐进
遵循读者对机器学习的认知规律,同时也有助于熟悉机器学习知识的学习者更深入地掌握和应用Scikit-learn框架。
■ 语言通俗易懂,轻松易学
对讲解主题进行通俗化描述,并配以大量的图片和代码,形象化地把讲解内容呈现给读者,轻松易学,有效降低学习的门槛。
■ 讲解主干明确,脉络清晰
本书贯穿机器学习模型中高级应用的主题算法,从集成学习、管道、交叉验证,到异常检测和信号分解,系统地讲解高级应用知识,为读者掌握和发挥Scikit-learn价值提供最大帮助。
■ 案例精挑细选,干货多多
几乎每种算法都给出详细的应用案例。这些案例都是作者开发的,紧扣内容,并提供了很多开发技巧,值得认真阅读。
本书读者对象:
(1)具备一定Scikit-learn基础知识,希望在机器学习领域进阶升级的开发人员;
(2)想要了解和实践Scikit-learn学习包的开发工程师;
(3)从事大数据及人工智能的分析人员;
(4)对大数据和人工智能感兴趣的人员。
本书由潘风文、黄春芳编著。第1章、第2章、第6章、第8章、第9章由潘风文编写;第3章、第4章、第5章、第7章由北京中医药大学生命科学学院黄春芳副教授编写。本书例子运行的Python版本号是Ver3.8.1及以上。所有实例包都可以通过作者QQ:420165499联系索取并在线咨询答疑,我们将竭诚为您服务。最后,衷心希望本书对您的工作和事业有所裨益。
潘风文 黄春芳
2022 年7月
|
|