欢迎光临
我们一直在努力

《深入大型数据集:并行与分布化Python代码》-J.T. 沃勒翰

《深入大型数据集:并行与分布化Python代码》-J.T. 沃勒翰

内容简介:

本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

下载地址:

此站大部分下载链接失效了,以后只在新的网站更新维护。新的电子书网址:https://www.mq59.com

[ARFormslite id=100]
赞(0) 打赏
免责声明:本站所有资源来源于互联网,仅供个人学习交流,网站本身不存储任何相关资源文件,如资源下载链接侵犯到版权方,请发送邮件到1401211620@qq.com,站长核实后会第一时间移除,谢谢!
请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
分享到: 更多 (0)

宝阳读书小站-mobi+epub+azw3+pdf电子书免费下载

联系我们关于我们

收集不易,觉得内容对你有帮助,可以打赏资助下站长

非常感谢你的打赏

支付宝扫一扫打赏

微信扫一扫打赏