书单|大数据 | 关于数据分析的几本书

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况 下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现 在年轻的父亲身上。

辛辛那提动植物园是一个非营利性组织,是俄亥州同时也是美国国内享受公共补贴最低的动植物园,除去政府补贴,2600万美元年度预算中,自筹资金部分达到 三分之二以上。为此,需要不断地寻求增加收入。而要做到这一点,最好办法是为工作人员和游客提供更好的服务,提高游览率。从而实现动植物园与客户和纳税人 的双赢。

在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

数据分析的数学基础在20世纪早期就已确立,但数据分析的独特魅力直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。

 

1、数据科学与大数据分析——数据的发现 分析 可视化与表示

1

数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。

本书共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。

本书内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。

2、Python数据分析

2

Python是一种多范型编程语言,既适用于面向对象的应用开发,又适合函数式设计模式。Python已经成为数据科学家进行数据分析、可视化以及及机器学习的一种理想编程语言,它能帮助你快速提升工作效率。

本书将会带领新手熟悉Python数据分析相关领域的方方面面,从数据检索、清洗、操作、可视化、存储到高级分析和建模。同时,本书着重讲解一系列开源的Python模块,诸如NumPy、SciPy、matplotlib、pandas、IPython、 Cython、scikit-learn和NLTK等。此外,本书还介绍了数据可视化、信号处理、时间序列分析、数据库、预测性分析和机器学习等主题。通过阅读本书,你将华丽变身数据分析高手。

3、贝叶斯思维:统计建模的Python学习法

3

这本书帮助那些希望用数学工具解决实际问题的人们,仅有的要求可能就是懂一点概率知识和程序设计。而贝叶斯方法是一种常见的利用概率学知识去解决不确定性问题的数学方法,对于一个计算机专业的人士,应当熟悉其应用在诸如机器翻译,语音识别,垃圾邮件检测等常见的计算机问题领域。

可是本书实际上会远远扩大你的视野,即使不是一个计算机专业的人士,你也可以看到在战争环境下(二战德军坦克问题),法律问题上(肾肿瘤的假设验证),体育博彩领域(棕熊队和加人队NFL比赛问题)贝叶斯方法的威力。怎么从有限的信息判断德军装甲部队的规模,你所支持的球队有多大可能赢得冠军,在《龙与地下城》勇士中,你应当对游戏角色属性的最大值有什么样的期望,甚至在普通的彩弹射击游戏中,拥有一些贝叶斯思维也能帮助到你提高游戏水平。

除此以外,本书在共计15章的篇幅中讨论了怎样解决十几个现实生活中的实际问题。在这些问题的解决过程中,作者还潜移默化的帮助读者形成了建模决策的方法论,建模误差和数值误差怎么取舍,怎样为具体问题建立数学模型,如何抓住问题中的主要矛盾(模型中的关键参数),再一步一步的优化或者验证模型的有效性或者局限性。在这个意义上,这本书又是一本关于数学建模的成功样本。

4、数据科学实战手册(R+Python)

 

4

 

这本书是基于R和Python的数据科学项目案例集锦,内容涵盖了基于数据科学的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。

业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据科学感兴趣的人也值得一读。

5、R数据可视化手册

 

5

R具有强大的统计计算功能和便捷的数据可视化系统。《R数据可视化手册》重点讲解R的绘图系统,指导读者通过绘图系统实现数据可视化。书中提供了快速绘制高质量图形的150多种技巧,每个技巧用来解决一个特定的绘图需求。读者可以通过目录快速定位到自己遇到的问题,查阅相应的解决方案。同时,作者在大部分的技巧之后会进行一些讨论和延伸,介绍一些总结出的绘图技巧。

《R数据可视化手册》侧重于解决具体问题,是R数据可视化的实战秘籍。《R数据可视化手册》中绝大多数的绘图案例都是以强大、灵活制图而著称的R包ggplot2实现的,充分展现了ggplot2生动、翔实的一面。从如何画点图、线图、柱状图,到如何添加注解、修改坐标轴和图例,再到分面的使用和颜色的选取等,本书都有清晰的讲解。虽然本书的大多数技巧使用的是ggplot2,但是并不仅仅局限于ggplot2的介绍。作者的理念是用合适的工具来完成合适的绘图任务,读者也可以学到许多其他有用的绘图函数和工具,来适应各种复杂的需求。

《R数据可视化手册》是学习R中丰富的数据可视化方法的权威手册,非常适合对R 语言有基本的了解的读者阅读。

书单|大数据 | 关于数据分析的几本书》有1个想法

  1. 大康

    最近初入大数据,正不知道学习什么,感谢楼主,还望提供资源,感激

    回复

发表评论

电子邮件地址不会被公开。 必填项已用*标注