日常防骗,多备点数据知识
前几天有读者留言,请我们推荐一些与数据相关的书籍。另外,前段时间某旅游网站被曝出造假点评数据。对于我们这些买东西、点外卖、旅行时看点评的人来说,感觉被骗了。我不禁想:如果我有数据这样的技能,是不是就能避开一个又一个的坑呢?
其实日常的防欺诈只是个玩笑,我们真正希望的是每个人都能掌握更多的数据技能。
随着互联网的发展,数据技能已经成为我们必备的技能之一,为我们的决策提供了有力的依据。对于个人来说,数据可以锻炼我们的逻辑思维,量化我们的工作,让管理者更了解我们做了什么;对于公司来说,数据至关重要,甚至可以驱动整个公司的发展方向。
阿里巴巴集团首席技术官、达摩院院长张建锋也曾表示,数字化是智能化的基础,从城市治理到新制造,数据不仅可以用来改善已有业务,更重要的是开辟新模式、新赛道。
————
这里为你准备了12本数据相关的书籍,涵盖数据爬取、数据挖掘、数据分析等内容,让你面对大数据不再茫然。
PS:根据 StackOverflow 的 2018 年开发者调查,数据科学是收入最高的职业之一。
数据抓取
这是今年最受读者欢迎的爬虫书,作者是百万访问量博主崔庆才,豆瓣评分9.1,如果你正在学习爬虫,一定不能错过这本书。
本书主要介绍如何使用Python 3开发网络爬虫,不仅介绍了基础知识,还讨论了urllib、requests等请求库,Beautiful Soup、XPath、pyquery等解析库,以及文本和各类数据库的存储方式等。
通过多个案例介绍并分析了Ajax进行数据爬取,Selenium、Splash进行动态网站爬取,以及一些爬虫技巧,如使用代理爬取及维护动态代理池,使用ADSL拨号代理,图形、极限测试、触摸、网格等各种验证码的破解方法,模拟登录网站爬取的方法,Cookies池的维护等。
本书以简洁而强大的Python语言介绍了网络数据采集,并提供了新网络中各种数据类型采集的全面指南。原书评分4.6星,涵盖了数据抓取、数据挖掘和数据分析,可以帮助您快速解决实际问题。
数据挖掘
Python 是一种非常适合数据科学家在中小型数据集上构建原型、可视化和分析数据的编程语言。上面的这本书可以帮助你从各大社交媒体网站获取和分析数据,并向你展示如何使用科学 Python 工具对 Stack Exchange 等热门社交网站进行挖掘。原版在亚马逊上获得了满五星评价,中文版也刚刚发布。
本书采用R语言涵盖了数据挖掘中10种经典、常用的方法,结合大量实例,详细介绍了数据挖掘的理论和分析方法。
内容分为3部分:第1部分简单介绍了使用R进行数据挖掘的过程以及数据挖掘的概述;第2部分介绍了数据挖掘的10种常见方法,包括回归分析、逻辑回归分析、决策树分析、支持向量机、基于记忆的推理、聚类分析、自组织映射、主成分分析、对应分析和关联规则分析,并在此基础上使用R实际进行数据分析;第3部分结合实际的数据挖掘实例介绍如何使用这些方法。
本书可以帮助您了解数据挖掘方法的基础知识,并在无需编写代码的情况下将其实现在自己的工作中。它针对分类、回归、关联分析、聚类、异常检测、文本挖掘、时间序列预测、特征分析等数据挖掘问题,重点介绍了当今广泛使用的 20 多种算法,例如决策树、人工神经网络和 K 均值聚类。对于每种算法,首先用通俗易懂的语言解释其原理,然后使用开源数据分析工具 RapidMiner 实现。
数据分析
即使你没有编程经验,也可以学会使用 Python 进行数据分析。本书基于 Facebook 数据科学家的实践经验,向你展示了如何使用 Python 程序来扩展和自动化不同格式的数据处理和分析任务。主要内容包括:Python 基础知识介绍、读写 CSV 文件和 Excel 文件、数据库操作、示例程序演示、图表创建等。
这是一本畅销书的升级版,由知名数据公司 Cloudera 的数据科学家联合撰写,是一本使用 Spark 进行大规模数据分析的实用指南。书中涵盖了大规模数据分析中常用的算法、数据集和设计模式。新版本的 Spark 使用了新的核心 API,两个子项目 MLlib 和 Spark SQL 也发生了重大变化。本书为关注 Spark 发展趋势的读者提供了最新的信息。
“本书是大数据市场领导者Cloudera的经验总结,通过案例分析,详细展现了解决问题的整个过程。自第一版出版以来,一直位列亚马逊大数据分析类图书排行榜前列。中文版的出版,是国内技术界的福音。”
——思科中国研发公司CTO、原Cloudera副总裁缪凯翔
数据科学
这是图灵最受欢迎的数据科学书籍,豆瓣评分高达 9.0。本书重点介绍了 IPython、NumPy、Pandas、Matplotlib 和 Scikit-Learn 五个基本工具,可以完成数据科学中的大部分工作。它从实践的角度教授常见的数据科学任务,例如如何清洗和可视化数据防骗数据库查询,如何使用数据构建各种统计或机器学习模型等。旨在使从事与数据处理相关的各个领域的人们拥有发现和解决问题的能力。
本书用Python讲解数据科学的基础知识,涵盖数据收集、清洗、存储、检索、转换、可视化、高级数据分析(网络分析)、统计和机器学习。具体内容包括:Python数据科学的核心特性、文本数据、数据库、表格形式的数值数据、序列和框架、网络数据的使用、数据绘图、概率和统计以及机器学习。
“哈德利·威克姆是数据科学领域的传奇人物,发明了一种全新的数据分析方法。这本与加勒特·格罗勒蒙德合著的书详细介绍了这种新方法,被数据分析师视为圣经。”
——约翰·霍普金斯大学教授彭罗杰
“我向所有刚接触 R 的人推荐这本书。本书中的 R 代码详细解释了 R 中数据处理的基本原理。”
—RStudio 创始人兼首席执行官 JJ Allaire
本书由下载量达数百万次的 ggplot2 等多个知名 R 软件包的开发者 Hadley Wickham 和知名 R 培训师 Garrett Grolemund 联合出品,原版荣登亚马逊数学与统计学畅销书榜单。
作者旨在教会读者如何使用最重要的数据科学工具,从而为实施数据科学奠定坚实的基础。阅读后,您将掌握 R 语言的精髓,并能够熟练使用各种工具来解决各种数据科学问题。每章都按此顺序组织:首先给出一些引人入胜的示例,以便您整体理解本章内容,然后再深入细节。书中的每一部分都配有练习,帮助您实践所学知识。
原版在豆瓣的评分高达9.1,是亚马逊“数据仓库”榜单的畅销书。本书阐述了数据科学中至关重要的统计概念防骗数据库查询,并介绍了如何将各种统计方法应用于数据科学。作者以通俗易懂、易于浏览和易于参考的方式介绍了与数据科学相关的统计学中的关键概念;解释了每个统计概念在数据科学中的重要性和有用性,并给出了理由。
数据库
这是九年一线SQL开发经验的总结,原版亚马逊《其他数据库》顶级书籍。详细介绍了各种数据库的SQL查询技巧和一些基本的SQL查询语句,并通过实际操作讲解了如何插入、更新和删除数据。此外本书还介绍了如何使用SQL语句进行日期处理,以及其他一些SQL语句查询操作,可以帮助你掌握相关的SQL知识。
那么,此刻哪本书会对你有所帮助呢?前几天,各大网店都举办了图书促销活动,相信很多朋友都买到了不少自己喜欢的书。别把这些书当成背景墙了,还是要多花点时间去读。
文章末尾有福利
本期赠送6本数据相关书籍,你能告诉我在日常工作中你是如何与数据打交道的吗?或者生活中有哪些大数据?前3个赞+精选评论将选出3人。截止时间:2018.11.5 14:00。