图灵程序设计丛书大规模数据处理入门与实战套装全10册书籍-大规模数据处理入门与实战套装全10册mobi完整版

暂无评分
234
0

编辑点评：大规模数据处理入门与实战套装全10册mobi

小编今天给大家带来的是大规模数据处理入门与实战套装全10册的内容，每套书籍它都通过讲述各种具体的案例，以及开发人员和使用人员在面对这些案例时经常采用的错误解决方案，来介绍如何识别、利用这些陷阱，以及面对问题时正确的解决手段

内容介绍

《SQL反模式》是一本广受好评的SQL图书。它介绍了如何避免在SQL的使用和开发中陷入一些常见却经常被忽略的误区。它通过讲述各种具体的案例，以及开发人员和使用人员在面对这些案例时经常采用的错误解决方案，

来介绍如何识别、利用这些陷阱，以及面对问题时正确的解决手段。另外，《SQL反模式》还涉及了SQL的各级范式和针对它们的正确理解。　　《SQL反模式》适合SQL数据库开发人员与管理人员阅读。　　

SQL是使用广泛的数据库语言，几乎所有重要的DBMS都支持SQL。《图灵程序设计丛书：SQL必知必会（第4版）》由浅入深地讲解了SQL的基本概念和语法，涉及数据的排序、过滤和分组，以及表、视图、联结、子查询、

游标、存储过程和触发器等内容，实例丰富，便于查阅。新版增加了针对ApacheOpenOfficeBase、MariaDB、SQlite等DBMS的描述，并根据新版本的Oracle、SQLServer、MySQL和PostgreSQL更新了相关示例。　　

《图灵程序设计丛书：SQL必知必会（第4版）》适合SQL初学者，也可供广大开发及管理人员参考。　　《数据科学实战》脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义，它界定了数据科学的研究范畴，

是一本注重人文精神，多角度、全方位、深入介绍数据科学的实用指南，堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题，内容包括：数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、

数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外，本书还将带领读者展望数据科学未来的发展。本书由 Spark ***及核心成员共同打造，讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark，

它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题。本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境，从零开始讲解数据科学工作。

具体内容包括：Python速成，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k近邻法，朴素贝叶斯算法，等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，

详细展示了什么是数据科学。本书作为数据挖掘入门读物，介绍了数据挖掘的基础知识、基本工具和实践方法，通过循序渐进地讲解算法，带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式，呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果，

如何使用亲和性分析方法推荐电影，如何使用朴素贝叶斯算法进行社会媒体挖掘，等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。

《Hadoop安全大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程，介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题，

并在实际环境下加以讨论。第 1章是介绍性内容，随后分为四大部分：第一部分是安全架构，第二部分是验证、授权和安全审计，第三部分是数据安全，第四部分是归纳总结。介绍了几个使用案例，融合了书中诸多概念。

《Hadoop安全大数据平台隐私保护》适合对Hadoop感兴趣的读者，有大数据平台保护需求的读者。本书是关于Kafka的全面教程，主要内容包括：Kafka相对于其他消息队列系统的优点，主要是它如何匹配大数据平台开发；

详解Kafka内部设计；用Kafka构建应用的实践；理解在生产中部署Kafka的方式；如何确保Kafka集群的安全。本书适合Java开发人员、大数据平台开发人员以及对分布式系统感兴趣的读者阅读。通过提供分布式数据存储和并行计算框架，

Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。

本书分为两大部分，* 一部分从非常高的层次介绍分布式计算，讨论如何在集群上运行计算；* 二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。近年来，流处理变得越来越流行。

作为高度创新的开源流处理器，Flink拥有诸多优势，包括容错性、高吞吐、低延迟，以及同时支持流处理和批处理的能力。本书分为6章，侧重于介绍Flink的核心设计理念、功能和用途，内容涉及事件时间和处理时间、窗口和水印机制、

检查点机制、性能测评，以及Flink如何实现批处理。本书面向有兴趣学习如何分析大规模流数据的读者。

大数据处理基本过程

什么是大数据：大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点：Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)，百度随便找找都有。

点击链接加入群聊【大数据学习交流群】：大数据是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长!

1.是数据采集,搭建数据仓库，数据采集就是把数据通过前端埋点，接口日志调用流数据，数据库抓取，客户自己上传数据，把这些信息基础数据把各种维度保存起来，感觉有些数据没用(刚开始做只想着功能，有些数据没采集，后来被老大训了一顿)。

2.数据清洗/预处理：就是把收到数据简单处理，比如把ip转换成地址，过滤掉脏数据等。

3.有了数据之后就可以对数据进行加工处理，数据处理的方式很多，总体分为离线处理，实时处理，离线处理就是每天定时处理，常用的有阿里的maxComputer,hive,MapReduce,离线处理主要用storm,spark,hadoop,通过一些数据处理框架，可以吧数据计算成各种KPI,在这里需要注意一下，不要只想着功能，主要是把各种数据维度建起来，基本数据做全，还要可复用，后期就可以把各种kpi随意组合展示出来。

4.数据展现，数据做出来没用，要可视化，做到MVP，就是快速做出来一个效果，不合适及时调整，这点有点类似于Scrum敏捷开发，数据展示的可以用datav，神策等，前端好的可以忽略，自己来画页面。

数据采集：

1.批数据采集，就是每天定时去数据库抓取数据快照，我们用的maxComputer，可以根据需求，设置每天去数据库备份一次快照，如何备份，如何设置数据源，如何设置出错，在maxComputer都有文档介绍，使用maxComputer需要注册阿里云服务，https://help.aliyun.com/product/27797.html，链接是maxComputer文档。

2.实时接口调用数据采集，可以用logHub,dataHub,流数据处理技术,DataHub具有高可用，低延迟，高可扩展，高吞吐的特点。

高吞吐：最高支持单主题(Topic)每日T级别的数据量写入，每个分片(Shard)支持最高每日8000万Record级别的写入量。

实时性：通过DataHub ，您可以实时的收集各种方式生成的数据并进行实时的处理，

设计思路：首先写一个sdk把公司所有后台服务调用接口调用情况记录下来，开辟线程池，把记录下来的数据不停的往dataHub,logHub存储，前提是设置好接收数据的dataHub表结构，https://help.aliyun.com/document_detail/47448.html?spm=a2c4g.11186623.3.2.nuizA4，这是dataHub文档,下图是数据监控，会看到数据会不停流入

3.前台数据埋点，这些就要根据业务需求来设置了，也是通过流数据传输到数据仓库，如上述第二步。

数据处理：

数据采集完成就可以对数据进行加工处理，可分为离线批处理，实时处理。

1.离线批处理maxComputer，这是阿里提供的一项大数据处理服务，是一种快速，完全托管的TB/PB级数据仓库解决方案，编写数据处理脚本，设置任务执行时间，任务执行条件，就可以按照你的要求，每天产生你需要的数据，链接dataworks为文档。下图是检测任务实例运行状态

2.实时处理：采用storm/spark,目前接触的只有storm,strom基本概念网上一大把，在这里讲一下大概处理过程，首先设置要读取得数据源，只要启动storm就会不停息的读取数据源。Spout，用来读取数据。Tuple：一次消息传递的基本单元，理解为一组消息就是一个Tuple。stream,用来传输流，Tuple的集合。Bolt：接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。可以在里边写业务逻辑，storm不会保存结果，需要自己写代码保存，把这些合并起来就是一个拓扑，总体来说就是把拓扑提交到服务器启动后，他会不停读取数据源，然后通过stream把数据流动，通过自己写的Bolt代码进行数据处理，然后保存到任意地方，关于如何安装部署storm，如何设置数据源，网上都有教程，这里不多说。

数据展现：做了上述那么多，终于可以直观的展示了，由于前端技术不行，借用了第三方展示平台datav,datav支持两种数据读取模式，第一种，直接读取数据库，把你计算好的数据，通过sql查出来，需要配置数据源，读取数据之后按照给定的格式，进行格式化就可以展现出来，，链接为datav文档。可以设置图标的样式，也可以设置参数，

第二种采用接口的形式，可以直接采用api，在数据区域配置为api，填写接口地址，需要的参数即可，这里就不多说了。这次先记录这么多，以后再补充，内容为原创，若是有不对的地方还请评论纠正。

大数据处理的五大关键技术及其应用

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

大数据采集一般分为：

大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术

完成对已接收数据的辨析、抽取、清洗等操作。

抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术：改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术：改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多，有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。

机器学习中，可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

数据挖掘主要过程是：根据分析挖掘目标，从数据库中把数据提取出来，然后经过ETL组织成适合分析挖掘算法使用宽表，然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件，一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。

数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性，导致数据挖掘会涉及大量衍生变量计算，衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂，计算量就很大，特别是大量机器学习算法，都是迭代计算，需要通过多次迭代来求最优解，例如K-means聚类算法、PageRank算法等。

从挖掘任务和挖掘方法的角度，着重突破：

可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。

数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

预测分析成功的7个秘诀

预测未来一直是一个冒险的命题。幸运的是，预测分析技术的出现使得用户能够基于历史数据和分析技术(如统计建模和机器学习)预测未来的结果，这使得预测结果和趋势变得比过去几年更加可靠。

尽管如此，与任何新兴技术一样，想要充分发挥预测分析的潜力也是很难的。而可能使挑战变得更加复杂的是，由不完善的策略或预测分析工具的误用导致的不准确或误导性的结果可能在几周、几个月甚至几年内才会显现出来。

预测分析有可能彻底改变许多的行业和业务，包括零售、制造、供应链、网络管理、金融服务和医疗保健。AI网络技术公司Mist Systems的联合创始人、首席技术官Bob fridy预测:“深度学习和预测性AI分析技术将会改变我们社会的所有部分，就像十年来互联网和蜂窝技术所带来的转变一样。”。

这里有七个建议，旨在帮助您的组织充分利用其预测分析计划。

1.能够访问高质量、易于理解的数据

预测分析应用程序需要大量数据，并依赖于通过反馈循环提供的信息来不断改进。全球IT解决方案和服务提供商Infotech的首席数据和分析官Soumendra Mohanty评论道:“数据和预测分析之间是相互促进的关系。”

了解流入预测分析模型的数据类型非常重要。“一个人身上会有什么样的数据?” Eric Feigl – Ding问道，他是流行病学家、营养学家和健康经济学家，目前是哈佛陈氏公共卫生学院的访问科学家。“是每天都在Facebook和谷歌上收集的实时数据，还是难以访问的医疗记录所需的医疗数据?”为了做出准确的预测，模型需要被设计成能够处理它所吸收的特定类型的数据。

简单地将大量数据扔向计算资源的预测建模工作注定会失败。“由于存在大量数据，而其中大部分数据可能与特定问题无关，只是在给定样本中可能存在相关关系，”FactSet投资组合管理和交易解决方案副总裁兼研究主管Henri Waelbroeck解释道，FactSet是一家金融数据和软件公司。“如果不了解产生数据的过程，一个在有偏见的数据上训练的模型可能是完全错误的。”

2.找到合适的模式

SAP高级分析产品经理Richard Mooney指出，每个人都痴迷于算法，但是算法必须和输入到算法中的数据一样好。“如果找不到适合的模式，那么他们就毫无用处，”他写道。“大多数数据集都有其隐藏的模式。”

模式通常以两种方式隐藏:

模式位于两列之间的关系中。例如，可以通过即将进行的交易的截止日期信息与相关的电子邮件开盘价数据进行比较来发现一种模式。Mooney说:“如果交易即将结束，电子邮件的公开率应该会大幅提高，因为买方会有很多人需要阅读并审查合同。”

模式显示了变量随时间变化的关系。“以上面的例子为例，了解客户打开了200次电子邮件并不像知道他们在上周打开了175次那样有用，”Mooney说。

3 .专注于可管理的任务，这些任务可能会带来积极的投资回报

纽约理工学院的分析和商业智能主任Michael Urmeneta称:“如今，人们很想把机器学习算法应用到海量数据上，以期获得更深刻的见解。”他说，这种方法的问题在于，它就像试图一次治愈所有形式的癌症一样。Urmeneta解释说:“这会导致问题太大，数据太乱——没有足够的资金和足够的支持。这样是不可能获得成功的。”

而当任务相对集中时，成功的可能性就会大得多。Urmeneta指出:“如果有问题的话，我们很可能会接触到那些能够理解复杂关系的专家” 。“这样，我们就很可能会有更清晰或更好理解的数据来进行处理。”

4.使用正确的方法来完成工作

好消息是，几乎有无数的方法可以用来生成精确的预测分析。然而，这也是个坏消息。芝加哥大学NORC (前国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes说:“每天都有新的、热门的分析方法出现，使用新方法很容易让人兴奋”。“然而，根据我的经验，最成功的项目是那些真正深入思考分析结果并让其指导他们选择方法的项目——即使最合适的方法并不是最性感、最新的方法。”

罗切斯特理工学院计算机工程系主任、副教授shanchie Jay Yang建议说:“用户必须谨慎选择适合他们需求的方法”。“必须拥有一种高效且可解释的技术，一种可以利用序列数据、时间数据的统计特性，然后将其外推到最有可能的未来，”Yang说。

5.用精确定义的目标构建模型

这似乎是显而易见的，但许多预测分析项目开始时的目标是构建一个宏伟的模型，却没有一个明确的最终使用计划。“有很多很棒的模型从来没有被人使用过，因为没有人知道如何使用这些模型来实现或提供价值，”汽车、保险和碰撞修复行业的SaaS提供商CCC信息服务公司的产品管理高级副总裁Jason Verlen评论道。

对此，Fontes也表示同意。“使用正确的工具肯定会确保我们从分析中得到想要的结果……”因为这迫使我们必须对自己的目标非常清楚，”她解释道。“如果我们不清楚分析的目标，就永远也不可能真正得到我们想要的东西。”

6.在IT和相关业务部门之间建立密切的合作关系

在业务和技术组织之间建立牢固的合作伙伴关系是至关重要的。客户体验技术提供商Genesys的人工智能产品管理副总裁Paul lasserr说:“你应该能够理解新技术如何应对业务挑战或改善现有的业务环境。”然后，一旦设置了目标，就可以在一个限定范围的应用程序中测试模型，以确定解决方案是否真正提供了所需的价值。

7.不要被设计不良的模型误导

模型是由人设计的，所以它们经常包含着潜在的缺陷。错误的模型或使用不正确或不当的数据构建的模型很容易产生误导，在极端情况下，甚至会产生完全错误的预测。

没有实现适当随机化的选择偏差会混淆预测。例如，在一项假设的减肥研究中，可能有50%的参与者选择退出后续的体重测量。然而，那些中途退出的人与留下来的人有着不同的体重轨迹。这使得分析变得复杂，因为在这样的研究中，那些坚持参加这个项目的人通常是那些真正减肥的人。另一方面，戒烟者通常是那些很少或根本没有减肥经历的人。因此，虽然减肥在整个世界都是具有因果性和可预测性的，但在一个有50%退出率的有限数据库中，实际的减肥结果可能会被隐藏起来。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。

在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。