【书籍推荐】自己动手写大数据系统_张魁_2

点击下载本资源

《大数据的处理》一书,是大数据领域的一本实用指南,深入浅出地讲解了大数据处理过程中的关键技术。本书的第5章“大数据的处理”部分,特别引人注目,尤其是5.6节“使用HiveQL清洗数据、提取维度信息”,为读者揭示了如何高效地处理和分析大数据。

在5.6.1节中,作者详细介绍了如何使用HQL(HiveQL)进行数据清洗,这对于那些正在处理大量数据并需要提取维度信息的读者来说,无疑是一大福音。书中通过实例展示了如何将原始数据从stgjob表导入到sjob表,同时使用HQL语句对维度为空的字段进行转换,使数据更加整洁和易于分析。

本书的这一章节不仅提供了HQL语句的具体示例,还详细解释了每个步骤背后的原理,让读者不仅能够学会如何操作,还能理解其背后的逻辑。例如,书中提到的HQL语句:

“`sql
INSERT INTO SJOBS PARTITION (pt)
SELECT
web id,
web type.
job url,
job namo。
CASE
WHE job ocation IS NULL OR TRIM(job ocatan) = ” THEN
ELSE job location
END Job location,
job dosc.
CASE
WHEK Gd: IS NULL OR TRIM(Gd:) = ” THEN
ELSE odu
END edu.
钅澈擔閆组ondor,
1angu8g台,
major,
CASE
WHEH WOrk YeAr IS NULL OR TRIM(WOrk year) = ” THEN
ELSE work year
EHD work year
CASE
WHEK alrY IS NULL OR TRIM(alrY) = ” THEN
ELSE salary
END laY
company nane,
company desc,
company addrьss.
campany worktype,
company scalo.
curl tinestamp,
Pt
F POM
stg_1ob
WHERE
pt “20150501”
“`

这段代码展示了如何通过HiveQL将原始数据中的空字段进行填充,确保数据的完整性和准确性。这不仅提高了数据质量,也为后续的数据分析工作打下了坚实的基础。

如果你是数据分析师、数据工程师或者对大数据处理感兴趣的人,这本书的第5章将是你不可或缺的参考资料。它不仅能够帮助你掌握HiveQL的使用技巧,还能让你对大数据处理的全过程有更深入的理解。总之,《大数据的处理》是一本值得推荐的书籍,它将带领你走进大数据的世界,探索数据处理的奥秘。