利用Power Query为透视表准备规范数据源——格式规范篇
2020-04-30阅读 508

数据透视表是Excel中最强大的统计分析工具,而且简单易用,深受职场精英的欢迎。

图片.png

但是,透视表要想顺利必须满足规范的结构和格式要求。数据格式中,最常见问题就包括日期格式错误、单元格中有多余的空格。当数据量大时候,这些问题不容易被发现,解决这些问题也要浪费很多时间。

现在Excel中引入了Power Query数据处理技术,可以通过几个简单的操作就可以完成数据的规范整理。

1.      空格符号清洗

在日常使用的电子表格单元格中,偶尔会出现看不见的“空格”特殊字符。因为空格看不见,经常会影响到表格里的数据计算。这些我们认为是“空格”的对象有两种类型:一种是真正的“空格”;另一种是“非打印字符”,例如回车(产生空行)、制表符(按Tab键产生的空格)等符号。

加载要处理的数据,进入Power Query编辑器后,可以看到单元格中的问题。选择所有列,点击“转换”选项卡——“格式”菜单,点击“清除”和“修整”两个命令。

清除:删除所选列的非打印字符

修正:从所选列的每个单元格内容中删除前缀和后缀的空格字符。

图片.png

2.     日期和时间的整理

日期信息是数据分析中的重要维度,重点就是要满足日期字段格式的规范。

我们每个人电脑上默认规范的日期格式,与Windows操作系统的区域语言选项设置有关,常见规范格式例如“2019-10-11”、“2019/10/11”。经常出现的日期错误包括:

  •  保存类型错误:看似是标准日期,实际上是按文本类型保存,默认在单元格中靠左侧对齐。真正的数字类型日期是居右侧对齐的。

  •  日期书写错误:没有分隔符“20191011”、分隔符错误“2019.10.11”、年不完整“19-10-11”

下面案例包括一些格式不规范的日期

图片.png

在完成数据获取后,在Power Query编辑器中我们可以看到“订购日期”、“送货日期”已经被自动处理为违法日期。字段标题上显示了日期格式 图标。

可以点击“查询设置”窗口中的最后两个步骤对比一下结果。

图片.png

以上介绍了利用Excel 中的Power Query进行数据清洗、转换的常用功能,这些功能可以快速精准的完成规范格式调整,大大提高数据规范质量,丰富了数据属性,为后续数据分析奠定良好基础。