免费开源数据清洗工具Openefine是帮助用户转换数据集的工具。优化数据质量,便于在真实场景中使用。你的数据是混乱的。错误会散步到你的大数据集中。无论你多么小心,错误总是存在的。数据量越大,错误就越多。正确、清晰地了解上述情况,因此有数据质量的说法。
数据分析dataprofiling:又称数据考古(dataarcheology),是对数据集内部数值质量的统计分析和评估,以达到一致性、单值性和逻辑性。数据分析是olson于2003年提出的概念,利用分析技术发现正确、结构化、内容化、质量化的数据。换句话说,它是评估你的数据和信息当前状态以及包含多少错误的方法。
数据清洗datacleaning:试图通过移除空数据线或重复数据线、过滤数据线、聚集或转换数据值、单独多值单元等,以半自动的方式修复错误数据的过程。数据清洗是一个重复的过程,不可能在几天内完成。只有不断地发现和解决问题。客户通常需要确认是否过滤般需要客户确认。
IDTS:Interactivedatatransformationtols,交互数据转换工具,可快速、廉价地操作大数据,使用单个集成接口。
Openrefine就是这样一个可以观察和操纵数据的IDT工具。它类似于传统的Excel表格处理软件,但工作模式更像是数据库,以列和字段的形式工作,而不是单元格。这意味着Openrefine不仅适合编码新的行数据,而且功能强大。安装问题。
网址入口:http://openrefine.org/