做数据分析必须了解的获取数据与清洗数据技巧-白红宇

做数据分析必须了解的获取数据与清洗数据技巧

阅读量：7229 次

发布时间：2019-06-29

本文共 742 字，大约阅读时间需要 2 分钟。

参与文末话题讨论，每日赠送异步图书

——异步小编

每个数据科学家都需要处理存储在磁盘中的数据，这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外，数据还可以存储在数据库表格中。在对数据进行分析之前，数据科学家首先要做的是从这些数据源获取各种格式的数据，并对这些数据进行清洗，去除其中的噪声。今天推荐的图书是《Java数据科学指南》一书，并从中节选第一章内容，从本文中我们将学习这些内容，即了解如何从不同数据源获取各种格式的数据。

在这一过程中，我们将用到外部Java库（Java归档文件，简称JAR文件），这些库的使用不仅限于本文，还贯穿于《Java数据科学指南》一书。这些库由不同开发者或组织开发，方便了大家的使用。编写代码时，我们会用到Eclipse IDE工具，它是Windows平台下最好的集成开发环境，全书都会使用它。接下来，我们将讲解如何导入任意一个外部JAR文件，以下各个部分将指导你把外部JAR文件导入到项目中，跟随步骤动手去做即可。

对于一个Eclipse项目，你可以采用如下方法添加JAR文件：首先依次单击“Project|Build Path|Configure Build Path”，在Libraries选项卡中，单击“Add External JARs”，选择你想添加到项目的外部JAR文件，如图1-1所示。

1.2　使用Java从分层目录中提取所有文件名　

这部分内容（以及后面各部分内容）是为那些想从复杂目录结构中提取文件路径与名称的数据科学家准备的，以方便进一步进行后续分析。这里的复杂目录结构是指在一个根目录下包含大量目录与文件。

转载于:https://my.oschina.net/u/3611008/blog/1817316

你可能感兴趣的文章

1.2 使用Java从分层目录中提取所有文件名

1.2　使用Java从分层目录中提取所有文件名