数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

  • A+
所属分类:编程语言

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

下面是要用到的数据集:

  • BL-Flickr-Images-Book.csv - 一份来自英国图书馆包含关于书籍信息的CSV文档

  • university_towns.txt - 一份包含美国各大洲大学城名称的text文档

  • olympics.csv - 一份总结了各国家参加夏季与冬季奥林匹克运动会情况的CSV文档

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

删除DataFrame的列

经常的,你会发现数据集中不是所有的字段类型都是有用的。例如,你可能有一个关于学生信息的数据集,包含姓名,分数,标准,父母姓名,住址等具体信息,但是你只想分析学生的分数。

这个情况下,住址或者父母姓名信息对你来说就不是很重要。这些没有用的信息会占用不必要的空间,并会使运行时间减慢。

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

因此,我们可以用下面的方法移除这些列:

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

我们再次看一下DataFrame,我们会看到不要想的信息已经被移除了。

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

重命名列和移除行

经常的,你处理的数据集会有让你不太容易理解的列名,或者在头几行或最后几行有一些不重要的信息,例如术语定义,或是附注。

这种情况下,我们想重新命名列和移除一定的行以让我们只留下正确和有意义的信息。

为了证明我们如何处理它,我们先看一下"olympics.csv"数据集的头5行:

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

现在我们将它读入pandas的DataFrame。

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

谢谢阅读!

数据科学家80%的时间都用来数据清洗!非常麻烦!学会这六种就好

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: