Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

  • A+
所属分类:python网络爬虫

相信昨天的Breaking news(爆搜)是本世纪伟大的物理学家霍金辞世,享年76岁。小伙伴肯定知道霍金的故事肯定很励志,他是智商肯定不是常人能及的,因为他的引领,不断的拓宽了人类对宇宙的认识。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

作为一名普通吃瓜群众,《时间简史》、《果壳中的宇宙》这些高大上的天书能知道名字就已经十分不错了,如果想看的话,要做好听凉凉的心里准备。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

不过别慌,看书看不懂,看电影总能更好接受一些吧,关于霍金的人物传记电影名叫《The Theory of Everything》,翻译过来是:《万物理论》,真是高大上哇~~这部电影首映距今有3年多了,那么作为程序猿,我们应该如何来缅怀这位伟大的科学家呢?言归正传,小编利用Python网络爬虫来爬取《万物理论》的影评,缅怀一些逝去的巨星。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

这个流程很简单,首先利用Python网络爬虫在豆瓣网上爬取电影短评,之后利用Python强大的分词库—jieba,对抓取到的电影短评做一个分词处理,再对处理后的词语进行相应的词频统计。最后,通过词云可视化对大家对该片的评论做一个展示,并分析其中的关键信息,具体流程如下。

第一步:抓取《万物理论》页面的短评信息

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

抓取《万物理论》页面的短评信息

第二步:使用Jieba分词对采集到的文本进行分词处理

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

Jieba分词处理

第三步:使用WordArt对分词文本进行词频统计并进行词云可视化展示

利用wordArt(https://tagul.com/)这款强大的免费在线生成词云的工具,将生成的关键词输入到词云工具中去。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

选择对比度高的照片的作为词云制作背景图(背景图设为霍金),之后在线自动生成词云图,其效果图如下:

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

换个词云背景,其效果图如下所示:

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

通过词云可视化,不难从词云中看出,字体较大的内容主要涉及:霍金、电影、雀斑、爱情、时间、伟大、传记等,这些词是电影短评中出现的高频词汇,可以推断出大家霍金脸上的雀斑以及他和简·王尔德(他的妻子)之间的爱情印象比较深刻。此外,我们也可以感受到读者们基本上都认可霍金这一位伟大又杰出的物理学家。

最后介绍一下斯蒂芬·威廉·霍金(Stephen William Hawking)——1942年1月8日出生于英国牛津,英国剑桥大学著名物理学家,现代最伟大的物理学家之一、20世纪享有国际盛誉的伟人之一。

Python程序员爬取《万物理论》10万影评,带你解读霍金的有趣故事

我们会永远怀念他 ~~

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: