实用的工具,有趣的人

1998年的9月4日,拉里·佩奇和谢尔盖·布林将Google带到这个世界。就在前几天,Google刚刚过了20岁生日。经过20年的发展,Google早已不是当初的小作坊了,而是发展成为被大家公认的全球最大的搜索引擎公司。20年间,Google不仅在搜索技术上表现颇为出色,在大数据、云计算、AI等各个方面都有着巨大的贡献。

我们都知道,如今世界已经从互联网时代走向大数据时代。数据几乎已经成为各个互联网公司的命脉,数据分析师这一职位也应运而生(虽然我本人不是数据分析师),但是我对数据分析很感兴趣。刚刚过完20岁生日的Google这次可以算是给数据分析师和数据分析爱好者们送上了一份大礼(果然是大公司,自己过生日还给我们送礼)——一款叫做Google Dataset Search的搜索引擎。它是一款专门用来搜索数据集的搜索引擎,搜索结果中包括了数据集的创建者,发布时间,数据集的收集方式,数据集的使用条款以及对数据集的描述。

还记得我当初自学大数据知识的时候,每每到了想要亲自动手试一试的时候,总是为找不到合适的数据集而苦恼。最后,我决定自学Python爬虫,想要什么数据都自己动手爬。然而,这种工作还是挺繁琐的,也许对我这种自学的爱好者无所谓,反而还多掌握一门技术。但对于专门从事数据科学工作的人来说可能会觉得很痛苦。

随着Google Dataset Search的诞生,这种“巧妇难为无米之炊”的尴尬终于一去不复返了。现在你想要什么数据集都可以直接搜索,简直不要太方便。

这个网站的地址是:

https://toolbox.google.com/datasetsearch

可以访问的同学可以上去体验一下,目前还是Beta版,没办法访问的同学,看看这个界面先过过瘾吧。

datasetSearch

以上就是今天要介绍的实用的工具。下面再来介绍一个有趣的人,同样是和DataSet Search有关。

要介绍的这个人呢,作为程序员一定很熟悉,就是Linux之父Linus Torvalds。怀着对大神的崇敬之情,我今天用Dataset Search搜索了一下Linus。结果果然没有令我失望,先来展示一下搜素结果。

linus

第一条是Linus Torvalds Rants,可以理解为Linus的粗话(这是什么鬼?黑人问号脸)。

我们注意到数据集的描述为Linus2012年到2015年邮件的粗话合集。到这里有些怀疑这个数据集的真实性,不过对大神崇敬之情驱动着我点了进去,看看大神是怎么骂人的,

rants

这是数据集的部分截图,链接也都是可以直接访问的。

总之,Linus大神说话还是挺文明的,这种做法也非常有Linus的风格。(这里顺便提一下,Linus曾经在Linux内核代码中记录了女儿的生日)怎么样,是不是今天才发现原来Linus是如此有趣的人?

最后,国内某公司CEO说要“再”次击败Google,我觉得他们首先还是要多做些像这样有意义的事吧。

Jackey Wang wechat
欢迎关注我的公众号,一起讨论如何写bug
-------------本文结束感谢您的阅读-------------
原创不易,感谢支持