非常感谢邀请我到这样一个美丽的地方来讨论如何从大数据中发现情报这样一个问题。我尽量在十分钟之内讲完我的发言。

我们公司是从2004年开始开放原代码,我们有一个系统,我们和传统的方法是不一样的,不是把数据带回家,把它碎片化,事实上我们是进行很好的分析,我们有一个很好的团队,用社会工程学的技术来实现我们的目标。与此同时我们进行实时的监控和分析。另外我们还做一些地理位置、地理围栏的工作。当然我们不会从事黑客的行为,我们处理的是网络上现有的信息,我们的用户是政府部门,还有一些大的公司,包括银行、电信、保险公司,主要是政府部门。

当我们看大数据的时候,大家都会看到大数据给我们带来的挑战,的确是一个问题,很难找到方向。尤其是马上要知道我们的方向。因为大量的互联网信息是不能检索的,所以我们有一些客户非常感兴趣的信息,但是是隐藏起来并且有密码的,我们不知道它在哪里。如果要成为他们当中的一部分,我们要跟这些所谓的坏人在一起。怎样实现这个目标,我们有一些特工。我们不是把所有的数据都拿回家,我们所需要的是有用的信息和情报,另外我们也要上facebook,看他们有什么爱好等等,这是一样的。我们现在要发现的就是成百上千人,在这个领域哪些是真正重要的,在这个网络时代是真正运筹帷幄的人,谁在影响他们。所以,我们希望实时拥有这样的信息。

同时,我们要把那些垃圾排除在外。我们要知道哪些人是对我们有用的,哪些信息是有用的。我们怎么样能实现呢?我花几分钟的时间给大家讲讲。

首先就是数据地图,我们会上一个网站看谁说明在哪里有什么团体参与其中。我们做的是非常深入的分析,去一些非常重要的网站,我们系统将会挑出最重要的网站,我们会深入的分析和挖掘。这些找出来的信息能够让我们看到我们需要看到的人,那些团体活动。可能他们之间只有1%的活动或者信息是有用的,我们会找出他们地理之间的联系,来做一些实时的监控。

我给大家边走边说。

我们现在看一些搜索。我们做的就是地图搜索,我们上一个网站,我们有一些团体文件网站,可以告诉我们他们有一些什么活动什么地方,有一些信息,我们得到的是所有的活动,在twitter上,还有一些秘密的团体。如果我们有一些工具的话,比如说这是facebook的团体,我们可以深入其中,可以看到所有发的帖子,还有成员。我可以做一些联系和分析,我也可以看到谁是最活跃的,最有影响力的,管理员位置,所有关于这个团体的信息都可以得到。

可能有上千人,我看的是最有效最活跃的人,每个人都可以点进去看他们的网页,分析他们等等。我们现在做的就是来深入挖掘一个人的信息,他们的朋友,我们可以看到他们也会加入其他的团体,我们就会挖掘其他团体的信息等等。所以每一个事情都是通过点击可以分析的。比如说我把它放到提醒栏,实时提醒,有新的帖子就可以得到提醒。我也可以用颜色进行标注,我们现在做的就是去一个链接分析,我们有所有的数据和生态系统相关的信息,每一个信息都是被聚集在一起,比如说不同实体之间的关系,看看他们有什么共同认识的人、网页、活动等等,就产生了这个地图,可以看到不同的实体,主要的实体参加这些生态系统活动的人,有一些共同的成员,比如说这个网页我打开,把它放到链接分析当中去,我可以看到前十名,所有人都可以看到。

现在我做一个演示,那个网页谁会注册,比如做一个示威活动。现在这个系统会分析两个不同的团体,谁会参加示威游行的活动。这个网页当中的人会去很多活动,每个网页都可以点击进去知道他们所有的信息。

我们现在做的就是让这个系统告诉我这些活动是从哪里来的,哪些国家。有很多国家会参与这些活动,我希望知道从地理的角度来分析,他们可能会说自己本地的语言。也许是从国外。我们做的就是去除一些孤立的信息。

现在我们看过滤器减少我们要看的一些团体,我们现在只关注最多五千到一万人的,我们也可以看到具体的国家,他们有哪些团体在参加这样的活动。

我们现在要做的就是看看我们可以把它标签,可以看到很多twitter等等网站上的信息,可以看到谁是发帖的,谁点了赞等等,很快就会有这样一个地图,现在看看这个地理位置,所有信息都是自愿,用不同平台的人。他们可能是打开了这个地理位置,我可以知道他们在哪里,发帖的位置在哪里,我可以知道他现在在什么地方。我们到twitter上看,他们在哪里。现在我们就看10万公尺范围,我可能会列出最活跃的20个人,他们在哪个网站哪个链接,都可以分析到。现在我可以看到,哪些人是这个活动当中比较重要的成员,如果不仔细查,这就是10到20个人主要的信息,那些地方是他们会去参加活动的地方。所以我们可以点一下他们去那个地方参加活动具体的情况。

最后,我想讲一讲关于监管。现在,每一分钟就可以看到30万个帖子,我们有一个新的搜索。我们可以搜索每一个信息,比如说在伦敦周围建立一个围墙,我们可以在伦敦地区画一个圈一个围墙,我们现在想做的就是把这个地区区域内的每个人发的twitter进行一些数据的选择、关健词等等。比如用红色标注一下,其他颜色也可以。

很快我们就可以看到每一条twitter,可能是通过facebook或者是谷歌,我们到twitter网上看它们的位置,两秒钟我们就可以得到提醒,我们知道他是哪里来的,可能就两三秒的延后时间,这就是我讲的我们有了大数据怎么分析情报,不是黑客侵入,不是盗窃,都是合法的。谢谢!