“小”数据的危害

就我个人来说,离开学校进入工作之后,就离“入侵”啊、“破解”啊、“黑客”啊越来越远了。年龄越来越大,明白的事情理应越来越多。理应明白那些在 sunnet 百无聊赖瞎扯蛋的日子是回不来啦!

这两年业内的发展还真有点另人惊讶,不停的有新的数据泄漏,有新的重大安全漏洞,有新的安全事故发生,只是似乎从手法上来说并无新意。依然老三篇:0day + 社工 + 易入目标。但是想想也对,自古打劫的就是威胁、恐吓、讲道理。手中的武器怎么更替,这根基是不会动摇的。不过有这么多数据样本,不玩玩实在是对不起人民群众啊!

一不留神,扯了很多的蛋出来。那么回到主题,这两天疑似 12306 又泄漏了数据了。我拿到的是一个有 131653 条记录的文本文件。原始编码是 GB18030。至于这个数据到底是 12306 还是其他抢票平台泄漏的这个无从追究(或者不必要追究了)。在这次事件中,我遇到的对于这份数据最常见的反应(不论是技术人员还是非技术人员)都颇为一致:我搜了,里面没我……。确实,相对 12306 那庞大的用户信息库来说(数据总量估计是这个样本数据的一万倍以上,但是即便就是这个总量距离我们概念上的大数据还是很小的),要在这个小样本数据中找到自己其实不并不容易。那么换句话说,我们是不是就可以认为,这个广为流传的样本的价值(危害)很小了呢?

该样本数据为文本格式,数据总量 131653 条行记录,原始编码为 GB18030 编码。其中字段分隔符为“—-”,每行记录有 7 个字段。除第一个和最后一个字段重复为电子邮箱外(怀疑分别对应数据库内登录帐号和电子邮箱字段),其余字段还包含真实姓名、身份证号、手机、密码的信息。其中,第二和第四字段内容疑似密码。有好事之徒已经尝试使用其中一个密码对部分帐号进行登录测试并已经成功,同时听说(twitter消息)12306的修改密码功能已经下线。因此,个人怀疑如果确为 12306 直接泄漏的内容,极为有可能是密码找回部分的注入漏洞引起的。

再来看看好玩点的内容,在这十三万的数据中,有 235 个不同的邮箱域名,其中前十位排名:

train-ticket-leak-email
(刚才在上传图片的时候发现,GFW 已经开始对文件名含有 12306 leak 这样的内容进行屏蔽了)

如果各位手中有邮箱的市场占有的 top10 行业数据,可以比对一下。当然,会有出入,但是不应当很大才对。

更进一步分析,在这些数据中,只有一个帐号使用的邮箱域名有 185 个,其中有企业域名、学校域名、邮箱服务商的特色 VIP 域名、国外邮箱域名等等。其中我甚至还看到几个 gov.cn 的域名。

而这些数据中有 264 条的身份标识信息不是 18 位,那么多半是护照或其他身份标识号码。假设其余全部使用身份证号码的话:

从高到低前六大省分别是湖北(42)、江苏(32)、浙江(33)、四川(51)、湖南(43)、河南(41),数据量也差不多,八九千的样子。最少的西藏(54)只有 42 条记录,同时没有任何台湾省(71)、香港特别行政区(81)和澳门特别行政区(82)的记录。一切预料之中吧?

train-ticket-provinces

年龄最大的 1920 年出生,近百岁的老人啊;年龄最小的今年(2014)出生。80末、90初人数最多:年轻人,出行多,用网络多。

train-ticket-age

关于出生月份,一个余弦曲线啊!其深入原因一定值得探索:

train-ticket-birth

女娃不出门,男丁闯千里……关于性别比例:

train-ticket-gender

十大姓氏,这个看看就好,没啥实际意义:

train-ticket-name

对于所用电话,我只能说联通这两年占尽天时地利人和:

train-ticket-tel

这些还只是单项分析,其实如果跟随某个线索进行联合分析,比如使用全球通电话的人群中 1995 年后出生,身份证在北上广的,使用 vip 邮箱的女性……话说,如果是做精准营销的话你们知道要怎么办了吧?

通过这些小数据,将这十三万人很容易的进行了分类。要继续进行社工?那已经不是我所感兴趣的范畴了。

现在来看看密码。

train-ticket-password-len

大部分人使用的密码位数明显还是偏短,这说明虽然各种消息都在不停的强调密码长度直接影响被猜解的可能,但是显然大家还是没有引起足够的重视啊!更奇葩的是,居然有人使用 4 位的密码,而 12306 要求最短密码为 6 位……看来这个数据来源未必那么直接啊!

我随便选择了一个测试密码强度的 PHP 函数,测试了一下。从某个角度来说,大家的密码强度普遍相当、相当、相当低……

train-ticket-password-strength

在数据集合层面泛泛的看看,大家可能没啥感觉。那么抽取几个数据样本来看看吧。举个最简单的例子,/^(\d+)@qq.com$/,看看有什么漂亮的 QQ 号。比如来自福建的馒头,号码很闪耀。再比如来自天津河东的大旭,我还以为那是警察的号码呢!再比如来自荆门从事养殖业的李先生,一看就知道是个土豪……

别问我这些个人信息我怎么知道的,这些都是网上的公开信息,只需要一个好用的搜索引擎,足以!

我相信,通过“大”数据的威力,完全可以通过网上公开信息完整的将一个人的生活映射出来。我也相信,这个技术最广泛的利用绝对不像推进这个行业发展的那些希望为人类做出贡献的英才们所期望的那样。不是我内心阴暗,而是这就是“母体”所在。

千万别小看“小”数据的泄漏,千万别掉以轻心!!!!切记,切记!!!还有,干咱们这行的,蓝药丸还是红药丸,这是一个选择!!!

Comments

3 responses to ““小”数据的危害”

  1. yiqing Avatar
    yiqing

    数据分析 好像很厉害的样子 所谓的 管中窥豹 一叶知秋啊

  2. xinwendashibaike Avatar

    是用什么工具进行分析的?

  3. cbf107 Avatar

    看到我没有?

Leave a Reply

Your email address will not be published. Required fields are marked *