如何采集部分内容图片化的网站

首先要声明:虽然这是互联网行业的一个普遍现象,但本文讨论的内容,与我所在的公司和所从事的行业无关。

事情的起因是在一个讨论 yaf 的 qq 群有人问如何抓取某网站内容,比如这里。我得说,这个网站在防采集和防抓取方面一直做得很出色。当然更出色的是他们运营的内容的价值。

在几年之前,我就探索过这个问题。对内容的数字、标点进行部分图片化,并且不是固定图片。URL 甚至 md5 值都是变化的。那么最基本的思路就是图像内容的识别。
例如这是其中一个放大了 5 倍的数字:。蓝色背景是我手工加上去的,因为还有这样一个图:,你会发现原来同样的内容的图中还会有干扰点和偏移量的存在。那么难道真得要祭出像 opencv 这样的神器吗?其实,用一个采样/阈值匹配的办法,用 php 和 gd 库就可以实现一个简单的图像识别。
Continue reading 如何采集部分内容图片化的网站