27/06/2012 - Gopher beyond El[i]phants

首先要声明：虽然这是互联网行业的一个普遍现象，但本文讨论的内容，与我所在的公司和所从事的行业无关。

事情的起因是在一个讨论 yaf 的 qq 群有人问如何抓取某网站内容，比如这里。我得说，这个网站在防采集和防抓取方面一直做得很出色。当然更出色的是他们运营的内容的价值。

在几年之前，我就探索过这个问题。对内容的数字、标点进行部分图片化，并且不是固定图片。URL 甚至 md5 值都是变化的。那么最基本的思路就是图像内容的识别。
例如这是其中一个放大了 5 倍的数字：。蓝色背景是我手工加上去的，因为还有这样一个图：，你会发现原来同样的内容的图中还会有干扰点和偏移量的存在。那么难道真得要祭出像 opencv 这样的神器吗？其实，用一个采样/阈值匹配的办法，用 php 和 gd 库就可以实现一个简单的图像识别。
(more…)