其实是老客户了,而且在放假之前就和我打招呼了。今天也没有休息,直接就上了,是一个影片介绍站点的。目标站点自然是迅雷的。
迅雷真够厉害的,竟然有这种招数来防采集:就是在html文件开头加上一个这个<base href=”http://movie.xunlei.com” />,这样一来我们浏览器,也就是正常浏览一点问题都没有,但是采集器就不行了,我相信绝大多数的采集器都没有办法对付这个。因为一般的采集器所设定的根链接就是使用一级文章列表地址作为根链接的。
还好,火车采集器有导出功能,可以稍做修改之后再导入,这样就为我们提供了很大的方便。不过对客户来说还是比较麻烦的,毕竟多了一个步骤之后就多了一层难度。
还有就是一些小的技术问题可以通过多层替换和变换采集的条件字符串来解决,特别是过滤某些内容的时候,稍微动脑就可以解决大问题,最终达到完美过滤的问题。
模块+采集规则+演示动画=50RMB。唉,辛苦啊,要是别人那里,一个模块就是50……
没办法,现在是买方市场,自己急需用钱,家里说要给我汇钱还欠款,被我拒绝了,我想靠自己的力量来实现自己的梦想。 人总该长大了……