巧妙运用PHP函数实现采集器
创始人
2024-06-12 02:51:21
0

PHP经过长时间的发展,很多用户都很了解PHP了,我们现在可以利用PHP函数实现采集器程序。何为采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的。关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的。

#T#前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展。用php来做采集器主要用到两个PHP函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的。面就一步一步来讲功能实现。因为是采集小说,所以首先要将书名、作者、类型这三个提取出来,别的信息可根据需要提取。

这样还不够,还需要一个切取PHP函数:

  1. function cut($string,$start,$end){     
  2. $message = explode($start,$string);     
  3. $message = explode($end,$message[1]); return $message[0];}其中$string为要被切取的内容,$start为开始的地方,$end为结束的地方。取出分类号:     
  4.  
  5. $start = "Html/Book/";     
  6. $end    
  7. "List.shtm";     
  8. $typeid = cut($typeid[0][0],$start,$end);     
  9. $typeid = explode("/",$typeid);[/php]     
  10.  
  11. 这样,$typeid[0]就是我们要找的分类号了。方法如下:     
  12.  
  13. $ustart = "\"";     
  14. $uend    
  15. "\"";     
  16. //t表示title的缩写     
  17. $tstart = ">";     
  18. $tend    
  19. "<";     
  20. //取路径,例如:123.shtm,2342.shtm,233.shtm     
  21. preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);     
  22. //取标题,例如:***章 九世善人     
  23. preg_match_all("/ href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);     
  24. $countcountcount = count($url[0]);     
  25. for($i=0;$i<=$count;$i++)     
  26. {     
  27. $u = cut($url[0][$i],$ustart,$uend);     
  28. $t = cut($title[0][$i],$tstart,$tend);     
  29. $array[$u] = $t;     
  30. }    

$array数组就是所有的章节地址了,到这里,采集器就完成一半了,剩下的就是循环打开每个章节地址,读取,然后将内容匹配出来。这个比较简单,这里就不详细叙述了。好了,今天就先写到这吧,***次写这么长的文章,语言组织方面难免有问题,还请大家多包涵!

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...