php数据采集,php数据采集方法

PHP数据采集问题（相对地址转绝对地址）

其实用不着这么麻烦的，采集时，你看到的图片路径是相对地址，是相对当前域名的一个相对路径而已，你只要在前面加上

创新互联专业为企业提供高明网站建设、高明做网站、高明网站设计、高明网站制作等企业网站建设、网页设计与制作、高明企业网站模板建站服务，十年高明做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

http://当前域名（采集内容的域名，比如zhidao.baidu.com）/

就是它的绝对地址了，

就像/abc.jpg一样

http://当前域名（采集内容的域名，比如zhidao.baidu.com）/abc.jpg就是绝对地址了

没必要搞复杂

这个需要配合js，打开一个html页面，首先js用ajax请求页面，返回第一个页面信息确定处理完毕（ajax有强制同步功能），ajax再访问第二个页面。（或者根据服务器状况，你可以同时提交几个URL，跑几个相同的页面）

参数可以由js产生并传递url，php后台页面根据URL抓页面。然后ajax通过php，在数据库或者是哪里设一个标量，标明检测到哪里。由于前台的html页面执行多少时候都没问题，这样php的内存限制和执行时间限制就解决了。

因为不会浪费大量的资源用一个页面来跑一个瞬间500次的for循环了。（你的500次for循环死了原因可能是获取的数据太多，大过了php限制的内存）

不过印象中curl好像也有强制同步的选项，就是等待一个抓取后再执行下一步。但是这个500次都是用一个页面线程处理，也就是说肯定会远远大于30秒的默认执行时间。

问题其实不难，自己都能写。给你几个思路吧：

1.在百度知道中，输入linux，然后会出现列表。复制浏览器地址栏内容。

然后翻页，在复制地址栏内容，看看有什么不同，不同之处，就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数，获取链接URL的内容。

3.通过php正则表达式，获取你需要的3个字段内容。

4.写入数据库。

需要注意的是，百度知道有可能做了防抓取的功能，你刚一抓几个页面，可能会被禁止。

建议也就抓10页数据。

其实不难，你肯定写的出来。还有，网上应该有很多抓取工具，你找找看，然后将抓下来的数据

在做分析。写入数据库。

分享名称：php数据采集,php数据采集方法
URL链接：http://cqcxhl.cn/article/hsssoh.html