重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
简单的分了几个步骤:
创新互联专注于贵定企业网站建设,成都响应式网站建设,商城网站定制开发。贵定网站建设公司,为贵定等地区提供建站服务。全流程定制网站开发,专业设计,全程项目跟踪,创新互联专业和态度为您提供的服务
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库
我只教你思路,很简单的
其它你可以设定一个计划任务,每隔多长时间执行你的PHP文件一次,计划任务设定可百度,有很多的的,你就搜索“计划任务执行php文件”就有了;
假如计划任务要执行的PHP文件叫task.php,这个文件在采集前先把要采集的文件第一条获取过来,然后去查询数据库比对一下,有没有更新,要是数据库里没有这第就把这条写入数据库
如果你要
和
之间的所有源码,用 preg_match 就可以,不用preg_match_all ,如果你要里面的所有的
标签中的内容,可以用preg_match_all //提取所有代码 $pattern = '/
(.+?)
/is'; preg_match($pattern, $string, $match); //$match[0] 即为
和
之间的所有源码 echo $match[0]; //然后再提取
之间的内容 $pattern = '/(.+?)li/is'; preg_match_all($pattern, $match[0], $results); $new_arr=array_unique($results[0]); foreach($new_arr as $kkk){ echo $kkk; }
先采集第一层页面的链接,然后往下层采集内容
至于代码,就是获取页面内容加正则收集链接
最简单的办法就是在你的所有中文页面上,一般在导航位置加一个英文页面首页的超链接。这样用户点英文那个链接就进入英文页面了。同样的,在所有的英文页面导航位置都加一个中文首页链接。推荐你用图片做这两个链接,这样不会因为用户没有装对应的语言系统而出现奇怪字符。比如欧美用户一般是不会装中文系统的,页面上有中文字符的时候必然显示为乱码。
网站目录当然要为中文和英文各建一个独立的目录,里面放置各自的页面了。
如果使用数据库的话,则思路是一样的。