重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
给一个例子你看看吧.
成都创新互联公司坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站制作、网站设计、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的尼河口网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!
if($pro_list_contents=@file_get_contents(''))
{
preg_match_all("/td width=\"50%\" valign=\"top\"(.*)td width=\"10\"img src=\"images\/spacer.gif\"/isU", $pro_list_contents, $pro_list_contents_ary);
for($i=0; $icount($pro_list_contents_ary[1]); $i++)
{
preg_match_all("/a href=\"(.*)\"img src=\"(.*)\".*span(.*)\/span/isU", $pro_list_contents_ary[1][$i], $url_img_price);
$url=addslashes($url_img_price[1][0]);
$img=str_replace(' ', '20%', trim(''.$url_img_price[2][0]));
$price=(float)str_replace('$', '', $url_img_price[3][0]);
preg_match_all("/a class=\"ml1\" href=\".*\"(.*)\/a/isU", $pro_list_contents_ary[1][$i], $proname_ary);
$proname=addslashes($proname_ary[1][0]);
include("inc/db_connections.php");
$rs=mysql_query("select * from pro where Url='$url' and CateId='{$cate_row['CateId']}'"); //是否已经采集了
if(mysql_num_rows($rs))
{
echo "跳过:{$url}br";
continue;
}
$basedir='/u_file/pro/img/'.date('H/');
$save_dir=Build_dir($basedir); //创建目录函数
$ext_name = GetFileExtName( $img ); //取得图片后辍名
$SaveName = date( 'mdHis' ) . rand( 10000, 99999 ) . '.' . $ext_name;
if( $get_file=@file_get_contents( $img ) )
{
$fp = @fopen( $save_dir . $SaveName, 'w' );
@fwrite( $fp, $get_file );
@fclose( $fp );
@chmod( $save_dir . $SaveName, 0777 );
@copy( $save_dir . $SaveName, $save_dir . 'small_'.$SaveName );
$imgpath=$basedir.'small_'.$SaveName;
}
else
{
$imgpath='';
}
if($pro_intro_contents=@file_get_contents($url))
{
preg_match_all("/\/h1(.*)\/td\/tr/isU", $pro_intro_contents, $pro_intro_contents_ary);
$p_contents=addslashes(str_replace('src="', 'src="', $pro_intro_contents_ary[1][0]));
$p_contents=SaveRemoteImg($p_contents, '/u_file/pro/intro/'.date('H/')); //把远程html代码里的图片保存到本地
}
$t=time();
mysql_query("insert into pro(CateId, ProName, PicPath_0, S_PicPath_0, Price_0, Contents, AddTime, Url) values('{$cate_row['CateId']}', '$proname', '$imgpath', '$img', '$price', '$p_contents', '$t', '$url')");
echo $url.$img.$cate."br\r\n";
}
}
phpquery和框架并无关系,我现在也是用CI的
先将pq引入进来
$content = file_get_content('');
phpQuery::newDocumentHTML($content);
$containers = pq("xxxx");就可以了,但你要抓取这个网站数据,他数据是js加载的,所以你只需要
$content = file_get_content(';dataSet.nd=1440145968553dataSet.rows=100dataSet.page=1dataSet.sidx=dataSet.sord=asc');这个地址返回是json数据,你直接json_decode()就OK
//页面语句
var userid = getElementById('#username');
var passwd = getElementById('#password');
$.ajax({
url:'后台处理地址',
dataType:'JSON',
type:'POST',
data:'username='+userid+'passwd='+passwd,
error: function(){
//post失败
}
success: function(data) {//post成功
if (data.s=='ok') {
//成功信息,处理语句
}else {
//失败信息,处理语句
}
}
});
//后台语句
if (count($volist) 0) {//有数据
......//处理语句
$data = array('s'='ok','html'=$html,'page'='span class="page"'.$show.'/span');
echo json_encode($data);
}else {//无数据
$html = "tr class='tr'td class='tc' colspan='11'暂无数据,等待添加~!/td/tr";
$data = array('s'='no','html'=$html);
echo json_encode($data);
}
大概是这样吧
?php
//设置连接
$DBserver
=
"localhost";
$DBname
=
"数据库";
$DBuser
=
"账号";
$DBpassword
=
"密码";
$con
=
mysql_connect("localhost","账号","密码");
mysql_select_db("数据库");
$contents
=
file_get_contents($url);
//$contents就是网页内容,$url就是链接
$contents
=
mysql_real_escape_string($contents);
//转义,不用可以不要
$SQL="
INSERT
INTO
数据库表(数据字段)
VALUES('{$contents}')";
mysql_query($SQL)
or
die(mysql_error());
?
PHP Simple HTML DOM或者phpQuery可以直接取得某些div中的内容,里面有几个例子专门针对于网页抓取,调整好抓取频次,舍去已经存在的数据,你可以参考下
;id=57class=2