设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย french

搜索
热搜: 活动 交友 discuz
12
返回列表 发新帖

采集是个辛苦活。。 [复制链接]
查看:133 | 回复:15

2

主题

17

回帖

50

积分

注册会员

积分
50
发表于 2011-7-2 07:35:53 | 显示全部楼层
原帖由 leaderweb 于 2011-7-2 07:35 发表


楼主采集的啥呀?什么站?


ass。。xxx content -----

184

主题

1937

回帖

4506

积分

论坛元老

积分
4506
发表于 2011-7-2 16:22:26 | 显示全部楼层
原帖由 糕手 于 2011-7-2 02:40 发表


尼玛的 直接开火车就OK了  何必去写神马正则 搞死人......






火车就更加麻烦了,比curl还要麻烦,而且远没有curl灵活

184

主题

1937

回帖

4506

积分

论坛元老

积分
4506
发表于 2011-7-2 16:23:18 | 显示全部楼层
我用帝国就很爽,没那么复杂,或者火车头。

194

主题

2112

回帖

4916

积分

论坛元老

积分
4916
发表于 2011-7-2 20:53:23 | 显示全部楼层
写好采集规则就万事无忧了……

3

主题

96

回帖

229

积分

中级会员

积分
229
发表于 2011-7-2 21:15:25 | 显示全部楼层
被k 时 死的 更惨

32

主题

704

回帖

1572

积分

金牌会员

积分
1572
发表于 2011-7-3 09:19:45 | 显示全部楼层




哪有那么容易被k

google现在判断是否重复内容使用的听说是simhash算法,采集的时候不要傻傻地完全copy过来就好了,要多篇文章合并成一篇,这样就很可能不会被判断为镜像网页,被k几率很小
您需要登录后才可以回帖 登录 | 立即注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

Archiver|手机版|Discuz! X

GMT+8, 2026-6-24 00:26 , Processed in 0.019307 second(s), 3 queries , Gzip On, Redis On.

返回顶部