设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย french

搜索
热搜: 活动 交友 discuz
12
返回列表 发新帖

有人能搞出這樣子的源碼嗎? [复制链接]
查看:137 | 回复:14

36

主题

476

回帖

1088

积分

金牌会员

积分
1088
发表于 2010-12-1 00:15:07 | 显示全部楼层
爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么?除了赚点钱。。
你搞几个机器在你本地爬,一周能爬好几十T的。

3

主题

321

回帖

695

积分

高级会员

积分
695
发表于 2010-12-1 01:04:21 | 显示全部楼层
对于中文网页,要正确的读出 encode 的方式

可以从网页头部,HTTP header 读出,然后 decode 一下

3

主题

321

回帖

695

积分

高级会员

积分
695
发表于 2010-12-1 01:10:26 | 显示全部楼层
另外,这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件,不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型

56

主题

745

回帖

1680

积分

金牌会员

积分
1680
发表于 2010-12-1 07:01:04 | 显示全部楼层
nutch 开源的

56

主题

745

回帖

1680

积分

金牌会员

积分
1680
发表于 2010-12-1 07:05:22 | 显示全部楼层
一个很不错的想法,但你可能得为些付出一辈子的努力。
因为你的想法……,可能不是一个人的财力、精力……能完成的。
您需要登录后才可以回帖 登录 | 立即注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

Archiver|手机版|Discuz! X

GMT+8, 2026-6-29 07:44 , Processed in 0.017200 second(s), 4 queries , Gzip On, Redis On.

返回顶部