设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย french

搜索
热搜: 活动 交友 discuz

开始采集漫画站 [复制链接]
查看:119 | 回复:18

158

主题

1766

回帖

4104

积分

论坛元老

积分
4104
发表于 2013-6-20 13:17:56 | 显示全部楼层 |阅读模式
求指点
python有没有什么好用的采集工具?

39

主题

1306

回帖

2759

积分

金牌会员

积分
2759
发表于 2013-6-20 13:18:48 | 显示全部楼层
   不懂...我是来看头像的

82

主题

2336

回帖

5012

积分

论坛元老

积分
5012
发表于 2013-6-20 13:19:39 | 显示全部楼层
requests

158

主题

1766

回帖

4104

积分

论坛元老

积分
4104
 楼主| 发表于 2013-6-20 13:21:30 | 显示全部楼层

chairo 发表于 2013-6-20 13:19



requests

我以前一直用的urllib 和 re模块
听说有个叫scrapy的 采集很给力
但是我不会xpath 这东西好学么?

8

主题

124

回帖

284

积分

中级会员

积分
284
发表于 2013-6-20 13:19:00 | 显示全部楼层
使用火车头 不过火车头能采集的也比较少(大部分需要配合插件)


图片单独使用软件下载

158

主题

1766

回帖

4104

积分

论坛元老

积分
4104
 楼主| 发表于 2013-6-20 13:21:52 | 显示全部楼层

ninqq 发表于 2013-6-20 13:21



使用火车头 不过火车头能采集的也比较少(大部分需要配合插件)
图片单独使用软件下载 ...

图片下载应该没问题 之前采集过电影站
python实现起来还是很方便的

8

主题

124

回帖

284

积分

中级会员

积分
284
发表于 2013-6-20 13:22:45 | 显示全部楼层

ericls 发表于 2013-6-20 13:22



图片下载应该没问题 之前采集过电影站
python实现起来还是很方便的

呵呵图片和电影站不同的 都是T级别的数据

158

主题

1766

回帖

4104

积分

论坛元老

积分
4104
 楼主| 发表于 2013-6-20 13:21:00 | 显示全部楼层

ninqq 发表于 2013-6-20 13:23



呵呵图片和电影站不同的 都是T级别的数据

。。。
就是啊。。
这个怎么搞。。
除了需要大硬盘外 还需要什么?

8

主题

124

回帖

284

积分

中级会员

积分
284
发表于 2013-6-20 13:23:29 | 显示全部楼层

ericls 发表于 2013-6-20 13:24



。。。
就是啊。。
这个怎么搞。。


漫画程序+完美的采集方案(包括图片下载方案)大硬盘的服务器
当然你如果技术好也可以盗链

0

主题

1

回帖

4

积分

新手上路

积分
4
发表于 2013-6-20 13:22:00 | 显示全部楼层

ninqq 发表于 2013-6-20 13:26



漫画程序+完美的采集方案(包括图片下载方案)大硬盘的服务器
当然你如果技术好也可以盗链 ...

完美的采集方案? 比如?
给个思路可以不。。。
谢谢

ericls 发表于 2013-6-20 13:29



完美的采集方案? 比如?
给个思路可以不。。。
谢谢

一般都是分3部采集的盗链的2部
1:漫画的信息部分采集
2:章节部分采集
3:图片采集下载

另外你还要解决采集的更新连载
您需要登录后才可以回帖 登录 | 立即注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

Archiver|手机版|Discuz! X

GMT+8, 2026-6-10 15:57 , Processed in 0.029189 second(s), 4 queries , Gzip On, Redis On.

返回顶部