设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย french

搜索
热搜: 活动 交友 discuz

关于比价网的一些问题 [复制链接]
查看:70 | 回复:7

75

主题

289

回帖

879

积分

高级会员

积分
879
发表于 2011-3-18 16:51:11 | 显示全部楼层 |阅读模式
看了一些比价网 搞不懂的是他们是时时采集的(比如用户点某本书 程序根据这本书名为关键字查询那个网站 如当当的销售价格 ),还是先采集了实际销售站入库, 或则还是调用对方的API????

163

主题

1934

回帖

4463

积分

论坛元老

积分
4463
发表于 2011-3-18 18:52:48 | 显示全部楼层
不懂

1

主题

22

回帖

67

积分

注册会员

积分
67
发表于 2011-3-18 21:50:34 | 显示全部楼层
呵呵,,这个可能门槛要高一些,千万数据量的及时索引,查询,台把台服务器搞不定哦。

5

主题

193

回帖

443

积分

中级会员

积分
443
发表于 2011-3-18 21:56:14 | 显示全部楼层
实时去查吧

134

主题

717

回帖

1946

积分

金牌会员

积分
1946
发表于 2011-3-18 23:55:07 | 显示全部楼层
不清楚了

91

主题

4681

回帖

9715

积分

论坛元老

积分
9715
发表于 2011-3-19 00:09:19 | 显示全部楼层
定时采集的。千万级没有的,360buy整站数据也就40w不到。书的识别比较容易,有统一的isbn

1

主题

22

回帖

67

积分

注册会员

积分
67
发表于 2011-3-19 17:00:40 | 显示全部楼层
价格可是弄成图片了的,怎么把不同网站的同一个商品按相似度合并一起,也是不简单的。

91

主题

4681

回帖

9715

积分

论坛元老

积分
9715
发表于 2011-3-19 17:50:46 | 显示全部楼层





那几个图片价格站还算好认,网上也有现成的ocr方案,就是抓取量太大,我爬360buy整站大致要用3天左右

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

Archiver|手机版|Discuz! X

GMT+8, 2026-6-29 05:35 , Processed in 0.023857 second(s), 4 queries , Gzip On, Redis On.

返回顶部