您的位置:首页 > 任务详情
招标模式 新闻网站的栏目自动识别爬虫
  • 雇主:mike
  • 发布时间:2022-10-27
  • 分类:程序开发

¥ 2000

免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

对于给定在Redis队列中的网站首页网址,识别其栏目(字数<10, 页面中的标题链接>=20,位置靠前),输出JSON结果到Redis队列。 1. 输入是JSON格式,包含域名首页,编号等字段。 2. 如果首页打不开,需要放入失败队列 3. 输入队列中的域名首页数量超过10万,需要协程高速并行处理 4. 为确定栏目中内容是否改变,需要计算其标题长度最长的5个链接的标题合并结果作为一个字段放入结果 5. 对于访问到的页面,要计算所有链接的数量,放入结果,便于以后改进处理。 6. 对某些网站要处理栏目页面中的子栏目。 7. 对异常网页要处理,如重定向,JS调入等。

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧

  • 发布需求     2022.10.27
  • 服务商报价    
  • 选择服务商并托管资金    
  • 服务商工作    
  • 验收付款    
  • 评价