任务详情
对于给定在Redis队列中的网站首页网址,识别其栏目(字数<10, 页面中的标题链接>=20,位置靠前),输出JSON结果到Redis队列。 1. 输入是JSON格式,包含域名首页,编号等字段。 2. 如果首页打不开,需要放入失败队列 3. 输入队列中的域名首页数量超过10万,需要协程高速并行处理 4. 为确定栏目中内容是否改变,需要计算其标题长度最长的5个链接的标题合并结果作为一个字段放入结果 5. 对于访问到的页面,要计算所有链接的数量,放入结果,便于以后改进处理。 6. 对某些网站要处理栏目页面中的子栏目。 7. 对异常网页要处理,如重定向,JS调入等。