任务详情
项目名称: 多关键词域名内容扫描系统版本: 1.0日期: 2023-10-27本项目需要开发一个高性能、高准确度的网络爬虫系统。核心功能是:导入一个包含大量域名(千万级别)的列表,系统自动访问每个域名(支持处理HTTP重定向),抓取跳转最终落地页的首页HTML文本内容,并与用户预设的一个或多个关键词进行匹配。将匹配成功的域名按其对应的关键词分类保存到本地文本文件中。
该系统需要部署在Linux服务器上,能够7x24小时稳定运行,并充分利用网络和计算资源以保证扫描速度。2.1. 域名列表导入
2.2. HTTP请求与重定向处理2.3. 内容抓取
2.4. 关键词匹配2.5. 结果输出
2.6. 统计与日志