任务详情
二、主要功能1. 实时采集
- 支持采集抖音直播间的:进入、发言、点赞、送礼、关注等用户行为。
2. 本地过滤 + 去重
- 支持按字段进行本地过滤(如性别=男、年龄≥18、粉丝≥100 等)。
- 支持通过工作室标识去重(避免多设备重复采集直播间或用户)。
- 所有去重在本地进行,云端仅负责存储和展示。
※ 部分字段如年龄、地区、作品信息等,需要调试接口算法获取。
3. 代理池支持
- 自动维护和切换代理IP,保证采集器可持续稳定运行。
4. 数据上传与存储
- 本地采集后上传至云端API。
- 数据存入MongoDB数据库。
- 用户信息可由接口异步补充。
5. 访问控制与展示
- 系统自动生成 3 个访问地址:
- 手机网页(仅1个设备访问)
- 电脑网页(仅1个设备访问)
- API接口(限制最多10个设备)
- 页面支持分页、筛选。
- 点击某条用户记录后跳转主页并自动删除该条数据。
6. 数据导出
- 支持边采集边导出为 TXT 文件。
- 自定义字段
- 用户可设定导出数据的数量阈值。
7. 用户账户系统
- 支持账户密码登录。
- 云端保存用户配置(如添加的直播间列表等),跨设备自动同步。
8. 数据统计信息展示(实时)
- 直播间总数
- 正在采集总数
- 总共采集总数
- 符合过滤规则总数
- 云端上传总数
- 手机访问设备数
- 电脑访问设备数
- API访问设备数(限10个)
三、采集字段清单(支持字段过滤)
- 采集时间
- 直播间ID
- 主播昵称
- 房间ID
- 消息类型
- 荣耀等级
- 昵称
- 进入、发言、点赞、送礼、关注
- 礼物名称
- 礼物价值
- 礼物图标
- UID
- SecUid
- 抖音号
- 关注数
- 粉丝数
- 性别
- IP属地
- 私密账号标识
- 蓝V认证标识
- 个性签名
- 年龄
- 作品数量
- 作品类型(图文/视频)
- 作品图文ID
- 作品视频ID
四、系统组成模块
模块 | 描述
--------------|--------------------------------------------------
采集器 | 多设备部署,采集数据、过滤、去重、上传。
去重系统 | 基于工作室标识 + Redis 实现全局数据。
代理池 | 动态管理IP代理,支持自动切换。
云端API | 接收数据,支持访问控制、账户管理。
数据展示前端 | 响应式网页,支持访问限制与实时展示。
数据导出模块 | 本地输出 TXT 文件,支持实时或批量导出。
用户账户系统 | 登录验证、配置同步。
自动更新模块 | 软件支持在线自动更新。
五、部署说明(非Docker)
- 采集器直接运行于本地系统(推荐 Windows)。
- 云端部分部署:
- MongoDB + Redis
- Python FastAPI 应用 或 Go服务
- 可选使用 Nginx 反向代理 + TLS
- 前端:Vue 或 React 打包成静态文件,部署于 nginx 或本地HTTP服务中。
六、说明补充
- 所有数据过滤逻辑在本地完成,云端只做存储与展示。
- 该系统为闭环式设计,适用于工作室部署。
- 有相同的软件作为参考。
- 技术要求
采集器
Python(或 Go),多线程/协程
云端 API
Python + FastAPI(或 Node.js)
数据库
MongoDB + Redis
网页前端
Vue.js(响应式)