任务详情
[关于项目]
我们正在开发一款面向海外市场的线索集成与管理系统(InsightFlow),旨在通过公开 OSINT(开源情报)数据为跨境贸易提供画像支撑。目前处于 V1.0 启动阶段,地基稳固后有长期迭代需求。
[职位描述]
你需要负责 V1.0 核心采集引擎的架构与开发,主要任务包括:
多源数据采集: 针对美国市场主流公开信息站(如黄页、人口档案类站点)及社媒进行自动化采集。
画像自动建模: 编写逻辑实现手机号正则提取,并结合三方数据源匹配性别、年龄及行业标签。
系统环境识别: 重点!通过技术手段(如协议检测、UA分析或特定服务可用性探测)实现 iOS 与 Android 用户的精准归类。
高性能存储与导出: 支持海量数据的结构化存储(建议 MongoDB 或 ClickHouse),并提供高效的文档导出接口。
[技术要求]
爬虫硬实力: 精通 Python (Scrapy/Playwright) 或 Go (Colly),有处理高频率反爬(指纹浏览器、住宅代理应用、验证码自动化破解)的实战经验。
架构前瞻性: 具备良好的代码解耦能力,V1.0 需预留多租户(Multi-tenant)逻辑接口与分布式扩展空间。
熟悉海外环境: 有过美国数据源采集经验,了解 iMessage 验证或其他设备特征识别逻辑者优先。
守时且透明: 接受 GitHub/GitLab 协作,保持代码日更习惯。
差点电量你电我一下
10年开发经验,具体可联系,需要先评估是哪个网站哪个地址
可以,留个联系方式或者你加我
没电
精通python 爬虫 可以联系
加V
符合需求,希望联系
加V
10+开发经验 6年go 善于处理数据爬取 欢迎联系