任务详情
需求分析(备注:远程布置好程序,调试成功后,数据抓取时间段可以先只设置三个月或半年,高校数据可以先设置抓取一个高校) 1、爬取百度贴吧吉林省高校(东北电力大学、吉林师范大学)2023年7月到2024年7月百度贴吧内容、包括(标题、发布时间、浏览量、点赞人数、评论等)通过分词(可以使用jieba库进行分词),进行数据预处理(清洗掉无用数据),收集到一份包含大学生网络行为数据的CSV文件,数据包括用户ID、行为时间、行为类型、行为内容等信息。 2、使用matplotlib或seaborn库绘制行为类型的分布图,了解大学生在网络空间中的主要行为。分析行为时间,了解大学生在网络空间中的活跃时间段。