任务详情
1)大数据分析技术是一个综合性理论及技术,根据不同的项目,所用到的技术不同,具体可能包括:爬虫技术、数据ETL技术、分布式数据库及NoSQL数据库、机器学习及数据挖掘、自然语言处理(NLP)、社会网络分析、复杂网络分析、知识图谱等,部分内容需要自学。2)相关工具:数据采集:Scrapy、Nutch、Cola等,参考https://zhuanlan.zhihu.com/p/64305013ETL工具:Kettle、DataX、Sqoop等存储:文件、各类数据库、Hadoop HDFS、Hbase、MongoDB、Neo4j等数据查询:Hive、ElasticSearch、Redis等数据计算:MapReduce、Spark及其库(ML、MLLib、Spark-NLP等)、Spark-Streaming、Storm、Mahout可视化:Excel、Tableau、echart、python和R语言的画图库、Gephi、JavaScript库等具体流程主要包括:(1) 利用爬虫技术抓取相应网站的数据,数据量不少于1万条,并保存为csv文件。(2) 通过数据预处理将抓取下来的数据进行处理,如:处理缺失值、删除重复值、过滤无效数据、添加序号、对异常值进行处理、数据标准化等等。(3) 构建Hadoop服务集群,并将预处理后的csv数据文件上传到HDFS、HBase或MongoDB中。(4) 利用MapReduce、Hive、Spark等连接HDFS或HBase进行数据分析、数据挖掘的工作,并将分析结果存入HBase或HDFS中。(5) 通过网页、可视化工具等对分析结果进行展示。