您的位置:首页 > 任务详情
招标模式 基于hadoop的可视化大数据200元,要求很简单
  • 雇主:mike
  • 发布时间:2024-06-05
  • 分类:程序开发

¥ 0-5000

免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

1)大数据分析技术是一个综合性理论及技术,根据不同的项目,所用到的技术不同,具体可能包括:爬虫技术、数据ETL技术、分布式数据库及NoSQL数据库、机器学习及数据挖掘、自然语言处理(NLP)、社会网络分析、复杂网络分析、知识图谱等,部分内容需要自学。2)相关工具:数据采集:Scrapy、Nutch、Cola等,参考https://zhuanlan.zhihu.com/p/64305013ETL工具:Kettle、DataX、Sqoop等存储:文件、各类数据库、Hadoop HDFS、Hbase、MongoDB、Neo4j等数据查询:Hive、ElasticSearch、Redis等数据计算:MapReduce、Spark及其库(ML、MLLib、Spark-NLP等)、Spark-Streaming、Storm、Mahout可视化:Excel、Tableau、echart、python和R语言的画图库、Gephi、JavaScript库等具体流程主要包括:(1) 利用爬虫技术抓取相应网站的数据,数据量不少于1万条,并保存为csv文件。(2) 通过数据预处理将抓取下来的数据进行处理,如:处理缺失值、删除重复值、过滤无效数据、添加序号、对异常值进行处理、数据标准化等等。(3) 构建Hadoop服务集群,并将预处理后的csv数据文件上传到HDFS、HBase或MongoDB中。(4) 利用MapReduce、Hive、Spark等连接HDFS或HBase进行数据分析、数据挖掘的工作,并将分析结果存入HBase或HDFS中。(5) 通过网页、可视化工具等对分析结果进行展示。

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧

  • 发布需求     2024.06.05
  • 服务商报价    
  • 选择服务商并托管资金    
  • 服务商工作    
  • 验收付款    
  • 评价