支持结构化、半结构化和非结构化数据的存储;采用时下最流行的分布式存储,支持海量数据的存储,支持高并发的快速查询。
基于zookeeper的协调服务机制,采用yarn的管理模式,支持同时运行多个计算框架,可同时部署hadoop、storm、spark等计算框架。
服务器监控是利用ganglia和nagios对集群机器进行资源监控,包括CPU、内存、硬盘、网络资源等进行实时监控,方便用户实时掌握集群机器资源的利用情况。
使用Sqoop和Flume支持数据迁移和采集;采用多计算框架模型,可满足不同数据的计算要求。既支持Hadoop离线大数据量的计算,也支持storm实时流式处理,还支持spark内存快速计算;支持多语言的数据分析工作,支持SQL、JAVA、Python、Scala等。
支持多种数据挖掘工作相结合,支持mahout、mllib自带的并行化的高性能机器学习算法库;同时也支持基于R自定义的编程算法(如:Rhadoop,SparkR);也有强大的主流数据统计和绘图语言R以及Web图形化开发界面R-Studio
面向用户个性化推荐,提高销售业绩
盘活媒体企业的用户数据,助力O2O业务转型
打造BI监控系统,提升业务运营效率
通过网络舆情分析进行口碑监测,提升传播影响力
利用大数据技术辅助公安部门优化警务处理能力