大数据的工作原理

tomlee02   ·   发表于 1个月前   ·   后期交流

近几年A(人工智能)B(大数据)C(云计算)发展火热,由于笔者在一二线互联网行业从事过大数据相关工作,因此决定在大数据领域对自己的所见所闻,来对该行业之外的人士所做一个讲述,以及对想进入刚行业的从业人员做个简单的讲述和分享。


大数据首先重要的就是数据,数据从哪里来,到哪里去,这个是我们需要探讨的。首先确定你数据量TB级别、PB级别 or EB级别。上图讲述了数据的来源从用户的数据、购买数据,以及最终的去处:存储、分析。因此可以看出大数据的核心其实是数据。


以笔者所在的电商平台为例(其他行业同样如此),用户在商城上购买商品,是基于在线交易系统的,称作为OLTP(联机事务)。而由于商城上每天都会产生这些信息,我们就需要把这些交易数据抽取到大数据这边,即:数据仓库。


数据仓库是用来存储所有的数据,包括用户的所有信息,购买记录、用户基本信息等等。然后对数据仓库中的数据做处理,构建数据集市,再对数据进行分析。根据商城上推出的活动,进行分析该活动是否有利于用户增长等等,最终用来反馈商城相应的调整活动信息。称之为OATP(联机分析)。


下面来讲述一下,每个岗位所需要的技能,以及大家可以根据自己的需求进行调整。


大数据平台运维:大数据平台的搭建和维护。对应技能:运维的一些技能,以及hadoop,hive等等。


数据开发:主要涉及到数据的抽取、转换、清洗,即:ETL。对应的技能:sql,hive,hadoop,shell,python(其他编程语言也行)、数据仓库的理论;其中数据仓库的理论尤为重要,需要大量的实践和学习才能建设良好的数据仓库模型,否则数据一团乱麻,很难找到自己想要的数据,也会出现这样的情况:天天疲于奔命,根据不同的需求,进行跑数据的操作。当然你如果想再接触的更深入一些,可以了解一下离线数据和实时数据开发(离线数据仓库、准实时数据仓库)。


数据平台开发:主要设计大数据平台的开发,为了数据开发的方便便捷自动化而存在的。对应的技能:java,scala,sql,大数据的一些开发平台(MR,Spark,Hbase等等)。


数据分析:主要是对大数据进行跑数据,做报表。对应技能:sql,excel,tableau,python,R等。数据分析岗位,我认识的很多女生从事该岗位,因为该岗位对于要求或许稍微低一些或者说入门简单一些。但是要想做好也不容易,如果做到自动化数据报表也是大家可以考虑的。


算法:主要是对算法模型进行应用,开发。对应的技能:算法基础,sql,python、数学理论。当然现在很多的开发工具包以及平台都提供很多算法,包括python,spark,因此需要我们掌握算法原理的情况和场景的情况下进行调用。


打赏我,让我更有动力~

- 版权声明 - 本帖为[tomlee02]原创帖子,转载时请注明出处!
帖子标题:《大数据的工作原理》
原文地址:https://www.icos8.com/t/21/rcy8
如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意。
0 Reply   |  Until 1个月前 | 64 View
LoginCan Publish Content
每日签到
0人
连续签到0天