大数据分析中,有哪些常见的大数据分析模型

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-07-04
大数据分析领域有哪些分析模型

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型,是纯粹从科学角度出发定义的。
1. 降维
在面对海量数据或大数据进行数据挖掘时,通常会面临“维度灾难”,原因是数据集的维度可以不断增加直至无穷多,但计算机的处理能力和速度却是有限的;另外,数据集的大量维度之间可能存在共线性的关系,这会直接导致学习模型的健壮性不够,甚至很多时候算法结果会失效。因此,我们需要降低维度数量并降低维度间共线性影响。
数据降维也被成为数据归约或数据约减,其目的是减少参与数据计算和建模维度的数量。数据降维的思路有两类:一类是基于特征选择的降维,一类是是基于维度转换的降维。
2. 回归
回归是研究自变量x对因变量y影响的一种数据分析方法。最简单的回归模型是一元线性回归(只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示),可以表示为Y=β0+β1x+ε,其中Y为因变量,x为自变量,β1为影响系数,β0为截距,ε为随机误差。
回归分析按照自变量的个数分为一元回归模型和多元回归模型;按照影响是否线性分为线性回归和非线性回归。
3. 聚类
聚类是数据挖掘和计算中的基本任务,聚类是将大量数据集中具有“相似”特征的数据点划分为统一类别,并最终生成多个类的方法。聚类分析的基本思想是“物以类聚、人以群分”,因此大量的数据集中必然存在相似的数据点,基于这个假设就可以将数据区分出来,并发现每个数据集(分类)的特征。
4. 分类
分类算法通过对已知类别训练集的计算和分析,从中发现类别规则,以此预测新数据的类别的一类算法。分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。
5. 关联
关联规则学习通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则,它是从大量数据中发现多种数据之间关系的一种方法,另外,它还可以基于时间序列对多种数据间的关系进行挖掘。关联分析的典型案例是“啤酒和尿布”的捆绑销售,即买了尿布的用户还会一起买啤酒。
6. 时间序列
时间序列是用来研究数据随时间变化趋势而变化的一类算法,它是一种常用的回归预测方法。它的原理是事物的连续性,所谓连续性是指客观事物的发展具有合乎规律的连续性,事物发展是按照它本身固有的规律进行的。在一定条件下,只要规律赖以发生作用的条件不产生质的变化,则事物的基本发展趋势在未来就还会延续下去。
7. 异常检测
大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中被认为是“噪音”而剔除,以避免其对总体数据评估和分析挖掘的影响。但某些情况下,如果数据工作的目标就是围绕异常值,那么这些异常值会成为数据工作的焦点。
数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。
8. 协同过滤
协同过滤(Collaborative Filtering,CF))是利用集体智慧的一个典型方法,常被用于分辨特定对象(通常是人)可能感兴趣的项目(项目可能是商品、资讯、书籍、音乐、帖子等),这些感兴趣的内容来源于其他类似人群的兴趣和爱好,然后被作为推荐内容推荐给特定对象。
9. 主题模型
主题模型(Topic Model),是提炼出文字中隐含主题的一种建模方法。在统计学中,主题就是词汇表或特定词语的词语概率分布模型。所谓主题,是文字(文章、话语、句子)所表达的中心思想或核心概念。
10. 路径、漏斗、归因模型
路径分析、漏斗分析、归因分析和热力图分析原本是网站数据分析的常用分析方法,但随着认知计算、机器学习、深度学习等方法的应用,原本很难衡量的线下用户行为正在被识别、分析、关联、打通,使得这些方法也可以应用到线下客户行为和转化分析。

对于互联网平台而言的产品,主要可以分为两大类:商品和服务。想要通过数据分析提高产品的销量,首先要了解哪些数据需要分析?

哪些数据需要分析?

一、运营模块

从用户的消费流程来看,可以划分为四个部分:引流,转化,消费,存留。

  • 流量

流量主要体现在引流环节,按照流量结构可以分为渠道结构,业务结构以及地区结构等。渠道结构,可以追踪各个渠道的流量情况,通过渠道流量占比来分析各渠道的质量。业务结构,根据指定业务对活动的流量进行追踪,观察活动前,中,后流量的变化情况,对活动效果做出评估。

  • 转化率

转化率=期望行为人数/作用总人数。提升转化率意味着更低的成本,更高的利润, 最经典的分析模型就是漏斗模型。

  • 流失率和留存率

通过各个渠道或者活动把用户引流过来,但过一段时间就会有用户流失掉,这部分用户就是流失用户,而留下来的这部分用户就是留存用户。流失可以分为刚性流失,体验流失和竞争流失,虽然流失是不可避免的,但可以根据对流失的分析,做出相应的对策来挽留用户。关于留存,通过观察存留的规律,定位存留阶段,可以辅助市场活动、市场策略定位等,同时还可以对比不同用户、产品的功能存留情况,分析产品价值,及时对产品做出调整。

  • 复购率

复购率可以分为“用户复购率”和“订单复购率”,通过分析复购率,可以进一步对用户粘性进行分析,辅助发现复购率问题,制定运营策略, 同事还可以进行横向(商品、用户、渠道)对比分析, 细化复购率,辅助问题定位。

二、销售模块

销售模块中有大量的指标,包括同环比、完成率、销售排行、重点商品占比、平台占比等等。

三、商品模块

重要指标分析:包括货龄、动销率、缺货率、结构指标、价格体系、关联分析、畅滞销分析等, 用来评判商品价值,辅助调整商品策略

四、用户模块

重点指标分析:包括新增用户数、增长率、流失率、有效会员占比、存留情况等

用户价值分析:可以根据RFM模型,再融入其他个性化参数,对用户进行价值的划分,并针对各等级用户做出进一步分析。

用户画像:根据固有属性、行为属性、交易属性、兴趣爱好等维度,来为用户添加标签与权重,设计用户画像,提供精准营销参考依据。


根据需要分析的数据选择分析模型

一、用户模型

用户模型是一种在营销规划或商业设计上描绘目标用户的方法,经常有多种组合,方便规划者用来分析并设置其针对不同用户所展开的策略。传统的用户模型构建方法有两种:基于访谈和观察构建用户模型(严谨可靠但费时)、临时用户模型(基于行业专家或者市场调查数据构建,快速但不够可靠)。

改进的用户模型构建方法:基于用户行为数据的用户模型

优势:对传统方式进行简化,降低数据分析的门槛;让数据分析更科学、高效、全面,可以更直接地应用于业务增长,指导运营策略。

方法:

1. 整理、收集对用户的初始认知

2. 对用户进行分群

3. 分析用户的行为数据

4. 推测目标动机

5. 对用户进行访谈调查验证

6. 用户模型建立修正

同时,还可以将收集到的用户信息映射成为用户的属性或用户的行为信息,并存储起来形成用户档案;实时关注自身数据的波动,及时做出战略性调整。

二、事件模型

事件模型是用户行为数据分析的第一步,也是分析的核心和基础,它背后的数据结构、采集时机以及对事件的管理是事件模型中的三大要素。

什么是事件?

事件就是用户在产品上的行为,它是用户行为的一个专业描述,用户在产品上所有获得的程序反馈都可以抽象为事件,由开发人员通过埋点进行采集。举个例子:用户在页面上点击按钮就是一个事件。

事件的采集

事件-属性-值的结构:事件(用户在产品上的行为),属性(描述事件的维度),值(属性的内容)

在事件采集过程中,灵活运用事件-属性-值的结构,不仅可以最大化还原用户使用场景,还可以极大地节省事件量,提高工作效率。

采集的时机:用户点击、网页加载完成、服务器判断返回。在设计埋点需求文档时,采集时机的说明尤为重要,也是保证数据准确性的核心。

举个例子:电商销售网页的事件采集

事件的分析

对事件的分析通常有事件触发人数、次数、人均次数、活跃比四个维度的计算。

事件的管理

当事件很多时,对事件进行分组,重要事件进行标注,从而分门别类地管理。同时,可以从产品业务角度将重要的用户行为标注出来,以便在分析时方便、快捷地查找使用常用、重要的事件。

三、漏斗模型

漏斗模型最早起源是从传统行业的营销商业活动中演变而来的,它是一套流程式数据分析方法。

主要模型框架:通过检测目标流程中起点(用户进入)到最后完成目标动作。这其中经历过的每个节点的用户量与留存量,来考核每个节点的好坏,来找到最需要优化的节点。漏斗模型是用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。

四、热图分析 —— 画出用户行为

热图,是记录用户与产品界面交互最直观的工具。热图分析,就是通过记录用户的鼠标行为,并以直观的效果呈现,从而帮助使用者优化网站布局。无论是Web还是App的分析,热图分析都是非常重要的模型。

在实际的使用过程中,常常用几种对比热图的方法,对多个热图进行对比分析,解决问题:

  • 多种热图的对比分析,尤其是点击热图(触摸热图)、阅读热图、停屏热图的对比分析;

  • 细分人群的热图对比分析,例如不同渠道、新老用户、不同时段、AB测试的热图分析等;

  • 深度不同的互动,所反映的热图也是不同的。例如点击热图和转化热图的对比分析;

五、自定义留存分析

关于留存率的概念,在前文中的已经有所介绍。对于产品而言,留存率越高,说明产品的活跃用户越多,转化为忠实用户的比例会越大,越有利于产品变现能力的提升。

自定义留存:基于自己业务场景下用户的留存情况,也即对留存的行为进行自定义。可以通过对初始行为和回访行为进行设定来对留存行为进行自定义。

举个例子:抢到券的用户使用哈罗共享单车的5日留存率

初始行为:抢到券

回访行为:使用哈罗共享单车

六、粘性分析

粘性:以用户视角,科学评估产品的留存能力

通过用户粘性分析,可以了解到一周内或一个月内用户到底有多少天在使用你的产品甚至是某个功能,进一步分析出用户使用产品的习惯。

粘性分析是诸葛io的特色功能之一,其中包括产品整体粘性、功能粘性、粘性趋势以及用户群对比,具体可以参考https://docs.zhugeio.com/advanced/stickiness.html

七、全行为路径分析

全行为路径分析是互联网产品特有的一类数据分析方法,它主要根据每位用户在App或网站中的行为事件,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或浏览模式,进而实现一些特定的业务用途,如对App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画,App产品设计的优化等。

在可视化过程中常用的全行为路径模型有两种:

  • 树形图:以树形结构体现用户的行为路径

  • 太阳图:以环形图体现用户的行为路径

上图中,每一环代表用户的一步,不同的颜色代表不同的行为,同一环颜色占比越大代表在当前步骤中用户行为越统一,环越长说明用户的行为路径越长。

八、用户分群模型

用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。

基于用户行为数据的分群模型:当回归到行为数据本身,会发现对用户的洞察可以更精细更溯源,用历史行为记录的方式可以更快地找到想要的人群。

四个用户分群的维度:

  • 用户属性:年龄、性别、城市、浏览器版本、系统版本、操作版本、渠道来源等;

  • 活跃于:通过设置活跃时间,找到指定之间段内的活跃用户;

  • 做过/没做过:通过用户是否进行某行为,分析用户与产品交互的“亲密度”;

  • 新增于:通过设置时间段,精确筛选出新增用户的时间范围;

如何提高产品销量是一个综合性的问题,需要结合多种模型进行数据分析,以上内容是对一些知识的归纳,希望能够对您有所帮助。



来看看我们公司的大数据平台

我们的DataZ具备高性能实时和离线计算能力,丰富的统计、分析、挖掘模型,为行业全流程、全周期的生产运营活动提供商业智能支持,并能可视化您的数据,高效挖掘数据深层次信息。可以应用于金融大数据风控。

系统架构图System Architecture Diagram

数据采集Data Collection

大数据采集提供强大的数据抽取、转换和加载能力。适配多种数据源;适配多种数据抽取方式;可配置采集策略,支持集群方式运行;对采集过程进行监控和详细的日志记录;提供直观的图形界面设计器及工作流设计模式,满足各种场景的需求。

数据管理Data Management

完整的数据质量管理机制,实现集中化、制度化、流程化、过程可视化的管控。统一的数据标准规范,并使用编码映射机制,建立数据字典,实现不同数据源数据的整合,保证数据完整性、一致性、准确性。

数据挖掘Data Mining

通过DataZ,大数据挖掘,将常用统计、分析、挖掘的模型进行插件式封装,提供灵活、易用、高性能的可视化分析能力,让您快速洞察市场规律,及时发现业务盲点,发挥大数据的价值。

丰富的算法库

集成数据挖掘技术

支持集群线性扩展

流程可视化设计

简单易用,快速上手

大数据可视化Data Visualization

快速收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。可以实现决策支持、财务分析、预警分析、仪表板、绩效分析、经营分析等各类数据分析应用。

可视化设计平台

丰富的数据可视化组件库

快速简易的BI实施平台

支持多终端展现



数据分析模型主要是用来指导数据分析师进行一个完整的数据分析,更多是指导数据分析的思路。数据分析常用的模型有:
留存分析模型:用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为;
全行为路径分析:根据每位用户在APP或网站中的行为事件,分析用户在APP或网站中各个模块的流转规律与特点,挖掘用户的访问或浏览模式,进而实现一些特定的业务用途;
漏斗分析模型:能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型;
热图分析模型:其实就是指页面点击分析;
事件分析模型:是针对用户行为的分析模型之一,也是用户行为数据分析的核心和基础;
用户分群模型:对用户进行精细化运营,用户分群能帮助企业更加了解用户,分析用户的属性特征、以及用户的行为特征;
用户分析模型:通过查看用户数量在注册时间上的变化趋势、查看用户按省份的分布情况等等,丰富用户画像维度;
黏性分析模型:在留存分析的基础上,对一些用户指标进行深化;

  • 大数据分析方法分哪些类
    答:使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。简单地来说,分析可被划分为4种关键方法。下面会详细介绍这四种方法。1. 描述型分析:发生了什么?最常用的四种大数据分析方法 这是最常见的分析方法。在业务中,这种方法向数据分析...
  • 大数据开发常见的9种数据分析?
    答:或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩分为有损压缩和无损压缩。9.因果分析 因果分析法是利用事物发展变化的因果关系来进行预测的方法,运用因果分析法进行市场预测,主要是采用回归分析方法,除此之外,计算经济模型和投人产出分析等方法也较为常用。
  • 大数据分析方法有哪些
    答:大数据分析方法主要包括描述性分析、预测性分析、规范性分析和诊断性分析。描述性分析主要是对已经收集到的数据进行总结和归纳,展示数据的基本特征和趋势,例如平均值、中位数、模式和频率等。这种分析帮助我们理解过去和现在发生了什么,是大数据分析的基础步骤。预测性分析利用统计模型和机器学习技术,基于...
  • 大数据分析方法有哪些?
    答:回归分析方法运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。3、相关分析方法 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非...
  • 大数据分为哪三类
    答:大数据分为系统日志采集系统、网络数据采集系统、数据库采集系统这三类。大数据的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能...
  • 大数据分析的常用方法有哪些?
    答:大数据不仅仅意味着数据大,更重要的是要对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。下面南邵IT培训介绍大数据分析的五个基本方面。1.可视化分析 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到...
  • 大数据包括哪些?
    答:3、预测性分析 预测性分析,是大数据分析最重要的应用领域之一,通过结合多种高级分析功能(特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等),达到预测不确定事件的目的。帮助分用户析结构化和非结构化数据中的趋势、模式和关系,并运用这些指标来预测将来事件,为采取...
  • 大数据分析中,有哪些常见的大数据分析模型
    答:DataZ的数据挖掘功能通过插件式封装了常用的统计、分析和挖掘模型,提供了灵活、易用且性能卓越的可视化分析能力。这使得用户能够迅速洞察市场规律,及时发现业务盲点,从而发挥大数据的真正价值。集成丰富的算法库和数据挖掘技术,DataZ支持集群线性扩展,使得流程可视化设计变得简单易用,便于快速上手。大数据...
  • 大数据分析工具有哪些
    答:数据挖掘和机器学习工具在大数据分析中发挥着重要作用。这些工具包括TensorFlow、PyTorch、R语言等。它们可以用于数据预测、模型构建和数据分析等任务,帮助企业做出更明智的决策。此外,还有一些专门用于数据挖掘的工具,如数据挖掘工具箱和智能分析工具等。以上工具是大数据分析领域常用的几种工具。每个工具都有其...