电子商务大数据挖掘常用算法

白癜风治疗价格 https://m-mip.39.net/czk/mipso_4513569.html

01关联分析

关联分析是进行数据挖掘技术的主要手段,其主要是针对数据信息中的各个范围之间的联系,寻找多种不同领域之间的依存关系。运用关联规则想要达到的主要目的就是找出每一个数据信息的内在关系,关联规则是用在同类事件中不同项目的关联性。

在数据挖掘中,关联分析是其主要的功能之一,它可以在市场营销的各个领域进行应用。其中,对消费者的购买行为进行关联规则方面的分析是关联分析的主要应用之一,其目的是为了对消费者购买商品时的行为模式进行探询。通过采用关联分析方法来对挖掘数据中的关联性规则,能够帮助企业采取适当的营销方式对商品进行宣传,从而有利于促进新产品的销售。同时,这也有利于消费者发现新产品,从而进一步促进了新产品的宣传与销售。

在电子商务系统中,利用关联规则分析并挖掘出各数据之间的相互关系。例如,采用关联规则技术在商品推荐子系统中发现新市场。根据用户当前的购买习惯向该用户进行商品推荐。关联规则推荐算法分为关联规则形成和推荐形成二个阶段。商品推荐子系统先根据关联规则对当前客户没有浏览的商品进行推荐度计算,再根据推荐度的大小,推荐未浏览的商品给当前客户。

电子商务中具有海量的交易数据和大量有趣的业务关系,在典型的购物篮分析中,它可以帮助许多商业决策。例如对超市管理者而言,通过顾客对购物篮中商品的分类,得到不同产品之间的联系,并为决策制定典型的应用,以确定哪些产品将被放置在一个购物车或购物篮,顾客就会购买这些商品。同时,这些信息也可以帮助零售商选择调节分配和货架,行李箱出售。例如,将牛奶和面包放在一起刺激顾客同时购买这些商品。在电子商务中,Web服务器因为日志文件记录访问用户数据,通过这些数据,挖掘使用顾客购买产品的网上某些偏好和品牌忠诚的相关性,价格可以接受的范围内和包装要求等内容,从而帮助管理人员计划,确定投资品,价格和新产品的类型。

但在对电子商务数据进行关联规则分析时,需要注意两个关键的问题:第一,从大型事务数据集中发现模式,在计算机的应用上可能要付出很高的代价;第二,所发现的模式有可能是虚假的,因为发现的模式可能是偶然发生的。

(图1采用关联规则技术在商品推荐子系统中发现新市场。根据用户当前的购买习惯向该用户进行商品推荐)

02聚类分析

聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。聚类分析的方法是数据挖掘领域最为常见的技术之一。常用的聚类分析方法有:分割聚类方法、层次聚类方法、基于密度的聚类方法和高维稀疏聚类算法等。在通过多次的删除或添加变量影响的分类方式,可以从中得到我们想要的最佳结果。

电子商务中市场细分经常会用到聚类分析法,这样就可以根据己知的客户信息数据,将消费模式相似的客户分为一类,从而有针对性的进行调整营销策略,为客户提供更加适合更加满意的个性化服务。例如,根据现在拥有的客户情况按照客户的不同消费水平以及不同情况进行模式的分析,从而在进行产品营销的过程中提供更加高质量、高品质的服务内容;针对不同的客户可以进行销售邮件的发送,通过聚类的分析进行客户信息的提取,使得服务更加的周到和细致。

03分类分析

分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型或分类函数,将数据库中的数据项映射到某个给定的类别。分类的主要方法有基于决策树模型的数据分类、支持向量机算法、贝叶斯分类算法、ID3算法和基于BP神经网络算法等。

进行分类分析是数据挖掘技术主要的应用方向之一,并且使用起来更加的方便。进行产品的分类是将事件进行对象的划分,同时也可以用这个技术进行数据的观测和预测。对数据进行分类处理,整理出一个科学、完整的预测模型。例如电子商务企业预测出可能要发送的邮件,以及客户的主要情况,然后针对不同的用户展开不同的商业营销,进而提供出个性化的服务内容。

在电子商务中经常对挖掘的数据进行分类处理,即将数据性质相近的归在一类中,性质差别较大的归入不同的类中。利用已知类别事物的数据性质建立相应的函数式,对未知类别的新事物进行判别将其归入已知的类中。通过分析已知分类信息的历史数据,建立一个预测模型,预测哪些人可能会对哪些商品感兴趣,针对这类客户的特点开展商务活动,提供针对性的服务。分类方法的特点是通过对示例数据库中的数据进行分析,已经建立了一个分类模型,然后利用分类模型对数据库中的其它记录进行分类。

假定现在有一个描述顾客属性的数据库,包括他们的姓名、年龄、收入、职业等,企业可以按照他们是否购买某种商品(例如计算机)来进行分类。如果现在有新的顾客添加到数据库中,并将新计算机的销售信息通知顾客,若将促销材料分发给数据库中的每个新顾客,如此可能会导致耗费较多的精力和物力。而若我们只给那些可能购买新计算机的顾客分发材料,可以在较大的程度上节省成本。为此,可以构造和使用分类模型。

04时间序列模式分析

时间序列模式分析是指挖掘相对时间或其他模式出现频率高的模式,电子商务活动中交易产生数据存放到相应事务数据库的表中,每一条记录包括用户的用户号、发生的时间和商品等项目信息。利用事务数据库来挖掘出涉及事务间关联的模式,分析用户几次购买行为间的联系,采取有针对性的营销措施。

序列模式的数据挖掘是交易集的时间顺序的主要模式与内容。数据挖掘主要针对的是找出数据之间的相互关系和内容。并且分析出逐个项目,从而对未来数据进行科学的观测。这种序列模式以及关联性的分析比较相似,目的就是为了找出每一个数据之间的关联,但是序列模式的主要针对点是对数据间的前面以及后面进行关联性的分析。它能发现数据库中形如在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频度较高的信息。序列模式分析的一个例子是“九个月以前购买奔腾PC的客户很可能在一个月内订购新的CPU芯片”。

05偏差分析

偏差是数据集中的小比例对象,通常偏差对象也被称为离群点。偏差分析包括分类中的反常实例、例外模式、观测结果对期望值的偏离以及随机的变化等,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。其基本思想是对数据库中的偏差数据进行检测与分析,检测出数据库汇总的一些异常记录,它们在某些特征上与数据库中的大部分数据有显著不同。

通过发现异常,可以引起人们对特殊情况的格外


转载请注明:http://www.xcqg58.com/lsqy/lsqy/26847050.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了