谈基于Web的数据挖掘在电子商务中的研究与应用

时间:2017-06-28 计算机 我要投稿

  在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,那么,基于Web的数据挖掘在电子商务中的研究与应用是?

  1知如何能够投其所好

为用户实现主动推荐,提供个性化服务;这些都是电子商务成败的关键问题。在这种新型的商务模式下,如何对网络上大量的信息进行有效组织利用,帮助海量数据的拥有者们找出真正有价值的信息和知识,以指导他们的商业决策行为,成为电子商务经营者关注的问题。迅速发展的基于web的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。

  2 web数据挖掘

  2.1 web数据挖掘概述

  数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。

  web数据挖掘(web mining)是从web文档和web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从/work/">总结、分类、聚类、关联分析等。web结构挖掘是指从web组织结构和链接关系中推导知识。通过对web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。

  基于web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。

  2.2 电子商务中web数据挖掘的步骤

  电子商务中web数据挖掘的步骤如下:

  ① 明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;

  ② 将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;

  ③ 对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的

  ④ 根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;

  ⑤ 利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。

  在整个web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个web数据挖掘的全过程; 同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。

  2.3 电子商务中web数据挖掘的数据源

  在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于web数据挖掘技术产生各种知识模式。

  ① 服务器数据。客户访问站点时会在web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括servers logs、error logs、cookies logs等。

  ② 查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。

  ③ 在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。

  ④ web页面。主要是指html和xml页面的内容,包括文本、图片、语音、图像等。

  ⑤ web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。

  ⑥ 客户登记信息。客户登记信息是指客户通过web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。

  2.4 web数据挖掘能够获取的知识模式

  运用web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用web数据挖掘可以在站点上挖掘出来的知识模式有以下几个:

  ① 路径分析。它可以被用于判定在一个web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。

  ② 关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。

  ③ 序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选择有针对性地页面,以满足访问者的特定要求。

  ④ 分类和预测。分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于预测;也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测,进行适合某一类客户的商务活动。

  ⑤ 聚类分析。聚类分析可以从web访问信息数据中聚集出具有相似特性的那些客户。在web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。

  ⑥ 异常检测。异常检测是对分析对象的少数的、极端的特例的描述,以揭示内在的原因,从而减小经营的风险。异常检测在电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户和网络入侵检测等方面。

  web数据挖掘的各项功能不是独立存在的,而是在挖掘过程中互相联系,发挥作用。

  3 web数据挖掘在电子商务中的应用

  3.1数据抽取方法在电子商务中的应用

  与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。web数据挖掘要解决的问题就是如何从零散的无规则的网络数据中找到有用的和有规则的数据和知识,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度讨论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。

  3.2 基于web数据挖掘的智能化搜索引擎

  电子商务企业在活动过程中面临的问题之一是如何通过internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。鉴于此,将web数据挖掘技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能,满足电子商务企业的需要。web挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,从而提高用户进行网上信息搜索的效率;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将web使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴web挖掘技术可以提高查准率与查全率,改善检索结果的组织,从而使检索效率得到改善。

谈基于Web的数据挖掘在电子商务中的研究与应用相关推荐