1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

什么是Web数据挖掘

本帖由 qingqing37212011-09-26 发布。版面名称:软文发布区

  1. qingqing3721

    qingqing3721 New Member

    注册:
    2011-02-04
    帖子:
    394
    赞:
    0
    Web开掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。虽然Web开掘使用了许多数据开掘技术,但它并不仅仅是传统数据开掘的一个简单使用。在过去20年中,许多新的开掘义务和算法被相继创造。根据在开掘过程中使用的数据类别,Web开掘义务可以被划分为三种主要类型:Web结构开掘、Web内容开掘和Web使用开掘。


    Web结构开掘:Web结构开掘从表征Web结构的超链接(简称链接)中寻找有用的知识。例如:从这些链接中,我们可以找出哪些是重要的网页,这是一项搜索引擎采用的重要技术。我们也可以开掘具有共同兴趣的用户社区。这些义务在传统的数据开掘中并不存在,因为在关系型表格中并没有链接结构。


    Web内容开掘:Web内容开掘从网页内容中抽取有用的信息和知识。例如:根据网页的主题,我们可以停止自动的聚类和分类。虽然这些义务与传统数据开掘的义务类似,但是我们依然可以为了各种不同的目的从网页中根据模式抽取有用的信息,例如商品描述、论坛回帖等。而这些信息可以被用作进一步剖析来开掘用户态度。这些义务也不是传统的数据开掘义务。


    Web使用开掘:Web使用开掘从记载每位用户点击状况的使用日志中开掘用户的访问模式。这项义务也使用了许多数据开掘的算法。其中一项重要的议题是点击流数据的预处置,以便生成可以用来开掘的合适数据。


    搜索引擎优化研究是与WEB数据开掘比较相关的一门技术,因为大局部的搜索引擎工程师在思考如何设计搜索引擎的时候,同时也会注重或者很大一局部是要解决搜索结果排序公正的问题。
    文章由 hanniwei.jar5.cn 汉妮威官网 整理,收集辛苦,希望能保留出处,谢谢斑竹大哥。
     
  2. hjm1992

    hjm1992 New Member

    注册:
    2011-08-11
    帖子:
    780
    赞:
    0