4036次浏览
推荐系统是为用户推荐所需物品的软件工具和技术,对于在线处理信息过载是一个非常有价值的方法,并成为电子商务领域最强大和流行的工具之一。本书融合不同领域专家学者的理论成果和实践经验,从推荐系统相关技术、推荐系统的应用与评估、推荐系统的交互、推荐系统和社区及高级算法5个方面介绍推荐系统的主要概念、理论、方法、趋势、挑战和应用,详细阐释如何支持用户决策、计划和购买过程,帮助你梳理推荐系统的相关知识体系,并理解推荐系统的原理、算法及实现。推荐序一 推荐序二 译者序 前言 第1章 概述 1 1.1 简介 1 1.2 推荐系统的功能 3 1.3 数据和知识资源 5 1.4 推荐技术 7 1.5 应用与评价 10 1.6 推荐系统与人机交互 12 1.6.1 信任、解释和说服力 13 1.6.2 会话系统 13 1.6.3 可视化 14 1.7 推荐系统是个交叉学科领域 15 1.8 出现的问题和挑战 16 1.8.1 本书对出现的问题的讨论 16 1.8.2 挑战 18 参考文献 20 第一部分 基础技术 第2章 推荐系统中的数据挖掘方法 28 2.1 简介 28 2.2 数据预处理 29 2.2.
3382次浏览
当前,经典的数据挖掘算法日趋成熟,相关标准和技术已经在各行各业得到广泛应用。为了使数据挖掘技术满足不同层次用户的需要,可视化数据挖掘技术被提出,通过可视化的手段将数据挖掘过程的各个阶段展示给用户,使用户能更好地理解过程,目前该技术已经成为数据挖掘领域的研究热点。《数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面》旨在介绍最新的可视化数据挖掘技术,是作者多年工作经验的总结。内容基于 Tableau 10.3和 IBM SPSS Modeler 18.0 编写,详细介绍了 Tableau 的数据连接、图形编辑、创建地图、表计算和聚合计算等功能,以及 IBM SPSS Modeler 的数据连接、CRISP-DM(跨行业数据挖掘标准流程)等功能。通过实际案例,重点介绍了可视化数据挖掘技术在电信、电力、医药、银行、电商和房地产等行业中的应用,可以作为互联网、银行证券、电商等行业的从业者,以及高等院校相关专业学生参考使用。第1部分 数据可视化篇 第1章 可视化数据挖掘概述 2 1.1 数据可视化 2 1.1.1 Tableau 3 1.1.2 QlikView 5 1
4219次浏览
本书主要分为三个部分,基础篇、建模应用篇和Rattle篇。基础篇(第1~5章)介绍了有关R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能等基础功能。建模应用篇(第6~10章)主要介绍了目前在数据挖掘中的常用的建模方法在R语言中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用R语言进行分析挖掘建模的方法。Rattle篇(第11章)介绍了一个R语言的图形界面工具。图书配套提供了程序代码及数据,读者可通过上机实验,快速掌握书中所介绍的R语言的使用方法。版权信息 前言 第一部分 基础篇 第1章 R语言的安装与使用 1.1 R安装与升级 1.2 R使用入门 1.3 R数据分析包 1.4 配套资源使用说明 1.5 小结 1.6 上机实验 第2章 数据对象与数据读写 2.1 数据类型 2.2 数据结构 2.3 数据文件的读写 2.4 小结 2.5 上机实验 第3章 R语言常用数据管理 3.1 变量的重命名 3.2 缺失值分析 3.3 数据排序 3.4 随机抽样 3.5 数值运算函数 3.6 字符串处理 3.7 文本分词 3.8 apply函数族 3.9 数据整合 3.10 控制流
2587次浏览
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。本书是写给程序员的一本数据挖掘指南,可以帮助读者动手实践数据挖掘、集体智慧并构建推荐系统。全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。本书采用“在实践中学习”的方式,用生动的图示、大量的表格、简明的公式、实用的Python代码示例,阐释数据挖掘的知识和技能。每章还给出了习题和练习,帮助读者巩固所学的知识。本书适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。内容提要 作译者简介 译者序 序 前言 第1章 数据挖掘简介及本书使用方法 第2章 协同过滤—爱你所爱 第3章 协同过滤—隐式评级及基于物品的过滤 第4章 内容过滤及分类—基于物品属性的过滤 第5章 分类的进一步探讨—算法评估及kNN 第6章 概率及朴素贝叶斯—朴素贝叶斯 第7章 朴素贝叶斯及文本—非结构化文本分类 第8章 聚类—群组发现
3386次浏览
《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法,这十种算法是数据挖掘领域的顶级专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等,此外,在每章最后还给出了丰富的习题和精挑细选的参考文献,对于读者掌握算法基本知识和进一步研究都非常有价值,对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。第1章C4.5 1 1.1引言2 1.2算法描述3 1.3算法特性6 1.3.1决策树剪枝6 1.3.2连续型属性8 1.3.3缺失值处理8 1.3.4规则集诱导9 1.4软件实现10 1.5示例10 1.5.1 Golf数据集10 1.5.2 Soybean数据集11 1.6高级主题11 1.6.1二级存储12 1.6.2斜决策树12 1.6.3特征选择12 1.6.4集成方法12 1.6.5分类规则13 1.6.6模型重述13 1.7习题14 参考文献15
2941次浏览
本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。前言第1章 集群及开发环境搭建1.1 环境准备1.2 安装Hadoop1.3 Hadoop版Hello World1.4 开发环境1.5 小结第2章 实战:快速构建一个Hadoop项目并线上运行2.1 构建一个简单的项目工程2.2 操作分布式文件系
2929次浏览
《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。第1章 概览 1.1 文档数据库(DOCUMENT DATABASES) 1.2 压缩(COMPRESSION) 1.3 索引(INDEXES) 1.4 文档索引 1.5 MG海量文档管理系统 1.6 进一步阅读 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分
3255次浏览
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。目 录 第1章 搜索引擎及其技术架构 1 1.1 搜索引擎为何