Scaling Big Data with Hadoop and Solr

作者：	Hrishikesh Karambelkar
语言：	英文
出版年份：	2013
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍概述

《Scaling Big Data with Hadoop and Solr》是一本由Hrishikesh Karambelkar撰写的专注于利用Hadoop和Solr构建高效、高性能企业级大数据搜索仓库的实用指南。该书于2013年8月由Packt Publishing出版，旨在为开发者提供详细的操作步骤和深入的技术解析，帮助他们掌握如何结合Hadoop和Solr处理大规模数据集，以满足企业对大数据搜索和分析的需求。

二、作者简介

Hrishikesh Karambelkar是一位拥有丰富创业和专业经验的软件架构师。他在多种技术领域有着深厚的专业知识，尤其是在Apache Hadoop和Solr方面，曾为下一代产品线架构新的解决方案。此外，他还发表了多篇关于数据库图搜索的研究论文，并在行业内解决过许多涉及Hadoop和Solr的复杂问题。

三、书籍内容结构

第一章：使用Hadoop MapReduce处理大数据

本章深入介绍了Apache Hadoop及其生态系统，包括HDFS和MapReduce框架。读者将学习如何编写MapReduce程序、配置Hadoop集群以及管理集群。同时，详细探讨了Hadoop的安装和运行，包括单机模式、伪分布式模式和完全分布式模式的设置。

第二章：了解Solr

本章聚焦于Apache Solr，讲解了如何配置Solr实例、创建索引以及加载数据。此外，还探讨了Solr的架构、存储机制、查询解析器和交互方式。读者将了解Solr的多种功能，如分面搜索、高亮显示、拼写检查等，并学习如何通过SolrJ等客户端API与Solr进行交互。

第三章：使大数据适用于Hadoop和Solr

本章将Hadoop和Solr相结合，探讨了在不同架构下实现大数据处理的方法及其优势。介绍了Solr 1045补丁（map-side indexing）和Solr 1301补丁（reduce-side indexing）两种不同的索引生成方式，以及SolrCloud和Katta等分布式搜索解决方案的配置和使用。

第四章：使用大数据构建大型索引

本章深入探讨了NoSQL数据库的概念及其在大数据存储中的应用。详细介绍了分布式搜索的概念，包括分片算法、索引添加到分布式分片的过程，以及如何配置SolrCloud以处理大型索引。此外，还介绍了Lily项目，它将Solr和Hadoop结合在一起，用于分布式搜索。

第五章：在大数据扩展时提高搜索性能

本章讨论了在数据量不断增长的情况下，如何对大数据搜索实例进行优化。包括优化搜索架构、索引优化、容器优化、并发客户端优化、Java虚拟内存优化以及搜索运行时优化等多个方面的技术细节。通过这些优化方法，读者可以显著提高大数据搜索的性能。

附录

附录A：提供了大数据搜索的行业用例，如电子商务网站和银行日志管理，展示了Hadoop和Solr在实际场景中的应用。
附录B：分享了一个用于创建企业搜索的Solr示例架构，包括schema.xml、solrconfig.xml等配置文件。
附录C：提供了构建Solr索引的MapReduce程序示例，包括Solr 1045补丁、Solr 1301补丁和Katta的示例代码。

四、适用读者

本书主要面向希望使用Hadoop和Solr构建高速企业级搜索平台的开发者，尤其是Java程序员。读者无需事先具备Apache Hadoop和Solr的深入知识，书中提供了从基础到高级的逐步指导，帮助读者快速上手并掌握相关技术。

五、总结

《Scaling Big Data with Hadoop and Solr》是一本全面而深入的大数据处理和搜索技术指南。它不仅涵盖了Hadoop和Solr的基础知识，还提供了丰富的实践案例和优化技巧，使读者能够有效地构建和管理大规模大数据搜索系统。对于那些希望在大数据领域深入探索的技术人员来说，这本书无疑是一本极具价值的参考书籍。