Python教程
资源名称:数据科学导论 Python语言实现 内容简介: 本书由两位资深数据科学家撰写,融合其多年从事数据科学相关的教学和科研工作经验,借助现有的Python语法和结构知识,全面而系统地讲解进行数据科学分析和开发的相关工具、技术和*佳实践,包含清晰的代码和简化的示例。通过阅读本书,你将深入理解Python核心概念,成为高效数据科学实践者。 本书共6章,系统介绍了进行数据科学分析和开发所涉及的关键要素。书中首先介绍Python软件及相关工具包的安装和使用;接着不仅讲解数据加载、运算和改写等基本数据准备过程,还详细介绍特征选择、维数约简等高级数据操作方法;并且建立了由训练、验证、测试等过程组成的数据科学流程,结合具体示例深入浅出地讲解了多种机器学习算法;然后介绍了基于图模型的社会网络创建、分析和处理方法;最后讲解数据分析结果的可视化及相关工具的使用方法。 作者简介: Alberto Boschetti 数据科学家、信号处理和统计学方面的专家。他拥有通信工程专业博士学位,现在伦敦居住和工作。基于所从事的项目,他每天都要面对包括自然语言处理、机器学习和概率图模型等方面的挑战。他对工作充满激情,经常参加学术聚会、研讨会等学术活动,紧跟数据科学技术发展的前沿。 Luca Massaron 数据科学家、市场研究总监,是多元统计分析、机器学习和客户洞察方面的专家,有十年以上解决实际问题的经验,使用推理、统计、数据挖掘和算法为利益相关者创造了巨大的价值。他是意大利网络受众分析的先锋,并在Kaggler上获得排名前十的佳绩,随后一直热心参与一切与数据分析相关的活动,积极给新手和专业人员讲解数据驱动知识发现的潜力。他崇尚大道至简,坚信理解数据科学的本质能带来巨大收获。 资源目录: 译者序 前言 第1章 新手上路1 1.1 数据科学与Python简介1 1.2 Python的安装2 1.2.1 Python 2还是Python 33 1.2.2 分步安装3 1.2.3 Python核心工具包一瞥4 1.2.4 工具包的安装7 1.2.5 工具包升级9 1.3 科学计算发行版9 1.3.1 Anaconda10 1.3.2 Enthought Canopy10 1.3.3 PythonXY10 1.3.4 WinPython10 1.4 IPython简介10 1.4.1 IPython Notebook12 1.4.2 本书使用的数据集和代码18 1.5 小结25 第2章 数据改写26 2.1 数据科学过程26 2.2 使用pandas进行数据加载与预处理27 2.2.1 数据快捷加载27 2.2.2 处理问题数据30 2.2.3 处理大数据集32 2.2.4 访问其他数据格式36 2.2.5 数据预处理37 2.2.6 数据选择39 2.3 使用分类数据和文本数据41 2.4 使用NumPy进行数据处理49 2.4.1 NumPy中的N维数组49...