作者|王家军
编辑|小智
这是一个用户友好的机器学习教程。哪怕你是还没毕业的大学生,或者初入职场的小码农,都可以通过本教程自学机器学习并快速应用。最重要的是这些教程是完全免费的。唯一的痛点可能是:你的英语有多好?
注:本文转载自公众号。“范式大学”由第四范式发起,致力于成为培养工程师向数据科学家转型的“黄埔军校”。专栏专注于使用人工智能解决特定的业务问题。在这里,您将看到企业如何通过可落地的方式完成AI转型;个人如何快速成为能够通过最新技术工具解决问题的机器学习工程师。
写在前面
相信几乎所有看到这篇文章的朋友都想成为机器学习科学家。
事实上,绝大多数的付费课程基本上都是在另一个地方有完全免费的课程。我们只是整理了信息并告诉您在哪里可以找到它们以及以什么顺序学习它们。
这样,即使你是尚未毕业的大学生,或者初入职场的工程师,都可以通过自学掌握机器学习科学家的基本技能,并快速应用到论文、工作中,甚至日常生活。
在这里推荐一个通俗易懂的机器学习教程,你可以在几个月内成为机器学习科学家,完全免费。
一个用户友好的机器学习教程
在参加机器学习课程时是否曾被信息过载所淹没?
大多数学习者都会遇到这个问题,这不是他们的错,因为大多数机器学习课程都过于关注单个算法。
是的,虽然算法很重要,但他们仍然在算法上花费了太多时间。
这么多……你几乎很难在短时间内走完机器学习的过程,从而感受到通过它解决具体数据问题的巨大兴奋。
这些机器学习课程侧重于算法,因为它很容易教授。相比之下,如果一个机器学习老师要带你走完机器学习的过程,那么他需要搭建一个计算环境,完成数据的收集、清洗、拆分、特征处理、模型调优和模型预测,甚至还需要一个供学习者使用的交互式界面。一个老师哪有那么多工具,与其手拉手带着学生到处转,不如去学习机器学习算法。
但这样做的问题是,一个人很难坚持自学,成为一名优秀的机器学习科学家。即使是数学博士或技术高超的程序员,也很容易卡在细节中,很难有实现具体项目的成就感。
本教程将导致一种完全不同的思维方式。非常适合自学,即使完全没有编程基础,也可以通过合适的工具快速实现机器学习模型,解决工作和生活中遇到的具体问题。
值得一提的是,我们不用花一分钱就可以享受到全球顶级的机器学习资源。
自学方式
我们建议您使用 Doing Shit(不是技术术语)来完成您的学业。
你可能以前学过机器学习,但从我和我朋友的经验来看,你会经常被各种神秘的符号、公式、大量的课本和论文搞得一头雾水,然后再也不想碰这个烦人的东东了.
我们的方法会更加友好。它的学习过程就像一个孩子。您将了解一些基础知识(但不一定完全了解),然后通过易于使用的工具快速实施。而当你被建模结果所吸引时,接下来我们就要讲讲算法背后的数理逻辑和计算逻辑。
所以我们在学习中会做很多机器学习的项目。这样做的好处是,当你面临工作机会时,你就是一位经验丰富的机器学习科学家!
当然,自学本身就需要自律。本教程将永远陪伴您。以下是4个步骤。
1.先决条件(不需要完全理解)
统计学、编程和数学(或没有编程)
2.海绵模式
让自己沉浸在机器学习的各种理论中
3.目标练习
用机器学习包练习9个有趣的问题
4. 机器学习项目
深入参与感兴趣的项目和领域
第 1 步:先决条件
机器学习之所以看起来令人生畏,是因为它伴随着神秘的术语。其实就算是中文系毕业,也能学好机器学习。但是,我们要求您对某些领域有基本的了解。
好消息是,一旦您满足了先决条件,剩下的就很简单了。事实上,几乎所有的机器学习都是关于将统计学和计算机科学的概念应用到数据领域。
任务:确保你了解基本的统计、编程和数学
统计数据:了解统计数据,尤其是贝叶斯概率,对许多机器学习算法至关重要。
免费指南:如何学习数据,自学
编程:知道如何编程可以让你更灵活地应用机器学习。
免费指南:如何学习数据,自学
数学:原始算法的研究需要线性代数、多元计算的基础。
免费指南:如何学习数据数学免费教程,自学
您可以先看看这些教程,为您的机器学习路径打下知识基础。
第 2 步:海绵图案
海绵模式就是尽可能多的吸收机器学习的理论知识。
现在你们中的一些人可能会想:“如果我不打算进行原始研究,那么当我可以使用现有的机器学习包时,为什么还需要学习理论呢?”
这是一个合理的问题!
但是,如果你想更灵活地将机器学习应用到日常工作中,学习一些基础理论还是有好处的,并不需要完全理解。下面我们破坏了学习机器学习理论的 5 个理由。
(1) 规划和数据收集
数据采集可能是一个昂贵且耗时的过程!那么我需要收集什么类型的数据呢?根据模型,我需要多少数据?这个挑战可行吗?
(2) 数据假设和预处理
不同的算法对数据输入有不同的假设,那么我应该如何预处理我的数据呢?我应该正规化吗?如果我的模型缺少一些数据,它是否稳定?异常值呢?
(3) 模型结果解释
机器学习是一个“黑匣子”的简单概念是错误的。是的,并非所有结果都可以直接解释,但您需要诊断您的模型并改进它们。如何评估模型是过拟合还是欠拟合?我如何向业务利益相关者解释这些结果?模型还有多少改进空间?
(4) 改进和调整模型
您的第一次训练很少会达到最佳模型,您需要了解不同调整和正则化方法的细微差别。如果我的模型过度拟合,我该如何补救?我应该花更多时间在特征工程上,还是花在数据采集上?我可以组合我的模型吗?
(5) 推动商业价值
机器学习从来都不是凭空完成的。如果您不了解您的武器库中的工具,您就无法充分利用它们。在这么多的结果指标中,哪些是优化的参考指标?哪个更重要?还是有其他性能更好的算法?好消息是您不需要一开始就知道问题的所有答案。因此我们建议您从学习足够的理论开始,然后快速付诸实践。这样,你更有可能坚持下去,并在一段时间后真正精通机器学习。
这里有一些免费的机器学习资源。
机器学习视频课程
这是哈佛和耶鲁的世界级课程。
任务:完成至少一门课程
哈佛大学数据科学课程
端到端的数据科学课程。与 Ng的课程相比,它不太强调机器学习,但是从数据收集到分析,你可以在这里学习整个数据科学工作流程。
斯坦福大学机器学习课程
这是吴恩达的名课,这些视频讲解了机器学习背后的核心思想。如果你只有一节课的时间,我们推荐这个。
机器学习参考
接下来给大家推荐两本业界经典教材。
任务:将这些 PDF 视为教科书
安到
本书介绍了统计学习的基本要素,适合所有机器学习学习者。
的
对机器学习理论和数学的严格介绍,推荐给机器学习研究人员。
成功的关键
以下是每一步成功的关键。
A:着眼于大局,总是问为什么
每当你被介绍到一个新概念时,问“为什么”。为什么在某些情况下使用决策树而不是回归?为什么要规范化参数?为什么拆分数据集?当您了解为什么使用每种工具时,您将成为真正的机器学习实践者。
B:接受你不会记住你学到的一切
不要做疯狂的笔记,也不要每节课都复习 3 遍。在你的实际工作中,你会经常需要回顾。
C:继续前进,不要气馁
尽量避免在一个话题上拖延太久。即使是机器学习教授,有些概念也很难解释清楚。但是当你开始在实践中应用它们时,你会很快明白这些概念的真正含义。
D:视频比教科书更有效
根据我们的经验,教科书是很好的参考工具,但很难坚持。我们强烈推荐视频讲座形式。
第 3 步:有目的地练习
在海绵模型之后,我们通过刻意练习磨练我们的技能,并将机器学习提升到一个新的水平。目标涵盖三个方面:
完成这些步骤后,您就不会在开始处理更大的项目时不知所措。
机器学习工具
为了快速实施机器学习模型,我们建议使用现成的建模工具。这样,您将在短时间内练习整个机器学习工作流程,而无需在任何一个步骤上花费太多时间。这会给你非常宝贵的“大局直觉”(Big)。
:-学
-learn 是通用机器学习中的黄金标准库,具有常用算法的实现。
R:插入符号
Caret 为 R 语言中的包建模提供了一个统一的接口。它还包括用于预处理、数据拆分和模型评估的功能,使其成为一个完整的端到端解决方案。
练习数据集
学习了工具之后,你还需要一些数据集。数据科学和机器学习的大部分艺术在于解决问题的数十个微观决策。我们将看到在不同数据集中建模的结果。
任务:从以下选项中选择 5 到 10 个数据集。我们推荐从 UCI 的机器学习库入手,比如你可以选择 3 个数据集进行回归、分类和聚类。
在做机器学习项目时,思考以下问题:
UCI 机器学习报告
UCI 机器学习报告收集了超过 350 个不同的数据集免费教程,专门为机器学习提供训练数据。您可以按任务(回归、分类或聚类)或行业或数据集大小进行搜索。
它以举办数据科学竞赛而闻名,但该网站还拥有 180 多个社区数据集,涵盖有趣的主题,从用户口袋妖怪到欧洲足球比赛。
如果您正在寻找社会科学或政府相关的数据集,请检查一下。这是美国政府的公开数据集,你可以搜索超过 190,000 个数据集。
第 4 步:机器学习项目
好吧,现在到了真正有趣的部分。到目前为止,我们已经涵盖了先决条件、基础理论和有目的的实践。现在我们准备好继续进行更大的项目。
此步骤的目标是将机器学习技术集成到完整的端到端分析中。
完成一个机器学习项目
任务:完成泰坦尼克幸存者挑战。
是一个非常受欢迎的练习机器学习的项目,事实上,它是互联网上最流行的比赛。
我们喜欢使用这个项目作为起点,因为它有很多很棒的教程。您可以了解这些经验丰富的数据科学家如何处理数据探索、特征工程和模型调整。
教程
我们非常喜欢这个教程,因为它教您如何进行数据预处理和数据校正。Pycon UK 提供的教程。
R教程
使用 R 中的 Caret 包处理了几个不同的模型。本教程很好地总结了端到端的预测建模过程。
这是一个“不负责任”的快速教程:只是一个教程,跳过了理论。不过它很有用,它展示了如何进行随机森林操作。
从头开始编写算法
为了更深入地了解机器学习,没有什么比从头开始编写算法更有帮助了,因为细节决定成败。
我们建议从一些简单的东西开始,比如逻辑回归、决策树或 KNN 算法。
该项目还为您提供了将数据语言转换为编程语言的实践。当您想将最新的学术研究应用到您的工作中时,这项技能会派上用场。
如果您遇到困难,这里有一些提示:
选择一个有趣的项目或领域
如果你不好奇,你就很难学好。但到现在,也许你已经找到了自己想要坚守的领域,那就开始建模吧!
老实说,这是机器学习最好的部分。它是一个强大的工具,一旦您开始理解它,您就会有很多想法。
好消息是,如果您一直关注并准备好接受这份工作,您可以获得比您想象的更多的东西!
我们还推荐了 6 个有趣的机器学习项目。
恭喜您完成了自学指南!
好消息是,如果你遵循并完成了所有任务,你将比 90% 的应用机器学习领域自称数据科学家的人更优秀。
更好的消息是你还有很多东西要学。示例包括深度学习、强化学习、迁移学习、对抗生成模型等。
成为最好的机器学习科学家的关键是永不停止学习。在这个充满活力和令人兴奋的领域开始你的旅程!
本教程由 提供,我们翻译了本教程并稍作改动。这是原文链接:
想了解AI在行业中的应用?
7月,深圳,全球架构师峰会,“创新智能应用”专题,我们将为您带来多个垂直行业应用案例。
另外,我也想跟大家聊聊,如,Uber,Yahoo!等工厂的实现和瓶颈突破;
深度揭秘淘宝架构、手Q红包、百度AI等巨头产品的技术细节,
暂无评论内容