地 址:联系地址联系地址联系地址
电 话:020-123456789
网址:s-s-s-s.twqueen.com
邮 箱:admin@aa.com
楼主研一 ,何系想要系统学习机器学习,统学无奈身边的习机习人都不是很懂这个,跑到知乎求问,器学如何系统学习呢?西瓜书,何系机器学习实战和python机器学习算法在看,统学感觉还是习机习有一定的难度的,吴恩达的器学视频也准备开始刷了
2021.05.10更新 :
评论区有挺多人质疑半年能否完成这么多内容 ,我的何系观点是半年时间足够完成前两个步骤的学习 ,完成前两个步骤后就可以去参加互联网公司算法岗位的统学面试了,对于代码能力不错 ,习机习Leetcode easy题目熟练的器学同学 ,已经有很大可能性拿到一份实习Offer,何系步骤三在实习过程中持续进行,统学那么秋招的习机习时候就能拿到正式Offer了。
推荐一下自己在数据科学道路上的学习笔记,终生更新,终生开源 ,喜欢的同学可以点个star,repo下载到本地,阅读效果更佳
zhangjx831/Data-Science-Notes原答案 :
不请自来答一波,半年前入坑机器学习,如今已经拿到某互联网大厂算法岗实习offer,给大家推荐一下我的学习路线。
机器学习主要分为传统的统计学习和深度学习两个部分。统计机器学习在上个世纪就一直在用,只不过当初不叫机器学习这个名字 ,深度学习从2012年起掀起了一波AI热潮 。想要学习机器学习,将来找算法岗工作可以分为三步。
步骤一:打好数学和代码基础
相信大部分想学习机器学习的都是一些理工科的同学 ,包括数学、物理、计算机、自动化等,这些同学本科期间数学和代码功底比较扎实,这个步骤可以选择性略过。对于一些数理基础不是特别扎实的同学,比如生化环材还有一些商科文科的同学 ,想学习机器学习 ,还需要先复习(预习)一些数学和代码知识 。我就属于后面这一部分同学,下面来讲讲我当时怎么做的。
数学基础主要就是微积分 、线性代数、概率论与统计这三个部分。对于微积分来说,至少要掌握多元微积分的知识 ,会求偏导,求积分 。线性代数对机器学习比较重要 ,需要懂一些矩阵运算法则 ,求矩阵特征值 ,求方程组,矩阵的逆等等。概率论与统计是重中之重 ,要了解一些基本分布,条件分布 、联合分布等等。数学基础这个部分如果不太懂的话,可以在mooc上搜一些考研数学的复习视频 ,短平快的复习好这三大部分的知识点 。对于线性代数部分的学期 ,可以参考麻省理工学院MIT的公开课 ,知乎上已经有人做了课程笔记 ,可以搜索一下 。而概率论统计也可以在coursera上搜索相应课程 ,推荐一门statistic with python的课程,既复习了统计学基础,又练习了python代码能力。
https://www.coursera.org/specializations/statistics-with-python对于代码基础部分,刚开始做机器学习一般都从比较简单的python入手 ,很多的软件包都是基于python而写的。对于python的学习,推荐coursera上的另一门网课,python for everybody,讲解深入浅出。除此之外,最好懂一些常用包的使用 ,numpy ,pandas和matplotlib,这三个分别是python中进行科学计算 、数据处理和数据可视化的包,我的学习建议是多写代码多练习,找一个数据集 ,进行数据导入、预处理、探索性分析 、可视化,这些操作来一遍,python就学了个大概了 。如果还想进一步深入 ,可以了解一些python面向对象编程的原理 ,不过这部分内容在机器学习中用到的不多。
https://www.coursera.org/learn/python/home/welcome步骤一我建议对于基础好的同学可以略过,对于基础稍弱的同学在一个月之内 ,每天学习2-4个小时就能基本上掌握大概,后面碰到不懂的 ,再去对应学习即可。
步骤二 :机器学习入门
打好了数学基础和基本的python基础后 ,我们就可以正式开始机器学习的学习了。这部分就不得不提机器学习领域最著名的网课和书籍了 。网课那就是斯坦福大学Andrew Ng吴恩达在coursera上的免费网课machine learning了 。
https://www.coursera.org/learn/machine-learning/home/welcome这个网课一定要看 ,老师讲的浅显易懂 ,对小白来说很友好 ,课后编程作业是用Matlab写的 ,如果不懂Matlab的同学也可以用python做,在GitHub上有很多人把自己用python实现的算法po了上去 ,可以找对应的GitHub repo去看。
看完网课之后 ,就可以找对应的书籍加深对于机器学习基础的理解。网课的内容覆盖有限 ,起到一个启蒙的作用,对相应内容了解大概之后,可以读一读李航老师的《统计学习方法》和周志华老师的《机器学习》,又称西瓜书 。这两本书我更建议先看《统计学习方法》,这个讲解更浅显一些。在这个部分,可以主要看一下《统计学习方法》前8章基本的监督学习内容和第13-16章基本的无监督学习内容。之后有时间可以看看其他章节的拓展内容,比如马尔可夫模型、EM算法等等。对于西瓜书可以先看看前10章的内容 ,之后再了解后续内容。
学到这里,我们就对机器学习有一个基本的了解 ,但是这些都是理论知识 ,缺少实战经验 ,为了提高机器学习的实战能力 ,我推荐《机器学习实战》这本书,教你怎么样用python实现之前所说的那些算法 ,基本的回归 、分类 、聚类 、降维在那里都有。
下面就是一些近期大火的深度学习内容的学习,深度学习由于是近几年才兴盛起来 ,书籍没有很多,主要通过网课和论文学习。这里我推荐吴恩达的深度学习专项课程。老师的讲解同样深入浅出 ,能够快速了解深度学习在近些年的发展 ,包括基本的神经网络模型、卷积神经网络 、循环神经网络以及深度学习领域的一些trick 。作业是用python完成的。如果你能听完课,做完作业,那么python水平会得到很大提高,并且会使用一些keras、tensorflow的框架构建深度学习模型 。
https://www.coursera.org/specializations/deep-learning至此,第二步骤告一段落,如果能做完上面的步骤 ,你已经成为机器学习领域半个专家,这个时候已经可以去互联网公司面试了,运气好的话,就可以找到一份算法岗位的实习机会,继续精进机器学习算法知识。这个步骤大概用时4-6个月 ,每天2-4小时
步骤三:持续提高工程能力和机器学习领域知识
下面这一步,本人也是正在进行中,来和大家讲讲我的计划。如果要成为一个出色的算法工程师,那么就要做到持续学习 。如今算法工程师不仅需要懂机器学习 ,更要是一个合格的软件工程师 ,代码能力非常重要,要会复现paper,上线模型。这个部分可以通过打比赛来提高。著名的比赛有两个,一个是国外的Kaggle网站,另一个是国内阿里的天池竞赛 ,通过参加比赛 ,提升自己的代码能力和对机器学习领域的理解 。
https://www.kaggle.com/天池大数据众智平台-阿里云天池这里可以选一个自己喜欢的方向进行深入钻研,目前业界比较火的三个方向是广告推荐、自然语言处理NLP和计算机视觉CV方向。同时也有一些相对小众比如异常检测 、风控等方向等待大家去挖掘。学习这些知识需要通过阅读最新业界的论文。AI领域的顶级会议包括AAAI, SIGKDD, IJCAI, AISTATS等等 ,阅读这些论文可以了解业界最新进展,启发思路 。
另外在这个阶段,可以继续夯实基础 ,我推荐几本书。首先还是之前的《统计学习方法》和西瓜书,可以将剩下的章节阅读完。另外就是两本机器学习领域的圣经《Pattern Recognition and Machine Learning》和《Element of Statistic Learning》,这两本书是机器学习领域不可不读的经典著作 。另外深度学习领域的圣经则称为花书,也是可以拜读的经典著作。
步骤三更多的是在实践与工作中学习,计算机领域是个需要终身学习的地方,算法岗更是如此 ,每年深度学习算法都会有大的突破,需要不断阅读新论文 ,提高自己,如果大家希望入行机器学习算法 ,可以按照上面步骤做,虽然如今算法岗内卷严重,但如果努力,还是能在强手如林的算法领域找到一席之地 ,与君共勉 !
下面是上述提到的几本书链接,大家有兴趣可以从我的链接点进去购买 ,都是京东自营的,良心推荐
想要成为一名人工智能从业者 ?系统学习机器学习是重点 !
机器学习是一门不需要进行明确编程就能使计算机发挥作用的科学。在过去的十年里,机器学习已经为我们提供了自动驾驶汽车、实时语音识别、高效网络搜索等实用工具,并帮助我们极大地提升了对人类基因组的认知
。许多研究人员都认为发展机器学习是向人类水平的人工智能迈进的最好方式 。
这里向大家提供三个系统学习机器学习的步骤:学习基础编码知识、学习机器学习及深度学习、专注于一个角色
。
想要成功构建机器学习系统,基本的编程技能是先决条件 。在开始实践简单的机器学习算法之前 ,你需要具备编写一个简单的计算机程序(函数调用 ,for loops ,条件语句
,基本的数学操作)的能力。虽然掌握更多数学知识能让你更具优势,但也不必将精力过多投入到诸如线性代数、概率和统计这样的数学基础上 。
在学习了基础编码知识后,就可以正式开始你的机器学习之旅了
。由斯坦福大学推出的“机器学习课程”是你不错的选择。该课程提供了对机器学习
、数据挖掘和统计模式识别的广泛介绍
,能帮助大家有效构建对机器学习的认知和理解。主要内容包括 :监督学习、无监督学习和机器学习的最佳实践。
该课程从大量的案例研究和应用中汲取经验 ,便于大家学习如何将学习算法应用于构建智能机器人(感知、控制)、文本理解(网络搜索 、反垃圾邮件) 、计算机视觉等任务
。
此外
,深度学习也是你需要涉猎的领域
。由DeepLearning.AI开发的“深度学习专业课程”涵盖了你在计算机视觉 、自然语言处理和语音识别等领域构建应用程序所需的知识。你将从医疗保健、自动驾驶 、手语阅读、音乐生成和自然语言处理等方面开展案例研究
,以便于在掌握理论知识的基础上了解深度学习在各行业中的实际应用。
当你对机器学习和深度学习都有了较为深入的学习后
,下一步行动将取决于你心中想要成为的角色,例如成为数据科学家 、机器学习工程师或机器学习研究员等,亦或是将所学的AI技能与你目前从事的工作相结合,将人工智能更好地应用于现实世界问题。
确定角色之后就要迈入真正的实践环节了
。对此
,项目选择和团队合作至关重要
。确定可行和有价值的项目是一个重要的步骤 ,必须在你的职业生涯中反复实践
。在完成项目的过程中 ,团队合作比单打独斗更容易取得成功 。与他人合作、提供及听取建议的能力至关重要,这能帮助你在协作过程中建立广泛的关系网。当你需要帮助或建议的时候,拥有一个强大的职业关系网能够助你前行。
在积累了一定的机器学习理论知识和实践经验后,找到一份相关的工作看似是每个人的最终目标,但它只是漫长职业生涯中的一小步。你需要保持自律,不断学习。身边的人并不清楚你把周末的时间是用在学习还是刷手机上了
,但随着时间的推移,他们终将注意到差异 。自律的生活可以帮助你在保持健康的同时继续进步。
希望上述建议能为你打开机器学习的大门,从初学者一路走向从业者。这条路注定是宽阔却不平坦的,但这一路上遇到的人和事都将助你走向成功
。
我的深度学习相关课程也将在近期登录知乎,敬请关注,我们下次再见 !
请继续学习 !
吴恩达
研究生课程阶段,我曾上过学校开的《机器学习理论与应用》的课程 ,当时我们用的教材是周志华老师的西瓜书。那老师开课第一天告诉我们的第一句话是:“这个课程的基础知识很少,我不用半个学期就可以讲完。之后的东西要全凭你们选定一个领域后深度探索,前提是你们掌握足够的编码能力。”
那个学期老师只是前面几节课讲了些基本概念,又讲了些Dropout 、BatchNorm方面的内容。什么LSTM、什么Transformer、什么注意力机制,不存在的,从来不讲。
我心里暗自骂,什么老师 ,什么课程 ,水的一批 ,我来上这个课的目的就是系统地学习一下这个课 ,就这?
然而随着后面慢慢入门,我发现“系统学习机器学习”,确实不是一件易事。它并不像我们学习C++,我们先通过《C++ Primer》了解大概,接下来进阶可以看看《Effective C++》,《STL源码剖析》等等。它并没有这样的学习路线 。
大家往往都是先看一些书进行了解之后,在一项一项业务中去实践和探索,应用,没有什么硬性规定好的东西,有效果的框架就是有效果 ,前几年LSTM好用,后来Transformer来了 ,到现在自监督非常火,说不准又会有什么新奇的框架出来 ,替代之前的框架,这和负责的具体业务场景有非常大的关系。
现在想想 ,当时我们老师说的那句话居然和吴恩达 @吴恩达 老师的三个步骤如出一辙 :
接下来我推荐的学习资料都将围绕这三个点展开,除了书籍 ,还有一些课程和链接
学习机器学习最方便的语言是python,因此可以先从python开始,如果已经接触过一点python ,那么强烈推荐这本鱼书《深度学习入门》,一个日本作家写的,这本书非常薄 ,但是他已经足够教你从最基本的一个layer开始搭建起一个神经网络。
对于入门而言,python是足够的,但是机器学习的模型一定是需要被部署到移动端或者服务器端的,因此C++也非常重要。因此还必须得推荐一下这本基础书籍《C++ primer》
西瓜书 、花书、以及吴恩达老师的机器学习课程已经是非常优质的机器学习课程了 。这里我推荐一个李沐老师 @李沐 出的深度学习课程 。李沐老师是绝对的机器学习领域的大牛了 。亚马逊首席科学家 ,著有 IT 畅销书《动手学深度学习》,在知乎上已经是绝对公认的大佬 ,出了很多课程。
李沐的深度学习课 - 知乎值得一提的是 ,这个课程应该可以算是比较系统也比较友好的了 ,因为它是从基础的数学知识开始讲的 !从基础的数学知识出发 ,到常用的优化方法 ,然后过渡到机器学习领域 。主要内容涵盖了卷积神经网络、循环神经网络的常用结构 ,包括LSTM 、Transformer等等。
对于前面的内容,主要以理论讲解为主,到后期涉及具体的模型时,会有手把手的关键代码讲解 ,因此比起纯讲理论的课程要友好很多 。对于已经具有一定基础的同学,也可以把这个课程当作一个字典 ,用于查缺补漏 。
由于我所接触的领域是自动驾驶的感知算法领域,因此这里我只推荐一些对应的网课和书籍 。
首先计算机视觉中的各种论文、框架、pytorch实现等等可以参考这位Github上大佬的项目,真的讲的非常详细,无论是老的各种RCNN结构和Yolo结构 ,还是新出的一些各式各样的的卷积方式:转置卷积 、膨胀卷积、以及目标分割领域的论文解读 。可以这么说,我秋招的基础知识就是跟这个大佬的课程学的 。这里也给出它的Github链接 :deep-learning-for-image-processing
此外,除了所以各种深度学习方面的论文,一些传统机器学习方面计算机视觉的书还是很有价值的 ,比如这本《计算机视觉 :模型 、学习和推理》 ,常看常新 。
聊到最后,我还是想说说我研究生上的那门机器学习的课程:
那门机器学习课程后面的任务是,不同学院的人,选择一个自己感兴趣的领域 ,定期做论文分享,最后的课程大作业是复现3篇论文的内容,并进行Presentation 。
现在想想 ,这才是我当时上那门课最大的收获 。让我现在面对铺天盖地的花里胡哨的论文方法时
,不至于手足无措
。
高中的时候,班主任让我们每学完一个章节,整理出这个章节的关键词和一份问题列表。现在会想起来,其实是很有用的 ,这让我们可以从另外一个视角来审视所学习的内容,而不是单纯的填鸭式的记忆;最近在复习机器学习相关内容,也从问题的视角来回顾机器学习知识体系 ,对于机器学习方向同学可以作为考察 ,看看里面的内容是否都能回答上来;而对于想学习机器学习的同学来说 ,应该可以作为一个方向,把这些内容一个个解决了 ,在各大厂算法岗面试中应该可以横着走了。
回归模型和分类模型常用损失函数有哪些?各有什么优缺点
Ø 特征工程
Ø 基础算法原理和推倒
Knn
支持向量机
朴素贝叶斯模型
线性回归
逻辑回归
FM模型
决策树
随机森林(RF)
GBDT
k-means
PCA降维
Ø DNN
Ø CNN
Ø RNN
4、 基础工具
Ø Spark
Ø Xgboost
Ø Tensorflow
5、 业务工程实现(推荐系统为例)
这个话题下 ,大佬们亲自回答 ,我这个小镇做题家也来凑个热闹 。自荐一套“鸢尾花书” ,从加减乘除到机器学习。
大佬们的作品对零基础的同学们起点太高 ,而这套鸢尾花图册致力于将陡峭的学习曲线拉直!
鸢尾花图册 ,全彩图解 + Python编程 + 数学基础 + 微课视频 + Streamlit App。PDF草稿、Python代码全部开源 ,下载地址:
https://github.com/Visualize-ML入门机器学习,需要如下几个板块的技能:编程,可视化 ,数学,数据,机器学习算法。鸢尾花书7本就试图提升这些技能。
Book 1《编程不难》,零基础学Python
Book 2《可视之美》 ,提供各种可视化方案 ,静态 、交互
Book 3《数学要素》 ,从加减乘除讲数学
Book 4《矩阵力量》,线性代数在机器学习应用
Book 5《统计至简》,强调多元统计、贝叶斯推断
Book 6《数据有道》 ,数据处理、回归、降维
Book 7《机器学习》 ,分类、聚类
《数学要素》粉丝五折入口 :
生姜DrGinger :鸢尾花书《数学要素》粉丝五折入口终于来啦看个人情况,开源资源 ,永久有效哈 。