死灵法师英文一定读了个假专业!Reddit网友分享ML学习“拦路虎”-论智

作者:admin , 分类:全部文章 , 浏览:585
一定读了个假专业!Reddit网友分享ML学习“拦路虎”-论智
编译:Bot
来源:reddit
常言道,科研有如攀登,一步一个脚印。登上山顶前,登山者心中只有脚下的路;登上山顶后,他看清的也只有来时的路。作为一个热门学科,机器学习吸引了无数人为之奋斗,同样的,它的高度也让不少爱好者望而生畏。
近日,一名网友在reddit上提了一个问题:对于ML领域的科研人员,或者是取得了学位的从业人员来说,哪些概念是他们没能完全掌握的?除了三位耿直的网友为高斯过程、贝叶斯分布和超参数各投了一票,其他人都陷入了狂欢式的吐槽。论智君阅读了所有留言,并将一些观点归类如下屯留吧。
数学
要想入门机器学习,良好的数学基础必不可少,而其中最重要的工具之一就是线性代数。
网友local_minima_在评论中吐槽了自己的线代水平:
我的线性代数是真的糟糕,但凡涉及相关知识,我的成果往往会因为一些计算细节错误频出。
事实上,数学之所以在机器学习,尤其是深度学习中应用广泛鱼水情歌,主要是它能将复杂问题简单化,用尽可能少的行数实现最多、最高效的运算。矩阵、向量丁丹妮 ,这些都是入门机器学习时不可避免的词汇,神经网络的权重需要被存储在矩阵中、GPU是以向量和矩阵运算为基础的……在训练模型过程中,一个数学符号的缺失可能会让人丧失科研热情,如网友godnear就痛苦的表示:
我一直专注于PGM(概率图模型),甚至跟着Daphne Koller的视频一步步尝试,但还是失败了。我不知道那些“节点”是什么,是向量还是标量,这些数学符号太令人费解,所以3年前我放弃了。
而网友boccaff则一针见血地指出:
如果你推敲一下这些底层概念乱世萌后,如监督学习的SVM、随机森林、Boosted Models、高斯过程和ANN,以及它们在DL中的疯狂应用(再加上一个神经模糊)。又如非监督学习的关联规则挖掘(先验等)、聚类、异常值检测等。我甚至怀疑是否真的有人能列出所有概念。如果把这些都放进“数学学科”概念层,微积分、线性代数、优化和概率论,我只想说,我一门都没有完全掌握。如果还要列出数值分析、启发式算法、算法……不说了,我不喜欢它们……

deeplearning课程笔记
理解概念不等于理解过程
有时候,理解可以是很浅层次的行为,如理解概念、掌握如何操作。如果一旦涉及具体某一个概念的生效过程以及它背后的数学计算,那真正掌握的人可以称的上是屈指可数。
网友hinduismtw在留言中提出了他的一个困扰:
在看到这个帖子前,我刚问了一个问题,郑安仪是关于LSTMP中的投影层,我不明白它为什么和最大池化层不一样,以及它是怎么工作的何必太多情。
无论是刚入门的学生侠饭,还是经验丰富的研究人员,这样的理解有时是必要的云色倾心,它能建立起更形象生动的认知,帮助学习者真正掌握知识点。那么是不是应该把这种追根溯源精神普及到每一点呢?网友ExtraterritorialHaik认为,人生苦短,没有必要:
我认为如果我们想要提高水平,就必须真正“理解”一些东西。否则我们只是使用它、相信它。例如,我们都使用编程语言,但很少有人知道编译器是怎么工作的。医学研究人员会在研究中涉及大量方差分析,但他们并不知道具体的思路,也不清楚它会在一些边缘情况下出现错误。如果人的生命是无限的,那我们都可以对过程进行更深入的了解。但在有限的时间内红柳广告,我们可能更应该花时间做研究,而不是回过头去理解每一步的过程。

神经网络课堂小抄
深入浅出的语言
正如3年前因分辨不清向量、标量而潸然退坑的网友godnear的经历,有时学习者的困扰不仅来自自身迷羊作品集,外界资源质量的参差不齐也是影响他们理解概念的一个重要原因。
网友leonoel现在是一名教职人员,他在评论中分享了自己的经历:
在参加NIPS 2013时,有一位演讲者上台发言,但全程听下来,我愣是什么都没听懂。要知道,这是我博士毕业的最后一年死灵法师英文!作为一名即将获得机器学习PHD的人,我非常受挫。当时我边上坐着的还有师从伯克利大师Michael Jordan的博士朋友,有波士顿(MIT)Andrew McCallum的高徒。这两位教授在机器学习领域举足轻重,所以当时我觉得他们应该有所收获。但是到最后,他们也表示什么都没听懂。这个故事告诉我们一个道理,机器学习是一个庞大的领域,如果你专注于一个方向深耕,那你注定无法有广泛的涉猎。在这个学科里,不要为了掌握所有知识去浪费时间。另外,我有一个朋友是就职于普林斯顿大学的数学家十三号怪异岛,但他从来没看懂过机器学习的数学,因为他研究的领域是数学理论。
虽然以上故事在于鼓励新人刻苦钻研,让他们专心于自己的科研方向不懈前进,但评论下的网友显然“跑偏”了。他们认为,有时你听不懂对方成果,看不懂对方论文,这不仅是你自己的问题,更可能是对方的问题。
机器学习最为人担忧的一点就是它的门槛望洋兴叹造句。诚然,如果只是做最基础的数据研究,机器学习门槛不高,甚至可以说是很低,但如果上升到科研层面,过高的入门标准和科研人员的讳莫如深依然是制约其他学者进步的一个主要因素。
网友iamiamwhoami在下方评论道:
当你在科研领域待了一阵之后,你就会发现有些人的解释水平简直堪忧。
rhiever附议了以上观点,并表示:
大多数时候,如果你听不懂某个话题,那可能不是你的错。向与会者阐释概念本来就是发言人的责任,那些技术含量较高的细节大可留给感兴趣的人去论文里阅读。
而网友Colopty则跟层主leonoel在与会者专业知识储备上进行了一番辩论,他认为:
既然是上台展示,发言人就不该理所当然地把听众当做自己领域的内行南鹏岛。哪怕论文中只包含一点点新东西,听众中就没有严格意义上的专家。我并不认为发言人要把概念讲得特别基础,让外行人也能听懂,但是他们也不应该自顾自地发表演讲,让专家都无法理解。
除了对数据会议的集体吐槽,一些网友也对知名社区的一些内容展开了批判。如网友pboswell就谈了谈他的经历:
我发现一些白皮书,甚至是一些网站上的基础知识简介,如StackOverflow上的文章,它们在一些简单概念上的解释都有出入。此外,它们还特别喜欢用同义词:在上一个句子里用的是covariate(协变量),在下一个句子里就成了factor(变量)零壹乐队。虽然可以结合语境分析,但这真的很容易令人误解。

幼儿学习ANN系列:神经网络工作示意图
吾将上下求索
纵观全帖,网友给出的意见十分一致:没有人能真正做到掌握所有概念何正德。即使有人尝试过写笔记、死记硬背,也无一不因“笔记本页数不够”“灾难性健忘”而以失败告终。无论如何,求知之路注定始于无知、充满未知。
最后,论智君再为给为送上两位网友的鼓励,与君共勉!
网友20150831:
正如之前的人所说的,没有人知道所有知识点(可能除了Michael Jordan)。既然投身科研,我想最重要的事是不要灰心。我也曾对一些概念感到困惑,但随着长时间的阅读和应用宋昰昀,甚至只是一天看一眼,现在我对它们已经了如指掌泪洒天堂。
网友stochastic_gradient:
没有人明白这一切释德建。包括arxiv上的论文,那只是作者提出的某个新概念,而这些概念往往都已经超出了以前的人的认知范围。可以说,ML研究和理解100%无关长天烽火,任何有趣的事都可以始于你对它的一无所知。矛盾的是,虽然对于某些人来说“求知”一份工作,但他们依然会因自己的无知充满不安。
原文地址:https://www.reddit.com/r/MachineLearning/comments/7f5pyt/d_those_who_are_working_professionally_in_ml/

文章归档