机器学习研究的感悟
novakon2018/01/08软件综合 IP:广东

我从16年10月开始接触机器学习。以独立研究工作者的身份,实验从早做到晚。17年10月份又参加了个RL比赛(具体搜Learning to Run),忙得昏天黑地。

AI是一个发展飞快的领域。

image.png

做前沿研究,辛苦且不论,投入产出比低得吓人。

图像特征提取+识别,目前的主流方法是CNN,CNN像积木一样,可以以无穷多的方式组合成一个完整的神经网络,但是只有某些特定的组合方式,在经过训练后能达到较好的性能(比如较高的识别准确度等等)。

连续5年,学界每年都会用新的神经网络架构,刷新若干次图像识别准确率的记录。

image.png

图源《2017AI报告》(推荐阅读):XXXXXXXXXXXXXXXXXXXXXX/2017-report.pdf

正当大家都以为由He Kaiming提出的ResNet架构已经达到了前人难以企及的高准确率和高参数效率(同样性能下使用更少的自由参数)的时候,WideResNet Xception等架构又接二连三地跳出来。

不过进度虽然飞快,但是对于相关原理的解释(“为什么这样的网络能达到这样的效果”)非常少。正如12月NIPS会议上,与会者提出的那样:目前的神经网络研究给人以炼金术的感觉。

这就有点像医学研究,由于人体实在是太复杂,即便有了现代生物技术的辅助,对于疑难杂症往往还是用统计学方法总结出有效的方案,没有办法像物理学那样提出统一、普遍适用的理论。

不管从个人的经验,还是领域内发展的结果来看,如果想在这些研究方向上做出任何突破,第一步就是要先追赶上其他人的研究(把人家做出来的效果重复一次)。斯坦福的学生用着由Nvidia捐赠的机器,能够比你快100倍地重复出其他人的研究成果。对于捉襟见肘的独立研究者而言,超过SOTA(业界第一)的水平几乎是零概率事件。即便拿下SOTA,风光也不会超过3个月。

好在这个领域的论文都是公开发表且免费传播的——即便第一时间你无法马上重复SOTA的实验,你也仍然可以掌握它的“方法论”和“世界观”,用到日后的工作中去。从这个角度来看,人工智能/机器学习领域的研究其实是目前所有学科里效率最高、进度最快、成果最透明的。

最初选择在这上面花时间,纯粹是因为想掌握各种SOTA酷炫吊炸的技能;一路走来,受益良多,期间把CS本科的课程补了个遍——若非为此,很多教材可能这辈子再不会碰。

对所谓“无知无畏”,有了深层次的体会。最开始学Machine Learning的时候,想法是这东西真有用,原理也简单,那么多人感兴趣想入门,完全应该写教程,写书单,写这个那个,为乡亲们造福……后来随着时间流逝,实验做得越来越多,接触的领域越来越多,才意识到连开给自己的书单都没时间看/看不下去,更别说写什么教程文章了,倒不是怕误人子弟,而是知道一定会误人子弟。有道是,写书的不做研究,做研究的不写书——这句话必须先做了研究才能理解呀。

题外话:我将会参加一月份的AMLD conference。

在茶话读到一篇喷Elsevier的文章,原版之前看过了。学术出版曾经是很专业的工作,手写的论文,出版商要转成铅字,包括数学公式也要帮你排好,而且还不能犯错(意味着干活的人必须能看懂文章意思),到最后印刷成书,人力成本是很高的。

现在很多论文是由作者排版的(LaTeX),出版商的作用就削减了,包括现在还可以下载论文,连纸张都免了。所以大家就抗议价格太贵。

其实可以从政治的角度来看:学术论文是记载知识的,可知识的定义如此广泛,暂时没有用途的知识,将来可能会有价值。所以如果有一本万国期刊,允许所有人自由发表论文,后果就是上面会出现大量类似“吃什么可以祛痘”之类的文章。大家为啥不把文章发到那上面去呢?答案很简单:虽然你可以分辨论文的优劣,但当局分辨不了啊。

学术研究是要消耗经费的,因此提供经费的当局(通常是政府)必然要通过一定的标准来决定是否对一项研究提供经费。如果这个标准选得不好,就会造成经费的浪费。所以学术会议还是得开,论文集还是得出——作为学术界自身通过民主方式(审稿)决定谁能获得经费的一种制度。如果没有这个制度,大家都拿不到经费。大家给学术出版商支付的下载费用,可以视为一种税款,用于维持整个制度的运转。作为这个制度的运作载体,也就是期刊们——也就获得了巨大的政治力量,以至于收钱收得有些难看了(毕竟政府的反射弧长度是20光年)。

来自:计算机科学 / 软件综合
0
2
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也

想参与大家的讨论?现在就 登录 或者 注册

所属专业
所属分类
上级专业
同级专业
novakon
学者 机友 笔友
文章
1256
回复
8385
学术分
16
2008/03/29注册,2年2个月前活动

已走,勿送

主体类型:个人
所属领域:无
认证方式:手机号
IP归属地:未同步
文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}