欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
陈天奇:机器学习科研的十年

陈天奇:机器学习科研的十年

机器之心转载作者:陈天奇陈天奇是机器学习领域著名的青年华人学者之一,本科毕业于上海交通大学ACM班,博士毕业于华盛顿大学计算机系,研究方向为大规模机器学习。上个月,陈天奇在Twitter上宣布自己将于2020年秋季加入CMU任助理教授,成为加入CMU的年轻华人学者之一。在本文中,陈天奇回顾了自己做机器学习科研的十年。十年前,MSRA 的夏天,刚开始尝试机器学习研究的我面对科研巨大的不确定性,感到最多的是困惑和迷茫。十年之后,即将跨出下一步的时候,未来依然是如此不确定,但是期待又更多了一些。这其中的变化也带着这十年经历的影子。起始: 科研是什么我从大三开始进入交大 APEX 实验室,有幸随着戴文渊学长做机器学习,当时的我觉得「机器学习」这个名字十分高大上然后选择了这个方向,但是做了一年之后依然摸不着头脑,心中十分向往可以做科研,独立写论文的生活,却总是不知道如何下手。文渊在我进实验室的一年后去了百度。当时还没有得到学长真传的我,开始了我科研的第一阶段,从大四到硕士的第二年,期间一直自己摸索,不断地问自己「科研是什么」。和课程作业不同,学术研究没有具体的问题,具体的方法,具体的答案。文渊的离开让我一下子不知道该怎么做,当时的我的想法很简单,快点寻找一个具体的方向,完成一篇论文。因为 ACM 班的机会暑假在 MSRA 的短暂实习,虽然学会了很多东西,但并没有给我答案。MSRA 回来之后,在实验室薛老师的建议下,我选择了一个现在看来正确而又错误的方向 -- 深度学习。那是 AlexNet 出现之前两年,深度学习的主流热点是非监督学习和限制玻尔兹曼机。没有导师的指导,没有工具,当时我靠着实验室的两块显卡和自己写的 CUDA 代码开始了死磕深度学习的两年半。实验室的学长问我,你准备要干啥,我说:「我要用卷积 RBM 去提升 ImageNet 的分类效率。」这一个回答开启了图书馆和实验室的无数个日日夜夜,为了给实验室的老机器多带一块高功率的显卡,我们打开了一台机器的机箱,在外面多塞了一个外接电源。我的生活就持续在调参的循环中:可视化权重的图片, 看上去那么有点像人脸,但是精度却总是提不上来,再来一遍。从一开始 hack 显卡代码的兴奋,到一年之后的焦虑,再到时不时在树下踱步想如何加旋转不变的模型的尝试,在这个方向上,我花费了本科四年级到硕士一年半的所有时间,直到最后还是一无所获。现在看来,当时的我犯了一个非常明显的错误 -- 常见的科学研究要么是问题驱动,比如「如何解决 ImageNet 分类问题」;要么是方法驱动,如「RBM 可以用来干什么」。当时的我同时锁死了要解决的问题和用来解决问题的方案,成功的可能性自然不高。如果我在多看一看当时整个领域的各种思路,比如 Lecun 在很早的时候就已经做 end to end,或许结局会不那么一样吧。当然没有如果,赌上了两年半的时间的我留下的只是何时能够发表论文的紧张心情。焦虑的我开始打算换一个方向,因为 RBM 当时有一个比较经典的文章应用在了推荐系统上,我开始接触推荐系统和 kddcup。比较幸运的是,这一次我并没有把 RBM 作为唯一的一个方法,而是更加广泛地去看了推荐系统中的矩阵分解类的算法,并且在实验室搭建了一个比较泛用的矩阵分解系统。推荐系统方向的耕耘逐渐有了收获,我们在两年 KDDCup11 中获得了不错的成绩。KDD12 在北京,放弃了一个过年的时间,我完成了第一篇关于基于特征的分布式矩阵分解论文,并且非常兴奋地投到了 KDD。四月底的时候,我们收到了 KDD 的提前拒搞通知 -- 论文连第一轮评审都没有过。收到拒搞通知时候的我的心情无比沮丧,因为这是第一篇自己大部分独立推动完成的文章。转折在五月,KDDCup12 封榜,我们拿到了第一个 track 的冠军,我依然还记得拿到 KDDCup12 冠军的那一个瞬间,我在状态里面中二地打了 excalibur,仿佛硕士期间的所有阴霾一扫而尽。那时候的我依然还不完全知道科研是什么,但是隐隐之中觉得似乎可以继续试试。第零年: 可以做什么我对于科研看法的第一个转折,在于我硕士临近毕业的时候。李航老师来到我们实验室给了关于机器学习和信息检索的报告,并且和我们座谈。在报告的过程中,我异常兴奋,甚至时不时地想要跳起来,因为发现我似乎已经知道如何可以解决这么多有趣问题的方法,但是之前却从来没有想过自己可以做这些问题。联系了李航老师之后,在同一年的夏天,我有幸到香港跟随李航和杨强老师实习。实验室的不少学长们曾经去香港和杨强老师工作,他们回来之后都仿佛开了光似地在科研上面突飞猛进。去香港之后,我开始明白其中的原因 -- 研究视野。经过几年的磨练,那时候的我或许已经知道如何去解决一个已有的问题,但是却缺乏其他一些必要的技能 -- 如何选择一个新颖的研究问题,如何在结果不尽人意的时候转变方向寻找新的突破点,如何知道整个领域的问题之间的关系等等。「你香港回来以后升级了嘛。」-- 来自某大侠的评论。这也许是对于我三个月香港实习的最好概括的吧。香港实习结束的时候我收获了第一篇正式的一作会议论文 (在当年的 ICML)。因为 KDDCup 的缘故,我认识了我现在博士导师 Carlos 的 postdoc Danny,Danny 把我推荐给了 Carlos(UW) 和 Alex(CMU)。我在申请的时候幸运地拿到了 UW 和 CMU 的 offer。在 CMU visit 的时候我见到了传说中的大神学长李沐,他和我感叹,现在正是大数据大火的时候,但是等到我们毕业的时候,不知道时代会是如何,不过又反过来说总可以去做更重要的东西。现在想起这段对话依然依然唏嘘不已。我最后选择了 UW 开始了我六年的博士生活。感谢博士之前在 APEX 实验室和香港的经历,在博士开始的时候我似乎已经不再担心自己可以做什么了。第一年: 意外可以收获什么如果给我在 UW 的第一年一个主题的话,或许是「意外」。在交大时候因为兴趣的关系一直去蹭系统生物研究员敖平老师的组会探讨随机过程和马尔可夫链。到 UW 的第一个学期,我无意看到一篇探讨如何用 Lagevin 过程做采样的文章,我想这不就是之前组会上探讨过的东西么,原来这些方法也可以用到机器学习上。我直接借用了原来的交大学会的知识完成了第一篇高效采样 HMC 的文章。我后来并没有继续在这个方向上面耕耘下去,不过另外一位同在组会的学弟继续基于这个方向完成了他的博士论文。同样的在这一年,我和导师开始「质疑深度学习」-- 如果别的的机器学习模型,有足够大的模型容量和数据,是否可以获得和深度学习一样的效果呢?当时 Carlos 看好 kernel methods,而我因为过去的一些经历决定尝试 Tree Boosting。虽然最后在 vision 领域依然被卷积网络打败而尝试挑战失败,但是为了挑战这一假说而实现高效 Tree boosting 的系统经过小伙伴建议开源成为了后来的 XGBoost。在第一年暑假结束的时候,因为偶然的原因,我开始对 quantile sketch 算法感兴趣。这里主要的问题是如何设计一个近似的可以合并的数据结构用来查找 quantile。这个方向有一个经典的方案 GK-sketch 的论文,但是只能够解决数据点没有权重的情况。经过一两天的推导,我在一次去爬山的路上终于把结论推广到了有权重的情况。有趣的是新的证明比起原来的证明看起来简单很多。这个结论没有单独发表,但是后来意想不到地被用到了分布式 XGBoost 算法中,证明也收录在了 XGboost 文章的附录中。研究并不是一朝一夕,做想做的事情把它做好,开始的时候兴趣使然,而在几年之后意想不到的地方获得的收获,这样的感觉走非常不错。第二年和第三年: 选择做什么在新生聚会上,Carlos 对我说,你已经有论文的发表经历了,接下来要静下心来做发大的,「只做 best paper 水平的研究」。和很多 nice 的导师不同,Carlos 对于学生的要求非常严格,说话也是非常直白甚至于「尖刻「。很多的老师不论我们提出什么样的想法,总会先肯定一番,而 Carlos 则会非常直接地提出质疑。一开始的时候会非常不习惯,感觉到信心受到了打击,但是慢慢习惯之后开始习惯这样风格。到现在看来,诚实的反馈的确是我收益最大的东西。我进入博士的一年之后,主要在想的问题是做什么样的问题,可以值得自己深入付出,做扎实有影响力的工作。在博士的第三年,Carlos 在建议我把 XGBoost 写成论文,用他的话说:「写一篇让读者可以学到东西的文章」。和传统的写法不同,我们在文章的每一个章节插入了实验结果验证当章节提出的观点。而他对于做图的处理也成为了我现在的习惯,直接在图里面插入箭头注释,减少读者的阅读负担。经过几次打磨论文终于成为了我们想要的模样。博士前对于深度学习遗憾让我又逐渐把目光转回到深度学习。这个时候,我选择了不再一个人作战,在博士的第二年和第三年,我和兴趣使然的小伙伴们合作,一起开始了 MXNet 的项目。项目从零开始,在短短的一年时间里面做出完整的架构。我第一次看到集合了大家的力量齐心协力可以创造出什么样的东西。研究的乐趣不光是发表论文,更多还是可以给别人带来什么,或者更加大胆地说 -- 如何一起改变世界。博士第二年暑假,我在小伙伴的介绍下进入 Google Brain 跟随 Ian Goodfellow 实习。当时 GAN 的论文刚刚发表,我也有幸在成为 Ian 的第一个实习生。实习的开始,我们讨论需要做的问题,Ian 和我把可能要做的项目画在一个风险和回报的曲线上,让我选择。到最后我选择了自己提出的一个课题,在这个曲线里面风险最高,回报也最高。我一直有一个理想,希望可以构建一个终身学习的机器学习系统,并且解决其中可能出现的问题。这个理想过于模糊,但是我们想办法拿出其中的一个可能小的目标 -- 知识迁移。如果一个机器学习系统要终生学习,那么在不断收集数据之后必然需要扩充模型的规模来学习更广或者更深,按照现在的做法我们在模型改变之后只能抛弃原来的模型重新训练,这显然是不够高效的。是否有一个方法可以从已经训练好的网络上面进行知识迁移也就成为了一个重要的问题。我先花了一个半月的时间尝试了比较显然的 Knowledge distillation 的方法一直没有得到正面的结果。在最后的一个月,我改变了思路。实习结束的前一个星期,我打开 Tensorborard 上最近一组实验的结果:实验表明新的思路正面的效果。这最后几步的幸运也让我的这一个冒险之旅有了一个相对圆满的结果。这篇论文最后被发表在了 ICLR 上,也是我最喜欢的结果之一。博士的第三年,我和小伙伴们开发了一种可以用低于线性复杂度就可以训练更深模型的内存优化算法。当时我非常兴奋地把这一结果写下来然后把稿子后给导师看。他和我说:Hmm, 这个结果如果投到 NeurIPS 的话或许可以中一篇 poster,但是这并不是特别有意思。在我沉默之后他又补充了一句:论文并非越多越好,相反你可能要尝试优化你的论文里面最低质量的那一篇。最后我们只是把这篇论文挂在了 Arxiv 上。Carlos 的说法或许比较极端(这篇论文依然影响了不少后面的工作),但也的确是对的,用李沐之前说过的一句话概括,保证每一篇论文的质量接近单调提升,已经是一件难以做到但是又值得最求的事情。选择做什么眼光和做出好结果的能力一样重要,眼界决定了工作影响力的上界,能力决定了到底是否到达那个上界。交大时敖平老师曾经和我说过,一个人做一件简单的事情和困难的事情其实是要花费一样多的时间。因为即使再简单的问题也有很多琐碎的地方。要想拿到一些东西,就必然意味着要放弃一些其他东西,既然如此,为什么不一直选择跳出舒适区,选一个最让自己兴奋的问题呢。第四年之后: 坚持做什么博士第三年,我和小伙伴们参加 GTC,结束后老黄 party 的角落里,我一个人在发呆。深度学习的框架发展已经铺开,可接下来应该做什么,我一下子感到迷茫。第三年的暑假我没有去实习,而是决定一个人在学校尝试开发脑海中显现的抽象概念 -- 深度学习中间表示。暑假结束之后,我完成了第一个版本,可以比较灵活地支持深度学习系统里面的计算图内存优化。但是总是觉得还缺少着什么 -- 系统的瓶颈依然在更接近底层的算子实现上。暑假之后在去加州的飞机上,我尝试在纸上画出为了优化矩阵乘法可能的循环变换,回来之后,我们决定推动一个更加大胆的项目 -- 尝试用自动编译生成的方式优化机器学习的底层代码。这个项目早在之前我也有一些想法,但是一直没有敢去吃这个螃蟹。原因是它的两个特点:从零开始,横跨多领域。因为要做底层代码生成和想要支持新的硬件,我们需要重新重新搞清楚很多在之前被现有的操作系统和驱动隐藏掉的问题,这就好象是在一个荒岛上一无所有重新搭建起一个城堡一样。而这里面也涉及了系统,程序语言,体系结构和机器学习等领域。这让我想起之前在 ACM 班时候重头搭建编译器和 MIPS 处理器并且连接起来的经历。也是那段经历让我觉得为了解决问题去吃多个领域的螃蟹是个让人兴奋的事情。那段经历给我留下的第二个印记是理解了合作和传承的重要性。这门课程设计有一个传统,每一门课程的老师都由上一届学长担任。每一届的同学都会在之前的基础上有所改进。我也曾经为这门课做过一些微小的贡献。演化到现在,这门课程已经从只做简单的答辩,到现在已经有在线评测的 OJ。大家一起的合作塑造了这个课程。推动新的机器学习系统和塑造这门课程一行,需要各个团队的同学合作,足够时间的耐心关注和不断地改进。我的合作者们也被「卷入」到了这个项目中。我的体系结构合作者一直想要设计新的 AI 硬件,我在雏形完成之后花了大量的时间讨论如何协同设计新的硬件的问题。我们开始讨论怎么管理片上内存,怎么可以比较容易地生成指令集,甚至怎么调度内存读写和计算并行的问题都暴露出来。有一天,我和合作者说我们需要引入虚拟线程的概念来隐藏内存读写开销,然后他很快和我说,这是体系结构里面经典的超线程技术,发明人正是我们的系主任 Hank。我们也在不断地重新发现经典的问题的解决方法在新场景的应用,让我觉得上了一堂最好的体系结构课程。两年间的不少关键技术问题的突破都是在有趣的时候发生的。我在排队参观西雅图艺术博物馆的 infinity mirror 展览的途中把加速器内存拷贝支持的第一个方案写在了一张星巴克的餐巾纸上。到后来是程序语言方向的同学们也继续参与进来。我们争论最多的是如何如何平衡函数式语言和经典计算图做让大家都可以搞懂的中间表达,这一讨论还在不断继续。经过大家的努力,TVM 的第一篇论文在项目开始的两年之后终于发表。两年间参与项目的同学也从两个人,到一个团队,再到一个新的 lab 和一个社区,这两年也是我博士期间最充实的两年。因为做了不少「跨界」的工作,我常被问起你到底属于哪个领域。过去半年一直在各地给报告,报告这样开头:算法突破,数据的爆发,计算硬件的提升三者支撑了机器学习的变革,而整合这三者的,则是机器学习系统。这也是为什么我要做机器学习系统的原因。曾经一个教授问我这样的问题,如果明天有一样新的化学反应过程可能带来机器学习的变革,你会怎么做。我答道:「我投入会去学习研究这个化学过程」。虽然我不知道遥远的未来会需要什么,到底是系统,算法,还是化学,从问题出发,用尽所有可能的方法去最好地解决机器学习问题,应该这就是我想要坚持的研究风格吧。总结在写这篇总结的时候,心中有不少感叹。我常想,如果我在焦虑死磕深度学习的时候我多开窍一些会发生什么,如果我并没有在实习结束的时候完成当时的实验,又会是什么。但现在看来,很多困难和无助都是随机的涨落的一部分,付出足够多的时间和耐心,随机过程总会收敛到和付出相对的稳态。每个人的研究道路都各不相同,我的经历应该也是千万条道路中其中一条罢了。博士的经历就好像是用五年多时间作为筹码投资给自己,去突破自己做自己原来想不到的事情。中不管坎坷曲折都是无可替代的一部分。科研从来不是一个人的事情,对于我来说特别是如此。我在交大的时候和一群年轻的同学一起摸索推荐系统的算法,而在博士期间搭建的每一个系统都包含了很多合作者一起的努力。也正是大家一起的努力才带来了现在的成果。我个人在这十年间受到了不少老师,同学,家人的鼓励和帮助,感谢他们他们给予了我这无比珍贵的十年时光。原文链接:https://zhuanlan.hu.com/p/74249758?utm_source=wechat_session&utm_medium=social&utm_oi=36286488379392&from=timeline&s_s_i=0Adl1SNt%2FB3gEe0APUZZYAVRCRw%2F801frkyc0v%2BsfIo%3D&s_r=1

故强哭者

不是所有的人都叫doctor

看到doctor,你的第一反应是医生,停顿三秒3 2 1……对了,doctor还有博士的意思。中医善于思考的看官们一定会问“医生”和“博士”二者有什么联系?为什么同一个词表达两种不同含义?这正是词源学Etymology要解决的问题,也是道格英语初心所在。接下来德叔将从词源的角度为大家解读doctor。首先,doctor可以拆分成2个部分:doctor=doct+or这里,doct是一个词根,有两种含义:一是“知识”,二是“教”,前者为名词,后者为动词。or是一个名词后缀,表人,如actor(动作演员)。两个部分放在一起就构成一个新词doctor。我们先来看第一个义项——博士,什么叫博士?博士就是学识渊博的人。这层含义,大家稍微动下脚趾头都能想明白。在此不再赘述。下面我将重点解读第二个义项——医生,那什么又叫医生呢?关键就在doct的第二个含义“教”,医生就是教病人调理身体的人。那么新的问题来了,你会说我们村有个老婆婆也会帮人看病,但她不是医生啊?这里需要强调,过去由于经济落后,医疗条件有限,很多人看不起医生,在这样的时代背景下一些非职业的“赤脚”医生就应运而生。但随着经济不断发展,医疗条件不断完善,对医生的要求也越来越严格。医生不仅要学识渊博,教病人调理身体,还必须具备相应的学术背景和从业资质。如今,国家通过立法确定医生职业的合法性。没有下面两本证书根本做不了医生,这是从业的最低要求。此外,医生对学历也有严格的要求。大家可以去调查一下,任何一家医院(非诊所)的主治医师清一色的博士学历,而且还有从业年限要求。所以说,不是所有的人都可以叫doctor。医学博士学位证书各位看官,知否?Your knowledge,my pleasure!以上就是今天跟大家分享的内容,希望对大家有所帮助。我是受益者,就应该通过分享让更多人受益。希望大家把这份信念传递下去!大家的关注和支持是道格英语不断更新迭代的动力!

天功

博士真正搞科研的姿势,是这样的丨知乎高赞

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI国内的各种科研人才,他们到底有什么与众不同之处?又或者,拥有什么样的科研能力,才能更好地成为科研人才?事实上,这些问题可以更具体一些:走上科研之路,需要培养什么能力?具体怎么样才能培养这些能力?为了回答这些问题,本文整理了知乎《一个博士生接受怎样的训练是完整、全面的科研训练?》问题下、来自各个领域博主的一些回答。在长期的学生涯中,他们已经积累了不少科研方面的经验。不仅是博士,这篇文章里面涉及到的学习能力,同样适合有志于科研、或是想要提升自我的同学。作为过来人,这些答主的观点,也许能给大家的求学路带来一些参考。搞科研,需要什么能力?严密的逻辑思维首先,是严密的逻辑思维能力。知乎答主@浩浩耗 表示,自己曾经也以为自己的逻辑思维足够严密,然而读博期间,才知道逻辑依旧可以被不断训练提升。其实曾经的我也不知天高地厚的以逻辑鬼才自居,直到进了我老板的组,第一次做组会汇报的时候,逻辑被锤了个稀巴烂……我们组会日常的一个训练叫做hypothesis talk, 其实就是像全组展示,你选择的研究方向是基于一个什么样的假设,然后大家围绕你的假设以及实验设计提出一系列的问题。其实这个很重要,因为基本上如果你要基于这个假设来开展你的项目,那么这个假设的好坏可以说就基本决定了你这个项目的上限,或者说的更直白一点,能发什么等级的paper。我博士四年,印象中听到老板说的最多的一句话,应该就是,只有当不管最终的实验结果是否支持你的hypothesis,你都能基于这个结果开展下一阶段的研究时,这才是一个好的hypothesis(用人话说,不管结果好坏,paper都能发)。就为了这句话,我的逻辑被摧残了四年,但现在回想起来,确实发现逻辑这东西是没有上限的,只要持续摧残,它依然能有所提高。△ hypothesis talk PPT内容,图源@知乎 浩浩耗快速锁定关键信息的能力此外,@浩浩耗 也表示,这里面同样需要用到快速锁定关键信息的能力。这个能力,主要用在读文献上,有助于对行业进行一个全面的了解。我自己感觉到读文献的能力有一个明显的提升,差不多是在一次大概一个月看了100篇文献之后吧。也是被我老板逼的,现在回想起来都有点发怵……所以没办法,只有逼着自己开启模式,记得当时给自己规定的是,一篇paper不能超过20min,并且之后要自己闭卷用英文把这篇文章的key point写出来。当然一开始非常痛苦,但越到后面发现速度越快,当然一个月后的项目讨论也比较顺利,并且我发现从此以后看文献的技能好像进入了下一个等级。现在的工作中,其实我每天也要阅读大量的信息,行业的,专业的,投资领域的,噢对,还有写知乎文章需要看的材料。发现从这个能力中受益颇深。心理承受能力除了上述有关论文与阅读文献的能力以外,@浩浩耗 也提到,抗压(心理承受)能力是必不可少的一环。最关键的在于,一定要有乐观的心态去接受。如今他度过博士生涯回看,调侃“博士期间如果没被锤过,那一定是不完整的,也是很可惜的一件事。”抗压能力,其实这个大家应该一个都跑不脱吧,只不过按在指压板上摩擦还是按在水泥地上摩擦的区别而已。实验失败,实验结果一拖屎,投稿被秒拒……这些无不是在锻炼我们的抗压能力。当然,我自己也曾被锤过,但自从工作以来,目前还没有觉得扛不住的时候,有几次遇到比较棘手的情况,想想之前受过的压力,锤子,这个算个球。另一位答主@刀客特李,也提到了心态训练的必要性,并进一步讲明了原因。对于科研来说,我们都是在和大自然(自然科学)或者复杂的社会(社会科学)打交道,挑战自己的极限。有成功更有失败,甚至失败的概率会更高些。这样,在博士前面几年,会不断的经历失败,并对自己的工作产生怀疑。同时,也有很大可能,承受着好几年过去了还有文章的精神压力,比不了业的压力,别人都工作了我还在读书的压力……可以说,读博是一种人生最高层次的历练,因为是在挑战人类的认知。对此,@刀客特李 表示,经历过这些以后,也能更坦然地面对生活中的其他苦难。当经历了这些以后,每一位成功毕业的博士都是值得尊敬的战士。我相信,人生后面遇到任何苦难,一位博士都可以坦然面对了。总结能力此外,在搞科研的过程中,@刀客特李 表示,总结能力对于写论文、作报告来说,也是必不可少的一环。它不仅有助于保证你处在行业最前沿,而且还会给你带来新的想法。平时读文献,看新闻,听报告,或是自己的灵感,遇到好的点子都可以随时记录下来。这样保证自己处于本领域或本行业的最前沿。同时业保证自己在做手头项目的同时,还有新的想法和工作可以展开。那么,这些能力有具体的培养途径吗?答主们针对这个问题,同样也给出了自己的见解。具体该怎么培养能力?搞科研,离不开看文献、做实验、写论文这三点,此外,也同样需要时间规划和自我提升。那么下面,就具体从这五点,来总结一下科研能力应该怎么培养。文献怎么看?首先,是阅读文献的能力。@刀客特李 表示,这里面最重要的,在于“坚持”和“方法”。如果不能保证每天都看,也要保证每周有看一定数量。读文献讲究方法。了解本领域最近进展,只看文章的标题和Abstract,遇到感兴趣的和重要的留下来重点关照。几年博士生涯下来,读过的文章超过几千篇,精读文章超过几百篇。实验怎么做?搞科研过程中最重要的一环,就是做实验,在这里,@刀客特李 认为,最重要的是有条理性,实验记录最好能分门别类,在需要用到的时候能尽快找出来。做实验记录的训练。做到必有实验日期、实验目的、实验过程、实验现象,还有实验结果。有产品ID,测试结果,对应的页码。实验记录本中的名字-代号-ID,和测试仪器以及个人电脑中的文件夹名字可以对应,方便随时查找。好好的打理实验记录本,有助于从数据中挖掘出有用的信息,从失败的结果中分析出可能的原因,也方便日后写文章时查找。△ 图源@知乎 刀客特李除了实验记录以外,画图的训练也是不可少的。我觉得博士下来,除了科研,还把自己训练成一个美工了,哈哈。专业画图软件,(包括)PS, AI, CAD, 3D软件等。除了这些以外,数据分析也会是很重要的一环(全能全才)。当然了,也少不了各种数据分析的训练。如理工科常会用到orgin,有些学科用matlab,python或者统计学绘图软件比较多。学术论文怎么写/投?投到顶会的学术论文,多为英文论文,对此,@刀客特李 也有自己的经验想要分享。关于科技论文英文写作,我的方法是积累,积累,再积累。你总结和积累的知识储备将成为你日后写作任何英文论文的捷径。那么具体操作办法就是多读你本身领域的顶尖期刊。什么叫顶尖,在我的材料领域顶尖就是Nature系列,Advanced Materials系列, Nano Letters, ACS Nano, Energy & Environmental Science等。然后我发现Abstract, Introction, Experiment, Results, Discussion, Conclusions, Supporting Information的写法都是不太的,所以我在每个板块都进行了分门别类的积累,具体是关于词汇,句子,段落和最重要的逻辑。但是这些不同板块也有很多相通之处,很多词汇,句子其实都是可以用在各处的。你会在这些部分都发现有很多在你本领域内高频出现的词汇,短句,句子,这些都是你从实际的高水平论文多次筛选出来的,意味着曾被你领域内的大牛,大师,同行们多次使用,所以肯定是万无一失的。同时还有作用就是让你了同义转换,以免某一文章里某个词出现太多次。此外,对于论文投稿,@刀客特李 同样也有自己的建议。既然提到写作和期刊,那么一个必不可少的训练就是投稿、拒稿和修改稿件的训练,和与不同期刊小编or同行大牛们的斡旋训练。在这个过程中,你会逐渐把握不同期刊的风格、文书风格、发表周期、对创新性的要求。这样,当你下一个工作完成之时,基本上也就知道大概可以投到哪里了。时间规划那么,科研具体应该怎么搞呢?事实上,在做科研的过程中,大多数人遇到的第一个门槛都是,既要做科研,又要抽空充实自己(或是完成学分等其他事情)。这也是读书的时候,我们都会遇到的问题。所以,知乎@刀客特李 给出了自己的建议:选择足够有代表性的专业课。选择足够有代表性的专业课,课程的成绩大部分为优秀。在博士第一年和第二年的时候。每个学期要至少选2门专业课(指的是海外博士,国内的话,可能是4门以上),同时做科研工作。这个过程其实是比较痛苦的。因为其实光是上课、完成作业、期中期末考试就不容易了。国外的研究生课程通还要组队做project、做presentation,一个学期3门课已经苦不堪言,4门课还能同时做TA或RA的已经是到了极限。但这是博士头两年的必经过程,必须要训练这个,同时handle多门课程+项目,且不耽误自己科研的能力。如果能跨过第一个“平衡时间”的门槛,那么就可以接着往下走了,@刀客特李表示,演讲、参会和了解行情,其实也是做科研需要锻炼的能力。自我提升这里面,其实需要的是一个“主动性”:只有多主动去寻找科研机会、提升自己,更好的机会才会眷顾上门。首先,试着多参加学术会议。博士期间,多参加学术或行业会议。尝试在会议中做报告(最好是英文的国际报告)或poster,争取拿一些奖(如:XX会议最佳展示奖,海外优秀自费留学生奖……)通过在会议上作报告,锻炼自己的演讲能力。演讲训练,如做presentation的能力。作为博士,势必要在系里、学校里登台演讲;在国际会议如MRS、ACS、IEEE等大场合登台演讲;qualify、预答辩、答辩。不利用这些机会把自己锻炼成一个合格的演说家,真的不算是完整、全面的科研训练啊。此外,通过参与会议、或者其他途径,多接触领域内著名的教授、团队或课题组,因为他们对这个领域肯定有自己更深的看法。而如果现实一点的话,建立自己在科研圈的人脉也是需要的。尝试了解本领域全世界的著名课题组、教授或团队,各自的风格和长处是什么。尝试与这些人包括论文中的大牛见面,聊天,甚至建立更深入的联系。这是对科研人脉圈的训练,未来在博士以后去找pos-doc,教职,工业界工作甚至申请国外绿卡都会帮到大忙。不过,很多人其实并不是不知道怎么做,而是“没时间”、坚持不下来。所以无论观点如何,适合自己的才是最好的,参照上面的建议、有计划地对自己进行提升,才是博士真正搞科研的姿势。所以,上面的能力与培养的方向,都是前人留下的意见,但采纳与否、是否需要去做,最终还是需要我们走出自己的路。

爱与战

公示!2020年贵州省新增博士硕士学位授予单位及新增博士硕士学位授权点推荐名单出炉

近日,贵州省学位委员会办公室发布关于2020年贵州省新增博士硕士学位授予单位及新增博士硕士学位授权点推荐名单的公示。  根据《国务院学位委员会关于开展2020年博士硕士学位授权审核工作的通知》(学位〔2020〕22号)、《2020年贵州省新增博士硕士学位授予单位推选工作方案》(黔学位〔2020〕4号)、《2020年贵州省新增博士硕士学位授权点申报指南》(黔学位〔2020〕5号)有关要求,经2020年12月8日省学位委员会全体会议审议表决,现将2020年贵州省新增博士硕士学位授予单位推荐名单(详见附件1)、2020年贵州省新增博士硕士学位授权点推荐名单(详见附件2)予以公示,接受社会监督。公示期为2020年12月8日至12月14日。  如有异议,请在公示期内以书面形式向省学位办反映,并对所反映的问题提供清晰的问题线索,以单位名义进行反映的要写明单位名称并加盖公章,以个人名义举报的要写真实姓名并提供联系方式。  联系人:黎元坤,联系电话: 0851-85283677  电子信箱: jytkyc@163.com  地址:贵阳市观山湖区金朱东路162号省学位办  附件1.2020年贵州省新增博士硕士学位授予单位推荐名单.doc   附件2.2020年贵州省新增博士硕士学位授权点推荐名单.xlsx贵州省学位委员会办公室 2020年12月8日 来源 贵州省教育厅网站编辑 韦一茜编审 田旻佳

所假而行

阿尔伯塔大学博士毕业论文:基于图结构的自然语言处理

机器之心发布机器之心编辑部自然语言处理(Natural Language Processing)是人工智能的核心问题之一,旨在让计算机理解语言,实现人与计算机之间用自然语言进行通信。阿尔伯塔大学(University of Alberta)刘邦博士在他的毕业论文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,对基于图结构(graph-structured representations)的自然语言处理和文本挖掘进行了深入研究。这篇博士论文将自然语言处理和文本挖掘的多个核心任务与图结构的强大表示能力结合起来,从而充分利用深度学习的表示能力和文本中的结构信息来解决诸多问题:(1)组织信息(Information Organization):提出了基于树/图结构的短文本/长文本对的分解算法以提高语意匹配任务(semantic matching)。基于文本匹配,进一步提出事件粒度的新闻聚类和组织系统 Story Forest;(2)推荐信息(Information Recommendation):提出了 ConcepT 概念挖掘系统以及 GIANT 系统,用于构建建模用户兴趣点以及长短文本主题的图谱(Ontology)。构建的兴趣图谱 Attention Ontology 有助于对用户与文本的理解,并显著提高推荐系统的效果;(3)理解信息(Information Comprehension):提出了 ACS-Aware Question Generation 系统,用于从无标注的文本中生成高质量的问答对,大大降低问答系统的数据集构建成本,并有助于提高阅读理解系统的效果。论文链接:https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf引言自然语言处理(NLP)旨在读取和理解未结构化的自然语言文本来完成不同的任务。「如何表示文本」以及「如何进行计算」是其中的两个核心问题。早期的 NLP 研究中,利用 bag-of-words 模型表示文本,通过统计不同单词的频次来形成文本的向量表示,同时结合统计方法进行文本处理,这丢失了文本的词序信息以及单词之间的联系,本质上是用 one hot encoding 来表示每个单词;在深度学习中,研究者根据单词的共现来学习词向量,每个单词由一个 dense vector 表示,语意相似或联系紧密的词在向量空间中距离更小,再结合 RNN 模型(LSTM,GRU 等)进行文本编码完成各种任务;其后又有研究工作将文本类比图像,编码形成矩阵表示,结合 CNN 类模型进行计算;近年来,预训练语言模型,利用自监督学习训练各类大型语言模型,从而给单词或文本赋予上下文敏感的(context-sensitive),多层的语义向量表示,其采用的模型是多层的 Transformer。自然语言的形式及其语意具有层次性(hierarchical),组合性(compositional)和灵活性(flexible)。已有的研究并未充分利用各类文本中存在的语义结构。图(graph)是一种通用且强大的表示形式,可以表达各种不同对象以及它们之间的联系,无论是在自然语言处理,还是在社交网络,现实世界等各种场景都无处不在。本论文在深度学习强大的表示学习能力的基础上,设计并结合了不同的文本的图结构化表示,并利用图结构计算模型,例如图神经网络(Graph Neural Networks), 去解决不同的自然语言处理和文本挖掘问题。论文包含三大部分:第一部分介绍了文本的聚类和匹配,提出各类匹配问题的结构化算法,并进一步提出 Story Forest 系统用于新闻事件的聚类组织和结构化表示。该系统落地到腾讯 QQ 浏览器热点事件挖掘。第二部分关注文本挖掘,提出了 Attention Ontology 兴趣图谱,挖掘和描述用户不同粒度的兴趣点,建立不同兴趣点之间的联系,并可用于刻画文章主题。这部分工作显著提高了 QQ 浏览器,手机 QQ,微信等应用中的信息流推荐系统的效果。第三部分关注文本生成,提出了 ACS-QG 系统,自动从无标注文本中生成高质量的问答对,可用于问答系统的训练,有助于大大减少数据集创建成本,以及提高机器阅读理解的能力。图 1. 文本表示形式以及计算模型的演化图 2. 论文的组成框架第一部分:文本的匹配与聚类第三章 Story Forest 事件聚类组织系统在信息爆炸的年代,查询并找到有价值的信息,对用户而言并不是非常简单的任务。目前的搜索引擎或者信息流服务,会给用户提供一个文章列表。这些新闻文章会包含大量冗余信息,缺乏结构化的组织。本文提出 Story Forest 系统,对新闻文章做事件(event)粒度的聚类,使得报道同一个现实中的事件的不同文章聚类成一个节点,相关联的事件形成结构化的故事树(story tree), 来表征关联事件之间的时间顺序和发展关系。图 3.「2016 年美国总统大选」的故事树,树中的每一个节点代表一个事件已有的文本聚类方法不能很好地对文章进行事件粒度的聚类效果。本文提出 EventX 聚类算法,它是一种双层聚类算法:在第一层聚类中,利用所有文章中的关键词,形成关键词网络(Keyword Graph)并对其进行图分割,分割后的每一个关键词子图,代表一个大的话题,再利用相似度将每篇文章分配到一个最相似的关键词子图之下;在第二层聚类中,每一个关键词子图下的文章形成一个文章图(doc graph), 相连的边代表两篇文章讲述同一个事件,再对文章图进行社区检测(community detection),从而做了第二次聚类。每一个文章子图里的文章代表一个事件。通过双层聚类,即可以对文章对之间做细粒度的语义比较,又可以控制时间复杂度。在得到事件聚类之后,不同的事件节点通过故事结构组织算法,在线插入到已有的故事树中形成故事结构。如果一个事件不属于任何已有的故事树,则形成一个新的故事。图 4. Story Forest 系统以及 EventX 聚类算法第四章 基于图分解和图卷积的长文本匹配文本匹配是判断两个文本之间的关系或者相关度,是 NLP 中的核心问题,有很多的任务其核心都可视为一个文本匹配任务。根据匹配的源文本和目标文本的长短,我们可以将文本匹配任务分成四大类:长文本匹配任务,例如 Story Forest 系统中,一个核心的任务是判断两个文章是否在讲同一个事件;短-长文本匹配,例如输入 query 搜索匹配的文章;短文本匹配,例如问答对匹配,句子对相似度衡量等;长-短文本匹配,例如文本主题分类等等。图 5. 根据源文本和目标文本的长短,将不同文本匹配任务分成四类本章专注于长文本匹配任务,这是很重要的研究问题,然而在此之前,很少的研究工作专注于此。已有的算法基于 Siamese Neural Network 或者 CNN 来编码句子对或者句子之间的交互,无法很好的处理长文本匹配的任务。因为长文本的长度,导致计算复杂度较高;语言的灵活性,导致文本对之间对应的内容难以对齐;同时编码器也难以准确地编码长文本的语义。本文提出 Concept Interaction Graph 用于分解一篇或者一对文章。其主要思想是「化整为零,分而治之」。CIG 中的每个节点包含几个高度关联的关键字,以及和这些关键字高度相关的句子集。当进行文本对匹配时,每个节点包含来自两篇文章的两个句子集。这样,多个节点代表了两篇文章中的不同的子话题,并囊括了文章中的一部分句子并进行了对齐。节点之间的边代表不同子话题之间的联系紧密度。图 6. 根据文章构建 Concept Interaction Graph 的 toy example基于 Concept Interaction Graph,论文进一步提出通过图神经网络(Graph Neural Networks)对文本对进行局部和全局匹配。具体而言,对每个节点上的文本对,利用编码器进行局部匹配,从而将长文本匹配转化为节点上的短文本匹配;再通过图神经网络来将文章结构信息嵌入到匹配结果中,综合所有的局部匹配结果,来得到全局匹配的结果。图 7. 基于 Concept Interaction Graph 和图卷积神经网络的长文本匹配第五章 基于层次化分解和对齐的短文本匹配对于短文本匹配,论文提出了层次化句子分解(Hierarchical Sentence Factorization)来将句子分解为多层的表达,每一层都包含完整的所有单词,并且语句重排列为「predicate-argument」的顺序。随着层数的增加,一个句子逐渐被分解为更加细粒度的语义单元。因此,利用这种多层次,重排序的句子表示,我们可以对齐两个句子,并结合不同的语义粒度去比较他们的语义距离。图 8. 基于层次化句子分解(Hierarchical Sentence Factorization)的句子匹配这种句子分解技术利用了 Abstract Meaning Representation 来对句子做 semantic parsing。然后,它通过一系列的操作,使得每一层都包含句子中的所有单词。对于每一个语义单元,都是谓词(predicate)在前,参数(argument)在后。这种表示充分展现了自然语言的层次性,组合性,并利用归一化的词序来克服自然语言表达的灵活顺序。基于句子的层次分解,论文进一步提出无监督的 Ordered Word Mover's Distance, 结合了最优传输理论的思想去建模句子之间的语义距离。其效果经试验验证显著优于 Word Mover's Distance。同时,论文也提出了将句子的多语义粒度表达,应用于不同的文本匹配模型中,例如 Siamese Neural Networks 中。实验证明,多粒度的匹配效果,显著优于只利用原句进行匹配的效果。第二部分:文本挖掘第六章 ConcepT 概念挖掘系统概念蕴涵了世界的知识,促进了人类的认知过程。从文档中提取概念并构建它们之间的联系对于文本理解以及下游任务有着重要的作用。认识「概念」(concept)是人类认识世界的重要基石。例如,当看到本田思域(Honda Civic)或者现代伊兰特(Hyundai Elantra)时,人们可以联想到「油耗低的车」或者「经济型车」这类的概念,并且能进而联想到福特福克斯(Ford Focus)或者尼桑 Versa(Nissan Versa)等车型。图 9. 人类能对事物进行概念化并产生联想过去的研究工作,包括 DBPedia, YAGO, Probase 等等知识图谱或者概念库,从维基百科或者网页文章中提取各种不同的概念。但是这样提取的概念和用户的认知视角并不一致。例如,与其认识到丰田 4Runner 是一款丰田 SUV 或者说是一种汽车,我们更感兴趣是否能把它概念化为「底盘高的汽车」或者「越野型汽车」。类似地,如果一篇文章在讨论《简爱》,《呼啸山庄》,《了不起的盖斯比》等电影,如果我们能认识到它在讨论「小说改编的电影」这个概念,那么会帮助极大。然而,目前的知识图谱等工作目的是建立一个关于这个世界的结构化知识表示,概念提取自语法严谨的文章。因此,它们不能从用户的视角去对文本(例如 query 和 document)进行概念化,从而理解用户的意图。另一方面,目前的工作也主要在于提取长期稳定的概念,难以提取短时间出现的热门概念以(例如「贺岁大片」,「2019 七月新番」)及它们之间的联系。我们提出了 ConcepT 概念挖掘系统,用以提取符合用户兴趣和认知粒度的概念。与以往工作不同的是,ConcepT 系统从大量的用户 query 搜索点击日志中提取概念,并进一步将主题,概念,和实体联系在一起,构成一个分层级的认知系统。目前,ConcepT 被部署在腾讯 QQ 浏览器中,用以挖掘不同的概念,增强对用户 query 意图的理解和对长文章的主题刻画,并支持搜索推荐等业务。目前它已经提取了超过 20 万高质量的基于用户视角的概念,并以每天挖掘超过 11000 个新概念的速度在不断成长。ConcepT 系统的核心算法架构同样适用于英语等其他语言。图 10. ConceptT 概念挖掘流程:从用户搜索点击日志中挖掘概念ConcepT 系统还可以用于给文章打上概念标签。主要包含两种策略:基于匹配的标记算法和基于概率推断的标记算法。图 11. ConcepT 文章标记流程:将文章打上关联的概念标签图 12. ConcepT 系统从用户搜索 query 中提取的概念展示图 13. 在线 A/B test 结果。ConcepT 系统对 QQ 浏览器信息流业务各项指标有明显提升。其中最重要的指标曝光效率(IE)相对提升了 6.01%。图 14. ConcepT 系统对文章打上概念标签。目前每天可处理 96700 篇文章,其中约 35% 可以打上概念标签。我们创建了一个包含 11547 篇文章的概念标记数据用以评测标记的准确率。人工评测发现,目前系统的标记准确度达 96%。第七章 用户兴趣点建模 Attention Ontology上一章中,我们介绍了概念挖掘系统。为了更加全面的刻画用户兴趣点,我们进一步挖掘包括概念(concept)和事件(event),话题(topic)等等在内的多种短语,并和预定义的主题(category)以及实体库中的实体(entity)等形成上下位等关系。我们将这个包含多种节点,多种边关系,用于用户兴趣点或关注点建模的图谱命名为 Attention Ontology。图 15. Attention Ontology,包含五种节点,代表不同语义粒度的用户兴趣点;三种关系,代表节点之间的上下位,包含,以及关联。Attention Ontology 可以解决「推荐不准」和「推荐单调」的问题。例如:当一个用户看了关于「英国首相特蕾莎梅辞职讲话」的文章后,目前基于关键词的推荐系统可能会识别关键词「特蕾莎梅」,从而推荐给用户很多关于特蕾莎梅的文章。然而这大概率并不是用户的兴趣点。这是「推荐不准」的问题,原因在于系统中缺乏或无法识别合适粒度的兴趣点。另一方面,系统也可能继续推荐更多关于「英国首相特蕾莎梅发表演讲」的文章,这些文章与用户已经浏览过的文章产生了冗余,无法带给用户更多有价值的信息,因此用户也不感兴趣。这是「推荐单调」的问题,而这个问题的本质在于缺乏不同兴趣点之间的联系。Attention Ontology 中包含不同粒度的用户兴趣点,并且不同的节点之间有边来表示它们之间的联系。例如根据 Attention Ontology,我们可以认识到「特蕾莎梅辞职讲话」是和「英国脱欧」这一中等粒度的兴趣点相关的。如果用户浏览了「英国脱欧」这一兴趣点下的不同事件的文章,我们便可以识别出用户不是关注「特蕾莎梅」这个人或者「特蕾莎梅辞职演讲」这一个特定事件,而是关心「英国脱欧」这一话题。而另一方面,知道了用户关注这一话题之后,利用不同兴趣点之间的联系,我们可以给用户推荐相关的文章,从而解决推荐不准和推荐单调的问题。为了挖掘不同性质的短语,如概念和事件短语,论文提出了 Query-Title Interaction Graph(QTIG)用于建模 query 文章 title 之间的联系。这种表示结构将不同 query 和 title 之间的对齐信息,词的 tag,词之间的距离,语法依赖等等信息嵌入在节点特征和边的特征中。利用这种表示,论文进一步提出 GCTSP-Net 模型,将短语挖掘问题建模为「节点分类+节点排序」的问题。该模型对 QTIG 进行节点二分类,抽取出属于目标短语的词;再将节点排序建模为一个旅行商问题,寻找一个最优路径将所有的分类为正的节点进行排序。按照得到的路径,将分类为正的节点串联起来,便得到了输出短语。图 16. Query-Title Interaction Graph. 图中绿色节点为属于输出短语的词。每一个节点代表 query 或 title 中的一个独特的词,边代表两个词相邻或者存在语法依赖。论文设计并实现了构建 Attention Ontology 并将其应用在不同应用中的 GIANT 系统。GIANT 系统包含几大模块:首先,根据用户的搜索 query 和点击日志形成的二分图,来进行聚类得到不同的 query-doc clusters。每个 query-doc cluster 包含一个或多个相似的 query,以及他们的 top 点击的文章。对每一个 query-doc cluster, 我们将其转化为 Query-Title Interaction Graph 表示,并利用 GCTSP-Net 抽取潜在的短语。接下来,我们再利用不同的算法去抽取不同短语之间的关系,形成 Attention Ontology。最后,利用 Attention Ontology 去实现多种应用,包括文章的 tagging,query 的概念化,文本的聚类组织等。同时,Attention Ontology 中的节点可用于在用户画像中描述用户的兴趣点。这样可以提高用户和其感兴趣的文章之间的匹配,从而提高推荐系统的效果。图 17. GIANT 系统架构第三部分:文本生成第八-九章 问答对自动生成问题生成是一种非常重要的文本生成问题,它可以应用在问答系统的训练数据生成,对话系统,教育等等应用中。图 18. 问题生成的不同应用及重要性已有的问题生成系统一般给定一句话和一个答案,要求系统生成某个特定的问题。这种系统属于 answer-aware question generation 系统。然而,它们生成的问题质量并不够好。一个核心问题在于,给定输入的句子和一个答案,我们能问出多个不同的并且合理的问题,是「一对多匹配(one-to-many mapping)」,而训练集中每个输入只有一个标准答案,是「一对一匹配(one-to-one mapping)」。图 19. 根据同样的输入可以问不同的问题本文提出 answer-clue-style aware question generation(ACS-QG)任务,将人提问的过程建模成四步:第一,根据输入选择一部分作为答案(answer);第二,选择一部分和答案相关的信息作为线索(clue)在问题中复述或转述;第三,根据答案选择问题的种类(style),例如 who, where, why 等等,共 9 种;第四,根据输入的句子和以上三种信息(答案 answer,线索 clue, 问题种类 style),生成问题。图 20. 根据输入生成问题的过程问题生成的过程可以从语法树的角度去观察:选择答案片段就像是从语法树中覆盖了一部分信息,而选择线索片段(clue)的过程就是在覆盖的信息附近,选择一部分节点作为提示输出到问题中。图 21. 利用语法树建模问题生成过程本文提出的 ACS-QG 系统,可以从无标注的句子中,生成高质量的问答对数据。它由以下模块组成:数据集创建模块,可以从目前已有的问答数据集(例如 SQuAD)中,创建 ACS-QG 任务的训练数据集;输入选择模块,可以从无标注的句子中,合理的选择和创建(answer, clue, style)三元组作为问题生成的输入;问题生成模块,可以利用输入三元组生成问题,这个模块的训练数据来自于第一个数据集创建模块;质量控制模块,用于过滤低质量的问答对。图 22. ACS-QG 问题生成系统实验证明,ACS-QG 系统能生成大量高质量的问答对,并且效果显著优于一系列已有的问题生成算法。第十章 结论和未来工作本论文利用图结构建模了一系列 NLP 问题中的文本数据,并结合深度学习模型,提高了多种任务的效果。论文中的各种研究,对信息的聚类组织,推荐,以及理解有着重要的意义。未来的研究方向包括:长文本理解,多任务协同学习,以及通用的基于图结构的表示,学习与推理。本论文中的研究已经发表在 SIGMOD,KDD,ACL,WWW,TKDD,CIKM 等各类 top conference 中,论文列表可在作者个人主页找到:https://sites.ualberta.ca/~bang3/publication.html

名焉

大幅提高生产力:你需要了解的十大Jupyter Lab插件

下一代数据科学开发环境 Juypter Lab 应该怎么用?让我们从扩展工具开始。如果你是一个用 Python 的数据科学家,那么用 Jupyter Notebook 就是大概率事件了。作为 Jupyter Notebook 的「下一代」web 应用,Jupyter Lab 提供了相比以往更多的便捷功能,其中之一就是扩展。现在,即使是 Jupyter Lab 开发者团队也对如此蓬勃发展的第三方扩展工具社区而感到兴奋了。在这篇文章中,机器学习工程师、计算机科学博士 Christopher Tao 将为读者介绍 10 种 Jupter Lab 扩展工具,它们对于典型的数据科学家 / 工程师来说可以大幅提高生产力。10 大 Jupyter Lab 扩展目前,大多数在线资源都会使用以下命令来安装 Jupyter Lab 扩展:当然,很多人都喜欢使用这种命令。如果你是 VS-Code、Sublime 或 Atom 的用户,你也许会希望在「管理器」中直接搜索要安装的内容。Jupyter Lab 却没有提供这些功能。如上图所示,你可以转到左侧导航栏第 4 个选项卡,即扩展管理器(extension manager)。然后就可以搜索到你需要的扩展。现在总结一下值得推荐的 10 个 Jupyter Lab 扩展。JupyterLab 调试器由于 Jupyter 的交互性,它受到了很多人的喜欢。然而,调试功能是编码所必须的。例如,我们可以逐步调试 for 循环(for-loop )来查看内部发生了什么。大多数 IDE 工具都支持这种带有「step over」和「step into」的调试特性,但遗憾的是,Jupyter 中没有这种特性。「jupyterlab/debugger」就是这样一个扩展,让我们可以补足 Jupyter Lab 中缺少的这个功能。JupyterLab-TOCJupyterLab-TOC 项目地址:https://github.com/jupyterlab/jupyterlab-tocnotebook 太长?想让你的 notebook 看起来更漂亮?或者希望 notebook 有一个目录?「jupyterlab/toc」帮你实现。图源: https://github.com/jupyterlab/jupyterlab-toc/raw/master/toc.gif有了这个扩展,基于用标题标记的单元格会自动生成目录(确保使用标记 ## 来指定你的标题级别)。这也是使用 Jupyter Notebook 的好方法,让你的工作更有系统性和组织性。JupyterLab-DrawIOJupyterLab-DrawIO 项目地址:https://github.com/QuantStack/jupyterlab-drawioDiagram.net(原名 Draw.IO)是绘制图表的工具,它确实是 MS Visio 完美的开源替代品。借助于 jupyterlab-drawio,我们可以在 Jupyter Lab 上使用该工具。图源:https://github.com/QuantStack/jupyterlab-drawio/raw/master/drawio.gifJupyterLab Execution TimeJupyterLab Execution Time 项目地址:https://github.com/deshaw/jupyterlab-execute-timeJupyter Notebook/Lab 的一个惊人特性是它能提供许多有用的魔术命令(magic command)。例如我们可以使用「%timeit」测试代码运行时间。它将运行代码片段数百或数千次,并得到平均值,以确保给出一个公平和准确的结果。但有时并不需要这样精确。我们只不过想知道每个单元运行的时间,在这种情况下,为每个单元使用「%timeit」变得不合适了。在这种情况下,我们可以使用「jupyterlab-execute-time」。如上图所示,「jupyterlab-execute-time」不仅显示了执行单元的时间间隔,而且还显示了最后执行的时间。JupyterLab SpreadsheetJupyterLab Spreadsheet 项目地址:https://github.com/quigleyj97/jupyterlab-spreadsheet作为一名数据科学家或数据工程师,你不得不与电子表格打交道。但是,Jupyter 本身不支持读取 Excel 文件,这迫使我们需要打开多个工具,在 Jupyter 编码以及 Excel 之间不停地切换。「jupyterlab-spreadsheet」可以很好地解决这类问题。它在 Jupyter Lab 中嵌入了 xls/xlsx 电子表格查看功能,因此我们可以在同一个地方获得所需的一切。图源: https://github.com/quigleyj97/jupyterlab-spreadsheet/raw/main/screenshot.pngJupyterLab System Monitorjupyterlab-system-monitor 项目地址:https://github.com/jtpio/jupyterlab-system-monitorPython 不是一种高效执行的编程语言,这意味着与其他语言相比,它可能会消耗更多的 CPU 和内存资源。Python 的最常见用例之一是数据科学。所以,我们可能想要监控自身系统硬件资源,从而注意到 Python 代码可能冻结了操作系统。jupyterlab-topbar-extension 你想要拥有的扩展,它可以在 Jupyter Lab UI 的顶部栏显示 CPU 和内存使用情况,这样我们就可以实时监控了。如下动图所示:图源:https://github.com/jtpio/jupyterlab-system-monitor/raw/main/doc/screencast.gifJupyterLab Kitejupyterlab-kite 项目地址:https://github.com/kiteco/jupyterlab-kite虽然我很喜欢 Jupyter,但它不像其他经典 IDE 工具一样提供代码自动补全功能。Jupyter 的代码自动补全非常受限且速度很慢。你可能听说过免费的 AI 赋能代码补全服务 Kite,它在 Sublime、VS Code 和 PyCharm 等几乎所有流行的 IDE 工具中都可以使用。通过 jupyterlab-kite (https://github.com/kiteco/jupyterlab-kite) 扩展,你也可以在 Jupyter Lab 中使用这一功能。图源:https://github.com/kiteco/jupyterlab-kiteJupyterLab Variable Inspectorjupyterlab-variableInspector 项目地址:https://github.com/lckr/jupyterlab-variableInspector如果你是从 R studio 或 Matlab 转向使用 Jupyter Lab 的数据科学家,则可能对这些工具提供的变量检测器非常熟悉。但遗憾的是,Jupyter Lab 默认不支持这一功能。这时,jupyterlab-variableInspector 扩展可以重新支持该功能。图源:https://github.com/lckr/jupyterlab-variableInspector/raw/master/early_demo.gifJupyterLab MatplotlibMatplotlib/ipympl 项目地址:https://github.com/matplotlib/ipympl如果你是数据科学家,则 Matplotlib 是必须学习(must-learn)的 Python 库。该库是 Python 中一个基础但强大的数据可视化工具。但当我们使用 Jupyter Lab 时,交互特征消失了。jupyter-matplotlib 扩展可以使 Matplotlib 再次具备交互性。只需要输入一个魔术命令 %matplotlib widget 来启动它,则你的精美 3D 图表就变成交互式的。如下动图所示:图源:https://github.com/matplotlib/ipympl/raw/master/matplotlib.gifJupyterLab PlotlyPlotly 使用指南:https://plotly.com/python/getting-started/#jupyterlab-support-python-35虽然 Matplotlib 是最基础和强大的数据可视化库,但在这方面我最喜欢的是 Plotly 库。该库封装了很多常见图表,我们可以通过数行代码生成令人惊叹的图表。为使 Jupyter Lab 无缝支持和显示交互的 Plotly 图表,用户需要安装 jupyterlab-plotly。

漠风

22岁到28岁,从读书到工作,我在美国打怪升级的日子(上)

转眼又快到新学期开学的日子了。今天,要分享给大家是一个小姐姐在美国留学七年的故事——留学生涯对她的性格、思维和能力所造成的改变,以及她的一些心得和切身体会。作者的七年奋斗经历,对那些希望改变自己处境的人提供了很多技术上的帮助,即“你想改变,但是你不知道怎么做,如何做”。ps:本文约1.8万字,阅读时间约30分钟。文章的长度无疑会降低传播性,但是真正读完的人,感悟一定会更深。所以,如你希望本文能帮助更多的人,别忘了分享哦~PS:为了保持文章的原汁原味,中英夹杂部分并未全部修改,而是选择了加注解的方式哦~写下这篇文章时,我正好来美7周年。对我来说,5年感觉挺短,10年就觉得很长, 数字7么,不长不短的,写点东西好像正好。7年,如果看做一个可以移动的框,放在人生的初始,是从襁褓到走进小学;再往后挪挪,是从小姑娘变成大姑娘;再后面,就是从离家一天都想家到只身去北京上学。而现在的这个框,是在异国他乡度过的22岁到29岁这段人生最美丽的时光。在美国这7年,是一场游历,一场冒险,一场人生观的洗礼。从平凡到努力追求光环,再到回归平凡。也许没有了身边父母的指引,朋友的影响,反而更容易长大,更懂得珍惜。谨以此献给过去的7年,谨以此憧憬那未知的将来。2003-2004:第一年想象和现实的差别出国那年,赶上美国学校这边砍研究经费,中国又恰好SARS爆发。总之offer很少,签证更是前无古人后无来者的难,每天只过有限的几个。当时学校实行封闭制,出个校门要上报到学校党委,好不容易批准了出去签个证。怕坐地铁、坐公交被传染,最后居然和朋友从五道口一路骑车去的大使馆。那天我所见到的那群签证的人里面,一共过了两个,我和我的朋友。回来的路上,我们一路都在畅想在美国的生活,就好像那个原本陌生的国家忽然变得看得见摸得着了。事实证明,想象和现实差的很远,美国和中国仍然隔着12个小时的时差。真实的美国,和我想象里挺不一样的。没有高楼,没有华丽的装修,有的是蓝天白云,红花绿草,和之间那些漂亮的小房子。在开学后最初的几周里,我忙碌地穿梭在学校的各个地方,参加各种活动,到处蹭饭,几乎没有自己开过伙。我还给爸妈男朋友打电话,告诉他们:这里的生活真好啊。唯一遗憾的是英语测试口语和笔试都没过关,被学校要求上英语补习课,要强的我郁闷得哭了两场。当最初的新鲜感慢慢淡去,学校开始上课,生活开始走向美好的反面,无聊和单调渐渐笼罩了我。我们系里(工程专业)有一半以上是中国人,剩下的也是印度的,南美的,和广大第三世界国家的,英语全都说不利索。所以大家默认只和自己国家的人hang out(一起出去),用母语说话。我老板是中国人,组里除了一个土耳其小伙,清一色中国人,老板知道大家英语不好,所以要求大家在学校不可以说中文,要用英文交流。和中国人说英语是一件很别扭的事情,所以我们决定不到万不得已就不说话,大家自顾自埋头做research。上课老师讲的话我能听懂1/3,能猜到1/3,剩下1/3听不懂。好在班里有美国同学,老师一提问或者让大家提问题,他们就冲上去了堵炮眼了,不用担心会问到我们头上。我们老板上课我都能听懂,因为他不太说,在黑板上一黑板一黑板得写公式,美国同学全部lost,我们中国学生能follow。Office hour(师生互动时间)我是不去的,有问题我也问不清楚,有那个空自己琢磨会儿就明白了。我不会做饭,我以为我会,因为我看过我爸做饭,觉得不难。我室友比我放弃得早,她每天早上剁一堆的生菜,一天就吃沙拉。但我受不了天天吃沙拉,吃冷三明治我都反胃。我是中国胃,在吃了一阵方便面煮蔬菜之后,我决定自己尝试做菜。煮坏了两个汤锅和一个炒锅之后,我发现做菜的真理在于xx炒xx——你把一样荤菜,一样蔬菜放在一起炒,放一点盐,一点糖,一点味精,出来就是一道菜。好像我们同去的一帮人都有差不多的感悟,因为在一段时间之后,我们开始互相邀请吃饭,或者是一起聚餐。大家的菜都大同小异,不过是不同的xx炒不同的xx,大家都为自己饿不死了而感到很骄傲。到美国之后,我变得不喜欢买东西,因为买什么都要乘以8,乘以8之后什么都觉得贵,觉得贵又没钱就有一种心疼的感觉。这样的日子过了一个学期,老板很喜欢我,因为我听话,学东西又快,而且除了吃饭睡觉,我没什么别的事情干,所以有无数时间给他干research(研究)。第一学期三门专业课,我的成绩全部都是A,只有英语课得个B。总结一下,考试写公式和数字的哪怕上课听不懂也是A,如果是用英语的,就没戏了。如果不是因为一个人的出现,我的生活也许就这样平平淡淡过下去。她是我们的engineering school(工程学院)的院长,Stanford博士。我佩服她不是因为她research做得好——事实上她好像都不怎么做research了,而是她的优雅,她的言谈,她的魄力。她让我明白到,在美国,每个人都有机会,但你必须有勇气,敢想敢做,敢表现自己。如果不能有漂亮的表达,就不能得到别人的尊重,因为别人看不到你,也就看不到你身后的成就。我问自己,你为什么要来美国?如果你来美国,就是为了生活在中国人的圈子里,用中国的方式生活,用中国式的思维处事,用中文和人说话,吃自己做的蹩脚中国菜,蜗居在电脑前推公式、写程序、读paper。那么你没有必要来美国,这些事情在中国你完全可以做的更好。如果你来到国外的目的是“体验”,那么你必须“打开自己”。所以我决定走出我火柴盒一样的生活空间。第一步,是要让自己改变习惯。我鼓励自己用英语去思考,开始很难。因为一不留神想东西就用中文的思维方式了。但是用中文思考然后翻译成英语说出来,比直接用英语思考会慢很多,表达会比较生硬。我给自己创造各种各样听和说英语的机会。我去参加学校的、各个系的、本科生的、研究生的event(活动),和不同的人聊天。学到什么就在自己心里默念几遍,然后找一切机会现学现卖。social对于我们来说不单单是学语言,也是学生活,学交际,扩大朋友圈子。很简单的道理:局限在中国人的圈子里,是无法真正体验美国生活的。我还给各种customer service(客服)打电话,和他们argue(争论、辩论),向他们询问这个、询问那个。他们的工作就是陪顾客聊天,所以你说,他们就得陪着,就这么简单。(现在知道很多其实是印度人在接哈,不过那时候就是印度人英语也比我好)我也去商场和sales聊天,谈话通常从我指着一样东西问“what is it”开始,对方回答了以后,我会用自己理解重新说一遍,到他们说“exactly”为止。渐渐的,我体会到用非母语把一件事情说清楚,把一个观点表述清楚,甚至把一个人说服了,是技巧,更是艺术。这些技巧我用在和老板开会、谈科研项目上,老板夸我presentation skill(表达技巧)很有进步。以前每次老板问个什么,自己心里明明知道,但就着急怎么说都说不清,慢慢地我变得被问什么都不慌了。第二学期,我变得活跃许多。除了修三门专业课,我还跑去修了本科生的accounting(会计),MBA的一个consulting(咨询)课,还有心理系的课。反正我喜欢什么就去学什么,就当我在美国上第二个本科了。学校经常请各种各样的人来做seminar(研讨会)、speech(演讲),除了学术的,还有很多人文的,我经常去,连饭也解决了。我还作为我们系的学生代表,参加了研究生学生会。因为做了系里的代表,我们院长都会定期和我约见、沟通,从我这儿听听学生的声音。我有了更多接触她的机会,她告诉我了很多她的故事。她说,“You can do better than me, if you keep up the good work. ”(如果你继续努力,你会比我做得更好的。)这话我至今记得,也许对于她(美国人很善于赞扬人哈)只是随口一说,对于我却是莫大的鼓励。当了代表没几个月,就赶上全美开研究生大会,在DC。我作为研究生会里少数minority(少数族裔)面孔,被选中代表学校去开会,以显示我们的“多样性”。于是我屁颠屁颠地坐着美国同学的车,来到了DC这个七年后我生活工作的城市。我们在Capital Hill(国会山)上做lobby(游说),挨家的去找senator(参议员)要求取消研究生stipend(津贴)的征税。在中国,要见领导很难。不过来到美国之后,我第一天上学就见到了校长,去趟国会山,还见到好多senator。无论政治家们内心有多阴险,他们看上去都好nice,有个senator还让我在他办公室坐着拍了个照。我给爸妈发回去,差点没轰动了我们半个城市。我和DC一见钟情,喜欢它干净的街道,尤其喜欢National Mall(国家广场)那一片,爱死了那些博物馆们,那时候脑子里有一闪而过的念头,我以后要到DC来就好了。天知道呢,也许就是这样一闪念的东西往往在我们潜意识里牵引我们,等我们有一天走到了,忽然发现,原来你心早有所属。2004-2005:第二年在美国,没什么不可能回国过完暑假,再回到学校的时候,有很多事情变了:第二年,我的男朋友也来了美国。我的世界一下子就多了很多两个人可以做的事情,吃饭、逛街、看电影都有乐趣了。我还买了车——在挑选了三个月之后,花3000刀买了一辆7年新的Nissan Altima(尼桑阿蒂玛),花了我当时积蓄的大头。有了车世界就大了很多。其实世界就那么大,不是吗?只不过,你能看见多大,就觉得它有多大,或者说想看见多大,才能看见多大。大二,我当上了中国学生会的主席,颠颠地组织大家去接新生,去学校要钱,然后办活动,因此和学校的很多部门都搞得很熟很熟。其实私立学校都是很有钱的,这些钱来自于学生,所以里面有一块是专门留给学生花的。你找一个好的理由去要,它就会给你,给得也很多。然后你就可以去做点事情,这个取之于民用之于民的道理,在美国其实是民主的一部分。这些经历让我懂得了,在美国,有很多很多这样那样的机会,但它们不会砸到你头上,而是需要你去争取,你得告诉别人你想要。如果有好几个人要,你就要告诉别人为什么应该给你而不是别人。任何事情,如果有competition(竞争),就要敢挺身而出,捍卫自己的想法。Hold your position(坚持你的立场),否则就算事实上事情做得比人家好几倍,还是会输。有一次我看到一个东西方交流的会议,在夏威夷。我觉得自己可以去讲讲我在学生会做的事情,比如如何推动中美文化交流。从投稿被录取,然后去学校申请“参会基金”,最后成行,我再次体会到了,没有什么事情是不可能的。关键是想不想做,怎么去做的问题。我没申请过research grant(研究补助),但想必万事都是相通的,道理应该也差不多。不过,第二年在research上遇到了一些瓶颈,我不太喜欢我老板给我的题目。我的老板是属于很nice一类的,很典型的中国学者。聪明(博士读了两年半就毕业了)、努力(拿到tenure以前是7点来lab,11点走),但是不是一个好的business man(商人)——不善于sell ideas(行销创意),不善于言谈,所以纵然学术很强,也受人欺负。所以他对学生的要求也一样, 希望大家勤能补拙,表达的缺陷用加倍的学术水平来弥补。这点上,我心里并不赞同。我本来research就很一般,可能比中国同学差,比美国同学好点。如果再来个做8分,只能讲出4分,就彻底没竞争力了。我知道,再这样下去,自己肯定是朽木一块了,所以我决定自救。我们那学校的EE(电气工程专业)一般,但是BME(生物医学工程)很强,我对医学的东西也比较感兴趣,我和老板说我想做医学应用。可老板回答,没钱。我见过有人读到一半转系的,有人转老板的,有人被老板派去和别的系一起做项目的,但我没见过学生自己去找合作项目搞钱的。不过我想试试也无妨,美国没什么不可能的。所以我就去BME系找老师,去学他们的原理,然后sell(推销)我的算法,告诉他们我的东西可以给他们带来什么好处。没想到,还真的让我在一个全国有名的组里,找到了一个很好的应用。对方同意教我数据采集,用他们几百万的机器做实验,然后用我的算法处理数据。于是两个老板就用我的idea写了个proposal(提议、提案),很快拿到funding(经费),我就开始做我想做的事情了。然后我又想反正我也在BME做research了,不如拿个BME的MS。跑到grad school(研究生院)一问,对方回答说理论上可以。但是如果想不交学费,必须EE的老板同意,EE的系主任同意,BME的老板同意,BME的系主任同意,再加研究生院院长同意。并且,对方还告知实施难度比较大,至今还没有先例。我发现我的中国式思维真的开始变了,以前我会想一件没有先例的事情多半也做不成,做不成不如不要去做。而那时候我却想,如果一件事情没有先例,那么我就可以放手一搏。做不成无所谓,大不了就还是没有先例,做成了我就是第一个了。无数的persuading(劝说),无数次地defend(辩护)自己的想法,当我最终拿到五个人的签字的时候,觉得太有成就感了。和我的EE老板不一样,我的BME老板是一个很好的sales man(推销员?形容这位老板表达能力强)——美国人,很聪明。他数学物理计算机医学都懂一点,都不精通,组里有很多postdoc(博士后)甚至PHD(博士)都比他强。但之所以他是大老板,完全在于他的管理能力和表达能力,你和他说个东西,他很快能明白。然后当他用华丽而浅显的方式再表述出来的时候,你会惊叹,原来我的idea是那么brilliant(绝妙)。所以我决心向我的EE老板学治学,向我的BME老板学academic sales(推销学术成果),取长补短。我身边学理工科的学生大多很专一,每天想的就是research,大家平时见个面,三句又说到research上,好像别的就没什么可说的了。我比较喜欢折腾,坐不太住,一个礼拜做一件事情会疯掉的那种,所以我就满世界的找事做。除了去参加各种社团活动之外,我就跑各处去上课,我在engineering school(工程学院),但我在business school(商学院),但我在medical school(传媒学院),law school(法学院)都上过课,反正PHD学生多选课是不要钱的。business school和law school的课和我的专业课不太一样,有很多阅读内容,很多课堂讨论,相比之下对表达的要求比engineering school更高。开始是不适应的,每次都把答案在心里说了好几遍,才敢举手。不过,慢慢地也就习惯了,想到什么就说什么。其实那些学生说的,仔细想想也实在是很平常的东西。但人家自己觉得很brilliant,说出来就中气十足的,我也有我自己unique(特别)的想法,说出来就完了。business school那个老师特别喜欢我,秋季学期上完课的之后,问我愿不愿意做春季课的Teaching Assistant(助教),于是我又颠颠得给MBA做了一学期TA。工程系的PHD跑去business school做TA,我不知道我是不是又是史无前例。2005-2006:第三年做学术,还是搞技术?经过两年孜孜不倦的英语训练,开始有人见面夸我“Your English is really good”了。我颇开心了一阵,后来我想了想,觉得不对。其实,这只能说明我的英语对方能听懂,但是同时对方很轻易就能听出来我是外国人,所以才会自然得夸英语好。什么时候听见美国人夸另一个美国人英语好来着。于是我对自己说,你还有很长路要走呢。英语有三个境界, vocabulary(词汇),pronunciation(发音),intonation(语调)。刚来时候结结巴巴不知道怎么说,颠来倒去那几个词,那是vocabulary问题。我的pronouciation还可以,所以要提高就要在intonation上下功夫。这个东西,无他,唯手熟尔。留意别人说话的语调,然后模仿,这个和我小时候练书法一样,开始就是临摹,到你写100遍的时候,提起笔来就可以写自己的style了。第三年,我的学术研究做得好像没什么波澜,第二年末就顺顺利利把master(硕士)给拿到了,第三年春天,又把prelim做了。(PS:prelim,是在确定毕业论文课题前,要读完与这个方向相关的几乎所有的重要文献,保证没有雷区)我已经慢慢变得喜欢写东西,喜欢presentation(展示)了,写程序我写不过同一个实验室的同学,但答辩是我擅长的。我们系里有几个老师对中国学生不太友好,原因是他们觉得中国学生的presentation太差。所以他们就喜欢答辩时候问各种为难人的问题,导致我们系学生请答辩委员会成员都绕着他们走。我就喜欢去惹这些tough(严格、难搞)的人,比较有挑战性。如果一场答辩是因为你的committee(委员会)放你一马而过的,那过了又有什么意思。每次我答辩完,我的committee member(委员会成员)总是会和我老板说,嗯,你这个学生不错。PHD的定义是,毕业之后不出意外的话,应该是做research的。约定俗成的有两条路,学术或者技术。我们系去搞学术的很少,一般都是那几个美国学生,国际学生因为这个那个的原因,多半都是去做技术。我两个老板都很想我去做faculty(教师) ,中国老板觉得我表达很好(相比于中国学生),美国老板觉得我学术不错(相比于美国学生)。其实我知道我都是三脚猫,为人师表,有点惭愧。另外,有件事情基本把我做学术的门关上了。我老板让我写过一篇paper,是来这第一年的时候时候做的一个东西。实话实说,我觉得没什么东西,事实证明,也是peer review批评比较多。我和老板说,要不算了,这玩意就算有发明也是点皮毛啦,没做什么实际的贡献。老板听了我这话,指着他那满书架的IEEE(美国电气和电子工程师协会)杂志,说你看看这一堆东西里面有几个是真正的revolution(变革),多数的文章就是在灌水。这件事情对我影响很大。一个人不需要做什么惊天动地的大事,但是对自己做的事情必须有认同感。如果做学术的自己都觉得自己在灌水,理由是身边大多数人也是在灌水,那么我不明白我为什么要去做它。所以做学术这条路就被我否决了。技术方向呢,我觉得可以去试试,毕竟这方面做的都比较实用,也算是有意义的事情。于是,第三年的暑假,我就联系了行业里三强之一的S公司,去他们的研究中心实习。第一个礼拜做得挺有味道的,因为在公司做research和在学校做还是挺不一样的。而且我C不好,公司实现都要用C,所以开始还颇觉得有挑战性。但没过多久那种无聊的感觉又来了,每天完成工作真正需要的时间只要2-4小时不等,也就是说一天有一半时间是荒废掉的。无论是等程序运行,上网闲逛,还是和同事聊天,哗啦时间就过去了。郁闷的我后来只能每天去gym(健身房)消磨时间 ,3个月intern(实习)减了30磅下来(这个收获真不小)。这个地方的另外一个问题,是中国人印度人太多,做事方式还是中国那一套。这个挺打击我的,也就是说如果在技术公司工作,就要准备好过这样的生活,轻松,高薪,但是封闭,没盼头,还要deal with(对付)亚洲人特有的办公室政治有话开会不说,底下斗得厉害,对上面言听计从,对下面就压,下面做得好就take credit(居功)。我现在很庆幸我去做了这个intern,这是体验生活的最好方法。有时候理性得去看待一些书面的材料,比如薪水,location(地点),career path(职业道路)等等,都是抽象的。不如深入其中去体会:这是我未来10年想做的事情,想呆的地方吗?intern(实习)结束之后,我的答案已经很清楚了。平心而论,我知道这个地方是很多人梦寐以求想去的。工资高,地方好,做的东西还算是比较有意思的,可能刚好我的口味不同吧,技术好像并不是“我的菜”。-END-内容来源:美国华人论坛部分图片来源网络版权归原作者所有

轻用民死

《瑞克与莫蒂》背后的秘密

2013年底,瑞克和莫蒂在《Alt Swim》上首次亮相时,一下子就受到了欢迎。这是动画师兼配音演员贾斯汀·罗兰和丹·哈蒙的创作,描绘瑞克·桑切斯的冒险经历。桑切斯头发长得尖尖的,是个醉醺醺的科学家;莫蒂·史密斯是他的孙子,他们穿越太空,穿越不同的空间,穿越不同的维度,同时也搅乱历史、宇宙和他们自己的生活。今天小姐姐带你一起来看看里克和莫蒂背后的秘密。这部剧的灵感是来与《回到未来》Justin Roiland曾制作了一部动画短片,取名为《The Real Animated Adventures of Doc and Mharti》(博士和哈蒂的真实历险记)。这几乎是一个暗示,是在恶搞《回到未来》里的博士和马蒂。 Roiland卡通片在Channel101的放映,该频道是由社区创建者丹·哈蒙在洛杉矶举办的每周一次的电影展示和比赛。当哈蒙暂时被解雇,他和罗兰德走的近了,更改了“博士和哈蒂”系列,让这部剧的内容不再那么明确的参考《回到未来》。这就是为什么博士变成了科学家,而Mharti变成了Morty,瑞克的孙子。里面的打嗝都是真的配音 不是后期制作上去的这部剧很大的亮点是瑞克看似随意的打嗝习惯。虽然这会让人觉得很恶心,但打嗝绝对是真的。制作人贾斯汀·罗兰特(Justin Roiland)同时为里克和莫蒂配音。他说,在节目的音频录制期间,他会先通读里克的台词,然后记下他想在哪里打嗝。然后他回去重新整理对话,这次整理就是为了插入打嗝。为了让自己打嗝,罗朗德在开始前会喝很多低热量的啤酒和水。他说“整个过程很恶心。”里面的很多对话都是即兴的瑞克和莫蒂的对话,有一种非常流畅的感觉,因为Roiland,同时配音扮演两个主要角色的人,喜欢即兴创作。这个过程是这样的:在运行Rick的台词(包括打嗝)之后,Roiland将以Morty为中心,然后为两个角色配音,同时让自己即兴表演。(制作同伴哈蒙在这段时间里也会作出一些更改。)然后剧本被相应地重写,加入新的场景,然后制作出来。制作人一直有一个从来不想透露的秘密情节。但是一个粉丝想通了在该剧的早期制作过程中,Roiland和该剧的创意人员决定要对该剧的世界保留个只有他们才知道的“秘密”。他们一致认为他们永远不会公开这个秘密,但他们确实始终提供线索来暗示了。后来Roiland承认一个身份不明的Rick和Morty的粉丝发现了这个秘密并把它发布到了Reddit上。为了遵守诺言,Roiland没有透露这个秘密,但根据Reddit上的评论以及Roiland的反应,其他Rick和Morty的粉丝已经缩小了秘密范围。可能性最大的包括瑞克是莫蒂的未来老年时期——或者至少是莫蒂许多迭代中的一个——或者瑞克知道他是一个虚构的角色。辛普森一家的沙发笑话是怎么来的2016年,瑞克和莫迪团队为《辛普森一家》(the Simpsons)一集的制作客串,做出了最近记忆中最令人难忘的“沙发笑话”之一。Roiland听说辛普森的创作者兼制作人马特·格罗宁是他的剧迷,他不相信这是真的……直到格罗宁证实了这一点。这就给了罗兰一个有趣的想法:他让格罗林(和格罗宁的选择的人)在瑞克和莫蒂的第一季DVD上提供评论音轨。格罗宁同意这样做,并带来了辛普森长期作家和长期制片人阿尔琼,就是这个制作人让Roiland做了这集。这部剧的全部幕后故事永远不会全部公布像里克和莫蒂的故事一样复杂,罗兰和哈蒙(制作人)从来都不想透露太多的信息,来说明为什么瑞克是这样的人,或者他为什么要这样那样做。原因是:他们认为这是在“跳鲨鱼”(也就是,越演越糟,就像在《快乐日》中,Fonzie在鲨鱼身上滑雪时跳过鲨鱼一样),而其他节目就是这么做的。哈蒙说道,“我们非常小心地钻研瑞克的幕后故事,因为当我们这么做的时候,我们不希望有什么太惊人的惊喜。贾斯汀很聪明,他说,‘不,我们不想透露瑞克在说废话的时候开始喝酒的原因,’因为有一些非常疯狂的事情。”哈蒙补充说,“不说太多也有助于把瑞克描述为“更加神秘和自私”原创,严禁抄袭网传,请自重。

试往观焉

不是所有的人都叫doctor

看到doctor,你的第一反应是医生,停顿三秒3 2 1……对了,doctor还有博士的意思。中医善于思考的看官们一定会问“医生”和“博士”二者有什么联系?为什么同一个词表达两种不同含义?这正是词源学Etymology要解决的问题,也是道格英语初心所在。接下来德叔将从词源的角度为大家解读doctor。首先,doctor可以拆分成2个部分:doctor=doct+or这里,doct是一个词根,有两种含义:一是“知识”,二是“教”,前者为名词,后者为动词。or是一个名词后缀,表人,如actor(动作演员)。两个部分放在一起就构成一个新词doctor。我们先来看第一个义项——博士,什么叫博士?博士就是学识渊博的人。这层含义,大家稍微动下脚趾头都能想明白。在此不再赘述。下面我将重点解读第二个义项——医生,那什么又叫医生呢?关键就在doct的第二个含义“教”,医生就是教病人调理身体的人。那么新的问题来了,你会说我们村有个老婆婆也会帮人看病,但她不是医生啊?这里需要强调,过去由于经济落后,医疗条件有限,很多人看不起医生,在这样的时代背景下一些非职业的“赤脚”医生就应运而生。但随着经济不断发展,医疗条件不断完善,对医生的要求也越来越严格。医生不仅要学识渊博,教病人调理身体,还必须具备相应的学术背景和从业资质。如今,国家通过立法确定医生职业的合法性。没有下面两本证书根本做不了医生,这是从业的最低要求。此外,医生对学历也有严格的要求。大家可以去调查一下,任何一家医院(非诊所)的主治医师清一色的博士学历,而且还有从业年限要求。所以说,不是所有的人都可以叫doctor。医学博士学位证书各位看官,知否?Your knowledge,my pleasure!以上就是今天跟大家分享的内容,希望对大家有所帮助。我是受益者,就应该通过分享让更多人受益。希望大家把这份信念传递下去!大家的关注和支持是道格英语不断更新迭代的动力!

荷兰人

22岁到28岁,从读书到工作,我在美国打怪升级的日子(上)

转眼又快到新学期开学的日子了。今天,要分享给大家是一个小姐姐在美国留学七年的故事——留学生涯对她的性格、思维和能力所造成的改变,以及她的一些心得和切身体会。作者的七年奋斗经历,对那些希望改变自己处境的人提供了很多技术上的帮助,即“你想改变,但是你不知道怎么做,如何做”。ps:本文约1.8万字,阅读时间约30分钟。文章的长度无疑会降低传播性,但是真正读完的人,感悟一定会更深。所以,如你希望本文能帮助更多的人,别忘了分享哦~PS:为了保持文章的原汁原味,中英夹杂部分并未全部修改,而是选择了加注解的方式哦~写下这篇文章时,我正好来美7周年。对我来说,5年感觉挺短,10年就觉得很长, 数字7么,不长不短的,写点东西好像正好。7年,如果看做一个可以移动的框,放在人生的初始,是从襁褓到走进小学;再往后挪挪,是从小姑娘变成大姑娘;再后面,就是从离家一天都想家到只身去北京上学。而现在的这个框,是在异国他乡度过的22岁到29岁这段人生最美丽的时光。在美国这7年,是一场游历,一场冒险,一场人生观的洗礼。从平凡到努力追求光环,再到回归平凡。也许没有了身边父母的指引,朋友的影响,反而更容易长大,更懂得珍惜。谨以此献给过去的7年,谨以此憧憬那未知的将来。2003-2004:第一年想象和现实的差别出国那年,赶上美国学校这边砍研究经费,中国又恰好SARS爆发。总之offer很少,签证更是前无古人后无来者的难,每天只过有限的几个。当时学校实行封闭制,出个校门要上报到学校党委,好不容易批准了出去签个证。怕坐地铁、坐公交被传染,最后居然和朋友从五道口一路骑车去的大使馆。那天我所见到的那群签证的人里面,一共过了两个,我和我的朋友。回来的路上,我们一路都在畅想在美国的生活,就好像那个原本陌生的国家忽然变得看得见摸得着了。事实证明,想象和现实差的很远,美国和中国仍然隔着12个小时的时差。真实的美国,和我想象里挺不一样的。没有高楼,没有华丽的装修,有的是蓝天白云,红花绿草,和之间那些漂亮的小房子。在开学后最初的几周里,我忙碌地穿梭在学校的各个地方,参加各种活动,到处蹭饭,几乎没有自己开过伙。我还给爸妈男朋友打电话,告诉他们:这里的生活真好啊。唯一遗憾的是英语测试口语和笔试都没过关,被学校要求上英语补习课,要强的我郁闷得哭了两场。当最初的新鲜感慢慢淡去,学校开始上课,生活开始走向美好的反面,无聊和单调渐渐笼罩了我。我们系里(工程专业)有一半以上是中国人,剩下的也是印度的,南美的,和广大第三世界国家的,英语全都说不利索。所以大家默认只和自己国家的人hang out(一起出去),用母语说话。我老板是中国人,组里除了一个土耳其小伙,清一色中国人,老板知道大家英语不好,所以要求大家在学校不可以说中文,要用英文交流。和中国人说英语是一件很别扭的事情,所以我们决定不到万不得已就不说话,大家自顾自埋头做research。上课老师讲的话我能听懂1/3,能猜到1/3,剩下1/3听不懂。好在班里有美国同学,老师一提问或者让大家提问题,他们就冲上去了堵炮眼了,不用担心会问到我们头上。我们老板上课我都能听懂,因为他不太说,在黑板上一黑板一黑板得写公式,美国同学全部lost,我们中国学生能follow。Office hour(师生互动时间)我是不去的,有问题我也问不清楚,有那个空自己琢磨会儿就明白了。我不会做饭,我以为我会,因为我看过我爸做饭,觉得不难。我室友比我放弃得早,她每天早上剁一堆的生菜,一天就吃沙拉。但我受不了天天吃沙拉,吃冷三明治我都反胃。我是中国胃,在吃了一阵方便面煮蔬菜之后,我决定自己尝试做菜。煮坏了两个汤锅和一个炒锅之后,我发现做菜的真理在于xx炒xx——你把一样荤菜,一样蔬菜放在一起炒,放一点盐,一点糖,一点味精,出来就是一道菜。好像我们同去的一帮人都有差不多的感悟,因为在一段时间之后,我们开始互相邀请吃饭,或者是一起聚餐。大家的菜都大同小异,不过是不同的xx炒不同的xx,大家都为自己饿不死了而感到很骄傲。到美国之后,我变得不喜欢买东西,因为买什么都要乘以8,乘以8之后什么都觉得贵,觉得贵又没钱就有一种心疼的感觉。这样的日子过了一个学期,老板很喜欢我,因为我听话,学东西又快,而且除了吃饭睡觉,我没什么别的事情干,所以有无数时间给他干research(研究)。第一学期三门专业课,我的成绩全部都是A,只有英语课得个B。总结一下,考试写公式和数字的哪怕上课听不懂也是A,如果是用英语的,就没戏了。如果不是因为一个人的出现,我的生活也许就这样平平淡淡过下去。她是我们的engineering school(工程学院)的院长,Stanford博士。我佩服她不是因为她research做得好——事实上她好像都不怎么做research了,而是她的优雅,她的言谈,她的魄力。她让我明白到,在美国,每个人都有机会,但你必须有勇气,敢想敢做,敢表现自己。如果不能有漂亮的表达,就不能得到别人的尊重,因为别人看不到你,也就看不到你身后的成就。我问自己,你为什么要来美国?如果你来美国,就是为了生活在中国人的圈子里,用中国的方式生活,用中国式的思维处事,用中文和人说话,吃自己做的蹩脚中国菜,蜗居在电脑前推公式、写程序、读paper。那么你没有必要来美国,这些事情在中国你完全可以做的更好。如果你来到国外的目的是“体验”,那么你必须“打开自己”。所以我决定走出我火柴盒一样的生活空间。第一步,是要让自己改变习惯。我鼓励自己用英语去思考,开始很难。因为一不留神想东西就用中文的思维方式了。但是用中文思考然后翻译成英语说出来,比直接用英语思考会慢很多,表达会比较生硬。我给自己创造各种各样听和说英语的机会。我去参加学校的、各个系的、本科生的、研究生的event(活动),和不同的人聊天。学到什么就在自己心里默念几遍,然后找一切机会现学现卖。social对于我们来说不单单是学语言,也是学生活,学交际,扩大朋友圈子。很简单的道理:局限在中国人的圈子里,是无法真正体验美国生活的。我还给各种customer service(客服)打电话,和他们argue(争论、辩论),向他们询问这个、询问那个。他们的工作就是陪顾客聊天,所以你说,他们就得陪着,就这么简单。(现在知道很多其实是印度人在接哈,不过那时候就是印度人英语也比我好)我也去商场和sales聊天,谈话通常从我指着一样东西问“what is it”开始,对方回答了以后,我会用自己理解重新说一遍,到他们说“exactly”为止。渐渐的,我体会到用非母语把一件事情说清楚,把一个观点表述清楚,甚至把一个人说服了,是技巧,更是艺术。这些技巧我用在和老板开会、谈科研项目上,老板夸我presentation skill(表达技巧)很有进步。以前每次老板问个什么,自己心里明明知道,但就着急怎么说都说不清,慢慢地我变得被问什么都不慌了。第二学期,我变得活跃许多。除了修三门专业课,我还跑去修了本科生的accounting(会计),MBA的一个consulting(咨询)课,还有心理系的课。反正我喜欢什么就去学什么,就当我在美国上第二个本科了。学校经常请各种各样的人来做seminar(研讨会)、speech(演讲),除了学术的,还有很多人文的,我经常去,连饭也解决了。我还作为我们系的学生代表,参加了研究生学生会。因为做了系里的代表,我们院长都会定期和我约见、沟通,从我这儿听听学生的声音。我有了更多接触她的机会,她告诉我了很多她的故事。她说,“You can do better than me, if you keep up the good work. ”(如果你继续努力,你会比我做得更好的。)这话我至今记得,也许对于她(美国人很善于赞扬人哈)只是随口一说,对于我却是莫大的鼓励。当了代表没几个月,就赶上全美开研究生大会,在DC。我作为研究生会里少数minority(少数族裔)面孔,被选中代表学校去开会,以显示我们的“多样性”。于是我屁颠屁颠地坐着美国同学的车,来到了DC这个七年后我生活工作的城市。我们在Capital Hill(国会山)上做lobby(游说),挨家的去找senator(参议员)要求取消研究生stipend(津贴)的征税。在中国,要见领导很难。不过来到美国之后,我第一天上学就见到了校长,去趟国会山,还见到好多senator。无论政治家们内心有多阴险,他们看上去都好nice,有个senator还让我在他办公室坐着拍了个照。我给爸妈发回去,差点没轰动了我们半个城市。我和DC一见钟情,喜欢它干净的街道,尤其喜欢National Mall(国家广场)那一片,爱死了那些博物馆们,那时候脑子里有一闪而过的念头,我以后要到DC来就好了。天知道呢,也许就是这样一闪念的东西往往在我们潜意识里牵引我们,等我们有一天走到了,忽然发现,原来你心早有所属。2004-2005:第二年在美国,没什么不可能回国过完暑假,再回到学校的时候,有很多事情变了:第二年,我的男朋友也来了美国。我的世界一下子就多了很多两个人可以做的事情,吃饭、逛街、看电影都有乐趣了。我还买了车——在挑选了三个月之后,花3000刀买了一辆7年新的Nissan Altima(尼桑阿蒂玛),花了我当时积蓄的大头。有了车世界就大了很多。其实世界就那么大,不是吗?只不过,你能看见多大,就觉得它有多大,或者说想看见多大,才能看见多大。大二,我当上了中国学生会的主席,颠颠地组织大家去接新生,去学校要钱,然后办活动,因此和学校的很多部门都搞得很熟很熟。其实私立学校都是很有钱的,这些钱来自于学生,所以里面有一块是专门留给学生花的。你找一个好的理由去要,它就会给你,给得也很多。然后你就可以去做点事情,这个取之于民用之于民的道理,在美国其实是民主的一部分。这些经历让我懂得了,在美国,有很多很多这样那样的机会,但它们不会砸到你头上,而是需要你去争取,你得告诉别人你想要。如果有好几个人要,你就要告诉别人为什么应该给你而不是别人。任何事情,如果有competition(竞争),就要敢挺身而出,捍卫自己的想法。Hold your position(坚持你的立场),否则就算事实上事情做得比人家好几倍,还是会输。有一次我看到一个东西方交流的会议,在夏威夷。我觉得自己可以去讲讲我在学生会做的事情,比如如何推动中美文化交流。从投稿被录取,然后去学校申请“参会基金”,最后成行,我再次体会到了,没有什么事情是不可能的。关键是想不想做,怎么去做的问题。我没申请过research grant(研究补助),但想必万事都是相通的,道理应该也差不多。不过,第二年在research上遇到了一些瓶颈,我不太喜欢我老板给我的题目。我的老板是属于很nice一类的,很典型的中国学者。聪明(博士读了两年半就毕业了)、努力(拿到tenure以前是7点来lab,11点走),但是不是一个好的business man(商人)——不善于sell ideas(行销创意),不善于言谈,所以纵然学术很强,也受人欺负。所以他对学生的要求也一样, 希望大家勤能补拙,表达的缺陷用加倍的学术水平来弥补。这点上,我心里并不赞同。我本来research就很一般,可能比中国同学差,比美国同学好点。如果再来个做8分,只能讲出4分,就彻底没竞争力了。我知道,再这样下去,自己肯定是朽木一块了,所以我决定自救。我们那学校的EE(电气工程专业)一般,但是BME(生物医学工程)很强,我对医学的东西也比较感兴趣,我和老板说我想做医学应用。可老板回答,没钱。我见过有人读到一半转系的,有人转老板的,有人被老板派去和别的系一起做项目的,但我没见过学生自己去找合作项目搞钱的。不过我想试试也无妨,美国没什么不可能的。所以我就去BME系找老师,去学他们的原理,然后sell(推销)我的算法,告诉他们我的东西可以给他们带来什么好处。没想到,还真的让我在一个全国有名的组里,找到了一个很好的应用。对方同意教我数据采集,用他们几百万的机器做实验,然后用我的算法处理数据。于是两个老板就用我的idea写了个proposal(提议、提案),很快拿到funding(经费),我就开始做我想做的事情了。然后我又想反正我也在BME做research了,不如拿个BME的MS。跑到grad school(研究生院)一问,对方回答说理论上可以。但是如果想不交学费,必须EE的老板同意,EE的系主任同意,BME的老板同意,BME的系主任同意,再加研究生院院长同意。并且,对方还告知实施难度比较大,至今还没有先例。我发现我的中国式思维真的开始变了,以前我会想一件没有先例的事情多半也做不成,做不成不如不要去做。而那时候我却想,如果一件事情没有先例,那么我就可以放手一搏。做不成无所谓,大不了就还是没有先例,做成了我就是第一个了。无数的persuading(劝说),无数次地defend(辩护)自己的想法,当我最终拿到五个人的签字的时候,觉得太有成就感了。和我的EE老板不一样,我的BME老板是一个很好的sales man(推销员?形容这位老板表达能力强)——美国人,很聪明。他数学物理计算机医学都懂一点,都不精通,组里有很多postdoc(博士后)甚至PHD(博士)都比他强。但之所以他是大老板,完全在于他的管理能力和表达能力,你和他说个东西,他很快能明白。然后当他用华丽而浅显的方式再表述出来的时候,你会惊叹,原来我的idea是那么brilliant(绝妙)。所以我决心向我的EE老板学治学,向我的BME老板学academic sales(推销学术成果),取长补短。我身边学理工科的学生大多很专一,每天想的就是research,大家平时见个面,三句又说到research上,好像别的就没什么可说的了。我比较喜欢折腾,坐不太住,一个礼拜做一件事情会疯掉的那种,所以我就满世界的找事做。除了去参加各种社团活动之外,我就跑各处去上课,我在engineering school(工程学院),但我在business school(商学院),但我在medical school(传媒学院),law school(法学院)都上过课,反正PHD学生多选课是不要钱的。business school和law school的课和我的专业课不太一样,有很多阅读内容,很多课堂讨论,相比之下对表达的要求比engineering school更高。开始是不适应的,每次都把答案在心里说了好几遍,才敢举手。不过,慢慢地也就习惯了,想到什么就说什么。其实那些学生说的,仔细想想也实在是很平常的东西。但人家自己觉得很brilliant,说出来就中气十足的,我也有我自己unique(特别)的想法,说出来就完了。business school那个老师特别喜欢我,秋季学期上完课的之后,问我愿不愿意做春季课的Teaching Assistant(助教),于是我又颠颠得给MBA做了一学期TA。工程系的PHD跑去business school做TA,我不知道我是不是又是史无前例。2005-2006:第三年做学术,还是搞技术?经过两年孜孜不倦的英语训练,开始有人见面夸我“Your English is really good”了。我颇开心了一阵,后来我想了想,觉得不对。其实,这只能说明我的英语对方能听懂,但是同时对方很轻易就能听出来我是外国人,所以才会自然得夸英语好。什么时候听见美国人夸另一个美国人英语好来着。于是我对自己说,你还有很长路要走呢。英语有三个境界, vocabulary(词汇),pronunciation(发音),intonation(语调)。刚来时候结结巴巴不知道怎么说,颠来倒去那几个词,那是vocabulary问题。我的pronouciation还可以,所以要提高就要在intonation上下功夫。这个东西,无他,唯手熟尔。留意别人说话的语调,然后模仿,这个和我小时候练书法一样,开始就是临摹,到你写100遍的时候,提起笔来就可以写自己的style了。第三年,我的学术研究做得好像没什么波澜,第二年末就顺顺利利把master(硕士)给拿到了,第三年春天,又把prelim做了。(PS:prelim,是在确定毕业论文课题前,要读完与这个方向相关的几乎所有的重要文献,保证没有雷区)我已经慢慢变得喜欢写东西,喜欢presentation(展示)了,写程序我写不过同一个实验室的同学,但答辩是我擅长的。我们系里有几个老师对中国学生不太友好,原因是他们觉得中国学生的presentation太差。所以他们就喜欢答辩时候问各种为难人的问题,导致我们系学生请答辩委员会成员都绕着他们走。我就喜欢去惹这些tough(严格、难搞)的人,比较有挑战性。如果一场答辩是因为你的committee(委员会)放你一马而过的,那过了又有什么意思。每次我答辩完,我的committee member(委员会成员)总是会和我老板说,嗯,你这个学生不错。PHD的定义是,毕业之后不出意外的话,应该是做research的。约定俗成的有两条路,学术或者技术。我们系去搞学术的很少,一般都是那几个美国学生,国际学生因为这个那个的原因,多半都是去做技术。我两个老板都很想我去做faculty(教师) ,中国老板觉得我表达很好(相比于中国学生),美国老板觉得我学术不错(相比于美国学生)。其实我知道我都是三脚猫,为人师表,有点惭愧。另外,有件事情基本把我做学术的门关上了。我老板让我写过一篇paper,是来这第一年的时候时候做的一个东西。实话实说,我觉得没什么东西,事实证明,也是peer review批评比较多。我和老板说,要不算了,这玩意就算有发明也是点皮毛啦,没做什么实际的贡献。老板听了我这话,指着他那满书架的IEEE(美国电气和电子工程师协会)杂志,说你看看这一堆东西里面有几个是真正的revolution(变革),多数的文章就是在灌水。这件事情对我影响很大。一个人不需要做什么惊天动地的大事,但是对自己做的事情必须有认同感。如果做学术的自己都觉得自己在灌水,理由是身边大多数人也是在灌水,那么我不明白我为什么要去做它。所以做学术这条路就被我否决了。技术方向呢,我觉得可以去试试,毕竟这方面做的都比较实用,也算是有意义的事情。于是,第三年的暑假,我就联系了行业里三强之一的S公司,去他们的研究中心实习。第一个礼拜做得挺有味道的,因为在公司做research和在学校做还是挺不一样的。而且我C不好,公司实现都要用C,所以开始还颇觉得有挑战性。但没过多久那种无聊的感觉又来了,每天完成工作真正需要的时间只要2-4小时不等,也就是说一天有一半时间是荒废掉的。无论是等程序运行,上网闲逛,还是和同事聊天,哗啦时间就过去了。郁闷的我后来只能每天去gym(健身房)消磨时间 ,3个月intern(实习)减了30磅下来(这个收获真不小)。这个地方的另外一个问题,是中国人印度人太多,做事方式还是中国那一套。这个挺打击我的,也就是说如果在技术公司工作,就要准备好过这样的生活,轻松,高薪,但是封闭,没盼头,还要deal with(对付)亚洲人特有的办公室政治有话开会不说,底下斗得厉害,对上面言听计从,对下面就压,下面做得好就take credit(居功)。我现在很庆幸我去做了这个intern,这是体验生活的最好方法。有时候理性得去看待一些书面的材料,比如薪水,location(地点),career path(职业道路)等等,都是抽象的。不如深入其中去体会:这是我未来10年想做的事情,想呆的地方吗?intern(实习)结束之后,我的答案已经很清楚了。平心而论,我知道这个地方是很多人梦寐以求想去的。工资高,地方好,做的东西还算是比较有意思的,可能刚好我的口味不同吧,技术好像并不是“我的菜”。-END-内容来源:美国华人论坛部分图片来源网络版权归原作者所有