ITPub博客

GitHub终极指南,教你如何在GitHub中“挖矿”

原创 人工智能 作者:李佳惠 时间:2018-11-09 11:27:39 0 删除 编辑

"我应该在我的项目中使用GitHub吗?"——有抱负的数据科学家经常问我这个问题。只有一个答案——"绝对!"

GitHub终极指南,教你如何在GitHub中“挖矿”


GitHub对于那些想要脱颖而出的数据科学家来说是一个非常有价值的平台。你可以把它当做一份在线简历,用来向招聘人员和其他专业人士展示你的代码。GitHub上有来自谷歌、Facebook、IBM、英伟达等顶尖科技巨头的开源项目,这些举措让GitHub更加受到人们的关注。

如果你是数据科学的初学者,或者是专业人士,你应该有一个GitHub账户。为了节省你寻找高含金量库的时间(虽然这样的库有很多),我很高兴在这篇文章中罗列出它们并将它们直接提供给你。

这篇文章集合了各种用例——计算机视觉(目标检测和分割),PyTorch实现的谷歌人工智能打破了用于NLP的BERT模型,提取最新的研究论文及其摘要等。

为什么我们要在这篇文章中加入关于Reddit的讨论呢?我个人觉得Reddit是一个极其有益的平台——因为它有着丰富的内容,众多机器学习/深度学习专家提出的想法,一些"骇人听闻"的话题,以及开源资源,等等。我可以继续说下去我喜欢它的原因,这足以表明我是有多么的推崇Reddit——它们是那样的独特而有价值。

你可以看看我关于GitHub上的顶级存储库和Reddit讨论(从4月份开始),我们每个月都在讨论:

一月:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/

二月:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/

三月:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/

四月:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/

五月:https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/

六月:https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/

七月:https://www.analyticsvidhya.com/blog/2018/08/best-machine-learning-github-repositories-reddit-threads-july-2018/

八月:https://www.analyticsvidhya.com/blog/2018/09/best-machine-learning-github-repositories-reddit-threads-august-2018/

九月:https://www.analyticsvidhya.com/blog/2018/10/best-machine-learning-github-repositories-reddit-threads-september-2018/

GitHub终极指南,教你如何在GitHub中“挖矿”


PyTorch 1.0中的https://github.com/facebookresearch/maskrcnn-benchmark)

GitHub终极指南,教你如何在GitHub中“挖矿”


如今,计算机视觉已经变得非常流行,以至于各个组织都在争先恐后地在他们的产品中实现和集成最新的算法。

当然,目标检测是这个领域中最受欢迎的技能。这是Facebook所提供的一个很酷的项目,它的目标是通过使用PyTorch 1.0框架创建分割和检测模型的构建模块。Facebook宣称,这比它的Detectron模型快两倍,而且还配有预先训练好的模型,以及足够的资源和细节。

如果你需要快速复习一下,我鼓励你点击这个链接:https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/。如果你熟悉PyTorch的基础知识,点击这个教程你会有所收获:https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/。

腾讯ML图片(最大的开源多标签图像数据库)(https://github.com/Tencent/tencent-ml-images)

GitHub终极指南,教你如何在GitHub中“挖矿”


这个仓库是所有深度学习爱好者的"金矿"。你是不是觉得称它为"最大的开源多标签图像数据库"有些言过其实。但如果你查看关于此数据集的一些数字:如有17,609,752条训练和88,739条验证图像url。而且这些url最多由11,166个类别注释。简直难以置信!

这个项目还包括一个预先训练的Resnet-101模型,该模型到目前为止已经通过迁移学习在ImageNet上达到了80.73%的准确率。该存储库包含了详尽的细节和所必须的一切代码。这是向社区提供高质量数据所迈出的重要一步。

哦,我有提到过这些图片都有注释吗?你在等什么,现在就下载吧!

谷歌AI的BERT (NLP)的PyTorch实现(https://github.com/codertimo/BERT-pytorch)

GitHub终极指南,教你如何在GitHub中“挖矿”


你不知道BERT这个模型已经变得多么流行。对于那些没有听说过BERT的人来说,这是一个语言表示模型,它代表了转换器的双向编码器表示。这听起来有点拗口,但它在机器学习领域以引起了极大的轰动。

BERT在11个自然语言处理(NLP)任务中设置了各种各样的新基准。在广泛的NLP任务中,使用预先训练好的语言模型可能听起来有些古怪,但是BERT模型已经将它变成了现实。

这个存储库包含在你自己的机器上实现BERT的PyTorch代码。正如谷歌大脑研究科学家Thang Luong在推特上说的那样,这很可能是NLP新时代的开始。

如果你有兴趣阅读相关研究论文,请点击这里。如果你(像我一样)想要查看官方的谷歌代码,请将此存储库放入收藏夹。

最新Arxiv研究论文及其摘要的提取(https://github.com/chiphuyen/sotawhat)

GitHub终极指南,教你如何在GitHub中“挖矿”


我们如何才能掌握机器学习方面的最新研究成果?似乎我们几乎每周都会看到新研究,跟上它们的科研进度是一项艰巨的挑战。总的来说,大多数顶级研究人员在是在arxiv.org上发表了他们的全部论文的,那么有没有办法对最新的文章进行排序呢?

是的,有!这个存储库使用Python (v3.x)通过抓取arxiv论文并汇总它们的摘要来返回最新的结果。这是一个非常有用的工具,因为它可以帮助我们与最新的论文保持联系,让我们选择我们想读的。正如存储库中提到的,你可以运行以下命令来搜索关键字:

GitHub终极指南,教你如何在GitHub中“挖矿”


如果没有指定需要多少篇论文,脚本默认返回五个结果。

DeepMimic(https://github.com/xbpeng/DeepMimic)

GitHub终极指南,教你如何在GitHub中“挖矿”


我总是试图在每回的文章中加入至少一个强化学习库——主要是因为我觉得这个领域的每个人都应该知道这个领域的最新进展。这个月我选择的是动作模仿与深度强化学习。

这个存储库是在SIGGRAPH 2018年版上发表的一篇论文《深度模拟:基于物理的角色技能的示例引导的深度强化学习》中实现的(https://xbpeng.github.io/projects/DeepMimic/index.html)。从库中引用,"使用强化学习来训练一个模拟的人形机器人来模仿各种运动技能"。请查看上面的项目链接,其中包括关于如何实现自己模型的视频和代码。

AdaNet(由谷歌AI提供)(https://github.com/tensorflow/adanet)

GitHub终极指南,教你如何在GitHub中“挖矿”


我不能漏掉这个非常有用的库。AdaNet是一个轻量级的、基于tensorflow的框架,用于自动学习高质量的模型。最好的部分是你不需要过多的干预——框架足够聪明和灵活,可以构建更好的模型。

你可以在这里阅读关于AdaNet的更多信息:https://ai.googleblog.com/2018/10/introducing-adanet-fast-and-flexible.html。像往常一样,谷歌在解释复杂概念方面做得很好。

Reddit讨论

GitHub终极指南,教你如何在GitHub中“挖矿”


在未来5年里,我们可以期待机器学习方面的哪些发展?(https://www.reddit.com/r/MachineLearning/comments/9rtc7q/d_what_developments_do_you_expect_to_see_in/)

这是每个人都在想的问题。机器会统治世界吗?硬件将如何发展?最终会有关于道德领域的官方规则和政策吗?机器学习是否已经融入了社会结构?强化学习最终会在这个行业找到一席之地吗?

这些只是讨论中所提出想法中的一部分。每个人对自己的期望和想要看到的都有自己的推测,这个讨论很好地结合了这两者。在技术话题和非技术话题之间的对话各不相同,所以你可以选择你更喜欢阅读的话题。

对管理机器学习研究人员的非ML工程师的建议(https://www.reddit.com/r/MachineLearning/comments/9mbo2g/d_whats_your_advice_to_an_engineer_that_manages/)

这是一个有趣的话题。我们以前见过这种现象,即一个非ML专业人士被指派领导一个ML专家团队,这通常会给双方带来挫折。由于各种原因(时间限制排在第一位),人们常常觉得事情陷入了僵局。

我恳求所有的项目经理,领导,首席执行官等,花点时间看一下这个讨论主题。有一些非常有用的想法,你可以尽快在你自己的项目中实现。让所有的技术人员和非技术人员齐头并进是整个项目成功的关键所在,所以领导者树立这样的榜样是很重要的。

机器学习项目的主题思想(https://www.reddit.com/r/MachineLearning/comments/9nu9hs/d_grad_students_of_rml_whats_your_topic_why_is_it/)

在寻找一个新的实验项目?或者你的论文需要创意?你在正确的地方"着陆"了。现如今,研究生正在努力磨练和微调他们的机器学习技能。对我来说最突出的是:

预测行人轨迹

通过声学估计天气现象(利用信号处理和机器学习)

利用深度学习改进助听器语音处理

这就是Reddit非常有用的地方,你可以在讨论中提出你的问题,并且你将收到(来自社区的)关于如何应对你所面对的种种挑战的建议。

为什么大部分机器学习论文中的数学研究结果都很糟糕?(https://www.reddit.com/r/MachineLearning/comments/9l7j46/d_why_do_machine_learning_papers_have_such/)

这是一个完全技术性的讨论,你可能已经从标题中认识到。这是一个完全主观的问题和答案,取决于读者的经验水平和研究人员对他/她的想法的了解程度。我喜欢这个讨论,因为有非常具体的例子,相关的研究论文,让你可以探索和形成你自己的意见。

这是一个众所周知(并被接受)的事实,很多论文的数学和研究结果都是拼凑在一起的,并不是每个人都有耐心、意愿甚至有能力以清晰的方式展示他们的研究成果。在你可以的时候练习你的演讲技巧总是个好主意。

机器学习大肆宣传的弊端(https://www.reddit.com/r/MachineLearning/comments/9p9ccz/d_ml_is_losing_some_of_its_luster_for_me_how_do/)

当成熟的专业人士开始受到新手的关注时,他们会有什么样的感受?这是一个可能跨越领域的有趣问题,但这更侧重于机器学习。

这本身并不是一个技术性的讨论,但值得注意的是,顶尖的数据科学家和应用机器学习专业人员对于最近对这一领域的兴趣激增有何看法。这次讨论有120多条评论,这些讨论中有一些非常富有建设性。当专业人士和非专业人士打交道时,会有无数的奇思妙想"蹦"出来。

尾注

最近真的看到了一些令人惊奇的研究被开源。不管微软正式收购GitHub之后会发生什么,它仍然是程序员、开发人员和数据科学家之间协作的主要平台。我恳请大家经常使用GitHub,即使它只是用于浏览最新的存储库。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31545819/viewspace-2219350/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-09-19

  • 博文量
    57
  • 访问量
    61317