盘点2018年度GtiHub开源项目TOP 25

2019年01月14日 作者:糖悦之果飞

本文作者 Pranav Dar 是 Analytics Vidhya 的编辑,对数据科学和机器学习有较深入的研究和简介,致力于为使用机器学习和人工智能推动人类进步找到新途径。2018 这一年中,作者在每个月都会发布一份开源项目月度推荐榜单,而本文则是对全年开源项目的盘点和总结。

前沿

关于托管代码、与团队成员合作以及充当展示个人写代码技能的「在线简历」,最好的平台是哪个?问及任何一位数据科学家,他们都会让你去 GitHub。近年来,GitHub 作为一个真正具有变革性的平台,已经改变了我们托管甚至写代码的方式。

但这还不是全部。此外,它还是一个学习平台。如果你问怎么学习的话,我可以给你一个暗示——开源项目!

世界领先的科技公司通过在 GitHub 上发布其热门算法的代码,对项目进行开源。2018 年,在 Google 和 Facebook 等公司的带领下,这类开源项目大幅增加。其中最好的那部分开源项目,写代码的研究者还提供了预训练模型,从而让你我这些人不必再浪费时间从头开始创建高难度的模型。

同时,针对编码者和开发者的热门开源项目也很多——包括备忘单、视频链接、电子书、研究论文链接以及其他等资源。无论你在你的专业领域处于哪个等级(初学者、中级以及高级),你总可以在 GitHub 上找到可以学习的新东西。

对于数据科学的很多子领域来说,2018 年是不同凡响的一年,这个我下面马上就会讲到。随着 ULMFiT、BERT 等项目在 GitHub 上进行开源,自然语言处理(NLP)迅速成为社区中谈论最多的领域。我致力于将自己最大的努力贡献给这么棒的 GitHub 社区,在这一年中,我精心挑选了每位数据科学家都应该了解的 TOP 5 开源项目,并整理成了月度榜单系列。你可以点击下面的链接,前往查看完整榜单:

一月份:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/

二月份:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/

三月份:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/

四月份:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/

五月份:https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/

六月份:https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/

七月份:https://www.analyticsvidhya.com/blog/2018/08/best-machine-learning-github-repositories-reddit-threads-july-2018/

八月份:https://www.analyticsvidhya.com/blog/2018/09/best-machine-learning-github-repositories-reddit-threads-august-2018/

九月份:https://www.analyticsvidhya.com/blog/2018/10/best-machine-learning-github-repositories-reddit-threads-september-2018/

十月份:https://www.analyticsvidhya.com/blog/2018/11/best-machine-learning-github-repositories-reddit-threads-october-2018/

十一月份:https://www.analyticsvidhya.com/blog/2018/12/best-machine-learning-github-repositories-reddit-threads-november-2018/

这些文章的部分内容会和我盘点的 2018 年 AI 和 ML 领域最大突破文章有所重合,大家也可以前往以下地址阅读这篇文章——它从根本上来说是一份盘点了该领域主要进展的榜单,我认为该领域的每个人都应该有所了解。作为额外福利,文中还有来自专家们的预测——大家应该都不想错过吧。

https://www.analyticsvidhya.com/blog/2018/12/key-breakthroughs-ai-ml-2018-trends-2019/

现在,准备好去探索新的项目,并努力成为 2019 年的数据科学之星吧。继续向下滚动,大家点击每个项目后面的链接就可以前往 GitHub 的代码库了。

本文将覆盖到的话题

工具和框架

计算机视觉

生成式对抗网络(GANs)

其他深度学习项目

自然语言处理(NLP)

自动的机器学习(AutoML)

强化学习

工具和框架

让我们开始来看看工具、开发库和框架方面的最佳开源项目。由于我们在讨论的是一个软件仓库平台,先讲这部分似乎才是正确的打开方式。

科技正在快速发展,同时计算成本也比之前更低了,所以现在有一个接一个大量的开源项目可供我们使用。现在,可以被称作机器学习编码的黄金时代吗?这是一个开放的问题,但是我们都认同的一件事是,现在是做一个数据科学领域的编程员的好时期。在这个部分(以及整篇文章),我都在尝试让编程语言尽可能地多样化些,不过 Python 无法避免地占据主导地位。

ML.NET

开源地址:https://github.com/dotnet/machinelearning

如果你们这些.NET 开发者们想要学一点机器学习知识来补充现有的技能,你会怎么做?现在就有一个完美的开源项目可以助你开始实施这一想法!这个完美的开源项目就是微软的一个项目——ML.NET,它是一个开源的机器学习框架,让你用 .NET 就可以设计和开发模型。

你甚至可以将现有的机器学习模型集成到你的应用程序中,而完全不要求你切确地知道怎样开发机器学习模型。ML.NET 实际上已被应用于多个微软产品中,例如 Windows、 Bing 搜索、 MS Office 等等。

ML.NET 可以在 Windows、Linux 以及 MacOS 上运行。

1 2 3 4 5 6 7

相关文章