个性化阅读
专注于IT技术分析

学习数据科学-Python和R资源

本文概述

“性感”的含义:尚无真实答案(尚未)

尽管仍然很难就数据科学的精确定义或数据科学家的角色达成共识, 但对该领域的兴趣仍在不断上升:众多博客都规定了如何”真正”学习数据科学, Quora等论坛中的热门话题。处理与”成为数据科学家”有关的讨论。当然, 这些建议和讨论可以归结为两个基本问题:什么是数据科学?如何学习?

留下第一个问题是什么, srcmini希望专注于本文中的第二个问题。

因为也许现在, 你无需再听一听关于数据科学是什么以及它对你意味着什么的另一种定义。

也许你想了解它并获得第一份工作或改变你的职业。

你也不想只列出另外50种资源的指南。

你需要列出你可能尚未考虑的资源!

这篇文章包含指向项目, 新闻源, 书籍, 演讲, 播客, 网络研讨会, 教程, 社区页面和你需要检出以学习数据科学的课程的链接。

通过神秘的资源广场学习数据科学

随着该领域的普及, 各方提出了各种各样的建议:初学者和专家, 都有不同的背景, 就实际学习数据科学的意义提出了自己的看法。

最后, 考虑所有这些资源以及它们如何适合你的学习风格是学习数据科学的关键。这是关于混淆现有资源并使它们适合你的问题。

这就是为什么srcmini向你展示神秘的资源来学习数据科学的原因:我们已经为你提供了一些难题, 你可以使用它们来完成学习。

关于这个神秘广场, 最好的事情是它包含了你可能没有考虑过的资源。

这意味着神秘方块包含的资源都是你已经遇到并注册的资源的补充, 因为学习数据科学并不仅限于一种资源。

学习数据科学的资源

数据科学项目

尽管开始时对项目的最初搜索兴趣已经很高, 但今年对数据科学项目的需求特别高。许多用户希望将其知识付诸实践或进一步提高其技能。

当你想进入项目时, Github绝对是你应该查阅的资源。该站点逐渐找到了每个初学者都应该知道的资源列表。作为有抱负的数据科学家, 你可以从事的最好的Github项目是:

  • 数据科学IPython笔记本:此存储库是有抱负的数据科学家可以遇到的定性资源之一。就像它的名字已经泄露一样, 该存储库中充斥着涵盖不同主题的IPython笔记本, 从Kaggle竞赛到大数据和深度学习。
  • 模式分类存储库非常适合那些正在寻找教程和示例以解决和理解机器学习和模式分类任务的人们。
  • 对于使用Python进行深度学习, 此存储库是必经之路!

提示:如果你正在寻找启动项目的数据, 请不要犹豫签出data.world。这个开放的数据社区非常适合希望共同解决数据科学问题或轻松查找数据的人们。此外, 你还可以添加新数据并与社区共享。

DrivenData面临挑战, 在这些挑战中, 数据科学家将竞争以提供最佳统计模型, 以解决造成困难的可预测问题。你已经迫不及待想要开始吗?然后点击这里。

你也可以申请成为DataKind的志愿者, 以增强你的项目体验:你可以选择的冒险时间跨度, 从联网和快速咨询到长期项目。通过DataKind, 你有机会同时处理未开发的数据和巨大的社会问题, 例如贫困, 全球变暖和公共卫生。

对于已经完成的项目, 请查阅信息和数据科学硕士毕业生的顶峰项目的高质量报告。注意每个项目报告其发现的方式以及构建叙述以被动地增强你的叙事技巧的方式。

如果你正在寻找在项目上有实际生活经验的人员, 请尝试加入你当地的Meetup小组之一。这些会议不仅使你与业内人士接触, 而且还可以通过在这些活动中进行的演讲来积累知识或自己分享知识。

请注意, 可能与你上一节所相信的背道而驰, Meetup小组不仅对已经有一定经验的人是完美的, 而且对于刚开始使用数据科学的人也非常适合!

一些Meetup小组还组织了新兵训练营, 讲习班, 黑客马拉松, 额外的社交活动等等。聚会小组吸引了那些寻求扩大知识或专业网络或加深他们在某些数据科学主题中的技能的人。另外, 别忘了这些类型的事件是完善你的软技能的绝佳方法!

你可以订阅以接收最新事件的新闻通讯, 也可以安装该应用程序以保持每天的最新状态。

数据科学新闻

也许这不是开始的数据科学学习者意识到的第一件事, 但是肯定值得考虑……

作为初学者, 订阅其中一个新闻通讯可以给你带来一定的优势:新闻通讯使你可以随时了解最新新闻, 最新案例研究以及项目或工作机会。

而且, 如果你同时也是语言学习的忠实拥护者, 那么你还将了解, 真正地在数据科学世界中”洗澡”对你快速学习和提高学习质量很有必要。

除了你可能已经定期知道并定期收到的新闻通讯(例如每两个月发布的KDNuggets通讯或每周的Data Elixir通讯), 我们还列出了一些其他新闻供你注意:

  • 数据科学周刊:此每周时事通讯为你提供最新新闻, 文章和工作。
  • Data Science Central是对大数据感兴趣的人的便捷资源。该网站试图为你提供全方位的社区体验, 其中包括网络研讨会, 工作机会链接, 博客文章, 编辑平台以及最新新闻, 趋势等。

有关特定于语言的新闻通讯, 可以查看:

  • Python Weekly是免费的每周新闻, 其中包含最新新闻, 文章, 新版本, 工作等等。但是, 顾名思义, 所有这些东西当然都与Python有关。
  • 对于每天不会让你失望的Python技巧, 你应该订阅Python技巧。
  • 对于R, 你可以考虑订阅RBlogger的每日更新, 以了解发生了什么以及发表了哪些文章。

还有一些博客可以为你提供定期更新(以及一些其他功能):

  • 确保还查看数据创新中心博客, 你可以在其中找到数据可视化, 每周更新和数据集!
  • FiveThirtyEight提供了从轻松, 互动到深入的各种内容, 并且以提供如何使数据可访问和适用于日常生活的示例而闻名。
  • 对于那些正在寻找有关机器学习, 数据科学和工程的最有趣的博客的人来说, Yhat博客是一个很好的来源。
  • 你仍然没有找到想要的东西?考虑查看这个Github信息库, 其中包含所有数据科学博客的巨大列表。

数据科学书籍

就像其他类型的学习资源一样, 过去几年出版的书籍数量也大大增加。除了最适合大多数读者的O’Reilly书籍外, 还有其他一些书籍值得你考虑:

  • 当你在寻找有关R的好书时, Hadley Wickham的书就不费吹灰之力了。一方面, 与Garrett Grolemund合作的” R For Data Science”和” R Packages”都由O’出版。赖利和是绝对的建议。另一方面, 如果你想了解如何使用ggplot2创建图形来理解数据, 那么必须阅读哈德利的著作” ggplot2:用于数据分析的优雅图形”。此外, Chapman和Hall / CRC发行的” Advanced R”对于真正想要掌握R的中高级R用户也非常有用。

提示:另外, 请务必阅读Garrett Golemund的”使用R进行动手编程-编写自己的函数和仿真”。

  • 丹尼尔·卡普兰(Daniel Kaplan)的”科学计算和编程简介”将教你在科学工作中表达性地使用计算机所需的现代技能和概念, 而”统计建模:一种新方法”是对包含建模方法并采用的统计方法的介绍。重采样方法。

数据科学讲座

聆听演讲很有趣:它们可以带给你很多启发, 而且很容易, 因为你可以在有空的时候随时开始聆听。它们是你学习数据科学的重要资源, 因为它们可以帮助你获得启发, 以更好地进行数据故事讲述;或者, 如果你不熟悉数据科学, 则可以为你提供解决该问题的技巧。

我们的选择如下:

  • 国际调查记者联合会的调查员Mar Cabra讲了这个演讲, 内容是关于她的团队如何使用数据科学来解开”巴拿马文件”的故事。
  • 这可能是有史以来的经典, 但是对于那些还没有看过汉斯·罗斯林(Hans Rosling)的TED演讲的人, 他建议讨论他着名的关于每个国家的预期寿命与收入的关系图的气泡图。另外, 请查看他的4分钟视频, 其中他使用增强现实为图表制作动画。激励自己学习统计数据或认真讲故事的宝贵资源。
  • 由Kaggle的Anthony Goldbloom主持的TED演讲更深入地介绍了机器学习的功能, 并说明了我们将失去哪些工作以及将要保留的工作。
  • 还可以考虑查看srcmini的视频系列DataChats </>, 与来自数据科学行业的关键人物进行有趣的对话!

上面列出的三个演讲只是从众多演讲中选择的!如果你已经听过我列出的三个主题, 并且急切希望快速找到一个(不错的)话题, 那么只需访问TED网站, 然后搜索与数据, 统计数据, 机器学习等相关的任何事物, …

R用于数据科学讲座

有关更多特定主题的讨论, 你也可以转到R User Conference 2016页面并查看其可搜索的视频档案。

你应该观看的热门视频包括:

  • Arun Srinivasan的演讲”使用data.table进行高效的内存非设备联接”, 面向那些渴望更深入地了解data.table软件包的人们。
  • Garrett Grolemund在” Shiny Gadgets:用于编程和数据分析的交互式工具”上的演讲, 以学习如何增强R编程体验。
  • 哈德利·威克汉姆(Hadley Wickham)的演讲是关于ggvis的未来计划。

提示:useR!会议是与R社区, 最新进展等等保持联系的重要来源。除了2016年会议以外, 你还可以在此处观看useR!2014会议的视频。

Python进行数据科学讲座

PyVideo可用于查找与Python进行数据科学对话的资源之一, 你可以在其中从最新事件, 最活跃的演讲者和最活跃的标签中选择视频。

请注意, 该站点是一个通用站点, 并不专门面向数据科学。你将需要查找要收听的谈话。

我们为你选择的一些演讲是:

  • Bryan Van de Ven与Bokeh一起在浏览器中进行数据可视化的演讲;对于那些可能错过了Bokeh的最新发展和某些最新功能的人来说, 它是理想的选择。
  • Jason Myers的演讲”面向初学者的SQLAlchemy ORM”探讨了如何开始使用SQLAlchemy对象关系映射(ORM)。
  • 埃里克·马(Eric Ma)演讲有关图形分析的教程。

大数据讲座

你不能错过Strata + Hadoop World会议的视频!去这里观看今年的完整主题演讲。

你也可以转到YouTube频道观看今年和上一年的演示文稿的一些预览。它们都被放入播放列表中, 以使你更轻松地聆听它们:)。

Strata + Hadoop World会议的热门视频包括:

  • Jeffrey Heer就”数据可视化的未来”发表了有关设计在数据可视化中的重要性的演讲。
  • DJ Patil撰写的”数据科学:我们要去的地方”, 探讨了数据科学及其带来的影响。
  • 朱莉娅·加莱夫(Julia Galef)的”像贝叶斯人那样思考”概述了贝叶斯思想的最重要原理。

数据科学播客

对于那些喜欢演讲的人, 我们还列出了一些有趣的播客, 你可以收听:

  • 在数据科学播客DataFramed中, Hugo Bowne-Anderson采访了行业专家, 以探讨什么是数据科学, 它要解决的问题以及实际情况。
  • O’Reilly数据展是Ben Lorica主持的精彩播客, 它将为你提供有用的技术信息, 出色的演讲者和最新新闻。
  • 对于那些对数据可视化和讲故事感兴趣的人, 我们还建议你收听由Enrico Bertini和Moritz Stefaner主持的Data Stories播客。
  • 另一个可能有些不同寻常的建议是由史蒂文·莱维特和史蒂芬·杜布纳主持的《怪胎经济学》播客。通过令人兴奋和意想不到的主题, 有趣的演讲风格以及大量的批判性思维, 此播客可以帮助你提高数据科学技能!
  • 不是标准偏差, 这是一个播客, 罗杰·彭(Roger Peng)和希拉里·帕克(Hilary Parker)谈论学术界和行业中数据科学和数据分析的最新消息。
  • 成为一名数据科学家, 这是一个播客的理想播客, 对于那些与从”追求工程硕士学位的SQL数据分析师”到”数据科学家”的职业相关的一切感兴趣的人来说, 这是一个理想的播客。 Renee M. P. Teate采访了数据科学家或正在成为数据科学家的人们。重点关注成为数据科学家和学习的道路, 而不是数据科学的最新消息, 因此, 这是你播客列表的绝佳补充。
  • 数据怀疑论者是一个播客, 其中包含简短的短片, 主持人凯尔·波利奇(Kyle Polich)向你解释了从数据科学到妻子林达(Linhda)的概念, 以及针对与数据有关的有趣话题的从业人员和专家的较长访谈。
  • 部分衍生产品是有关”所有数据”的播客。更具体地说, 乔纳森·摩根(Jonathon Morgan), Vidya Spandana和Chris Albon确保你获得有关我们周围世界的数据科学的访谈和故事。
  • 由Katherine Gorman和Ryan Adams主持的Talking Machines为你提供与该领域专家的清晰对话, 对行业新闻的深刻讨论以及对机器学习问题的有用答案。

数据科学网络研讨会

RStudio为想要使用R学习数据科学的人们提供了有关各种主题的网络研讨会。

你可以访问此页面注册即将举行的实时网络研讨会, 观看最新的网络研讨会, 还可以观看方便地归入学习轨道的其他现有网络研讨会。

网络研讨会中涉及的主题是RStudio, Shiny和数据科学。它们不仅是刚接触R和数据科学的人的宝贵资源, 对于已经使用R已有相当一段时间的人来说, 它们也是一个很好的资源。

提示:有关即将举行的网络研讨会的日历, 请查看KDNuggets的网络广播和网络研讨会页面。请注意, 数据科学新闻通讯还可以通知你即将举行的网络研讨会。

数据科学教程

最后, 教程是人们开始学习数据科学时最受欢迎的主题之一。似乎许多用户希望通过案例进行指导并同时学习。

下面, 我们列出了一些你可能没有考虑用来获得最佳教程的资源。

请注意, 其中一些教程是特定于语言的。

  • 对于那些正在R中寻找案例研究或教程的人, RDatamining正是提供了这一点。你也可以查看RBlogger以获得R博客, 教程, 新闻等等。
  • 如果你要查找的Python教程涵盖了导入数据, scikit学习基础, 聚合和分组, 功能工程, 模型评估和部署, 那么你正在寻找的这本Python数据科学教程!
  • Kaggle还提供常规数据科学和R教程。

提示:在Github上还有许多其他的Python用于数据科学教程!考虑对”数据科学”进行查询以查找更多信息!

  • KDNuggets有单独的教程部分。值得一试, 因为它经常被更新以高质量的内容。

数据科学社区

为了完成你的学习经验, 你应该考虑以下几点:

  • Reddit-对于尚未注册Reddit并定期检查subreddit的用户, 例如/ r / rstats, / r / python, / r / datascience, / r / datasciencenews, / r / MachineLearning或其中之一还有很多, 你绝对应该考虑遵循我刚才提到的内容。对于你可能感兴趣的其他子目录, 只需运行查询, 看看还有什么!
  • DataTau-对于熟悉HackerNews的人来说, DataTau就像是针对数据科学家的HackerNews。它旨在每天让数据科学家参与有关网络上最热门内容的对话。
  • Twitter-对于那些希望始终掌握数据科学世界中一切事物的循环的人来说, Twitter是必不可少的工具。你可以按照以下步骤开始:
    • 白宫首席数据科学家DJ Patil。
    • KDnuggets总裁, #Analytics, #BigData, #DataMining, #DataScience专家, KDD和SIGKDD共同创始人Gregory Piatetsky是两家初创公司的首席科学家, 兼职哲学家。
    • Ben Lorica, @ OReillyMedia首席数据科学家, @ strataconf和@OReillyAI的程序总监。他是O’Reilly Data Show播客的主持人。
    • 百度首席科学家吴安德Coursera董事长兼联合创始人;斯坦福大学CS系。
    • 作为顶级大数据影响者, @ BoozAllen博士的首席数据科学家Kirk Borne。天体物理学家♡数据科学绝对值得关注!

请注意, Twitter上还有许多其他数据科学家!你必须自己发现其余的东西…

  • “交叉验证”是一个对统计, 机器学习, 数据分析, 数据挖掘和数据可视化感兴趣的人的问答网站。同样, 如果你有针对特定语言的问题, 但在”交叉验证”中找不到答案, 则也可以考虑使用更为通用的论坛StackOverflow。
  • 你还可以加入一些活动的Slack组。这是与其他专业人员联系的好方法。我们可以推荐以下内容:
    • Python Developers Slack小组有一个非常欢迎和乐于助人的社区。
    • Python社区是另一个Slack团体, 对于使用Python学习数据科学的人来说绝对有用。
    • 开放数据社区非常适合开放数据, 在某些方面也非常适合大数据爱好者。
  • 不要忘记加入LinkedIn或Facebook组!如果你要查找定性内容, LinkedIn会很棒, 而Facebook则适合那些渴望与其他数据科学家, 程序员, 文本挖掘爱好者和许多其他专家保持联系的人。
    • 你可能感兴趣的LinkedIn组是Python社区和Python数据科学, Python专业人员和机器学习。
    • 你可以加入的Facebook团体包括:入门数据科学, 分析, 机器学习, 数据挖掘, R, Python, Learn Python(www.learnpython.org), R统计软件包的用户, 带R的数据科学以及数据科学和分析。
  • 建立Whatsapp小组是与其他程序员(也许是同事或你在社区中认识的人)保持联系的一种好方法。通常可以期望得到快速响应, 气氛通常会轻松愉快。已经有一些针对大型团体的计划, 但是直到现在, 只有Analytics Vidhya似乎有相当大的回应。你必须先注册才能进入此组。

数据科学课程

关于课程, 有很多选择。但是, 在这种情况下, 你的个人学习风格会满足学习数据科学的要求。

这是什么意思?嗯, “学习”数据科学有时会给人以为它是一种被动的职业的印象, 但实际上, 你只能通过做来学习。并且通过做很多事情。

真正让你以定性方式进行数据科学的课程包括:

  • 除数据科学课程外, Coursera还为想要获得认证的人员提供完整但有偿的数据科学专业课程, 并提供证书。该程序由约翰霍普金斯大学创建, 并与行业合作伙伴Yelp和SwiftKey合作。专业化轨道中的项目包含阅读材料, 视频和测验。
  • Microsoft最着名的数据科学EdX课程是由Microsoft创建的:这些课程是免费的, 但是如果你想获得证书, 则必须付费。学习材料主要包括视频和互动练习。
  • srcmini课程为视频提供了来自学术界和行业的最佳讲师, 并结合了具有个性化反馈的练习, 以帮助你开始进行数据科学学习。你可以免费开始我们的某些课程, 但其他课程是高级课程, 需要你付费。上面提到的两种资源的区别在于, 你还将找到一个振动社区部分, 其中包含开放课程, 教程和博客, 以支持你的学习。

真正学习数据科学的关键

最后, 资源数量仍将是压倒性的, 但是神秘广场绝对可以为你提供一个理想的起点。然后, 学习数据科学的关键是继续滑动神秘方块的拼图, 直到找到最适合你的组合。

发现神秘广场时, 你会发现资源有时会重叠, 并且可能会给你带来超出预期的收益。有时, 你会发现新的资源来完成你的学习, 并使学习范围比以前更广泛。这一切将使你了解数据科学领域的广阔领域, 以及如何使你的学习尽可能广泛。

这样, 你将保持积极性, 并为数据科学学习的终生旅程带来乐趣。因为数据科学的关键是不断自我教育。

赞(0)
未经允许不得转载:srcmini » 学习数据科学-Python和R资源

评论 抢沙发

评论前必须登录!