如果你与该词有联系”网页抓取”无论如何, 那么你必须遇到一个问题–Web报废是合法的还是非法的?好的, 让我们讨论一下。如果仔细观察, 你会发现在当今时代, 任何企业中最大的资产是数据!甚至顶级巨人都喜欢脸书, 亚马孙, 优步之所以裁定是因为他们拥有大量数据。如果有人在几分钟之内从所有者的网站中提取了所有这些数据怎么办?是的, 这是Web Scraping出现的地方。
Web爬网是使用软件或脚本从网站自动提取数据和特定信息的过程。提取的信息可以以各种格式存储, 例如SQL, Excel和HTML。有许多Web抓取工具可以执行任务, 并且还支持多种语言, 并具有支持以下功能的库:网页抓取。在所有这些语言中, python由于具有诸如-丰富的库, 易于使用, 动态键入等功能, 被认为是Web Scraping的最佳选择之一。美丽的汤和cra草是支持网络抓取的此类Python库。
现在, 你必须在思考为什么有人尝试从网站中提取如此大量的数据, 或者进行Web搜集的好处是什么?如前所述, 数据对于企业而言有多少价值, 因此, 如果你可以通过Web Scraping访问该数据, 则该数据可用于多种用途, 例如–
- 竞争分析
- 领先一代
- 联系信息的可访问性
- 品牌监控
- 社交媒体抓取
- 研究与开发
- 提取财务报表等
好吧, 现在回到起点进行网页搜刮是否合法?但是, 进行Web爬网从技术上讲不是任何非法过程, 而是基于其他各种因素做出决定–你如何使用提取的数据?还是你违反”条款和条件”声明?等。让我们举个例子,
假设你通常允许某人从正门进入你的住所, 但是该人最好穿过边界墙过来。那么, 你是否允许该人进入你的住所?同样, 大多数网站显示的数据通常可供公众访问, 因为将这些数据存储在你的系统中供个人使用是合法的。但是, 如果你希望在未经所有者同意的情况下将其用作自己的产品, 并且违反了”条款和条件”准则, 则在此将其视为非法。但是, 有关Web爬网的法律并不透明, 但是仍有一些法规可供你擅自进行未经授权的Web爬网。下面列出了其中一些:
- 违反数字千年版权法案(DMCA)
- 违反计算机欺诈和滥用法(CFAA)
- 违反合约
- 侵犯版权
- 侵入等
LinkedIn与HiQ
你可以说” LinkedIn vs HiQ”是有关数据抓取的最大法律纠纷之一。 HiQ是一家数据分析公司, 在与LinkedIn发生法律纠纷时, LinkedIn向HiQ发送了一封正式信函, 要求其停止抓取该网站。但是, LinkedIn受到HiQ的反击, 他们表示, 访问LinkedIn的数据可供任何访问者访问, 并且在抓取公开数据方面没有错误。但是, LinkedIn的最终决定并不值得赞扬, 因为法院禁止该公司阻止HiQ要求从平台上公开资料中抓取数据的请求。与早期的Web Scraping法律纠纷不同, 此案有不同之处, 此处法院不赞成其数据被废弃的公司。
Facebook VS Power Ventures
” Facebook Vs Power Ventures”也是关于数据抓取的著名法律纠纷。这是Facebook提起的一项法律诉讼, 声称Power Ventures Inc.已从Facebook收集了用户数据并在其网站上使用了这些数据。 Facebook声称该公司违反了《计算机欺诈和滥用法》(CFAA)和《加利福尼亚综合计算机数据访问和欺诈法》。根据Facebook的说法, Power Ventures在提取用户数据的过程中使用Facebook的身份也违反了CAN-SPAM法案。在辩护中, Power Ventures表示, Facebook的DMCA索赔不足以被考虑。他们还说, 未经授权的访问未得到满足, 因为用户实际上是通过Power Ventures平台在Facebook上访问自己的数据。尽管有所有这些争论, 法院的判决还是有利于Facebook。
好的, 直截了当进行Web爬取是合法还是非法之后, 取决于你执行爬取的方式以及如何使用数据。现在, 看看在进行Web爬网时应遵循的策略–
- 如果提供了API, 请尝试避免网页爬取
- 两次请求之间的间隔大约为12-15秒
- 未经原始拥有者的同意, 请勿将抓取的数据用于商业目的。
- 始终遵守服务条款并遵守政策。
- 如果有人对访问其数据设置了一些限制, 那么在进一步操作之前, 请先征得他们的许可。
从以上所有讨论中, 可以得出结论, Web Scraping实际上本身并不是非法的, 但是在这样做时应该是合乎道德的。如果做得好, Web Scraping可以帮助我们充分利用网络, 其中最大的例子就是Google搜索引擎。因此, 请勿给目标网站所有者任何理由以任何不当行为阻止甚至起诉你, 也不要尊重其他网站的服务条款(ToS)。
首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。
评论前必须登录!
注册