生成式人工智能蓬勃发展，如何重新定义网络爬虫的

公共网络数据用于各种目的，从有影响力的研究到创造和改进产品。

获取此类数据的最常见方法之一是通过网络抓取。由于它涉及收集企业或个人在线发布的大量数据，因此会引发诸如“这合乎道德吗？”之类的问题。简而言之，如果您遵循某些做法，答案是肯定的，但在一头扎进去之前，我们需要打好基础。

本文旨在阐明道德网络抓取的电报粉话题，并探讨围绕使用公共网络数据开发人工智能的激烈争论。在继续阅读之前，请注意，这是一篇信息性文章，并不构成法律建议。

为什么网络抓取很重要？

抓取是一种从网络上大规模收集数据的自动化方法。如今，互联网上大约有2.02 亿个活跃网站，每个网站都包含大量信息，以及对个人和企业场优先：通过瞄准中国的多层次营销，安利将资源分配到公有价值的各种数据，其规模难以用语言描述。网站可以是小型旅游博客、世界领先的在线市场，也可以是介于两者之间的任何东西。

所有这些网站都有一个共同点，那就是它们中的大多数都包含公开数据。以自动化方式收集这些数据符合当前的监管环境，但是，需要满足某些条件，企业需要谨慎小心地处理公开数据。

组织使用网络抓取或从专门从事网络抓取的数据提供商处购买服务。网络上的大量有价值的数据被用于各种目的，例如：

如果没有网络抓取，一些最常用的服务（例如一些流行的在线搜索工具）就不会存在。网络抓取在研究领域也有许多应用，例如环境研究。

之前，我指出，获取公共网络数据必须遵循当前的监管环境以及确保流程和所收集数据整体安全的原则。然而，有时，由于法律和道德原则被忽视，或者行动的目的是恶意的，网络抓取会出现负面的情况。

让我们研究一下问题的法律方面，以帮在短信中助我们了解哪些网络抓取活动符合当前的监管标准。

网站的服务条款。在本文中，我将讨论从公开的在线资源中抓取专门的公共网络数据，这意味着任何人都可以访问这些数据，而无需注册或登录网站。通常，位于登录安全区域后面的数据受网站条款和条件的约束。

版权。某些公共网络数据可能包含受版权保护的材料。使用此类数据时，您必须遵守适用的版权法。

隐私法。与受版权保护的材料类似，一些公共网络数据可能包含受隐私法保护的数据。世界各地的隐私法规不断发展，并因司法管辖区而异。

例如，美国大部分州的法规，如《加州消费者隐私法案》（CCPA），并不将公开信息归类为个人数据。然而，欧洲法规，如《通用数据保护条例》（GDPR），并不豁免公开数据。因此，在收集网络数据时必须考虑与GDPR相关的数据安全和隐私措施。

现在您已经熟悉了网络抓取的法律方面，我将提到最著名的法庭案件之一，该案件说明这些法律要求如何适用于网络抓取技术的实际使用。