¨Web Scraping¨ como método de obtención de contenido para la práctica legal

Jesús Gerardo Guzmán González^[1]

A lo largo del proceso de investigación de información y/o documentación jurídica que efectúan los practicantes o investigadores jurídicos se pueden encontrar con una gran variedad de datos electrónicos^[2] abiertos y alojados en el internet. Estos pueden llegar a tener distintos formatos, ya sea en texto, imagen, Excel, Portátil de Documento, entre otros. Asimismo, pueden ser utilizados para una gran variedad de propósitos legales.

Si bien es cierto que todos aquellos datos alojados en la web son de acceso público, es prácticamente imposible que una o varias personas desarrollen un análisis manual a todos estos. Es por ello que se acuñó el término “Web Scraping”^[3], el cual se refiere al proceso de extracción de datos de sitios web utilizando herramientas o software automatizados. Por lo cual, el propósito del presente es dar a conocer los beneficios, directrices y ejemplos del ¨Web scraping¨ para la práctica legal.

Las aplicaciones de ¨web scraping¨ traen consigo múltiples beneficios^[4] para la industria, uno de ellos es la automatización en la recopilación de datos jurídicos, mismo que se traduce en una mayor eficiencia en la práctica legal, ahorrando tiempo y recursos, otro de ellos es la eliminación de errores humanos al momento de realizar la recopilación manual de contenido. De igual forma, tiene un gran potencial de escalabilidad ya que se puede lograr la recopilación de una gran cantidad de datos de diversos sitios web con facilidad, como en el caso de las páginas de Gobierno, ya sean Tribunales, Cámaras del Congreso, Instituciones de Estadística, por mencionar algunos.

Ahora bien, mediante el uso de web scraping, los profesionales legales y/o investigadores pueden obtener distinta y valiosa información con el fin de generar estrategias ante algún caso jurídico, para fines de alguna Reforma o para una investigación jurídica.

Existen distintas herramientas y plataformas disponibles para realizar “web scraping” cada una con sus propias características y capacidades. A manera de ejemplo se pueden mencionar : (1) Selenium^[5] que es un software de código abierto que integra herramientas y librerías que hacen posible la automatización en los navegadores web, permitiendo a los usuarios automatizar la recolección de contenido. Se puede utilizar con distintos lenguajes de programación como Python, JavaScript, PHP, entre otros. Otro caso es (2) Octoparse^[6] plataforma que ya proporciona una interfaz de usuario para el manejo de páginas web y que incluso provee una gran variedad de formatos de exportación para los datos extraídos.

Existen algunas directrices para efectuar exitosamente el “web scraping”, como es el caso de : (1) identificar el sitio web destino, es decir, la página web a la cual se le desea extraer datos, posteriormente (2) se deben de identificar los bloques o etiquetas HTML de la página web que contienen los datos, y después, (3) elegir una herramienta o plataforma para efectuar la extracción de datos; una opción para lograr esto es la elaboración de un código en un lenguaje de programación, (4) y una vez que se hayan efectuado las pruebas y funcione adecuadamente el código, se ejecutaría para extraer los datos del sitio web destino. (5) Por último, ya que se hayan extraído los datos, es necesario limpiarlos y procesarlos para que puedan utilizarse para las necesidades específicas, esto puede implicar la eliminación de datos duplicados o el formato de datos.

Es cierto que en México el contenido que se publica en las páginas web se encuentran sujetos a una serie de leyes y reglamentos relacionados con la protección de datos personales, la propiedad intelectual y delitos informáticos, también es cierto que el “web scraping” es legal siempre y cuando respete los derechos de los propietarios de los sitios de internet y las personas interesadas.

Por último, este tipo de herramientas sin duda son grandes aliadas para los practicantes legales para la ejecución de todo tipo de procesos jurídicos, al poder efectuar una búsqueda avanzada y recopilar grandes volúmenes de datos electrónicos, facilitando la consulta de expedientes, la clasificación de documentos y el análisis de datos para fines legales.

^[1] Graduate Researcher en el LegalTec Lab

^[2] Mitchell, R. (2018). Web scraping with Python: Collecting more data from the modern web. ” O’Reilly Media, Inc.”.

^[3] Mitchell, R. (2018). Web scraping with Python: Collecting more data from the modern web. ” O’Reilly Media, Inc.”.

^[4] Qué es scraping y cómo lo utilizan las empresas en 2022. (s. f.). https://datstrats.com/blog/que-es-scraping-usos-aplicaciones/

^[5] Pfalzgraf, B. (2021, 14 diciembre). How to Use Selenium to Web-Scrape with Example – Towards Data Science. Medium. https://towardsdatascience.com/how-to-use-selenium-to-web-scrape-with-example-80f9b23a843a

^[6] Web Scraping Tool & Free Web Crawlers | Octoparse. (s. f.). https://www.octoparse.com/?gclid=EAIaIQobChMI2MzMgpCl_QIVVRWtBh1FrAGpEAAYASAAEgIyXvD_BwE

¨Web Scraping¨ como método de obtención de contenido para la práctica legal

0 Comments