Noticias
Machine Learning: Rendimiento en Autonomous Database

Machine Learning: Rendimiento en Autonomous Database

En muchas organizaciones, un proyecto de ciencia de datos probablemente implica que el científico de datos extraiga datos a un servidor de análisis separado, analizando y preparando datos y construyendo modelos de aprendizaje automático localmente. A medida que las empresas aumentan sus equipos de ciencia de datos y los volúmenes de datos se expanden, el acceso común a los datos y la capacidad de analizar esos datos en su lugar pueden reducir drásticamente el tiempo de implementación del proyecto y la complejidad general.

La creación de modelos y la puntuación de datos a escala es un sello distintivo del aprendizaje automático en la base de datos de Oracle: Oracle Machine Learning. Combine esto con Oracle Autonomous Database, la base de datos convergente con capacidades de escala automática, y un equipo de científicos de datos puede trabajar cómodamente en el mismo entorno. En esta publicación de blog, analizamos los factores que afectan el rendimiento de la construcción de modelos de aprendizaje automático, así como los números de rendimiento que ilustran el rendimiento y la escalabilidad posibles con Oracle Machine Learning. En una publicación posterior, analizaremos el rendimiento de puntuación.

Los 7 factores principales que afectan el rendimiento

Muchos factores afectan el rendimiento del aprendizaje automático, entre ellos:

  • Volumen de datos, ya sea construyendo modelos o puntuando datos, el factor más obvio es la cantidad de datos involucrados, generalmente medido en el número de filas y columnas, o simplemente gigabytes.
  • Movimiento y carga de datos: relacionado con el volumen de datos es el impacto en el rendimiento de mover datos de un entorno a otro, o del disco al motor de procesamiento de análisis. Este tiempo debe tenerse en cuenta al comparar procesos y herramientas de aprendizaje automático.
  • Elección del algoritmo: diferentes algoritmos pueden tener requisitos computacionales muy diferentes, por ejemplo, los algoritmos Naïve Bayes y Decisions Tree tienen bajas demandas computacionales en comparación con los de los modelos lineales generalizados o la máquina de vectores de soporte.
  • Complejidad de los datos: algunos patrones en los datos se identifican fácilmente mediante un algoritmo y dan como resultado un modelo que converge rápidamente. Otros patrones, por ejemplo, los no lineales, pueden requerir muchas más iteraciones. En otros casos, la cardinalidad de las variables categóricas o la densidad / escasez de datos pueden afectar significativamente el rendimiento.
  • Implementación de algoritmos: los algoritmos de código abierto e incluso propietarios a menudo se implementan de manera no paralela o de un solo subproceso, lo que significa que, incluso cuando se ejecutan en hardware multiprocesador, no se obtienen beneficios de rendimiento. Estos algoritmos tradicionales de un solo subproceso a menudo se pueden rediseñar para aprovechar el hardware multiprocesador y multinodo, a través de la implementación de algoritmos distribuidos y en paralelo. Habilitar el paralelismo es a menudo fundamental para mejorar el rendimiento y la escalabilidad.
  • Usuarios concurrentes: un científico de datos que trabaja en un solo modelo en una máquina dedicada puede ver o no un rendimiento adecuado en relación con los factores identificados anteriormente. Sin embargo, cuando varios usuarios intentan trabajar simultáneamente para crear y evaluar modelos o puntuar datos, el impacto en el rendimiento general de estos usuarios puede degradar significativamente o incluso provocar fallas debido al agotamiento de la memoria u otros recursos del sistema. La capacidad de un entorno para ampliar los recursos para satisfacer la demanda alivia ese impacto.
  • Cargue en el sistema: mientras que la cantidad de usuarios de aprendizaje automático simultáneos afecta el rendimiento, las fuentes que no son de aprendizaje automático (usuarios interactivos y trabajos programados) pueden afectar y verse afectadas por las fuentes de aprendizaje automático. Los entornos informáticos que pueden administrar y equilibrar dichos usos pueden proporcionar un mejor rendimiento general

Si deseas conocer cómo aprovechar las ventajas que la nube ofrece en este y otros ámbitos de innovación tecnológica no dudes en contactarnos, info@saggaac.com.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

×