Data Science Engineer at DataSource.ai
Desde la perspectiva de una empresa, los proyectos de data science deben tomarse siempre como experimentos. Recuerden que estamos hablando de ciencia, y la ciencia basa muchas de sus teorías con base en los resultados de una serie de experimentos. Desde aquí, muchas empresas empiezan con las asunciones erróneas, pensando que los resultados son ciencias exactas, de las cuales debe haber una respuesta única y verdadera. La realidad es que muchos de los proyectos de data science fracasan es por la falta de iteración que hace falta una vez se obtienen los primeros resultados, y porque no se adopta una mirada científica al proceso, o sea una mirada experimental. Pero cuáles son esos resultados que se esperan? Pues bien, los resultados más comunes esperados de un proyecto de data science son:APIsIntegracionesAplicaciones y/o PlataformasReportesPresentaciones1- APIsLas APIs son un conjunto de subrutinas, funciones y procedimientos (o métodos, en la programación orientada a objetos) que ofrece cierta biblioteca para ser utilizado por otro software como una capa de abstracción. Esto suena un poco confuso, pero es más fácil de lo que parece. Se trata de código que puede ser compartido entre máquinas. Aquí las peticiones no las hace un usuario desde un navegador, sino que las hace un programa a otro programa, y el resultado son trozos de código que luego pueden ser leídos y tratados. Las APIs es la forma más común de resultado esperado por una empresa que pretende desarrollar un proyecto de data science, hablando específicamente de modelos predictivos, ya que permite integrar fácilmente la solución dentro de los actuales programas internos de la empresa, sin necesidad de preocuparse por una integración profunda, o por la incompatibilidad de lenguajes de programación, de dispositivos o de sistemas internos. Es así como una empresa que tiene una fuerte presencia web, IoT, o móvil, puede usar inmediatamente una solución de data science sin la necesidad de invertir grandes recursos. Los requerimientos una API, como resultado esperado de un experimento de data science son:Páginas de ayuda o documentación bien escrita, entendible y reproducibleEl código debe estar bien documentadoEl código debe estar controlado por versionesLea también: ¿What Is A Data Science Tournament?2- IntegracionesLas integraciones son un poco más complejas desde el punto de vista técnico, ya que se trata de integrar una solución dentro de los sistemas actuales de la empresa. Así, si por ejemplo todo el desarrollo actual web se ha realizado en Java, y la solución de machine learning fue entregada en Python, el equipo de ingeniería de software tendrá que ingeniárselas para integrar ambos lenguajes dentro del stack, sea por medio de Microservicios internos u otras técnicas de acoplamiento de aplicaciones. Ni hablar si la empresa tiene un stack monolítico. Si este último es el caso, debería optar por una API. 3- Aplicaciones y PlataformasOtra solución común, es crear un servicio externo, y completamente diferente al servicio principal de la empresa. Aquí se busca hostear el servicio en un dominio diferente, donde el objetivo es acceder solo para obtener los resultados del modelamiento predictivo. Esto es común para las empresas que usan ingeniera como marketing, haciendo programas predictivos para sumar leads a su pipeline de prospectos. Los requerimientos para estas aplicaciones y páginas web, como resultado esperado de un experimento de data science son:Facilidad de uso de la herramientaPáginas de ayuda o documentaciónEl código debe estar bien documentadoEl código debe estar controlado por versiones4- ReportesAquí ya no estaríamos hablando de modelos predictivos, sino de data análisis en general. El resultado más común y esperado es un reporte o serie de reportes donde se espera entender los datos históricos, el porqué de los resultados históricos y las conclusiones de los mismos. Generalmente están llenos de datos estadísticos útiles para la toma de decisiones. Sirven para los comités de gerencia, marketing o recursos humanos. Existen muchos formatos para ello, pero lo ideal sería no solamente presentar el reporte, sino tener la oportunidad de hacer una presentación y contar una historia sobre dichos datos. Lo ideal es que los reportes que se le entreguen esténClaramente redactadosIncluyan una narración en torno a los datosCreación de un conjunto de datos analíticosAnálisisGraficos claros, e incluso interactivosConclusiones concisasOmitir detalles innecesariosReproducibleLea También: How Poker Can Teach Data Science Fundamentals5- PresentacionesEn las presentaciones, es donde los data scientists cuentan historias con los datos. Se espera un informe detallado pero concluyente sobre los datos históricos para la toma de decisiones. Esto ayuda a cualquier área de la empresa, y puede ser presentado en cualquier comité empresarial. Los mismos criterios exactos para las presentaciones:Claridad:Incluyan una narración en torno a los datosCreación de un conjunto de datos analíticosAnálisisConclusiones concisasGraficos claros, e incluso interactivosOmitir detalles innecesariosReproducibleConclusionComo podemos ver existen varios tipos de resultados cuando esperamos ejecutar un proyecto de data science. Vemos la importancia de tener los objetivos claros, lo que podemos lograr, pero lo más importante de todo: tomar el proyecto como un experimento, no como una solución mágica a todos nuestros problemas. Lea también: What Is Open Innovation In Data Science?
Nov 18, 2024
En este blog post hablaremos sobre la democratización de los datos y en el sector financiero. El formato será un poco diferente al normal, ya que se trata de una entrevista a nuestro CEO Dimitry Kushelevsky dada a PrivacyLabs.ai. Dicha entrevista fue dada en formato Podcast, y aqui podrá encontrarse el audio original: https://www.buzzsprout.com/1769590/8683204-data-democratization-and-ai-in-the-financial-sector-with-dimitry-kushelevskyTambien podra encontrar el post de PrivacyLabs.ai aqui:https://privacylabs.ai/data-democratization-and-ai-in-the-financial-sector/Paul StarrettHola a todos. Bienvenidos a otro podcast de PrivacyLabs. Mi nombre es Paul Starrett. Soy el fundador de PrivacyLabs.. Recuerden, PrivacyLabs. es una palabra. Y este podcast de hoy va a ser con Dimitry Kushelevsky. Y esto es en una serie de podcasts sobre la preservación de la privacidad, y la democratización de los datos, que es el enfoque de este podcast y la tecnología similar específicamente, en general dentro del área de aprendizaje automático y la inteligencia artificial. Sólo un poco de antecedentes sobre Dimitry y yo, tuvimos el placer de conocer a través de un grupo de inversión hace unos tres meses, ambos somos asesores en diversas capacidades para una empresa llamada Ealax.com empresa que se especializa en datos sintéticos para la delincuencia financiera. Pero desde entonces Dimitry y yo hemos tenido muchas conversaciones en torno a este tema. Y pensé que sería maravilloso aprovechar su cerebro para esta área en la democratización ya que su empresa datasource.ai se especializa en eso. Y su experiencia es realmente perfecta para este tema. Así que vamos a hablar con él sobre eso. Y creo que sin más preámbulos, Dimitry, si te presentas a ti mismo y a tu empresa, y luego vamos a sumergirnos.Dimitry KushelevskyEstupendo. Bueno, bueno, gracias de nuevo, por involucrarme en su podcast. Es un honor, y estoy muy contento de continuar nuestra conversación, que ha sido muy productiva y muy atractiva hasta ahora. Así que veamos. ¿Por dónde empiezo? Como has mencionado, soy el director general y cofundador de datasource.ai, una empresa que se puso en marcha con el único propósito de democratizar la IA, más concretamente, la ciencia de los datos en forma de aprendizaje automático, y poner sus increíbles capacidades a disposición de todo el mundo. En este momento, es realmente lo que describo vagamente como un problema del 1%, el 1% frente al 99%. Parece que muchas personas, muchas organizaciones empresariales, muchos individuos en la tecnología, ya están muy familiarizados con el concepto de la IA y lo que puede traer los beneficios específicos que puede traer, en cuanto a la mejora de sus operaciones en cuanto a traer ingresos adicionales y aumentar sus clientes potenciales para aumentar sus beneficios. Sin embargo, son muy pocas las empresas que pueden presumir de haber adoptado un enfoque estratégico serio a la hora de desplegar algoritmos de IA en su infraestructura de software y su pila de software. Y, ya sabes, es, como he dicho, es más bien un problema de 1% ai donde un puñado de las empresas visionarias con típicamente con grandes presupuestos, son típicamente, ya sabes, las corporaciones globales multinacionales, se dan cuenta de que hay mucho que ganar con muy bajo riesgo potencial al mismo tiempo.Así que parecían perfectamente cómodos gastando algo de dinero en el desarrollo de un equipo de ciencia de datos y haciendo que su ya sabes, debería decir, convirtiéndose en un adoptador temprano de la IA cuando se trata de la implementación real de varios algoritmos de IA, así como las herramientas de ciencia de datos en general en su en su infraestructura operativa. Mientras tanto, el grueso de las organizaciones empresariales sigue estando muy al margen. Hasta ahora, si una empresa quería desplegar alguna capacidad seria de IA en su infraestructura de software, eso requería, prácticamente por defecto, que contratará un equipo interno de ciencia de datos y adquiriera un equipo real de ingeniería de infraestructuras que desarrollara una infraestructura física y de software base para ejecutar algoritmos de ciencia de datos e IA. Y eso, por supuesto, cuesta bastante dinero. Y requiere una cantidad considerable de experiencia, que hoy en día sigue siendo muy deficitaria. Todavía es bastante difícil de conseguir. Y las escuelas, por supuesto, las universidades poderosas de todo el mundo están produciendo científicos de datos tan rápido como pueden. Pero todavía hay un déficit bastante significativo para esa área para esa especialización. Así que, ¿dónde deja eso al 99%, como me refiero a ellos, hasta ahora, la mayoría de ellos simplemente no han sido capaces de jugar seriamente con la IA y las capacidades de aprendizaje automático. Y básicamente han estado haciendo lo que han estado haciendo durante los últimos 20-30 años. La mayoría de ellos, ya sabes, que, que querían, que querían hacer algún tipo de toma de decisiones implementar algún tipo de toma de decisiones automatizada en su pila de software, por lo general utilizan el software basado en reglas, que es, por supuesto, muy limitado, porque no es, no se basa en la dinámica de la situación inmediata en el escenario inmediato a la mano. Así que para usar un ejemplo muy común, si usted tiene una tienda de comercio electrónico que, por supuesto, puede tener algunas reglas básicas, conjuntos de reglas, pero construido en una secuencia de comandos, que sería, que diría que la máquina o el controlador para realizar una determinada tarea, cada vez que un visitante viene a, ya sabes, en busca de una recomendación específica, o en busca de, ya sabes, buscando hacer algo en su tienda o comprar algo en su tienda. Eso es genial. Pero, por supuesto, que si usted tiene un algoritmo basado en reglas, que no se basa, que no está utilizando la IA, en esencia, usted está tratando de servir como este cliente potencial mirando en el espejo retrovisor. Y, por supuesto, no hay mucho que puedas hacer, por supuesto, ya sabes, la parte realmente genial del aprendizaje automático y la IA, es que puedes tener una máquina o un algoritmo que monitoree todos los detalles en tiempo real que rodean esta visita en particular, o en mi ejemplo ficticio de una tienda de comercio electrónico. Y basándose en lo que ve, puede tomar una decisión en tiempo real que es mucho más probable que resulte en la compra o en que el cliente esté encantado, porque ha conseguido una gran recomendación, cuando quizás menos lo esperaba. De todos modos, el resumen de la historia es que al desplegar la IA utilizando los conjuntos de herramientas que están disponibles con la ciencia de los datos de aprendizaje automático, y otras tecnologías afiliadas en ese espacio. Hoy en día, muy pocas personas sostienen que no hay nada que ganar. Sin embargo, muy al mismo tiempo, muy pocas personas, especialmente las empresas más pequeñas y medianas con presupuestos más ajustados y, y más limitaciones de recursos humanos reales, por lo general están bloqueados, ya sabes, sólo cuesta demasiado.Y simplemente no tienen ese tipo de recursos y experiencia para, ya sabes, lanzar la ciencia de los datos o la IA o el aprendizaje automático. Así que ahí es donde entramos nosotros, estamos tratando de llevar los puntos de precio asociados con la IA y el aprendizaje automático a un punto en el que un típico, ya sabes, medio de la carretera, el negocio de las PYME, debe ser capaz de pagar. Y al mismo tiempo estamos realizando, hemos implementado una serie de características únicas, como la automatización, que haría muy fácil para ese tipo de usuario ese tipo de cliente para implementar realmente los elementos, los elementos funcionales de la IA y el aprendizaje automático en su infraestructura. Sin ese requisito que he mencionado antes, sin exigir que contraten a científicos de datos o que gasten mucho dinero en una infraestructura de ciencia de datos para complementar su infraestructura operativa existente. Así que eso es, en esencia, lo que estamos tratando de hacer y esperamos que, en última instancia, podamos ofrecer una ola de beneficios a un gran número de personas y empresas que, de otro modo, hasta ahora no han podido acceder a ellos.Paul StarrettGenial, no, yo y eso es una gran pista en realidad, creo que declaró el estado existente donde las cosas son el 1%, y luego el bloqueo, si se quiere, del 99% restante. Y creo que sería útil para bajar bajo el capó un poco más en lo que datasource.ai hace. Si los oyentes no están familiarizados, hay una empresa llamada Kaggle, que fue recientemente, supongo que fueron comprados por Google. Y Kaggle, lo que hacen es poner un reto o un problema, y piden a la gente a presentar a kaggle soluciones. Y si son, si su solución es elegida, se les da una recompensa en efectivo. A menudo es, ya sabes, 50.000, 100.000, es un poco de dinero. Pero la idea es conseguir que todos estos contribuyentes que están compitiendo por ese premio. Y al hacerlo, están obteniendo esta calidad muy alta, bueno, la competencia ha sacado lo mejor de los que están contribuyendo a lo que llamamos el crowdsourcing. Y lo que estás haciendo datasource.ai es tomar el concepto y hacerlo mucho más disponible, una especie de Henry Ford, si se quiere, estás, estás permitiendo que llegue a las masas. Y por lo que tiene un menor a veces, usted sabe, el premio en efectivo, si se quiere, podría ser 5000, podría ser libre, realmente depende. Pero la idea es que esta la PYME, la pequeña y mediana empresa, a continuación, tiene acceso, ponen un montaje de dinero en efectivo, como $ 5,000, sólo estoy eligiendo nombres de que son los números de un sombrero, que luego vienen a usted, y entonces usted consigue esta competencia. Y creo que déjame saber si no lo he expresado correctamente, pero también necesito que indiques que tienes bastantes proyectos, en marcha.Dimitry KushelevskyLo tenemos, definitivamente estamos girando algunas cabezas y atrayendo, francamente, un montón de pesos pesados en la comunidad de la ciencia de datos que, como ya hemos demostrado, que están felices de contribuir con sus habilidades y la energía y la creatividad para, ya sabes, para ayudarnos a tener éxito. Sí, hemos hecho una serie de proyectos, como usted ha mencionado, que, en esencia, nuestros concursos de ciencia de datos, pero hasta ahora, o la mayoría de ellos, no tenían un premio en efectivo asociado a ellos, sólo queríamos, ya sabes, para probar nuestra, nuestra plataforma para asegurarse de que las características y la automatización y otras capacidades están trabajando como, según lo previsto. Y al mismo tiempo, queríamos poner a prueba la suposición general detrás de nuestro modelo de negocio, que es, ya sabes, hay una muy comprometida muy alta energía, muy vibrante comunidad de apoyo a la ciencia de datos, así como las implementaciones de la IA y el aprendizaje automático en las empresas principales y otras organizaciones. Así que, hasta ahora, hemos estado muy, muy satisfechos con lo que observamos, estamos empezando a monetizar nuestra plataforma ahora. Así que es un momento muy emocionante también, porque quiero ofrecer premios en efectivo real, a los ganadores de la de los algoritmos más exitosos que nuestros concursantes han presentado. Y también lo que estamos haciendo, ya sabes, gracias por mencionar Kaggle. Mientras que el concepto detrás de la IA crowdsourcing o algoritmos de aprendizaje automático es en realidad bastante similar entre lo que hacemos y lo que hace Kaggle. Pero sin duda hay una serie de capacidades únicas, a partir de la diferencia entre los mercados, los mercados de destino que centran sus ofertas hacía, frente a lo que estamos tratando de hacer. Así que, como he mencionado antes, estamos realmente tratando de llevarlo a un punto de precio muy bajo, así como un requisito muy bajo de, de la experiencia y otros recursos dedicados que un cliente dado tendría que tener a bordo con el fin de utilizar nuestro sistemaPero con el fin de, ya sabes, desarrollar un algoritmo de aprendizaje de máquina de alta calidad y aplicado en el, en su infraestructura de software. Por lo general, el proyecto Kaggle todavía requeriría científicos de datos a bordo de esos científicos de datos por lo general vienen con el proyecto, ya sabes, el cliente, el cliente se espera que lo traiga en los premios en efectivo con Kaggle son significativamente mayores, yo diría que por lo general en el orden de magnitud mayor en comparación con nuestros valores de los premios en efectivo objetivo. Así que al hacerlo, una vez más, estamos tratando de llevar todos estos grandes beneficios de la IA y el aprendizaje automático y la ciencia de los datos en la corriente principal mundial. Obviamente, eso implica que tratamos de convertirlo en un modelo de negocio de alto volumen y baja barrera de entrada, y queremos tener muchos negocios que puedan darse cuenta rápidamente de que puedo hacerlo por muy poco dinero. Y sin tener que contratar científicos de datos dedicados a mi equipo, puedo ir y desarrollar uno o más algoritmos de aprendizaje automático que van a ser de alta calidad, van a ser diseñados por humanos, por humanos expertos. Y es muy probable que, basándonos en los indicadores que hemos visto en los despliegues anteriores, mejoren nuestro negocio y aumenten nuestros resultados, que es en definitiva lo que estamos tratando de hacer. Quiero decir, ya sabes, en última instancia, en cuanto a nuestro propósito, que detrás de nuestra empresa, detrás de nuestros dos, pero yo y mi cofundador, Daniel, estamos realmente tratando de, ya sabes, somos apasionados, obviamente, somos apasionados de la IA y la ciencia de los datos y el aprendizaje automático. Y estamos realmente centrados en llevar todas esas grandes capacidades, todos esos grandes beneficios, bastante fácilmente alcanzables que los, ya sabes, que los clientes pueden utilizar, hasta la empresa media, la organización media en todo el mundo, sin importar su presupuesto, sin importar su tamaño, sin importar su, lo que su capacidad es, ya sabes, para contratar a bordo de la experiencia y otros recursos. Así que, obviamente, debido a ese profundo deseo que Daniel y yo compartimos, y hemos compartido desde el principio, hemos desarrollado y lanzado una plataforma que ya está altamente automatizada. Aunque, por supuesto, sin duda, a medida que avanzamos a medida que crecemos. Y tenemos recursos de desarrollo adicionales, por supuesto, vamos a seguir, para mejorarla. Y, ya sabes, y para añadir características adicionales y capacidades que son sólo la planificación de hoy. Y el beneficio final es que a medida que obtenemos más y más clientes, utilizando nuestra plataforma para crowdsource de alto valor, alta capacidad, algoritmos de aprendizaje automático de alta calidad, ya que implementan esos algoritmos, que sin duda será obtener resultados muy impresionantes sobre la base de todo lo que hemos visto en todos los estudios que hemos leído hasta ahora, que realmente están preparando para una gran cantidad de éxito adicional, incluso si son una empresa de éxito ya. Así que, por supuesto, es por eso que Daniel y yo estamos muy emocionados de estar haciendo lo que estamos haciendo. Y estamos aún más. Así que más. Así que estamos aún más entusiasmados con el futuro que, ya sabes, que esta tecnología tiene que potencialmente podría llevar a los clientes de negocios principales en todo el mundo a medida que crecemos como empresa.Paul StarrettSí, y eso es, eso es genial. Me lleva a pensar en el crowdsourcing, no sólo la empresa individual obtiene el beneficio de la, de su plataforma y su experiencia entre usted y su cofundador, además de todos los equipos que están compitiendo, para satisfacer algún objetivo que la competencia por así decirlo, se pone a, también hay, esto va a llevar a, creo que la parte aquí donde vamos a entrar en los desafíos que vienen con esto, que lo que puede hacer es que usted puede tener, digamos diferentes empresas que son tal vez en la misma vertical el mismo dominio, compartir su información, para obtener la sinergia a través de sus diferentes puntos de vista, aprender de los esfuerzos de aprendizaje automático. El problema es, especialmente en las industrias altamente reguladas, con si obtener los datos es el gran problema. Y la una de las mayores barreras allí, por supuesto, es la regulación de la privacidad y las leyes de protección de datos. Y la idea es que hay técnicas, hay soluciones que le permiten crear esencialmente un conjunto de datos diferentes que se llama hay varias cosas aquí ahora, es un gran, es un tema bastante grande. Cubrimos esto, acabo de terminar un podcast con Patricia Thaine, que encontrará en nuestro sitio web que discute las tecnologías de preservación de la privacidad en el gran esquema. Pero por ahora aquí con el aprendizaje automático, vamos a centrarnos en los datos sintéticos. Lo que es, es un método por el cual un algoritmo tomará los datos originales que contienen datos sensibles privados. Y los replica. Pero deja atrás cualquier vestigio de la sensibilidad, o de la privacidad de los datos subyacentes, por lo que los levanta y los saca de esas preocupaciones. Así que ahora se puede compartir, no es una panacea, hay una cosa llamada el presupuesto de la privacidad, que dice que cuanto más se elimina la privacidad y la información sensible, menos valiosos son los datos para una máquina o algoritmo de aprendizaje automático. Y no es un proceso sencillo, pero es muy factible. Y así Dimitry, creo que, ya sabes, la empresa Ealax mencionó antes, que hacen esto, y ser capaz de hacerlo para cosas como una banca y los servicios financieros. Y sé, Dimitry, que tú personalmente tienes bastante, bastante experiencia en esta área de servicios financieros. ¿Cuál es su perspectiva sobre la promesa de los datos sintéticos y su opinión sobre lo que es y, y, y cómo esperamos ver que se utiliza no sólo para una empresa para hacerlo sólo para los fines internos, pero luego tal vez para compartir con otros?Dimitry KushelevskySí, absolutamente. Sin duda, la industria financiera vertical es una de las verticales que está realmente bien posicionada para aprovechar la IA y el poder de las capacidades que puede aportar, de nuevo, con la ayuda de una empresa como la nuestra, a un coste muy bajo y con una necesidad de recursos muy baja. Y, de nuevo, parece que, supongo, debido a que la industria financiera está tan cerca de los negocios, y tan, tan cerca de reconocer el aspecto material de lo que este tipo de tecnología puede traer, lo están entendiendo, ya sabes, claramente están, están sintiendo que esto no es sólo una moda, la IA está aquí para quedarse. Y, de nuevo, están viendo como las instituciones locales más pequeñas están viendo que las marcas más grandes en su industria están desplegando la IA o yo diría que, ya sabes, los representantes verticales financieros más grandes se encuentran entre los primeros adoptantes que, ya sabes, que han hecho algunos despliegues estratégicos tempranos, y en realidad se han beneficiado de ellos de manera significativa. Así que, ya sabes, ¿qué es lo que depara el futuro o qué tipo de capacidades, qué tipo de beneficios depara para las finanzas? Bueno, hay tantas aplicaciones excelentes, que normalmente empiezo a analizar cualquier oportunidad de negocio o incluso un escenario de uso examinando las necesidades del cliente, y en este caso, en el sector financiero, las necesidades del cliente son bastante amplias, ya que la mayoría de las instituciones bancarias y financieras ya tienen una cantidad considerable de datos que han estado recopilando sobre sus clientes como parte de sus operaciones diarias. Y, por supuesto, porque están obligados a hacerlo por la ley. Así que, por un lado, ya tienen un gran ingrediente importante que muchos representantes de otras verticales pueden o no tener siempre. Por lo tanto, tienen los datos, también tienen medios muy específicos, ya que quieren seguir siendo competitivos, quieren, quieren ser capaces de ofrecer nuevos servicios, quieren orientar su, su comercialización y otros materiales centrados en el cliente mejor.Y en última instancia, por supuesto, quieren ahorrar en sus operaciones también. Otra gran oportunidad para la industria financiera en general, por supuesto, es algo que hemos discutido antes. Es, es el fraude y, ya sabes, la prevención de la actividad criminal. Así que la IA, por supuesto, estoy muy emocionado, ya sabes, agitando la bandera, agitando, ya sabes, persona en el ecosistema de la IA. Así que sí, admito que podría ser un poco parcial aquí. Pero la IA, yo realmente, afirmaría firmemente que la IA proporciona una tremenda oportunidad, tal vez mucho más poderosa que cualquier otra fuente de herramientas disponibles en la actualidad, para hacer frente a todos estos escenarios de casos de uso, y son realmente parte emocionante para mí aquí es que estaríamos, mediante el desarrollo de algoritmos de IA y otras soluciones basadas en la IA, podríamos impactar directamente y muy positivamente ya sabes, esos clientes y satisfacer sus necesidades. Ya sabes. Así que esa es la parte realmente emocionante, en última instancia, todo tiene que, ya sabes, empezar y terminar con el cliente. Así que cada vez que tenemos, tenemos un cliente que ya ha demostrado un conjunto de necesidades que pueden afectar directamente a su, su negocio de una manera muy positiva. Por supuesto, cualquier persona de negocios estará muy emocionada de ofrecer su plataforma o su solución para ayudar a sus usuarios a conseguir exactamente ese efecto. Así que, sí, hay un, hay mucho, mucho que hacer un montón de oportunidades. Pero por supuesto, siempre, como siempre, hay un desafío. Y el desafío es bastante significativo en los espacios financieros, que tiene que ver con la regulación. Y tiene que ver con las severas regulaciones de protección de la privacidad que prácticamente todas las instituciones financieras tienen que cumplir en todo el mundo. Así es. Así que ese es un gran desafío que sin, con eso, a menos que encontremos una manera de resolverlo como una industria, creo que, ya sabes, Ai, y el aprendizaje de la máquina y la ciencia de datos será extremadamente limitado en términos de la profundidad y la amplitud de los beneficios que podemos ofrecer. Así que tener empresas como Ealax alrededor de la producción de proxies muy cerca de los datos originales reales del cliente, sin embargo, sin revelar cualquiera de la información privada o personal o confidencial asociada con el banco, o sus clientes, o sin con los clientes de riesgo institucional, podría muy bien ser la diferencia entre todas esas instituciones, ser capaz de tomar ventaja de estos grandes, pero sus beneficios comerciales y no ser capaz de hacerlo. Así que es realmente un gran desarrollo.Paul StarrettSí, estoy de acuerdo. Y creo que quería deslizar un discurso de ascensor que tengo para encapsular lo que has dicho sobre, ya sabes, cómo los datos se están volviendo mucho más molestos incluso para las empresas medianas y pequeñas. Porque, como sabemos, la cantidad de datos que las empresas generan está creciendo exponencialmente cada año. Y la única manera de manejarlos es con el aprendizaje automático. Eso es todo lo que te queda. Así que se convierte en la nueva normalidad se convierte en la mejor práctica. Creo que algunas cosas únicas que podemos compartir con nuestros oyentes, es que los datos sintéticos no sólo para nosotros para dejar de lado la información sensible o privada, de nuevo, sin embargo, quiero hacer hincapié en que no es una panacea. Hay algunas, algunas perillas para girar. Y hubo una cierta pérdida de conocimiento, pero a menudo no hay almuerzo gratis, ¿verdad? Exactamente, exactamente. Así que los presupuestos de privacidad, tienes que pagar en alguna parte. Pero creo que en general es una ganancia neta. Pero hay un lado positivo, ya que con los datos sintéticos, puedes obtener más información de los datos subyacentes que van más allá de lo que esperarías construir en un modelo de aprendizaje automático a partir de esos datos. Porque los datos sintéticos pueden generar nuevos tipos de transacciones y nuevos tipos de escenarios que un algoritmo de aprendizaje automático puede utilizar. También tiene la capacidad de algunas otras cuestiones en torno a la regulación tiene que ver con la explicabilidad del aprendizaje automático, ¿cómo está funcionando? ¿Sabemos qué está haciendo el modelo de aprendizaje automático? Puedes añadir a estos datos sintéticos, métricas y otra información que te ayude a establecer, ya sabes, cómo la explicabilidad, que es una pieza muy grande de la privacidad, las regulaciones y demás. GDPR tiene requisitos específicos en torno a eso, al igual que la mayoría de las leyes, y sólo para una imagen de mi propia, ya sabes, soplar mi propio cuerno aquí y pagar algunas cuentas, eso es lo que PrivacyLabs, hace que ayudamos a entrar y asegurarse de que tengo un fondo en el aprendizaje automático abd ley. Y por lo que soy capaz de ayudar a unir las cosas, obtener la máquina de obtener la explicabilidad en allí, y para asegurarse de que los profesionales del cumplimiento de entender la tecnología, y lo que está sucediendo y asegurarse de que todo tipo de viene juntos, rentable y de manera compatible.Así que ese es nuestro papel en esto. Y yo, por supuesto, esperamos trabajar con usted y, Ealax y otras empresas a tipo de llevar esto al mercado. Creo que es, creo que desde el punto de vista de la manera que realmente el objetivo aquí es que la democratización de los datos y creo que tal vez podemos terminar en este tema. Que hemos cubierto básicamente la idea de que la institución individual, ya sea pequeña o mediana, realmente, creo que es donde la, la, la cuestión de la necesidad es, es más molesto. Los datos son cada vez más grandes y más rápidos, más complejos. Y entonces el aprendizaje automático es realmente la mejor manera de ahorrar dinero y reducir el riesgo y así sucesivamente. Pero esto también la capacidad de construir para hacer un mundo mejor y Dimitry esta es una gran pieza de Absolutamente, está en su corazón es que, de nuevo, podríamos tener, digamos los servicios financieros, las instituciones comparten todos sus datos juntos para construir una especie de, por ejemplo, un modelo de aprendizaje automático de fraude, que es una especie de superconjunto de toda la inteligencia ha llegado de todas las cosas. De nuevo, creo que cuando entramos en cosas como los datos sintéticos y otras cosas, esto se vuelve mucho más realista. Y, en ese sentido, tenemos esta especie de crowdsourcing por derecho propio.Dimitry KushelevskyY se consigue utilizar la sabiduría de la multitud para resolver algunos de los mayores retos que estaban afectando a toda la industria en todo el mundo. Así que sí, este es uno de los muchos y excelentes puntos de valor que hay detrás de toda la tecnología.Paul StarrettSí, sí. En el ámbito de la ciencia de los datos, para aquellos que son un poco más expertos, se trata de una cosa llamada aprendizaje de transferencia en la que se toman, esencialmente, el caso típico de las redes neuronales de aprendizaje profundo, y se pueden tomar los modelos anteriores que se han construido, y luego aprovechar ese fondo. Los transformadores son un ejemplo típico. Pero, de nuevo, eso es sólo una especie de aparte, mencionado, para aquellos de nosotros que son un poco más en la ciencia de datos. Creo que el propósito de la idea aquí era la democratización del intercambio de datos, es ser capaz de aprovechar la democratización para el crowdsourcing de información en torno a un problema específico para una empresa, de modo que puedan entrar en el mercado y seguir siendo competitivos por ser capaz de aprovechar y tener acceso al aprendizaje automático, sino también en la capacidad de tener información de dominio para el bien común. Así que creo que hemos hecho un gran trabajo, francamente, creo que en este lo que es aproximadamente media hora.Dimitry Kushelevskyhay mucho terreno que cubrir. Para algunos, como tú, estoy seguro de que lo sabes, hay una gran tentación de meterse en la maleza, porque hay tantos grandes casos de uso y tantas grandes aplicaciones, y en última instancia, tantos beneficios increíbles, los negocios y los beneficios personales que podemos ofrecer a literalmente miles de millones de personas por ahí con este tipo de tecnología. Eso, por supuesto, es muy, muy emocionante. Y, ya sabes, francamente, eso es, creo, una gran parte de nuestro futuro. Sabes, si acabo de leer un estudio de PwC recientemente, donde afirman que para el año 2030, exploran que esperamos que la IA va a añadir un poco más de 15 billones de dólares, que 15 billones. Sí, uno 515 billones de dólares a la economía global. Es increíble, absolutamente increíble, francamente, incluso hoy en día, más cerca de casa, por así decirlo, o más cerca de nuestro marco de tiempo, en este momento, el aprendizaje de la máquina, pero su industria se mide en algún lugar alrededor de nueve o entre nueve y 10 mil millones de dólares. Obviamente COVID tipo de juego con esos números, como con cualquier otro número, pero creo que es todavía más o menos donde estamos hoy. Pero la noticia realmente emocionante, y creo que el estudio de este estudio, erróneamente salió de McKinsey, son en realidad la previsión de un 39% año tras año, la tasa de crecimiento compuesto para el próximo futuro previsible, creo que el año 26 o 27, que están esperando este número para ir creciendo hasta alrededor de 120 127 mil millones. Así que, quiero decir, estos son números astronómicos. Usted sabe, y usted mencionó antes que, sí, hay ciertamente múltiples aplicaciones que son múltiples participantes en el espacio de abastecimiento de la IA y el aprendizaje automático. Y estoy, estoy seguro de que habrá más, no creo que sea un gran alcance para pronosticar que va a ser mejor y mejor y más grande y más. Ya sabes, que densamente poblada en lo que respecta a la industria de la IA. Pero mi forma de verlo es que hay un gran potencial, es realmente un ideal, ya sabes, un caso de libro de texto de la abundancia de la mentalidad, es algo que vamos a, podemos, podemos construir nuevas soluciones dentro de desarrollar una enorme cantidad de valor añadido a, ya sabes, a literalmente millones, si no miles de millones de clientes. Así que hay mucho, hay mucho bien que hacer, ya sabes, eso es una parte muy, muy emocionante. Para todos los que ya están en este espacio o están considerando, ya sabes, entrar en él, incluyendo a las personas que potencialmente van a ser nuestros futuros clientes, les damos la bienvenida a venir y vernos. Y, ya sabes, ofrecemos una consulta gratuita para cualquiera que esté interesado en explorar lo que, ya sabes, lo que ofrecemos, y cómo puede ser capaz de beneficiar a su negocio, sus operaciones o, ya sabes, superar cualquier otro desafío que puedan estar enfrentando ...Paul StarrettSí, sí. Y quería colar aquí un comentario más sobre un y luego voy a pedirte que te retires para tu, tus pensamientos finales sobre lo que crees que no hemos cubierto o algo que crees que necesita ser enfatizado. Pero creo que una de las otras cosas que seguimos hablando de los datos sintéticos. Y sólo quiero repetir la razón por la que decimos eso es porque Gartner ha predicho que el 60% del aprendizaje automático se basará en datos sintéticos para 2024. Eso está a la vuelta de la esquina. Así que creo que nos da una idea de que hay un área, y voy a hacer esto breve porque es un área técnica, que el ciclo de vida de desarrollo de software se ha movido realmente a lo que llaman un marco ágil, que requiere una respuesta muy rápida. Y esa es la nueva normalidad para el desarrollo de cualquier cosa, cualquier tipo de software o cualquier solución que esté siendo utilizada por la empresa. Y el problema es, es que para obtener los datos, se necesita mucho tiempo, los contratos y las leyes y otras cosas requieren meses. Y no tienes ese tiempo cuando tienes un proceso ágil en el desarrollo de software que requiere un tipo de cambio diario. Así que estos datos sintéticos te permiten generar esos datos mucho más rápidamente y llegar a la tierra de pago. Sólo quería hacer eso. Ese es un nuevo tema candente con el que hemos tropezado aquí desde otras discusiones. Así que aparte de eso, voy a terminar aquí. Cualquier cosa, Dimitry, que creas que deberíamos, ya sabes, tenemos unos minutos aquí. ¿Algo que creas que deberíamos saber, que no hayamos discutido o algo que quieras enfatizar?Dimitry KushelevskySí, bueno, uno de los retos más interesantes a los que nos enfrentamos ahora mismo es que, obviamente, no queremos hervir el océano, si, si sabes a lo que me refiero, hay tantos escenarios de casos de uso geniales, hay tantas aplicaciones geniales para la IA para el aprendizaje automático para, ya sabes, literalmente ejecutar la competencia de ciencia de datos, que tenemos que ser muy juiciosos en cuanto a los que perseguimos, fue una gran tentación entre los dos fundadores para tratar de ir después de cada oportunidad interesante, cada desafío que tiene una necesidad real de negocio y datos reales detrás de él, que el cliente ya puede tener un cliente potencial. Pero nos encontramos deliberadamente, ya sabes, manteniéndonos disciplinados de una manera que queremos, ya sabes, estamos tratando de validar nuestros principales supuestos que, obviamente, ya sabes, nos proporcionan el, nuestro ir al mercado y nuestro negocio, la evolución proyector para, ya sabes, para el futuro previsible. Así que, con eso en mente, así que sí, es un gran problema para tener. Y con eso en mente, yo, de nuevo, quiero dar la bienvenida a cualquier, cualquier persona que esté interesada en jugar en este espacio, e incluso sólo comprobarnos y ver y discutir con uno de nuestros expertos, o uno de nosotros directamente, lo que podemos, lo que podemos hacer y cómo, en términos específicos, la IA y el aprendizaje automático puede, puede ayudarles a superar sus desafíos y hacer crecer su negocio y reforzar su línea de fondo o cuidar mejor de sus clientes.Así que una vez más, por supuesto, nos encantaría, me encantaría dar la bienvenida a otras personas que están tan entusiasmados con la IA como nosotros, o tal vez sólo están intrigados. Y ellos, ya sabes, si nada más, quieren ver, hey, vamos a hablar y vamos a ver lo que esta tecnología y la tecnología puede potencialmente tener en el almacén para ellos y sus negocios. Así que de nuevo, doy la bienvenida a la gente a escuchar esto o intrigado acerca de los beneficios potenciales que pueden obtener con AI Ciencia de Datos y el aprendizaje de la máquina, les doy la bienvenida a venir a visitarnos. Si usted sabe hoy si están interesados, ellos, si están intrigados por lo que usted y yo acabamos de discutir, están intrigados por el contenido que hemos publicado en nuestra página web. A mí, por supuesto, me encantaría charlar con ellos, y pueden hacer clic en la consulta gratuita por y programar unos minutos para charlar con nosotros, creo que, ya sabes, cada conversación es, es muy interesante para nosotros. Porque, de nuevo, nos ayuda a triangular las oportunidades más prometedoras para que podamos ofrecer el máximo valor. Así que no terminamos hirviendo el océano, pero al final terminamos, ya sabes, cumpliendo con los requisitos de nuestra misión y ayudando a las empresas a lograr sus objetivos de éxito. Y, con suerte, mejor que cualquier otra alternativa que haya en el mercado, lo que creo firmemente que podemos hacer. Así que gracias por la oportunidad.Paul StarrettSí, no, es un placer. Y sólo para que la gente sepa, supongo que el sitio web es su datasource.ai. Y es todo una palabra, sin guiones, sin puntos ni nada data source.ai. ¿Y creo que es dimitry@datasource.ai?Dimitry KushelevskySí, dimitry@datasource.ai. Ya sabes, si y eso es, créeme, solo tener mi nombre de pila es una bendición, como sabes, porque en esta dirección de correo electrónico, porque tengo un largo, ya sabes, apellido ucraniano que eso confundiría a cualquiera. Así que, sí, pero yo, por supuesto, daría la bienvenida a usted sabe, cualquier, cualquier persona que quiera llegar y, y conectar conmigo directamente.Paul StarrettGenial o pueden ir a tu página web, como has indicado. Muy bien. Bueno, escucha, sólo voy a terminar aquí con algunas reflexiones sobre el papel de PrivacyLabs en esto es que el proceso de traer la inteligencia artificial o el aprendizaje automático en su infraestructura de la empresa de una forma u otra, es un tipo horizontal de tema activo. Y ahí es donde podemos ayudar a mirar los requisitos de seguridad, el cumplimiento, tengo un abogado que es una especie de especialista en la ley de cumplimiento, soy mucho más técnico, pero puedo ayudar a discutir los temas con la gente de cumplimiento y ayudar a tipo de cosas de alcance y una cosa que hacemos en los laboratorios de privacidad es que estamos trabajamos con empresas asociadas como One Trust y BigID, y TrustArc, y en uno de los otros, uno de mis favoritos es Centrl. Podemos utilizar esas herramientas para ayudar a reunir a los gatos para unir todo. Nos especializamos en el aprendizaje de la máquina y la automatización y una auditoría para que podamos asegurarnos de que todo va de la manera que se espera, ya sea por medio de un regulador o para asegurarse de que está, está cubierto legalmente en algún nivel. Eso es lo que hacemos. Y de nuevo, Dimitriy muchas gracias. Y creo que vamos a cerrar aquí, y estoy seguro de queDimitry KushelevskyQuería darte un rápido empujón, Paul, sí, porque aprecio profundamente lo que haces. En cuanto a la apertura de las ganancias para un número potencialmente muy grande de, de los propietarios de negocios y ejecutivos de negocios, que, debido a usted y su trabajo, será capaz de tomar ventaja de lo que ofrecemos. Así que realmente aprecio haberte conocido y haber tenido un montón de conversaciones realmente productivas que ya hemos tenido. Y espero continuar en la misma línea.Paul StarrettGracias. Son palabras muy amables, y no estoy en desacuerdo con usted si lo digo yo. Creo que nos hemos posicionado muy bien y normalmente con mi orientación directa, personalmente. Sí, somos una especie de conserje, por así decirlo, para ayudar a la gente a entrar y cubrir todas las bases horizontal y periféricamente. Así que genial. Dicho esto, vamos a cerrar aquí. Y Dimitry, tendremos otro podcast pronto. Probablemente una de las actualizaciones o algún otro vertical o algo así. Pero gracias de nuevo. Y gracias a los oyentes. Espero que hayan aprendido mucho y que estén atentos a nuestros futuros podcasts. Gracias. Gracias a todos.
Nov 18, 2024
Probablemente haya oído hablar mucho de la ciencia de los datos, la inteligencia artificial y del big data. Francamente, ha habido mucho bombo y platillo en torno a estas áreas. Lo que ha hecho es inflar las expectativas sobre lo que la ciencia de los datos y los datos pueden lograr realmente. En general, esto ha sido negativo para el campo de la ciencia de los datos y para el big data. Es útil pensar un poco en las preguntas que se pueden hacer para separar el bombo de la ciencia de datos de la realidad de la ciencia de datos.La primera pregunta es siempre "¿Cuál es la pregunta que se intenta responder con los datos?" Si alguien viene a hablarte de un proyecto de big data, de inteligencia artificial o de un proyecto de ciencia de datos, y empieza a hablar de la tecnología más novedosa que pueden usar para hacer computación distribuida, y analizar datos con aprendizaje automático y te lanzan un montón de palabras de moda, la primera pregunta que deberías hacer es "¿Cuál es la pregunta que estás tratando de responder con los datos?". Porque eso realmente reduce la pregunta y filtra una gran cantidad de bombo y platillo en torno a las herramientas y tecnologías que la gente está utilizando, que a menudo puede ser muy interesante y divertida para hablar. A nosotros también nos gusta hablar de ellas, pero en realidad no van a añadir valor a tu organización por sí solas.Leer también: Democratización De Datos E Inteligencia Artificial En El Sector FinancieroLa segunda pregunta que hay que hacerse, una vez que se ha identificado la pregunta a la que se intenta responder con los datos, es: "¿Tienes los datos para responder realmente a esa pregunta?". Así que a menudo la pregunta que quieres responder y los datos con los que tienes que responder no son realmente muy compatibles entre sí. Así que tienes que preguntarte "¿Podemos obtener los datos de forma que podamos responder a la pregunta que queremos responder?" A veces la respuesta es simplemente no, en cuyo caso hay que renunciar (por ahora). En resumidas cuentas, si quieres decidir si un proyecto es un bombo o una realidad, tienes que decidir si los datos que la gente está tratando de utilizar son realmente relevantes para la pregunta que están tratando de responder.La tercera cosa que hay que preguntarse es: "Si pudieras responder a la pregunta con los datos que tienes, ¿podrías incluso utilizar la respuesta de forma significativa?". Esta pregunta se remonta a esa idea de las competiciones de Netflix en la que había una solución al problema de predecir qué videos le gustaría ver a la gente. Y era una solución muy, muy buena, pero no era una solución que pudiera ser implementada con los recursos informáticos que Netflix tenía de una manera que fuera financieramente conveniente. A pesar de que podían responder a la pregunta, a pesar de que tenían los datos correctos, a pesar de que estaban respondiendo a una pregunta específica, en realidad no podían aplicar los resultados de lo que averiguaronSi te haces estas tres preguntas, podrás descifrar muy rápidamente si un proyecto de ciencia de datos se trata de un bombo y platillo o si se trata de una contribución real que realmente puede hacer avanzar a tu organización.Lea También: ¿Cuáles Son Los Resultados Que Se Esperan De Un Proyecto de Data Science?¿Cómo determinar el éxito de un proyecto de ciencia de datos?Las pequeñas empresas pocas veces utilizan tecnología de vanguardia, simplemente porque no está dentro de sus presupuestos, conocimientos o recursos. Sin embargo, casi todas están llamadas a experimentar con dicha tecnología, debido a que si no lo hacen, alguien más lo hará y finalmente quien lo haga ganará en competitividad, costos o utilidad.Definir el éxito de un proyecto de Inteligencia Artificial (que técnicamente es denominado ciencia de datos o machine learning) es una parte crucial de la gestión de un experimento de ciencia de datos. Por supuesto, el éxito suele ser específico del contexto. Sin embargo, algunos aspectos del éxito son lo suficientemente generales como para merecer un debate. Mi lista de distintivos del éxito incluyeLa creación de nuevos conocimientos.Se toman decisiones o políticas basadas en el resultado del experimento.Se crea un informe, presentación o app con impacto.Se aprende que los datos no pueden responder a la pregunta que se les hace.Algunos resultados más negativos son: que se tomen decisiones que ignoran la evidencia clara de los datos, que los resultados sean equívocos y no arrojen luz en una u otra dirección, que la incertidumbre impida la creación de nuevos conocimientos.Hablemos primero de algunos de los resultados positivos.Los nuevos conocimientos me parecen ideales. Sin embargo, un nuevo conocimiento no significa necesariamente que sea importante. Si produce decisiones o políticasSi produce decisiones o políticas aplicables, mejor aún. (¿No sería estupendo que hubiera una política basada en la evidencia, como el movimiento de la medicina basada en la evidencia que ha transformado la medicina?). Que nuestros productos de ciencia de datos tengan un gran impacto (positivo) es, por supuesto, lo ideal. Crear código o aplicaciones reutilizables es una gran manera de aumentar el impacto de un proyecto.Finalmente, el último punto es quizá el más controvertido. Considero que un proyecto de data science tiene éxito si podemos demostrar que los datos no pueden responder a las preguntas que se plantean. Me acuerdo de un amigo que contaba una historia de la empresa en la que trabajaba. Contrataron a muchos y costosos consultores de ciencias de datos para ayudar a utilizar sus datos para informar sobre la fijación de precios. Sin embargo, los resultados de la predicción no ayudaban. Pudieron comprobar que los datos no podían responder a la hipótesis estudiada. Había demasiado ruido y las mediciones no estaban midiendo con precisión lo que se necesitaba. Claro, el resultado no era óptimo, ya que todavía necesitaban saber cómo ponerle precio a las cosas, pero sí se ahorraba dinero en consultores. Desde entonces, he escuchado esta historia repetida de forma casi idéntica por amigos de diferentes sectores.Leat también: * ¿Como Diseñan las Aplicaciones de Machine Learning Las Empresas Mas Grandes Del Mundo?* ¿Que Es Open Innovation en Data Science?
Nov 18, 2024
Revisado por Kat Holmes — Data Director ITVA medida que las empresas reconocen el poder decisivo de los datos para alcanzar los objetivos empresariales, la mayoría espera poner los datos en el asiento del conductor de sus estrategias de negocio y de producto. Esto implica reunir un equipo de datos sólido que pueda propagar eficazmente sus conocimientos en las diferentes áreas de la empresa. Por desgracia, no es una tarea fácil.Para estar realmente orientadas a los datos, las empresas deben crear tres capacidades: estrategia de datos, gobernanza de datos y análisis de datos.3 pilares para las empresas basadas en datos - Imagen de PitchEstrategia: La estrategia de datos es la hoja de ruta de su organización para utilizar los datos para alcanzar sus objetivos. Requiere una clara comprensión de las necesidades de datos inherentes a la estrategia empresarial. ¿Por qué se recogen datos? ¿Intenta ganar dinero, ahorrar dinero, gestionar el riesgo, ofrecer una experiencia excepcional al cliente, o todo lo anterior?Gobernanza: La gobernanza de los datos es un conjunto de procesos, funciones, políticas, normas y métricas que garantizan el uso eficiente de la información para que su organización alcance sus objetivos. Una estrategia de gobierno de datos bien elaborada garantiza que los datos de su empresa sean fiables, precisos y estén disponibles.Analítica: El término "análisis de datos" se refiere al proceso de análisis de datos en bruto para sacar conclusiones sobre la información que contienen. Por lo general, las personas involucradas en el análisis de datos en una organización son ingenieros de datos, analistas de datos y científicos de datos.En última instancia, su capacidad para aprovechar los datos dependerá de estos tres pilares. Si está leyendo esto y se da cuenta de que su organización no posee ninguno de ellos, no se preocupe. Para eso estamos aquí. Un buen punto de partida es crear un equipo de análisis sólido, que esté estrechamente vinculado a los objetivos estratégicos de su empresa. Es el primer pilar de su organización de datos, y el tema central del artículo.A la hora de crear un equipo de análisis de datos, los responsables de datos suelen plantearse las siguientes preguntas:¿Qué tamaño debe tener este equipo?¿Cuántos ingenieros de datos, analistas de datos, científicos de datos?¿Cómo interactúa el equipo con el resto de la organización?¿Qué estructura debe tener el equipo de datos? ¿Centralizada o integrada?Tienen razón; tener un equipo de datos fuerte ya no es un lujo, sino que es esencial para la propia supervivencia de una empresa hoy en día.Pero empecemos por lo básico.¿En qué punto de su viaje de datos se encuentra?Antes de crear un equipo de datos, es importante que te des cuenta de dónde estás en tu "viaje de datos", porque esto afectará directamente a la estructura de tu equipo. Por ello, esta parte está dedicada a una evaluación simplificada de la madurez de los datos. Cuidado, el tamaño de la empresa y la madurez de los datos son dos cosas diferentes. Tu organización puede ser grande pero inmadura a nivel de datos.La madurez de los datos es el camino hacia la obtención de un valor tangible de sus activos de datos. Proponemos un marco sencillo de evaluación de la madurez de los datos, en el que se mide su capacidad para comprender su pasado, conocer su presente y predecir su futuro. ¿Qué quiero decir con esto?Bueno, en la mayoría de las empresas cada departamento tiene su propio conjunto de KPI que apoyan la ejecución de la estrategia corporativa. No basta con definirlos, sino que hay que hacer un seguimiento claro de los mismos, y también hay que tener la capacidad de predecir los resultados futuros con respecto a estos KPI. Esta capacidad se basa en un conocimiento claro de su presente, que, a su vez, se basa en una sólida comprensión del pasado. Si hace esto, habrá encontrado una forma sencilla de evaluar la madurez de sus datos. Por ejemplo, si no es capaz de identificar los impulsores de los ingresos de su empresa (su pasado), significa que necesita trabajar en su madurez de datos aportando visibilidad a su negocio antes de intentar predecir los resultados futuros. No recomendamos saltarse los pasos. Es como la jerarquía de necesidades de Maslow, pero para los datos.Jerarquía de necesidades de datos - Imagen de Louise de LeyritzVeamos un par de ejemplos prácticos:El retorno de la inversión en marketing. Defina su ROI, a través de múltiples canales, utilizando un modelo de atribución identificado. A continuación, comprenda su evolución en los 12 meses anteriores y, sobre todo, sus impulsores (identifique los canales que rinden, la época del año, el producto, ....). A continuación, realice un seguimiento diario/semanal/mensual de su evolución gracias a una herramienta de generación de informes en la que confíe ("presente"). Prevea su presupuesto de marketing basándose en estos modelos predictivos ( futuro).Satisfacción del cliente. Defina su medida de satisfacción del cliente. ¿Es NPS, CSAT? Todo el mundo en su empresa debería compartir un entendimiento común sobre cómo se calcula. Al igual que en nuestro ejemplo anterior, calcule su evolución en los 12 meses anteriores, encuentre sus impulsores (pasado). A continuación, realice un seguimiento diario de la satisfacción de sus clientes con cuadros de mando de confianza. Identifique las acciones que debe emprender desde hoy para aumentarla. Su comprensión del pasado y del estado actual de la satisfacción de los clientes le permitirá predecir eficazmente la pérdida de clientes (futuro).Comprender el pasado y el presente se conoce comúnmente como realizar análisis descriptivos. La analítica descriptiva ayuda a una organización a entender su rendimiento proporcionando un contexto para ayudar a los principales interesados a interpretar la información. Este contexto suele presentarse en forma de visualización de datos, incluyendo gráficos, cuadros de mando, informes y tablas. Cuando se analizan los datos para pronosticar el futuro, se está realizando un análisis predictivo. La idea de la analítica predictiva es tomar los datos históricos e introducirlos en un modelo de aprendizaje automático que tenga en cuenta los patrones clave. Aplicar este modelo a los datos actuales y esperar que prediga el futuro. Utilizaremos los términos de análisis descriptivo y predictivo a lo largo del artículo para referirnos a la comprensión del pasado, el presente o la predicción del futuro.Si se da cuenta de que su organización no está totalmente madura (es decir, no tiene una comprensión clara de su pasado y su presente), he aqui nuestras recomendaciones sobre cuáles deberían ser los próximos pasos de su equipo de datos.Leer También: ¿Que Es Open Innovation en Data Science?Actores clave de un equipo de análisis de datosUn equipo de análisis de datos suele estar compuesto por cuatro funciones principales, que se detallan a continuación.Ingeniero de datos: Son los responsables de diseñar, construir y mantener los conjuntos de datos que se pueden aprovechar en los proyectos de datos. Como tal, los ingenieros de datos trabajan estrechamente con los científicos de datos y los analistas de datos. También incluimos aquí el nuevo papel de ingeniero de análisis, aunque, en la práctica, este papel se encuentra entre el análisis y la ingeniería.Científico de datos: Utilizan matemáticas y estadísticas avanzadas y herramientas de programación para construir modelos predictivos. Las funciones de los científicos de datos y los analistas de datos son bastante similares, pero los científicos de datos se centran más en el análisis predictivo que en el descriptivo.Analista de datos: Utilizan los datos para realizar informes y análisis directos. Mientras que los científicos de datos y los ingenieros suelen interactuar con los datos en su estado bruto o sin refinar, los analistas trabajan con datos que ya han sido limpiados y transformados en formatos más fáciles de usar.Analista de negocio/analista de operaciones: Ayudan a la organización a mejorar sus procesos y sistemas. Se centran en la elaboración de cuadros de mando, responden a las preguntas del negocio y proponen su interpretación. Son ágiles y se sitúan a caballo entre las TI y el negocio para ayudar a salvar la distancia y mejorar la eficiencia. Suelen trabajar con un área de negocio específica, como el marketing o las finanzas, y sus conocimientos de SQL pueden abarcar desde cuadros de mando básicos hasta análisis avanzados.Jefe de análisis de datos: Proporcionan una supervisión estratégica al equipo de datos. Su objetivo es crear un entorno que permita a todas las partes acceder a los datos que necesitan sin problemas, desarrollar las habilidades de la empresa para obtener información significativa de los datos y garantizar la gobernanza de los datos. También actúan como puente entre el equipo de datos y la unidad de negocio principal, actuando tanto como visionario como líder técnico¿Qué tamaño debe tener el equipo?Diferentes empresas crearán equipos de datos de diferentes tamaños, no hay una talla única para todos. Hemos estudiado la estructura de los equipos de datos de más de 300 empresas, con un rango de 300 a 1000 empleados, y hemos obtenido las siguientes conclusiones:Como regla general, deberías aspirar a tener un total del 5-10% de empleados con conocimientos de análisis de datos en tu empresa. Algunas empresas, como Amazon o Facebook, forman a una gran parte de sus empleados, pero las hemos excluido de nuestro análisis.Las primeras contrataciones de un nuevo equipo de datos suelen ser un ingeniero de datos y un analista de datos. Con sólo estas dos funciones, las organizaciones ya pueden realizar algunos análisis descriptivos básicos. A la hora de crear un equipo más amplio, hay que pensar en el conjunto de habilidades que se necesitan. Un proyecto de datos típico requiere las siguientes habilidades: base de datos, desarrollo de software, aprendizaje automático, visualización, colaboración y habilidades de comunicación. Es muy raro encontrar personas que posean todas estas habilidades. Por lo tanto, debe ser consciente de qué habilidad aporta cada candidato. Independientemente del número de personas que decida contratar, su equipo debería cubrir idealmente este conjunto de habilidades. El punto en el que se encuentra en su viaje de datos también influye en quién contrata y en qué fase. Por lo general, los analistas de datos se centran en comprender el pasado. Es decir, toman los datos que usted tiene y tratan de entender los impulsores del crecimiento y otras métricas. Los analistas de negocio/obs se orientan hacia el presente (dashboarding). Por último, los científicos de datos se centran en predecir los resultados futuros. Por lo tanto, si tiene problemas para entender su pasado, contrate a un analista de datos en lugar de a un científico de datos.Lo que debería guiar en última instancia el tamaño de su equipo de datos es el número de enunciados de problemas empresariales y la complejidad de los problemas más graves. Observe el tamaño de su hoja de ruta y establezca cuántas personas necesita para completar sus proyectos de datos en un tiempo razonable. Si se da cuenta de que su equipo de datos tardará más de un año en completar sus proyectos, probablemente sea el momento de ampliar el equipo. También le animamos a que analice la relación entre ejecución y construcción. Los miembros de su equipo de datos "funcionan" cuando trabajan en las operaciones diarias del negocio, centrándose en el rendimiento actual de la organización. Se "construyen" cuando trabajan en proyectos a largo plazo, como la adición de nuevas características al producto. Su equipo de datos debería estar funcionando 2/3 del tiempo y construyendo 1/3 del tiempo. Si tu equipo de datos pasa todo su tiempo centrándose en las necesidades del día a día, estás poniendo en peligro el futuro de tu empresa, y probablemente sea el momento de ampliar el equipo.Por último, es posible que tengas que hacer algunas contrataciones específicas para un proyecto. Si eres una empresa de tecnología financiera que lleva a cabo un proyecto de detección de fraudes, o una empresa especializada en el envío de logística, es posible que quieras contratar a alguien que conozca las particularidades de tu sector..¿Cómo se integra el equipo de datos en la empresa?No existe una estructura perfecta para un equipo de análisis, y es probable que su estructura cambie muchas veces. Si la estructura de su equipo de datos no ha cambiado en los últimos 2 años, es probable que sea una estructura subóptima. ¿Por qué? Porque las necesidades de datos de su empresa evolucionan rápidamente, lo que exige una adaptación de la estructura de su equipo de datos. Además, tenga en cuenta que cuanto más estática sea su organización, más difícil será el siguiente cambio. Por esta razón, no prescribimos una estructura determinada, sino que presentamos los modelos más comunes y cómo pueden adaptarse a diferentes tipos de empresas.El primer paso que hay que dar para estructurar el equipo de datos es encontrar a las personas de datos que ya existen en la organización. Puede que no sean sólo las personas con el término "datos" en su título, sino que podrían ser cualquier empleado que no tenga miedo al análisis de datos o que ya tenga conocimientos de SQL, como los analistas de negocio/analistas de operaciones. Si no se toma la molestia de localizar cuidadosamente a las personas que ya tienen datos, es probable que acabe con una estructura de equipo de datos no planificada, que probablemente no se ajuste a las necesidades de su empresa.Leer También: ¿Cómo Hacer de Su Empresa Una Organización Basada En Datos?Centralized modelModelo centralizado para equipos de datos - Imagen de Louise de LeyritzEl modelo centralizado es la estructura más sencilla de implantar, y suele ser el primer paso para las empresas que pretenden orientarse hacia los datos. Sin embargo, este modelo presenta algunos inconvenientes, que se mencionan a continuación. Esta estructura suele dar lugar a una "plataforma" de datos centralizada, en la que el equipo de datos tiene acceso a todos los datos, y da servicio a toda la organización en una variedad de proyectos. Todos los ingenieros de datos, analistas y científicos de este equipo son dirigidos directamente por el jefe de datos. Con esta estructura, el equipo de datos informa en línea de puntos a los interesados en los datos basados en las unidades de negocio, en una relación de tipo consultor/cliente.Este modelo flexible se adapta a las necesidades en continua evolución de una empresa en crecimiento. Si está al principio de su viaje de datos, es decir, si todavía le cuesta tener una visión clara de su pasado y su presente, esta es la estructura que recomendamos. Los primeros proyectos del equipo de datos tratarán de aportar visibilidad al negocio, asegurando que todos los departamentos de su organización tengan KPI y cuadros de mando en los que puedan confiar. Este tipo de estructura es especialmente buena para la analítica, donde la reutilización y la gobernanza de los datos son importantes.Ventajas✅ El equipo de datos puede ayudar en los proyectos de otros equipos mientras trabaja en su propia agenda.✅ El equipo puede priorizar los proyectos de toda la empresa.✅ Hay más oportunidades para el desarrollo del talento y las habilidades en un equipo centralizado. De hecho, el equipo de datos trabaja en una variedad más amplia de proyectos, y los ingenieros, científicos y analistas de datos pueden beneficiarse de los conocimientos de sus compañeros.✅ El responsable de datos tiene una visión centralizada de la estrategia de la empresa y puede asignar al personal de datos a los proyectos más adecuados a sus capacidades.✅ Fomenta el crecimiento de la carrera, ya que los ingenieros de datos, los científicos y tienen perspectivas claras de los roles de antigüedad.Inconvenientes❌ Alta probabilidad de desconexión entre el equipo de análisis de datos y otras unidades de negocio. En este modelo, los ingenieros de datos y los científicos de datos no están inmersos en las actividades cotidianas de otros equipos, lo que les dificulta identificar los problemas más relevantes que hay que abordar.❌ Riesgo de que el grupo de analítica quede reducido a una función de "apoyo", sin que otros departamentos asuman sus responsabilidades.❌ Como el equipo de datos sirve al resto de la empresa, otras unidades de negocio podrían sentir que sus necesidades no se atienden adecuadamente, o que el proceso de planificación es demasiado burocrático y lento.Modelo descentralizado de equipos de datos - Imagen de Louise de LeyritzEn un modelo descentralizado, cada departamento contrata a su "propia" gente de datos, con una plataforma de datos centralizada. En este modelo, los analistas y científicos de datos se centran en los problemas de su unidad de negocio específica, con poca interacción con el personal de datos de otras áreas de la empresa. Con esta estructura, los analistas de datos informan directamente al jefe de su respectiva unidad de negocio.Ventajas✅ Los equipos integrados de personas de datos son ágiles y responden, porque se dedican a sus respectivas funciones de negocio y tienen un buen conocimiento del dominio.✅ Los jefes de producto pueden asignar las tareas de datos a las personas más cualificadas para trabajar en ellas.✅ Los equipos de datos empresariales no tienen que luchar por los recursos para construir su proyecto de datos porque los recursos se sientan en los equipos.Inconvenientes❌ Falta de fuente de la verdad, duplicación del contenido de los datos.❌ La gente de datos acaba trabajando en temas redundantes debido a la falta de comunicación entre los diferentes equipos.❌ La creación de silos conduce a la erosión de la productividad, ya que la gente de datos no puede aprovechar la experiencia de sus colegas como lo hacen en el modelo centralizado.❌ Este modelo dificulta la asignación óptima de personal de datos a diferentes proyectos.❌ A los directores de negocio, que no suelen tener formación técnica, les resulta difícil gestionar a los especialistas en datos y comprender la calidad de su trabajo.Modelo federado/ Centro de excelenciaUn modelo federado es el más adecuado para las empresas que han alcanzado la madurez de los datos, tienen una estrategia de datos clara y se dedican al análisis predictivoModelo de centro de excelencia l- Imagen de Louise de LeyritzEn el modelo de centro de excelencia (COE), el personal de datos está integrado en las unidades de negocio, pero sigue habiendo un grupo centralizado que proporciona liderazgo, apoyo y formación. Si los analistas y científicos de datos se despliegan por los departamentos de negocio, seguirá habiendo un líder de datos (o un núcleo de líderes de datos según el tamaño de la empresa) que prioriza y supervisa los proyectos de datos. Esto garantiza que los proyectos de datos más beneficiosos se aborden primero.Esta estrategia es la más adecuada para las empresas de mayor tamaño con una hoja de ruta de datos clara. El modelo de centro de excelencia implica un equipo de datos más grande, ya que se necesitan científicos de datos tanto en el COE como en las diferentes ramas de negocio. Si se trata de una empresa pequeña o mediana, es posible que sus necesidades no requieran un equipo de datos de este tamaño.Este enfoque conserva las ventajas tanto del modelo centralizado como del integrado. Es una estructura más equilibrada en la que las acciones del equipo de datos están coordinadas, pero también mantiene a los expertos en datos integrados en las unidades de negocio.De nuevo, es muy importante que sepas quién es tu gente de datos. Cuando cree un equipo centralizado al principio de su viaje de datos, asegúrese de no tener analistas/operadores de negocio integrados en otros departamentos. De lo contrario, terminará con un modelo mixto no deseado, creando un completo caos en su organización. Al crear un equipo centralizado, hay que asegurarse de que es deseado y planificado.Ventajas✅ El modelo de Centro de Excelencia ofrece las ventajas tanto del modelo centralizado como del integrado.Sin embargo, sigue presentando algunos inconvenientes:Inconvenientes❌ Este modelo requiere una capa adicional de coordinación y comunicación necesaria para garantizar la alineación entre el COE y las unidades de negocio.❌ No es adecuado para las organizaciones pequeñas y medianas, por lo que estas empresas pueden engancharse a los beneficios que puede aportar este modelo de centro y radio.Palabras finalesLa creación de un sólido equipo de análisis es un pilar clave que debe construirse si su empresa quiere estar orientada a los datos. La medida en que se extraiga valor empresarial de los datos depende, en última instancia, de la fuerza de este equipo y de su simbiosis con el resto de la empresa. No hay ningún consejo hecho a medida para el tamaño, la composición y la estructura de su equipo de datos. Por eso es necesario conocer el nivel de madurez de datos de su organización, para poder crear un equipo de datos adecuado a las necesidades de su empresa y alineado con su estrategia empresarial.En Castor, escribimos sobre todos los procesos que intervienen en el aprovechamiento de los activos de datos: desde la pila de datos moderna, pasando por la composición de los equipos de datos, hasta la gobernanza de los datos. Nuestro blog cubre los aspectos técnicos y menos técnicos de la creación de valor tangible a partir de los datos.En Castor, estamos construyendo una herramienta de documentación de datos para la generación de Notion, Figma y Slack. O de datos para los aficionados a Fivetran, Looker, Snowflake, DBT. Hemos diseñado nuestro catálogo para que sea fácil de usar, encantador y amigable.¿Quieres comprobarlo? Póngase en contacto con nosotros y le mostraremos una demostración.Publicado originalmente en https://www.castordoc.com.Leer También:- ¿Por qué las competiciones en data science son importantes para las startups?- Las Razones Por Las Que Todo Emprendedor Debe Implementar Inteligencia de Negocios (BI)
Nov 18, 2024
Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!