La evolución del procesamiento de hechos: un trasfondo en maceta
Publicado: 2022-03-14¿Cómo se ha desarrollado el procesamiento de detalles (suministro abierto)? ¿Y cómo han progresado los distintos sistemas a lo largo del tiempo a medida que los marcos de procesamiento de datos se han vuelto más refinados y el volumen y el ritmo de los datos producidos se han ampliado por horas?
Permítanos probar para responder las siguientes dos preguntas: ¿Cómo podemos procesar los detalles y cuáles son las técnicas de procesamiento de conocimiento disponibles para nosotros hoy en día? ¿Por qué procesamos la información?
Eso es bastante claro cuando piensas en la cantidad sustancial de dispositivos, sensores y visitas a páginas web relacionadas. Por no hablar de todos los detalles producidos por los seres humanos y el equipo. Es evidente que el procesamiento de información ha existido desde que inventamos los sistemas informáticos y experimentamos la obtención de información.
En el arranque…
La creación de las computadoras personales generó una clara necesidad de procesamiento de información y hechos. Durante estos tiempos increíblemente tempranos, los expertos en computadoras portátiles o computadoras experimentaron la creación de aplicaciones personalizadas para procesar información y estas probablemente se guardaron en una tarjeta perforada.
Las siguientes acciones trajeron lenguaje ensamblador y lenguajes de programación adicionales como Fortran, adoptado por C y Java. A lo largo del espacio prehistórico de datos masivos, los ingenieros de software usarían estos lenguajes para escribir cursos especialmente diseñados para trabajos de procesamiento de información únicos.
Por otro lado, este paradigma de procesamiento de detalles solo era accesible para una pareja selecta con experiencia en programación que impedía una adopción más amplia por parte de los analistas de información o la comunidad empresarial más amplia que quería sistematizar datos y sacar conclusiones específicas.
La siguiente acción puramente natural vio la invención de la base de datos, en y alrededor de la década de 1970. Las unidades de bases de datos relacionales estándar, como las bases de datos de IBM, habilitaron SQL y elevaron la adopción del procesamiento de datos por audiencias más amplias. SQL es un lenguaje de preguntas estandarizado y expresivo que se lee como el inglés.
Permitió que más personas accedieran al procesamiento de datos que, por lo tanto, ya no tenían la experiencia de contar con programadores para crear paquetes exclusivos de situación por situación y analizar datos. SQL también amplió el número y la forma de las funciones relacionadas con el procesamiento de datos, como los programas empresariales, el análisis de los costos de abandono, el tamaño de la cesta promedio, las cifras de crecimiento de 12 meses, etc.
El amanecer de la información principal
La era de la Gran Información comenzó con el artículo MapReduce, producido por Google, que explica un producto simple basado en dos conceptos básicos: Map y Cut down.
Estas primitivas permitieron cálculos paralelos en una gran cantidad de máquinas paralelas. Ciertamente, los cálculos paralelos eran factibles incluso antes de la era de MapReduce por medio de numerosas computadoras, supercomputadoras y dispositivos MPI. Sin embargo, MapReduce lo diseñó disponible para una audiencia más amplia.
Apache Hadoop llegó después como una implementación de código abierto del marco (al principio implementado en Yahoo!) que estaba ampliamente disponible en el área de código abierto y estaba disponible para una audiencia más amplia. Hadoop fue adoptado por una variedad de corporaciones y varios jugadores de Hechos significativos tuvieron sus orígenes dentro del marco de Hadoop.
Hadoop introdujo un nuevo paradigma en la casa de procesamiento de datos: la capacidad de vender información en un proceso de archivo disperso o almacenamiento (como HDFS para Hadoop) que luego podría ser interrogado/consultado en un nivel posterior.
Hadoop abrió una ruta similar a las bases de datos relacionales en las que la primera etapa incluyó programación personalizada por un "elenco" distinto de personas que estaban listas para crear programas para luego poner en práctica consultas SQL sobre datos en una técnica de archivos distribuidos, este tipo de como Hive u otros marcos de almacenamiento.

Conectado: información masiva y las 5 grandes ventajas de Hadoop .
El procesamiento por lotes se incrementa
La fase futura de Huge Facts notó la introducción de Apache Spark. Spark permitió una mayor paralelización y llevó el procesamiento por lotes al siguiente nivel. Como se señaló anteriormente, el procesamiento por lotes consiste en colocar hechos en un proceso de almacenamiento en el que luego realiza cálculos de rutina.
La idea clave aquí es que sus datos se encuentran en algún lugar mientras realiza cálculos periódicamente (diariamente, semanalmente, por hora) para obtener efectos basados en datos anteriores. Estos cálculos nunca se ejecutan consistentemente y tienen un nivel inicial y un punto final. Como resultado final, debe volver a operarlos de forma continua para obtener resultados finales actualizados.
Del conocimiento masivo al conocimiento rápido: la introducción del procesamiento de flujo
Esta próxima etapa en la evolución de Big Information vio la introducción del procesamiento de flujo con Apache Storm siendo el primer marco muy utilizado (había otros sistemas de estudio y marcos al mismo tiempo, pero Storm fue el único en ver una adopción mejorada). Este marco permitió que se escribieran paquetes que pudieran operar continuamente (24/7).
A diferencia de la táctica de procesamiento por lotes, donde los planes y las aplicaciones tienen un comienzo y una conclusión, los programas de procesamiento continuo se ejecutan continuamente en hechos y generan resultados en tiempo real, aunque los hechos se producen. El procesamiento de flujos fue aún más sofisticado con la introducción de Apache Kafka (originado con LinkedIn) como mecanismo de almacenamiento para un flujo de mensajes. Kafka actuó como un búfer entre las fuentes de información y el programa de procesamiento (como Apache Storm).
Lambda Architecture creó un ligero desvío en la historia de la Gran Información. Esta arquitectura se originó porque los adoptantes iniciales del procesamiento de flujo no sintieron que los métodos de procesamiento de flujo como Apache Storm eran lo suficientemente confiables, por lo que ahorraron la administración de ambos sistemas (procesamiento por lotes y flujo) al mismo tiempo.
Lambda Architecture fue una combinación de los dos dispositivos: se usó un programa de procesamiento de flujo como Apache Storm para obtener información en tiempo real, pero luego la arquitectura usó periódicamente un sistema de procesamiento por lotes que mantuvo la verdad básica de lo que sucedió.
Apache Flink: el procesamiento de flujo se vuelve disponible
Alrededor de 2015, Apache Flink comenzó a convertirse en un excelente marco de procesamiento de flujo adoptado por desarrolladores y líderes de hechos/análisis.
Conveniente desde el principio, Flink mostró garantías muy sólidas después de la semántica y un motor de procesamiento tolerante a fallas que hizo que los usuarios creyeran que la arquitectura Lambda ya no era importante y que el procesamiento de flujo sería confiable para el procesamiento de eventos sofisticados y el funcionamiento continuo. aplicaciones de misión crítica. Todos los gastos generales que surgieron con el desarrollo y mantenimiento de dos unidades (procesamiento por lotes/flujo) se volvieron redundantes debido al marco de procesamiento de datos confiable y disponible de Flink.
El procesamiento de flujo lanzó un nuevo paradigma y un cambio en la mentalidad de una postura de pregunta por respuesta, exactamente donde la información se almacena antes de un posible interrogatorio de circunstancias de fraude a una persona donde primero verifica con pensamientos y luego obtiene los hechos en tiempo real como el se crea la información. Por ejemplo, con el procesamiento de flujo puede desarrollar un software de detección de fraude que se ejecuta las 24 horas del día, los 7 días de la semana. Obtendrá situaciones en tiempo real y le brindará información sobre cuándo hay un fraude con tarjeta de crédito, evitando que realmente suceda en el primer lugar. Es probable que este sea uno de los cambios aún más grandes en el procesamiento de detalles, ya que permitirá obtener información en tiempo real sobre lo que está ocurriendo en todo el mundo.
La evolución del procesamiento de hechos de recursos abiertos ha experimentado un patrón típico: se introduce un nuevo marco en el mercado (es decir, una base de datos relacional, procesamiento por lotes, procesamiento de flujo) que inicialmente está disponible para espectadores únicos (programadores) que pueden producir paquetes personalizados. acercarse al conocimiento.
Luego viene la introducción de SQL en el marco que tiende a hacerlo comúnmente accesible a audiencias que realmente no quieren escribir paquetes para procesamiento de información sofisticado.
El procesamiento de transmisiones sigue un patrón SQL muy similar para las actividades de procesamiento de transmisiones, una amplia adopción en las aplicaciones de transmisión que valida el patrón que conocíamos en el pasado. Se prevé que el mercado de procesamiento de flujo se expanda exponencialmente en los próximos años a una CAGR del 21,6 por ciento. Con este crecimiento y la variedad de aplicaciones de procesamiento de flujo y las circunstancias de uso que explotan día a día, los desarrollos en este lugar son bastantes y el futuro del procesamiento de flujo es un entorno natural que cambia y evoluciona en cualquier momento.
Aljoscha Krettek es cofundadora y directora de ingeniería en Veverica .