Эволюция обработки фактов: фон в горшке
Опубликовано: 2022-03-14Как развивалась (открытая поставка) обработка деталей? И как менялись характерные системы с течением времени по мере того, как системы обработки данных становились все более совершенными, а объем и скорость производства знаний увеличивались с каждым часом?
Позвольте нам провести тест, чтобы ответить на следующие два вопроса: как мы можем обрабатывать детали и какие методы обработки знаний доступны нам в настоящее время? Почему мы обрабатываем информацию?
Это совершенно ясно, если подумать о значительном количестве связанных гаджетов, датчиков и посещений веб-страниц. Не говоря уже обо всех деталях, созданных людьми и оборудованием. Очевидно, что обработка информации была повсюду с тех пор, как мы изобрели компьютерные системы и научились получать информацию.
В стартовом…
Создание персональных компьютеров породило явную потребность в обработке информации и фактов. В эти невероятно ранние времена специалисты по ноутбукам или компьютерам имели опыт создания пользовательских приложений для обработки информации, и они, скорее всего, были сохранены на перфокарте.
Следующие действия принесли язык ассемблера и дополнительные целенаправленные языки программирования, такие как Fortran, принятые C и Java. На протяжении всего доисторического пространства огромных фактов разработчики программного обеспечения использовали эти языки для написания специально разработанных курсов для уникальных заданий по обработке информации.
С другой стороны, эта парадигма обработки деталей была доступна только избранной паре из тех, кто имел опыт программирования, что мешало более широкому внедрению информационными аналитиками или более широким сообществом компаний, которые хотели систематизировать данные и делать конкретные выводы.
Следующим чисто естественным действием стало изобретение базы данных в 1970-х годах. Стандартные единицы реляционной базы данных, такие как базы данных IBM, сделали возможным использование SQL и повысили степень внедрения обработки данных более широкой аудиторией. SQL — это стандартизированный и выразительный язык вопросов, который читается как английский.
Это позволило большему количеству людей получить доступ к обработке данных, которые, следовательно, уже давно не могли рассчитывать на программистов для создания эксклюзивных пакетов для конкретных ситуаций и анализа данных. SQL также расширил спектр и форму целей, связанных с обработкой данных, таких как корпоративные программы, аналитика затрат на отток, общий размер корзины, годовые показатели развития и т. д.
Рассвет важной информации
Эпоха огромной информации началась с статьи MapReduce, подготовленной Google, в которой объясняется простой продукт, зависящий от двух примитивов — Map и Cutdown.
Эти примитивы позволяли проводить параллельные вычисления на большом количестве параллельных машин. Конечно, параллельные вычисления были возможны еще до эпохи MapReduce с помощью многочисленных компьютеров, суперкомпьютеров и устройств MPI. Тем не менее, MapReduce сделал его доступным для более широкого круга зрителей.
Apache Hadoop появился позже как реализация платформы с открытым исходным кодом (сначала реализованная в Yahoo!), которая была широко распространена в области открытого исходного кода и была доступна более широкому кругу зрителей. Hadoop был принят целым рядом корпораций, и несколько игроков Significant Facts возникли в рамках Hadoop.
Hadoop представил новую парадигму в сфере обработки данных: возможность хранить информацию о выходе в рассредоточенной файловой системе или хранилище (например, HDFS для Hadoop), которые затем можно запрашивать/запрашивать на более позднем уровне.
Hadoop проложил аналогичный путь к реляционным базам данных, в результате чего персонализированное программирование сначала было объединено отдельным «кастом» людей, которые были готовы создавать программы, а затем реализовывать SQL-запросы к знаниям в технологии распределенных файлов, такого рода как Hive или другие системы хранения.

На связи: обширная информация и 5 больших плюсов Hadoop .
Пакетная обработка увеличивается
Будущая фаза в Huge Facts была отмечена введением Apache Spark. Spark позволил дальнейшее распараллеливание и вывел пакетную обработку на следующий уровень. Как указывалось ранее, пакетная обработка состоит из помещения фактов в процесс хранения, над которым затем выполняются рутинные вычисления.
Ключевая идея здесь заключается в том, что ваши факты хранятся где-то, хотя вы периодически (ежедневно, еженедельно, ежечасно) запускаете вычисления для получения результатов, основанных главным образом на прошлых данных. Эти вычисления никогда не выполняются последовательно и имеют начальный уровень и конечную точку. В результате вам придется повторно использовать их на постоянной основе для получения актуальных окончательных результатов.
От массивных знаний к быстрым знаниям — внедрение потоковой обработки
На этом предстоящем этапе эволюции большой информации было отмечено введение потоковой обработки с Apache Storm, оставшимся самой первой широко используемой платформой (в то же время появились другие учебные системы и фреймворки, но Storm была единственной, которая получила более широкое распространение). Эта структура позволяла создавать пакеты, которые могли работать непрерывно (24/7).
В отличие от тактики пакетной обработки, когда планы и приложения имеют начало и завершение, программы потоковой обработки постоянно работают с фактами и выдают результаты в режиме реального времени, хотя факты создаются. Потоковая обработка стала еще более сложной с появлением Apache Kafka (созданный вместе с LinkedIn) в качестве механизма хранения потока сообщений. Kafka выступала в роли буфера, включающего источники информации и программу обработки (например, Apache Storm).
Lambda Architecture немного изменила историю больших данных. Эта архитектура возникла из-за того, что первоначальные сторонники потоковой обработки не считали, что методы потоковой обработки, такие как Apache Storm, достаточно надежны, поэтому они сохраняли управление всеми системами (пакетной и потоковой обработки) одновременно.
Архитектура Lambda представляла собой смесь двух устройств: программа потоковой обработки, такая как Apache Storm, использовалась для получения информации в реальном времени, но затем архитектура периодически использовала систему пакетной обработки, которая поддерживала истинную правду о том, что произошло.
Apache Flink — потоковая обработка становится доступной
Примерно в 2015 году Apache Flink стал выдающимся фреймворком для потоковой обработки, принятым разработчиками и лидерами в области фактов и аналитики.
Подходящий с самого начала, Flink продемонстрировал очень надежную семантику сразу после завершения и отказоустойчивый механизм обработки, который убедил пользователей в том, что архитектура Lambda больше не важна и что потоковая обработка может быть надежной для сложной обработки событий и непрерывной пробежки, критически важные приложения. Все накладные расходы, связанные с разработкой и поддержкой двух модулей (пакетная/потоковая обработка), стали излишними из-за надежной и доступной структуры обработки данных Flink.
Потоковая обработка запустила новую парадигму и сдвиг в менталитете от позиции запроса ответа, где информация хранится до допроса о возможных обстоятельствах мошенничества, к человеку, где вы сначала проверяете мысли, а затем получаете факты в аутентичное время как информация создается. Например, с помощью потоковой обработки вы можете разработать программное обеспечение для обнаружения мошенничества, работающее круглосуточно и без выходных. Он будет получать ситуации в режиме реального времени и дает вам представление о мошенничестве с картами кредитной истории, предотвращая его реальное появление на первом месте. Скорее всего, это один из самых значительных сдвигов в обработке деталей, поскольку он позволит в реальном времени понять, что происходит во всем мире.
Эволюция обработки фактов с открытыми ресурсами имеет типичный характер: на рынок выводится новая структура (например, реляционная база данных, пакетная обработка, потоковая обработка), которая изначально легко доступна для уникальных зрителей (программистов), которые могут создавать индивидуальные пакеты. приближаться к знаниям.
Затем следует введение SQL в инфраструктуру, что, как правило, делает его общедоступным для аудитории, которая на самом деле не хочет писать пакеты для сложной обработки информации.
Потоковая обработка следует очень похожему шаблону SQL для действий по потоковой обработке, широко распространенному в потоковых приложениях, что подтверждает шаблон, который мы знали в прошлом. Ожидается, что рынок потоковой обработки будет расширяться в геометрической прогрессии в ближайшие годы со среднегодовым темпом роста 21,6%. С этим ростом и разнообразием приложений для потоковой обработки и обстоятельств использования, растущих с каждым днем, событий в этой области довольно много, и будущее потоковой обработки — это изменяющаяся в любое время и развивающаяся природная среда.
Алйоша Креттек является соучредителем и директором по проектированию компании Veverica .