Как Apache Kafka смазывает колеса для больших данных

2024

ÐÑÑÐ²Ð°ÐµÐ¼ÑÐ¾-Ð¼ÑÑÐ»-Ð¼ÑÑÐ¾

Аналитика часто описывается как одна из самых больших проблем, связанных с большими данными, но даже до того, как этот шаг может произойти, данные должны быть восприняты и предоставлены корпоративным пользователям. Именно здесь появился Apache Kafka.

Первоначально разработанный в LinkedIn, Kafka - это система с открытым исходным кодом для управления потоками данных в реальном времени с веб-сайтов, приложений и датчиков.

По существу, он действует как своего рода предприятие " центральная нервная система ", которая собирает данные большого объема о таких вещах, как активность пользователя, журналы, метрики приложений, биржевые тикеры и устройства, например, и делает его доступным как поток в реальном времени для потребления корпоративными пользователями.

[ Дальнейшее чтение: лучшие белые светодиодные светодиодные лампы]

Kafka часто сравнивают с такими технологиями, как ActiveMQ или RabbitMQ для локальных реализаций, или с Kinesis Amazon Web Services для облачных клиентов, сказал Стивен О'Грэди, соучредитель и главный аналитик RedMonk.

«Это становится все более заметным, потому что это высококачественный проект с открытым исходным кодом, но также потому, что его способность обрабатывать высокоскоростные потоки информации все более востребована для использования при обслуживании рабочих нагрузок, таких как IoT, среди прочих », - добавил О'Грэди.

С момента своего создания в LinkedIn, Kafka приобрела значительную поддержку со стороны таких компаний, как Netflix, Uber, Cisco и Goldman Sachs. В пятницу он получил новый импульс от IBM, который объявил о доступности двух новых сервисов на основе Kafka через свою платформу Bluemix.

Новая служба IBM Streaming Analytics нацелена на анализ миллионов событий в секунду для периодов ответа в миллисекундах и мгновенное принятие решений. IBM Message Hub, теперь в бета-версии, обеспечивает масштабируемую, распределенную, высокопроизводительную асинхронную передачу сообщений для облачных приложений, с возможностью использования REST или Apache Kafka API (интерфейс прикладного программирования) для взаимодействия с другими приложениями.

Kafka был open-sourced в 2011 году. В прошлом году три создателя Kafka запустили Confluent, стартап, призванный помочь предприятиям использовать его в производстве по шкале.

«Во время нашей фазы взрывного роста в LinkedIn мы не могли идти в ногу с растущим пользователем базу и данные, которые могут быть использованы, чтобы помочь нам улучшить работу пользователей », - сказала Неха Нархед, один из создателей Кафки и соучредителей Confluent.

« Что Kafka позволяет вам делать, это перемещать данные по всей компании и делать это доступный как непрерывный поток в течение нескольких секунд для людей, которым необходимо его использовать », - объяснил Наркхед. «И это происходит в масштабе».

Влияние на LinkedIn было «трансформационным», сказала она. Сегодня LinkedIn остается крупнейшим развертыванием Kafka в производстве; он превышает 1,1 трлн. сообщений в день.

Confluent, тем временем, предлагает расширенное программное обеспечение для управления по подписке, чтобы помочь крупным компаниям запустить Kafka для производственных систем. По словам Нархеде, среди его клиентов есть крупный крупный розничный торговец крупными лотами и «один из крупнейших эмитентов кредитных карт в Соединенных Штатах».

Последняя использует технологию защиты от мошенничества в режиме реального времени, сказала она.

Kafka - это «невероятно быстрый обмен сообщениями», который помогает быстро интегрировать множество разных типов данных, сказал Джейсон Стампер, аналитик 451 Research. «Вот почему он становится одним из самых популярных вариантов».

Помимо ActiveMQ и RabbitMQ, другой продукт, предлагающий аналогичную функциональность, - Apache Flume, отметил он; Storm и Spark Streaming аналогичны во многом.

В коммерческом пространстве конкуренты Confluent включают в себя IBM InfoSphere Streams, Ultra Messaging Streaming Edition Informatica и технологию обработки потоков событий SAS (ESP), а также Apama, AGP от Software AG и StreamBase от Tibco Добавлены SAP Aleri, Stamper. Меньшие конкуренты включают DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic и Glassbeam.

В облаке служба обработки потоков Kinesis от AWS обладает дополнительным преимуществом интеграции с такими хранилищами данных Redshift и платформой хранения S3 », - сказал он.

Недавно анонсированный слушателем Teradata Listener является еще одним претендентом, и это основанный на Кафке а также отметили Брайана Хопкинса, вице-президента и главного аналитика Forrester Research.

В целом наблюдается заметная тенденция к данным в реальном времени, сказал Хопкинс.

До 2013 года или около того «большие данные были все о массивном количестве данных, заполненных в Hadoop », - сказал он. «Теперь, если вы этого не делаете, вы уже находитесь за кривой мощности».

Сегодня данные из смартфонов и других источников предоставляют предприятиям возможность взаимодействовать с потребителями в режиме реального времени и предоставлять контекстуальный опыт, он сказал. Это, в свою очередь, опирается на способность понимать данные быстрее.

«Интернет Вещей похож на вторую волну мобильных устройств», объяснил Хопкинс. «Каждый поставщик позиционируется для лавины данных».

В результате технология адаптируется соответствующим образом.

«До 2014 года это было все о Hadoop, тогда это был Spark», - сказал он. «Теперь это Hadoop, Spark и Kafka. Это три равных партнера в конвейере обработки данных в этой современной аналитической архитектуре».