Amazon Elastic MapReduce (Amazon EMR) – это веб-сервис, позволяющий быстро и недорого обрабатывать большие объемы данных.
Amazon EMR упрощает обработку больших данных благодаря использованию инфраструктуры Hadoop, которая просто, быстро и недорого обеспечивает распределение больших объемов данных для их обработки динамически масштабируемыми инстансами Amazon EC2. В Amazon EMR можно также запускать другие широко распространенные распределенные инфраструктуры, например Apache Spark и Presto, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.
Amazon EMR безопасно и надежно выполняет обработку больших данных, в том числе анализ логов, веб-индексацию, хранение данных, функции машинного обучения, финансовый анализ, научное моделирование и задачи биоинформатики.
Гостевая запись об использовании BlueTalon с сервисом Amazon EMR, автор – Пратик Верма, учредитель и руководитель по продуктам компании BlueTalon.
Для запуска кластера Amazon EMR потребуется несколько минут. Не нужно заниматься выделением узлов и настройкой кластера и Hadoop. Об этом позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.
Ценообразование Amazon EMR просто и предсказуемо – почасовая оплата за каждый используемый инстанс. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке спотовых и зарезервированных инстансов EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.
Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба и с легкостью увеличивать или сокращать число инстансов, оплачивая только используемые ресурсы.
Вы можете сэкономить время, которое потратили бы на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг вашего кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя неисправные инстансы.
Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать серверное или клиентское шифрование Amazon S3 на базе EMRFS со службой управления ключами AWS или собственными ключами.
Вы полностью контролируете свои кластеры. У вас есть доступ с правами root к каждому инстансу, и вы можете с легкостью установить дополнительные приложения и настроить кластеры по своему усмотрению. Amazon EMR также поддерживает несколько дистрибутивов и приложений Hadoop.
Amazon EMR можно использовать для анализа данных навигации, чтобы сегментировать аудиторию и определить предпочтения пользователей. Анализ навигации и логи впечатлений от рекламы можно также использовать для более эффективного распространения рекламных материалов.
Подробнее о том, как компания Razorfish использует EMR для анализа навигации »
Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Amazon EMR можно использовать для обработки лог-файлов, генерируемых веб- и мобильными приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию об их приложениях или пользователях.
Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »
Вы готовы запустить свой первый кластер? Нажмите здесь для просмотра руководства. С его помощью вы создадите кластер, подсчитывающий частоту употребления слов в текстовом файле. Всего через несколько минут ваш кластер будет создан и начнет работу.

