АНАЛИЗ ТЕХНИЧЕСКОГО ЗАДАНИЯ. Вопросы. 1 Основные принципы работы MapReduce Map, Shuffle, Reduce
Скачать 18.4 Kb.
|
1)Основные принципы работы MapReduce: Map, Shuffle, Reduce Disco, Qizimt, CouchDB Shuffle, Reduce, Qizimt Map, Reduce, Disco Map – предварительная обработка входных данных в виде большого список значений. При этом главный узел кластера (master node) получает этот список, делит его на части и передает рабочим узлам (worker node). Далее каждый рабочий узел применяет функцию Map к локальным данным и записывает результат в формате «ключ-значение» во временное хранилище. Shuffle, когда рабочие узлы перераспределяют данные на основе ключей, ранее созданных функцией Map, таким образом, чтобы все данные одного ключа лежали на одном рабочем узле. Reduce – параллельная обработка каждым рабочим узлом каждой группы данных по порядку следования ключей и «склейка» результатов на master node. Главный узел получает промежуточные ответы от рабочих узлов и передаёт их на свободные узлы для выполнения следующего шага. Получившийся после прохождения всех необходимых шагов результат – это и есть решение исходной задачи. 2) Что такое MAP: 1)Map – предварительная обработка входных данных в виде большого список значений. При этом главный узел кластера (master node) получает этот список, делит его на части и передает рабочим узлам (worker node). 2)MAP - это модель распределённых вычислений от компании Google, используемая в технологиях Big Data для параллельных вычислений над очень большими (до нескольких петабайт) наборами данных в компьютерных кластерах, и Фреймворк для вычисления распределенных задач на узлах (node) кластера. 3)МАР - бесплатная реализация с открытым исходным кодом на языке Java; 4)МАР -надстройка с открытым исходным кодом от Facebook, позволяющая комбинировать подход MapReduce и доступ к данным на SQLподобном языке; 3) В каком году началась разработка headoop ? 1) 2000г. 2) 2002г. 3) 2005г. 4) 2006г. 2005 – публикация сотрудников Google Джеффри Дина и Санжая Гемавата о вычислительной концепции MapReduce с подвигла Дуга Каттинга на инициацию проекта. 4) В каком году впервые применили headoop ? 1) 2007г. 2) 2008г. 3) 2009г. 4)2010г. 2008 – Yahoo запустила кластерную поисковую машину на 10 тысяч процессорных ядер под управлением Hadoop, который становится проектом верхнего уровня системы проектов Apache Software Foundation. 5) Основной поставщик headoop ? 1) Hadoop YARN 2) Hadoop common 3) ZooKeeper 4) Apache Hadoop 6) Что такое Cloudera ? 1) распределённая файловая система, позволяющая хранить информацию практически неограниченного объёма. 2) способен обеспечивать возможность параллельного выполнения нескольких задач 3) Ключевой продукт – CDH (Cloudera Distribution including Apache Hadoop) – связка наиболее популярных инструментов из инфраструктуры Hadoop 4) это модуль, который отвечает за управление ресурсами в кластере и планирование заданий |