Лабораторная работа 1. Лабораторная работа Разворачивание Hadoop на кластере из одного узла Virtual

Название	Лабораторная работа Разворачивание Hadoop на кластере из одного узла Virtual
Дата	09.05.2022
Размер	320.08 Kb.
Формат файла
Имя файла	Лабораторная работа 1.docx
Тип	Лабораторная работа #518639

Лабораторная работа 1.

Разворачивание Hadoop на кластере из одного узла (Virtual Box, Ubuntu)

ПРИМЕЧАНИЕ: если вы ищите инструкцию по установке системы в параллельном режиме (два и более компьютеров в кластере), то вам сюда. Будем использовать виртуальную машину с платформой виртуализации VirtualBox доступной на Windows, со следующими компонентами:

Операционная система: ubuntu - установите её "на виртуалбокс", и создайте общую папку.

Рекомендации по созданию общей папки: создадим на компе папку share (например, на диске С:). Подключим её через меню вирутальной машины (предварительно установив дополнения гостевой ОС) - в поле "имя папки" укажем имя - ну например - share. Прежде всего - если не подключен CD/DVD-привод - подключите его, затем - Следует просто выбрать из главного меню машины (виртуал бокс) Устройства -> Установить дополнения гостевой ОС, после чего, собственно, должен смонтироваться образ с дополнениями - ubuntu12 "сама" предложит запустить его исполняемый код и в консоли будет выведен отчёт о процессе установки, после чего нужно будет перезапустить систему.

Ещё вариант подключения общей папки:

Создадим на компе папку share (например на диске С:)

Подключим её через меню вирутальной машины (предварительно установив дополнения гостевой ОС) - в поле "имя папки" укажем имя - например - share.

Samba — пакет программ, которые позволяют обращаться к сетевым дискам и принтерам на различных операционных системах по протоколу SMB/CIFS. Имеет клиентскую и серверную части.

Потом создадим уже в убунте папку к которой мы примонтируем наш "сетевой диск" - создадим её в домашней директории (и тоже назовём share) то есть по адресу: /home/name/ гдe name - имя пользователя. например если моего пользователя зовут уникальным именем qwe, то создим папку расположенную по адресу: /home/qwe/share. А дальше выполним команду монтирования: sudo mount -t vboxsf share /home/qwe/share.

И теперь в папке /home/qwe/share будет отображаться всё, что мы забросим туда из хост-системы.

Java 1.7 - установите её в убунту

Рекомендации по установке Java

Выполним команду в терминале: sudo apt-get install default-jdk

Hadoop 7.7.0 hadoop-2.7.7.tar.gz

https://hadoop.apache.org/

apache-mirror.rbc.ru/pub/apache/hadoop/common/hadoop-2.2.0/

Создание новых пользователя и группы

Итак, запускаем терминал (командную строку ubuntu) и делаем так и создаём нового пользователя в группе hadoop (её тоже придётся создать, что мы и делаем первой командой):

$ sudo addgroup hadoop

$ sudo adduser --ingroup hadoop hduser

Настройки SSH

Secure Shell, т. е. SSH – протокол, обеспечивающий защищённые соединения и передачу данных между двумя удалёнными компьютерами.

Для связи с узлами hadoop использует SSH - а потому нам следует настроить эту службу. Сгенерируем SSH ключ, для созданого нами на предыдущем шаге пользователя hduser - для этого выполним две такие команды - сменим пользователя:

su - hduser

и запустим генерацию ключа:

ssh-keygen -t rsa -P ""

Далее ubuntu попросит ввести имя для файла - введи - и запомните путь куда сохранится.

Далее разрешим доступ к нашей машине с только что созданным ключом:

сat имя_ключа.pub>>.ssh/ authorized_keys

Пробуем подключиться: ssh localhost.

Проверить установлен ли сервер (sshd start), если нет - то установить (sudo apt-get install ssh) и опять же пробовать подключиться (если не работает - проверьте параметры /etc/ssh/sshd_config).

Выключаем IPv6

Также перед установкой рекомендуется выключить IPv6, а именно

Добавьте в файл /etc/sysctl.conf редактор nano

такие строки:

# disable ipv6

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

Сохраните его и перезагрузите систему. Проверить включен ли IPv6 можно так:

cat /proc/sys/net/ipv6/conf/all/disable_ipv6 если возвращается ноль - значит поддержка включена

Установка Hadoop

Перейдём в папку: cd /usr/local/

Запускаем команду распаковки и установки hadoop:

sudo tar xzf hadoop-2.7.0.tar.gz

Переместим в папку в с более изящным названием, чем то, где указана версия и сделаем владельцем её специально созданного ранее пользователя:

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser:hadoop hadoop

Ну вот теперь хадуп установлен в папку

/usr/local/hadoop (проверьте путь в проводнике)

Далее поправим файл опций терминала для нашего спец. пользователя.

Откройте .bashrc файл ,который лежит к домашней папке созданного нами пользователя (он может быть скрыт - и его придётся показать)

Запустите терминал с полными правами (sudo nautilus) далее в главном меню : Edit -> Preferences и поставьте галочку: Show hidden and backup files.Ещё способы

Кликните на на оконо проводника (nautilus-а) и нажмите Ctrl+H

Далее добавьте в конец файла следующее (внимательно посмотрите пути к яве и хадупу) source .bashrc

Зайдите под пользователем для которого редактировали этот скрипт и просто выполните команду: hadoop

HADOOP почти заработал!

Итак после того как hadoop установлен, мы можем запустить его базовой командой которая выведет опции запуска - команда:

Получим

Теперь давайте попробуем такую команду (позволит нам увидеть список доступных примеров): wordcount

При её использовании может возникнуть подобная решаемая проблема

То есть файл найти не удаётся чтобы справится с ней нужно указать конкретное имя файла (hadoop-examples.jar) - переходим в папку где действительно лежит файл
например путь может быть таким:

и выполняем команду:

Получим список стандартных примеров (в виде предупреждения о том что нужно указывать имя программы в качестве параметра):

Пример - программа посчёта слов. Теперь запустим конкретный пример wordcount

получим предупреждение о том, что необходимо создать входной и выходной каталоги:

Создадим входной каталог input c использованием команды:

Положим туда какие-нибудь текстовые документы (например, можно скопировать пару-тройку статей из википедии).

Далее добавим входную директорию в "файловую систему" hadoop, в качестве такой директории будем использовать /home/training/input:, поэтому выполняется команда:

Теперь мы можем выполнить команду запуска программы подсчёта слов:

hadoop jar hadoop-examples.jar wordcount /home/training/input /home/training/output
Источники

http://fkn.ktu10.com/?q=node/5576

https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html