Вы здесь

RRD Tool

В жизни каждого администратора, рано или поздно, встает задача мониторинга и управления сетью.
Кроме того, при наличии службы технической поддержки, начинает надоедать выполнение примитивных задач по выявлению мелких неисправностей у клиентов.
Давать суппортерам доступ к серверам, естественно, нет ни какого желания.
Соединив воедино две задачи, был разработан (и постоянно усовершенствуется) сервер NOC.

За основу были взяты коллектор cricket и утилиты визуализации RRD баз – RRDTool.

CGI скрипты написаны на perl, движок сайта на php.

Чтобы не плодить кучу аккаунтов, авторизация на сервере реализована через AD.

Главная страница условно разделена на две области (рис. 1)
1. Коммутаторы и маршрутизаторы. 2. Каналы.

Рисунок 1. Главная страница.

Раздел «Коммутаторы» (1) содержит ссылки на графики коммутаторов и маршрутизаторов сгруппированными по Отделам (4).
В отдельный раздел вынесены серверные коммутаторы (3).
Доступ в определенные области раздела требует дополнительных прав (Пользователь должен быть включен в группу Старших программистов или Администраторов MRTG). Такие области помечены как «только для админов» (8).
Разделы отделов содержат три колонки (4).
Левая колонка содержит ссылки на корневые (core) коммутаторы территории. Корневыми коммутаторами являются коммутаторы подключенные непосредственно к центральному коммутатору АТ 9924 выполняющему функции маршрутизатора внутренней сети и шлюза по умолчанию для пользователей. В средней (6) и правой (7) колонках расположены ссылки на коммутаторы доступа (bbn). Если отдел включает в себя несколько территорий, то коммутаторы сгруппированы по колонкам согласно территорий. Для примера в средней колонке (6) отдела «Сретенский» (4) находятся ссылки на графики коммутаторов территории №1, а в правой (7) коммутаторов территории №2.

Раздел «Каналы» (2) содержит несколько подразделов с соответствующими ссылками.
Внешние каналы (8) Содержит ссылки на графики внешних каналов и таблицы трафика по внешним каналам.
WeatherMap (9) содержит ссылки на серверную и территориальные схемы загрузки каналов.
Сервисы (10) содержит ссылки на дополнительные сервисы Lan Looking Glass, NAS Services и Администрирование.
Сервера (11) содержит ссылки на графики ряда сервисов по серверам и статистику по ppp-туннелям сгруппированную по сетям.
В отдельную группу ниже (12) вынесены ссылки на статистику по туннелям сгруппированную по серверам и отделам. Также в данном разделе представлена ссылка на статистику по туннелям на NAS-ах и загрузку их процессоров.

Рассмотрим более подробно ряд разделов.

Начнем с просмотра и анализа графиков загрузки портов коммутаторов (5,6,7)
Имена коммутаторов формируются из их назначения core — корневой коммутатор территории, bbn — коммутатор доступа (клиентский). sw- сокращение от switch (от англ. коммутатор). Дале идет номер территории и через точку последний октет IP-адреса данного коммутатора.

Рисунок 2. Страница статистики по портам коммутатора.

На данной странице показываются графики (2) загрузки портов по потоку проходящему через соответствующие порты коммутатора со средним значением за 5 минут.
В заголовке страницы (1) содержится название коммутатора. Оно несколько отличается от того названия, которое представлено на первой странице. Разница заключается в наличии лидирующий нулях в последнем октете IP. Скажем коммутатор core-sw2.42 будет отображаться как core-sw2.042.
В двух словах, это связано с тем, что ядро системы при сборе статистики просматривая файлы конфигурации ищет совпадение по маске, поэтому при поиске коммутатора, скажем bbn-sw2.2 будут также найдены коммутаторы bbn-sw2.21, bbn-sw2.213 и т.п. и взята последняя найденная запись. В результате этого, данные по коммутатору bbn-sw2.2 будут записаны не в ту базу. Чтобы избежать этой путаницы и добавляются лидирующие нули в конфигурационные файлы, а для удобства чтения на главной странице, они убраны при выводе ссылок.

Рассмотрим более подробно сам график (рис. 3)

Рисунок 3. График потока порта.

В заголовке графика всегда указано служебное имя порта (1) и описание порта (2). Если описание (опция Description) при настройке коммутатора на соответствующем порту не была настроена, то будет выведено стандартное название типа Port1, Port2  и т.п. Сбоку от шкалы Y указывается описание шкалы (3), в данном случае bits per second (бит в секунду) и градация шкалы (4) с множителем. В данном примере 100,200 и 300 кило (а чего у нас указано в описании (3)).
Шкала Y является масштабируемой под размер графика. Чем больше трафика прошло через соответсвующий порт, тем крупнее будет градация (4) шкалы.
Пример этого мы увидим чуть позже, а пока продолжим изучение графика.
Шкала Х — временная шкала. В данном примере показан график за 24 часа начиная с момента его открытия в браузере. (страница автоматически обновляется вместе с графиками каждые пять минут).
Ниже показана легенда графика. В соответствии с данной легендой зеленым цветом рисуется график входящего (Inbound) потока (6), а синим(7) — исходящего (Outbound). Графики рисуются относительно порта. Т.е. Inbound — это входящий в порт поток, а Outbound — исходящий из порта. Если в порт включен клиент, то его ВХОДЯЩИЙ трафик будет представлен на графике синим цветом, так как является ИСХОДЯЩИМ из порта, и наоборот, зеленым ИСХОДЯЩИЙ, так как он является ВХОДЯЩИМ в порт.
Далее, в трех колонках напротив соответствующих потоков казаны значения максимального (8), среднего(9) и последнего(10) значений потока за указанный период. При клике на график порта, открывается страница статистики по данному порту (рис. 4)

Таким образом название коммутатора core-sw2.42 дает нам понять, что это корневой коммутатор второй территории имеющий приход непосредственно от центрального коммутатора-маршрутизатора сети и имеет IP *.*.2.42
Сбоку от названия коммутатора указан адрес его установки. Название коммутаторам присваивается автоматически при добавлении их через раздел «Администрирование», там же указывается и адрес его установки. При клике на ссылку, открывается окно с графиками портов соответствующего коммутатора (рис. 2).

Рисунок 4. Страница статистики порта.

На данной странице показаны графики соответствующего пота с различным временным интервалом и округлением. Заголовок страницы (1) содержит название порта и его описание. К сожалению, наименование коммутатора вывести невозможно, но фигурирует в URL (можно подсмотреть в строке АДРЕС Вашего браузера.

Графики разделены на четыре раздела по две колонки.
Разделы имеют соответствующие подписи (2,3)
`Daily’ Graph (5 Minute Average) — графики за последние 24 часа со средним значением за 5 минут
`Weekly’ Graph (30 Minute Average) — графики за последние 7 суток со средним значением за 30 минут
`Monthly’ Graph (2 Hour Average) — графики за последний месяц (не календарный, а за 30 суток от текущего момента) сщ средним значением за 2 часа
`Yearly’ Graph (1 Day Average) — графики за последний год (365 суток) со средним значением за 1 сутки.

Столбцы содержат уже изученный нами график загрузки потока (4) и соответствующий его временному интервалу график загрузки по количеству пакетов в секунду (5).
Рассмотрим последний более подробно (рис. 5)

Рисунок 5. График потока порта в пакетах.

Данный график весьма схож с графиком потока в мегабитах. Различие состоит в описании шкалы Y (1) packets per second (пакетов в секунду), градация (2) аналогична графику на рис. 3. 1.5к — значит 1.5 кило, а чего? Правильно, что написано в описании (1) килопакетов в секунду. Легенда также показывает статистику относительно порта. Помните про входящий-исходящий? Нет? Тогда скрольте вверх и еще раз читайте описание графика на рис. 3).
К сожалению, разработчики ядра не подумали о том, что мы будем считать не только биты, но и что угодно, поэтому на данном графике в легенде Max=1.231kb/s следует читать как Max=1.231kpps, т.е. не килобит в секунду, а килопакетов в секунду (ну или тысяч пакетов, чтоб грамотно было).
Вот такая загогулина (С) Ельцин Б.Н.

—Тут часть описания опущена ввиду ее конфиденциальности, и чтобы не ломать общую структуру, номера рисунков сохранены.

Движемся дальше и переходим к разделу «Каналы» (рис.1 (2)).
Раздел Внешние каналы (рис.1 (8)) содержит две ссылки.
1. Графики загрузки внешних каналов (рис. 8)
2. Трафик (рис.9) Рассмотрим их подробнее.

Рисунок 8. Графики загрузки внешних каналов.

Данная страница содержит 24 часовые графики загрузки по отдельным провайдерам(2,3) и суммарных график загрузки (1) автономной системы. Графики в заголовке имеют указание на соответствующего провайдера.
При клике на определенном графике, откроется статистика по данному графику за 24 часа, 7,30 и 365 суток аналогичная той, что описана для портов коммутаторов выше, за исключением того, что данная статистика не будет содержать графики pps (пакеты в секунду). Данная информация дает представление о симметричности загрузки каналов провайдеров и общем потоке потребляемом AS.

Рисунок 9. Таблица выбора периода просмотра трафика.

На рисунке 9 представлена главная страница подраздела «Трафик». В верхней части содержится ссылка на главную страницу сайта (1).
Далее идут таблицы сгруппированные по годам (2). В каждой таблице имеются ячейки поделенные по месяцам (3).
Если месяц отмечен черным цветом, это значит, что по тем или иным причинам статистика за данный месяц недоступна.
При клике на выбранный месяц открывается страница статистики за данный месяц (рис. 10).

Данная таблица не является биллинговой и строиться не по netflow. В нее заносятся данные по количеству байт прошедших через определенный порт коммутатора (маршрутизатора).

Рисунок 10. Статистика по трафику за месяц.

В верхней части имеется ссылка для возврата на страницу выбора временного интервала(1), указание года и месяца (2) за который выведена статистика. Ниже идут таблицы по провайдерам (4). Таблица содержит колонки Дата(5), Входящий (6) и Исходящий(7).
Столбец Дата содержит дату за которою предоставлена статистика в данной строке, Входящий — количество входящего трафика, Исходящий — количество исходящего трафика за данное число через этого провайдера.
За текущий день статистика предоставлена с нуля чесов до текущего момента и обновляется раз в минуту. Страница автоматически не перегружается. Для обновления данных за текущее число ее нужно перегрузить вручную (F5).
Нижняя строка таблиц (8) содержит суммарные данные по Входящему и Исходящему трафику через данного провайдера.
Под таблицами имеются суммарные данные по всем провайдерам (9). Если месяц закрыт (просматриваем данные за истекший календарный месяц), то данные окончательные. Если смотрим статистику за текущий месяц, то после обновления страницы данные будут пересчитаны вместе с обновлением данных за текущее число.

Раздел WeatherMap (рис.1 (9)).
Как отмечалось раньше, данный раздел содержит ссылки на схему загрузки линий между управляемым активным оборудованием.
Если между двумя управляемым коммутаторами установлен один или несколько неуправляемых, то картина будет несколько некорректной, но темне-менее представление о загруженности линий у нас будет. Рассмотрим схему на рисунке 11.

Рисунок 11. Серверная схема загрузки линий.

Схема имеет легенду (1). При определенной процентной загрузки линии она отображается на схеме соответствующим цветом. Схема содержит юниты (2) (коммутаторы, сервера и т.п.).
Для большей наглядности и понимания сервера отмечены их именами, коммутаторы и маршрутизаторы серверной части их именами, а коре коммутаторы территорий — адресами их установки.
Процентная загрузка линий показывается в зависимости от ширины пропускания данного канала, т.е. при трафике в 25 мегабит и ширине канала 50 мегабит, будет показана 50 процентная загрузка канала, а при ширине канала 1 гигабит 1%.
Загрузка показана в двух направлениях между соединенными этой линией юнитами (3,4) с указанием направления загрузки.
Загрузка направлений указана на соответствующий стрелках (5,6). При наведении мышки на стрелки канала, во всплывающем окне открывается суточный график загрузки данного канала (рис. 12.). При клике на стрелку, откроется страница статистики по данному каналу (порту оборудования являющегося старшим, родительским, в данном канале).

Рисунок 12. Всплывающее окно с графиком загрузки канала.

Сервисы (10) содержит ссылки на дополнительные сервисы Lan Looking Glass (рис. 13), NAS Services (рис. 14) и Администрирование(рис. 15).
Описание функционала данных разделов выходит за рамки данной статьи и вынесено в отдельные статьи «Lan Looking Glass», «NAS Services» и «Администрирование».

Рисунок 13. Окно раздела LAN Looking Glass.

На рисунке 13 показан пример вывода результатов выполнения комманды ping.

Рисунок 14. Окно раздела NAS Services.

На рисунке 14 показан результат вывода активных туннелей на коммутаторе nas3.

Рисунок 15. Окно раздела Администрирование.

На рисунке 15 показан пример вывода подраздела Администрирование коммутаторов.

Раздел Сервера (рис. 1(11)) содержит ссылки на графики серверов и статистику по ppp туннелям сгруппированным по территориям.
Графики серверов (рис. 16) сгруппированы по серверам и предоставлены четырьмя графиками.
1. График загрузки процессора
2. График активных сетевых соединений (pptp туннелей).
3. График использования физической памяти.
4. График использования SWAP. В отличии от статистики по портам коммутаторов, на главной странице раздела по серверам, грфики показываются за 6 часов со средним значением за минуту и страница автоматически обновляется раз в минуту.

Рисунок 16. Страница статистики по серверам.

При клике на графики, открывается статистика по соответствующему серверу аналогичная статистике по портам, т.е., за 24 часа,7,30 и 365 суток. Рассмотрим графики подробнее. На рисунке 17 показан график загрузки CPU.

Рисунок 17. График загрузки CPU.

На данном графике шкала Y имеет градуировку в процентах, шкала Х, как и на всех графиках — шкала времени. В легенде (1) описаны значения строк легенды Now — текущее значение, Average — среднее за показанный на графике период и Мах — максимальное значение.
Столбец User (2) — показывает загрузку процессора пользовательскими приложениями.
Столбец Nice (3) — показывает загрузку процессора переназначенными приоритетами пользовательских приложений.
Столбец System (4) — показывает загрузку процессора системными приложениями.
Столбец Interrupt (5) — показывает загрузку процессора программными прерываниями.
Столбец Total (6) — показывает общую загрузку процессора и равен User+Nice+System+Interrupt. Столбец idle (7) — показывает свободные ресурсы процессора.

Рисунок 18. График активных ppp туннелей.

На рисунке 18 показан график количества активных pptp сессий за определенный промежуток времени. В легенде (1) всего один столбец, показывающий максимальное, среднее и текущее значение.

Рисунок 19. График загрузки памяти сервера.

Легенда графика загрузки памяти содержит четыре колонки. Всего памяти (1), Свободно (2), занято (3) и используется под буфера (4). Линия Total (Всего) может быть ломанной, как на рисунке 19, поскольку сам сервер не отдает это значение и оно вычисляется исходя из свободной и занятой памяти, значение которых округляется.
График свободной памяти следует рассматривать не от нулевой точки вверх, а как величину зеленого сектора между графиком использованной памяти и всего. Память для буферов выделяется в занятой области, поэтому он не плюсуется к значению занятой памяти, а просто информирует о том, какая часть из занятой памяти отведена под буфера.

Рисунок 20. График использования SWAP памяти.

Легенда графика SWAP похожа на легенду графика использования физической памяти (рис. 19). Отличие состоит в том, что вместо отведенного для буферов объема, на данном графике показывается объем информации закэшированной в SWOP файле (4).
Данная память доступна другим приложениям и считается свободной. Кэш очищается по мере необходимости. Когда некуда будет кэшировать данные, то из своп файла будут удалены самые старые данные. Настораживать в этом графике долен рост размера кэша при наличии свободной физической памяти.
Также, на рисунке 20 выделена область 5. Такие разрывы в графике попадались и раньше, но они небыли описаны.
Разрыв в графике говорит о том, что в данный промежуток времени не удалось собрать данные с интересующего нас объекта.
Вызвано это может быть рядом причин, такими как недоступность объекта по сети, подключение сервера сбора статистики (MRTG), перебоями на линии связи между сервером сбора статистики и устройством с которого собирается статистика.

В заключении рассмотрим ссылки на информацию о туннелях (рис.1 (12)).
Раздел NAS ppp Statistics содержит две колонки графиков (рис. 21).
1. График активных ppp туннелей
2. График загрузки CPU.

Рисунок 21. Страница раздела NAS ppp Statistics.

Как и в других разделах, на данной странице показываются график за последние 24 часа, а при клике на графики открывается окно с графиками за 24 часа, 7,30 и 365 суток по конкретному NASу. Подробно описывать графики нет смысла, так как все понятно из их легенд.
Ссылки VPN ppp Statistics и Unlim ppp Statistics представляют графики по активным туннелям на соответствующих серверах.
Поскольку графики идентичные, рассматривать отдельно их не имеет смысла. Графики сгруппированы по территориям (рис. 22).

Рисунок 22. Страница с графиками по ppp туннелям.

Как и в других разделах, на данной странице показываются график за последние 24 часа, а при клике на графики открывается окно с графиками за 24 часа, 7,30 и 365 суток по выбранной территории. Рассмотрим подробнее один из графиков (рис. 23).

Рисунок 23. График активных pptp соединений по одной из территорий.

График содержит сведения о максимальном, среднем и текущем значении активных сессий (1). Кроме того, отдельными цветами на графике показано количество активных сессий по соответствующим сетям данной территории (2). Строки Free (3) введены в график исключительно для приведения графиков всех территорий к одинаковому размеру, поэтом не стоит обращать на них внимание.

Категория: 
© 2009-2104 CTPAHHuK.RU