Conversation
e3529cd to
6e2659a
Compare
| данные используемых разделов, а вот неиспользуемые можно шатать как угодно. | ||
| #. Перед извлечением диска физически на лету выполнить: | ||
| ``echo 1 > /sys/block/{data-disk}/device/delete``. | ||
| Но это не обязательно. Вменяемое железо через несколько секунд поймёт, |
There was a problem hiding this comment.
Не вот нет. Эта команда профлушивает буферы перед изыманием. И если этого не сделать, то иногда остается /dev/sdX но с ним ничего сделать нельзя, всегда ио еррор. Любое железо понимает это мгновенно, но линукс иногда охреневает с этого. И да, не везде на самом деле есть сата хотплуг.
| #. ``partprobe /dev/{journal-disk}``. fdisk не умеет говорить ядру о применении | ||
| измененной таблицы разделов если диск используется (например, под другие | ||
| журналы/бд на этом же диске. | ||
| #. Но лучше использовать gdisk. Тогда в принципе не получится поменять |
There was a problem hiding this comment.
ты наверно с партед перепутал ?
| @@ -24,8 +26,12 @@ | |||
| #. ``partprobe /dev/{journal-disk}``. fdisk не умеет говорить ядру о применении | |||
There was a problem hiding this comment.
туду: написать что эта тулза из комплекта партед
| "start from root via host" правилами. | ||
| * При потере журнала вседиски на него зааттаченные превращаются в труху. На самом деле это не совсем | ||
| так, и можно пересоздать журнал, но при этом все копии PG на этой OSD будут оставшими, и предстоит | ||
| рекавер и обязательный scrub/deep scrub. |
There was a problem hiding this comment.
Но жто ж по времени и смыслу тоже самое что перебекфилл этого осд. не так ли? так зачем нужен осд у которого все обжекты устарели ? ну только для кейса когда запись и чтение отличаются по времени или когда это единственная сохранившаяся копия.
| названием "вероятность отказа диска" и "время восстановления избыточности". Поскольку данные | ||
| размазанны более-менее равномерно, это приводит к тому, что при отказе двух дисков случается | ||
| гарантированная потеря данных, а если у вас более 500 дисков, вероятность отказа второго диска | ||
| когда первый ещё не отрекаверился заметно больше ноля. Поэтому совсем большие пулы "на весь кластер" |
There was a problem hiding this comment.
не понял как количество реплик связано с масштабом размазывания.
| * Отключить оффлоадинг (и как проверить помогло ли) - меряем RTT внутри TCP. | ||
| * джамбофреймы могут помочь но не особо. сложности со свичами обычно. | ||
| * мониторить состояние линка. оно иногда самопроизвольно падает с гигабита на 100 мегабит. | ||
| * мониторить состояние линка. оно иногда самопроизвольно падает с гигабита на 100 мегабит. Но это проблема |
There was a problem hiding this comment.
поэтому и нужно мониторить. и да, линк пропадает по причине говнопроводов например. Выпиливай.
Changes by @Outlingo