במאמר זה אסקור את 2 הארכיטקטורות המרכזיות למערכות וירטואליות לשרתים, אסקור את נקודות הכשל, יתרונות וחסרונות של כל שיטה. אתעלם לחלוטין מנקודות כשל שמעל לארכיטקטורה עצמה לרבות : כשל רשת ב switch כשל רשת ב router, כשל חשמל חיצוני (שאינו קשור לשרת הפיזי).

 

כיום ישנן 2 ארכיטקטורות מרכזיות לבניית מערכת וירטואלית שעליה ניתן יהיה לפתוח שרתים וירטואליים.

 

המערכת הפשוטה והזולה – מערכת מבוססת שרת פיזי בודד, על שרת זה מתקינים אחת מהמערכות שצוינו במאמר "מערכות וירטואליזציה נפוצות", לאחר התקנת המערכת והגדרתה, כל שנותר הוא לפתוח שרתים וירטואליים.

 

יתרונות :

זולה – קניית השרת הפיזי וקניית מערכת ההפעלה, אין צורך מעבר לכך לקנות שום חומרה או תוכנה נוספת.

קלה לניהול – מדובר בשרת בודד, הכל מנוהל עליו ללא כל תלות בשרתים אחרים, כל איש IT שיכנס לתחזק כזה שרת, יכנס ללא בעיה.

מינימום נקודות כשל – שרת בודד, אין פחד ששרת שכן יפול וישפיע על השרתים הוירטואליים שרצים על השרת.

מינימום התקנה – התקנה בסיסית, אין צורך בקונפיגורציה של אנשי IT, סיימת להתקין והמערכת עובדת.

 

חסרונות :

יתירות – במידה והשרת נפל עקב תקלה טכנית או כל תקלה שהיא, נפלו כל השרתים הוירטואליים שעובדים עליו, עד להפעלה מחדש של השרת הראשי והפעלתם של השרתים הוירטואלים שאמורים לרוץ עליו.

תחזוקה – כל תחזוקת חומרה (פרט ל hot swap) שתבוצע בשרת, תגרור downtime של השרתים הוירטואלים, כלומר נפילה פיזית של כל השרתים המוחזקים על ידי מכונה זו.

אמינות – קריסה פיזית של רכיב חומרה בשרת זה גורמת לנפילה של כל השרת ואיתו כמובן כל השרתים הוירטואליים, אם לא ניתן יהיה לתקן את השרת, העברה של השרתים הוירטואלים ממנו מצריכה עבודה לא פשוטה למנהל השרת, עבודה שיתכן ותיקח מספר שעות. ולכן מדובר ב downtime משמעות.

 

דרכים להתמודדות עם החסרונות של שיטה זו :

יתירות – מוודאים שהשרת לא נופל, נשמע מצחיק אבל לא!. כיום מפרט השרתים מאוד גמיש, ניתן להזמין שרתים פשוטים וקטנים, עם חומרה טיפה יותר טובה מהמחשב הביתי, ואפשר גם להזמין שרתים חזקים מאוד עם מערכות כפולות כך שכאשר נשרף רכיב חומרה כזה או אחר יש לו גיבוי והשרת ממשיך לעבוד כרגיל, כמובן שאפשרויות אלו תלויות במחיר.

השרת המומלץ על ידינו למערכות וירטואליציה בארכיטקטורה הזולה הינו:

1. 2 ספקי כוח המגבים אחד את השנ.

2. מינימום 2 סטיקים של זכרון "ללא שימוש", כלומר נניח ולשרת יש 8 גיגה זכרון שמשתמשים ב 4 באופן קבוע, 8 הגיגה מחולקים ל 4 סטיקים של 2 גיגה כל אחד.

אם נשרף סטיק אחד של זכרון, השרת עדיין יכול לעבוד, הוא פשוט יתעלם ממנו ולא יעבוד איתו, מערכות דו ערוציות השרת לא יעבוד מול 2 סטיקים שבזכרון כי לכל סטיק יש סטיק מקביל, ולכן אנו ממליצים תמיד להחזיק 2 סטיקים של זכרון מעבר למה שבשימום.

3. מינימום 2 מעבדים, אם נשרף מעבד השרת עדיין יכול לעבוד, יתכן וזמן התגובה שלו ירד בעומסים או בכלל, אבל לפחות הוא יעבוד עד שיורם שרת חלופי.

4. מינימום 2 ערוצים על הלוח אם, אם ערוץ אחד נשרף הערוץ השני ימשיך לעבוד, יתכן ונפסיד את כל הזכרון והמעבד של אותו ערוץ, ולכן השרת יעבוד לאט (תלוי בכמות השרתים הוירטואליים ובניצולי חומרה שלהם). אבל לפחות הוא יעבוד עד שיורם שרת חלופי.

5. מינמום 2 כרטיסי שרת עם הגדרת failover, שכאשר הכרטיס רשת הראשי יוצא מתפקוד, המשני נכנס ומחליפו באופן אוטומטי.

6. מינימום 4 כוננים קשיחים המבוססים על מערכת RAID 5 או RAID 6 חומרתי בלבד(לא on board!). והחלפת כוננים קשיחים פעם בשנתים או פעם בשלוש שנים תלוי בעומסים על השרת.

 

מה עשינו עם מפרט כזה ?

הפחד הגדול ביותר של איש IT : איבוד מידע – קריסה של כונן קשיח, לכן אנו נחזיק מערך כוננים קשיחים (מינימום 4) על RAID 5 מה שאומר שאם כונן קשיח בודד נפל, המערכת ממשיכה לעבוד והאיש הטכני של השרת בגיע ומחליף אותו תוך כדי עבודה של השרת מבלי downtime!, אך אם נפלו 2 כוננים קשיחים, נפלה המערכת כולה, בשביל זה הומצא RAID 6 מה שאומר שגם אם 2 כוננים קשיחים קרסו באותו הזמן המערכת ממשיכה לעבוד וניתן להחליפם תוך כדי עבודה ללא downtime. חשוב לציין, מערך כונני RAID לא מחליף גיבויים!!!!! בשום אופן לא לוותר על גיבויים!

הפחד השני הכי גדול הוא נפילת רכיב חומרה, ולכן כמו שצויין כבר כמעט כל השרת מורכב מ 2 מערכות כמעט נפרדות ובודדות תקלות החומרה שלא יאפשרו לשרת להמשיך לעבוד, יתכן ויהיו תקלות שצוינו למעלה שיפילו את השרת, אך לאחר ריסטארט השרת אמור לחזור לעבוד, דוגמה טובה הוא נפילת סטיק זכרון בודד, שעליו יש נתונים שמערכת ההפעלה צריכה (מערכת ההפעלה של השרת הפיזי – מערכת הוירטואליזציה ולא מערכת הפעלה של שרת וירטואלי כזה או אחר), אך ברגע שתנסה לגשת אל נתונים אלו תקבל שגיאות ותיפול, לאחר ריסטארט לא יכתבו נתונים לסטיק זה ולכן השרת יוכל לעבוד ללא בעיה.

אך עם כל ההפחדות קצת סטטיסטיקות:

כונן קשיח – רכיב החומרה הכי פחות אמין (הרכיב היחידי במחשב שהוא מכאני), קורס לאחר כ 5-7 שנות עבודה, עם זאת כל שנת עבודה יש לו ירידת ביצועים של כ 50%(לאחר שנתיים עבודה הכונן הקשיח יעבוד במהירות של 25% ממה שעבד כשהיה חדש) ולכן נחליפו כל שנתיים עד שלוש(הפתרון הוא מערכך כונני RAID כמו שצוין למעלה).

ספק כוח – מכשיר דיי אמין, אך לא תמיד תלוי בעצמו, כלומר הפרעות מתח מהחשמל שמסופק יכולים לשרוף אותו, קריסה של מערכת האוורור הפרטית שלו יכולה לשרוף אותו, ולכן נחשב לרכיב השני הכי פחות אמין(הפתרון הוא כמובן מערכת הזנת מתח כפולה לשרת כמו שצוין למעלה).

זכרון, מעבדים, לוח אם, כ.רשת – רכבים דיגיטליים, אלו האמינים ביותר במחשב מאחר ועובדים במתחים נמוכים, יש להם ניתור והגנת טמפרטורה גבוהה, כך שסטטיסטית הרכיבים האלו מחזיקים מעל 5.