תוכנת Stable Diffusion הוא מודל דיפוזיה סמוי של טקסט לתמונה (ולא רק) המסוגל ליצור תמונות פוטוגרפיות ריאליסטיות בהזנת טקסט (פרומפט) ניתן להפיק תמונות מדהימות ואומנותיות ללא הגבלה ובחינם תוך שניות.
בשנים האחרונות הופיעו דגמים מהפכניים בתחום מחוללי תמונות AI. סטייבל דפיושן או בתרגום חופשי - דיפוזיה יציבה היא מודל טקסט לתמונה של Deep Learning שהושק בשנת 2022.
ניתן ליצור תמונות אשר מותנות בתיאורים טקסטואליים. במילים פשוטות, הטקסט שנכתוב בהנחיה \ פרומפט יומר לתמונה! איך זה אפשרי?
איך משתמשים בסטייבל דפיוזן?
כדי ליצור את הגרפיקה הבאה שלך שנוצרת ע"י בינה מלאכותית, צור חשבון (סרטון הדרכה במאמר), הקלד כל הנחיה שתרצה ובחר את סגנון האמנות הרצוי.
לדוגמה, אם תקלידו לדוגמא "חתול לוחם עם כלי מלחמה", הדגם יצור חתול מגניב לוחם. ככל שתדייקו את הפרופמט שלכם ותוסיפו מילים וסגנונות - התוצר יצא מדהים יותר.
הדבר הטוב ביותר בתוכנה הזו, בניגוד לשאר התכונות שמחוללות תמונות , הוא שהאפשרויות אינסופיות ולכן, גם אם תעבדו שוב את ההנחיה, סביר מאוד שתקבל את אותן תוצאות. בנוסף ניתן לייצר תמונה בכל רזולוציה ובמידות גדולות מאוד שיכולות אפילו להתאים לשלטי חוצות!
התוכנה גם מאפשרת למשתמשים ליצור תמונות בהזנה של תמונה, כך שאם יש לך כישורים אמנותיים גרועים, ניתן להפוך ציור פשוט לגרסה מציאותית יותר.
כל שעליך לעשות הוא להעלות את התמונה שלך ולחץ על שלח עבור תוצר מרשים חדש.
כאמור - סטייבל דפיושן היא חינמית לחלוטין בשונה מתוכנת מידג'רני שעליה משלמים המשתמשים תשלום חודשי.
תוכנת Stable Diffusion היא תוכנת קוד פתוח וככזו היא מצריכה התקנה על המחשב שלך ונדרש ידע טכני בסיסי בכדי להתקינה על המחשב, ישנו פתרון לא רע של התקנת סטייבל דפיושן אונליין כך שלא תצטרכו להתקין על המחשב אך האפשרויות של הפתרון הזה תהיה מוגבלות לעומת התקנתה על המחשב
להתקנה המלאה עקבו אחרי ההוראות בסרטון הבא
דיפוזיה יציבה היא גרסה של מודל הדיפוזיה הסמויה. רווחים סמויים משמשים כדי לקבל את היתרונות של הייצוג הנמוך ממדי של הנתונים. לאחר מכן, נעשה שימוש במודלים של דיפוזיה ושיטות של הוספה והסרה של הרעש ליצירת התמונה על סמך הטקסט. בפרקים הבאים, אתאר מרחבים סמויים ביתר פירוט וכן את אופן פעולתם של מודלים של דיפוזיה ואספק דוגמה מעניינת לתמונה שהמודל יכול ליצור בהתבסס על הטקסט הנתון.
שימוש במרחב סמוי ואימון מודלים בעמצאות Stable Diffusion
מרחב מוסווה, סמוי, הוא, במילים פשוטות, ייצוג של נתונים דחוסים. דחיסה של נתונים מוגדרת כתהליך של קידוד מידע על ידי שימוש בסיביות קטנות יותר מאשר בייצוג המקורי. בואו נדמיין שעלינו להציג וקטור 20 מימדי באמצעות וקטור 10 מימדי. על ידי הפחתת הממדיות אנו מאבדים נתונים. עם זאת, במקרה זה, זה לא דבר רע. צמצום הממדיות מאפשר לנו לסנן מידע פחות חשוב ולשמור רק את המידע החשוב ביותר.
בקיצור, נניח שאנחנו רוצים לאמן את המודל שמסווג תמונות באמצעות רשתות עצביות קונבולוציוניות מחוברות לחלוטין. כאשר אנו אומרים שהמודל לומד, אנו מתכוונים שהוא לומד תכונות ספציפיות בכל שכבה של הרשת העצבית. אלו הם למשל קצוות, זוויות ספציפיות, צורות וכו'. בכל פעם שהמודל צריך ללמוד באמצעות נתונים (תמונה קיימת כבר), ממדי התמונה מצטמצמים לפני שהם חוזרים לגודלם המקורי. בסופו של דבר, המודל משחזר את התמונה מנתונים דחוסים באמצעות מפענח, תוך לימוד כל המידע הרלוונטי מראש. לכן, החלל הופך קטן יותר כך שהתכונות החשובות ביותר נחלצות ונשמרות. זו הסיבה שמרחב סמוי מתאים למודלים של דיפוזיה. זה מאוד שימושי שיש דרך לייחד את התכונות החשובות ביותר מתוך מערך אימון של מספר רב של תמונות שבהן יש פרטים רבים, ושניתן להשתמש בתכונות אלה כדי לסווג שני אובייקטים שרירותיים באותה קטגוריה או אחרת.
אימון מודלים עם סטייבל דיפיושן
מודלים של סטייבל דפיושן הם מודלים גנרטיביים. הם משמשים להפקת נתונים הדומים לנתונים עליהם הם הוכשרו. ביסודו של דבר, מודלים של דיפוזיה פועלים באופן שהם "הורסים" נתונים מאומנים על ידי הוספת רעש גאוסי באופן איטרטיבי ואז הם לומדים כיצד להחזיר את הנתונים על ידי ביטול הרעש.
מבולבלים? צריך ראש אנליטי כדי להבין את זה :)
חשוב לציין שכל מחוללי התמונות שיש היום - כולם מבוססים ושואבים מידע מסטייבל דפיושן.
הזנת טקסט לשורת הפרומפט בסטייבל דפייושן
הכנסת הטקסט במודל זה מתבצעת על ידי "הטבעת" מילים באמצעות שנאי שפה, כלומר מוסיפים מספרים (אסימונים) למילים, ואז ייצוג זה של הטקסט מתווסף לקלט (לתמונה) ב-U-Net , הוא עובר דרך כל שכבה של הרשת העצבית של U-Net והופך יחד עם התמונה. זה נעשה מהאיטרציה הזמנית הראשונה ואותו טקסט מתווסף לכל איטרציה הבאה לאחר האומדן הראשון של הרעש. נוכל לומר שהטקסט "משמש קו מנחה" ליצירת התמונה החל מהאיטרציה הראשונה שבה יש רעש שלם ולאחר מכן בהמשך לכל השיטה האיטרטיבית.
דיפוזיה יציבה | Stable Diffusion
ואם אנחנו רוצים להסביר את זה ביותר פשטות אז:
תוכנת Stable Diffusion הוא מודל למידת מכונה הממיר טקסט לתמונות מציאותיות ברזולוציה גבוהה. זה מאפשר למשתמשים לייצר יצירות אמנות במהירות, ובכך מאפשר לקריאייטיבים ליצור רעיונות נוספים. זה יכול לשמש גם למילוי תמונות בצבע.
התוכנה נוצרה בשיתוף פעולה בין Stability AI, Runway וקבוצת CompVis של LMU Munich, מודלים של Diffusion משמשים ליצירת נתונים הדומים לנתונים שהם אומנו עליהם, כותב Medium.
דיפוזיה יציבה פועלת על ידי הוספת רעש לתמונה. לאחר מכן הדגם הופך את תהליך הרעש ומשפר בהדרגה את איכות התמונה עד שאין רעש, ובכך מייצר תמונה מציאותית שתתאים להנחיית הטקסט.
דגמים פופולריים שמושכים מידע מסטייבל דפיושן: Dalle-E 2 , Midjourney של OPEN AI שייצרה את גם את צ'אט GPT ו-Dream Studio.
ניתן להתקין תוספים רבים שיעזרו לכם לחולל תמונות וסרטונים אומנותיים להפליא כאלו שיעזרו לכם לשווק את עצמכם ואת העסק שלכם או של הלקוחות שלכם!
מעוניינים ללמוד את התוכנה בצורה מקיפה?
מעוניינים ללמוד בכלל על כלי AI | בינה מלאכותית?
לחצו על התמונה הבאה והצטרפו לקורס AI בינה מלאכותית
הכי מקיף וגדול בארץ עם מעל 300 סטודנטים!
コメント