أخر الاخبار

Gemini: كل ما تريد معرفته عن أحدث نموذج للذكاء الاصطناعي المتقدم الذي سيغير عالمنا

 

الإعلان عن نموذج الذكاء الاصطناعي Google Gemini

تعيش صناعة الذكاء الاصطناعي في زمن مثير حيث يشهد العالم تطورًا متسارعًا في مجال التكنولوجيا، وفي هذا السياق سوف نسلط الضوء على نموذج Gemini الذي أعلنت عنه شركة Google كأحدث ابتكاراتها في مجال الذكاء الاصطناعي.

يُعد نموذج Gemini تطورًا ملحوظًا في مفهوم النماذج اللغوية الكبيرة، حيث يجمع بين فهم متعدد الوسائط وقدرات استدلالية متقدمة، مما يجعله أداة رائدة في تفاعله مع النصوص والصور والمحتوى الصوتي والفيديوهات وكتابة الشيفرات البرمجية.

ستأخذنا هذه المقالة في رحلة عميقة لاستكشاف قدرات وتطبيقات نموذج Gemini في مجالات متنوعة، بدءًا من تحليل الرموز البرمجية وصولاً إلى فهم المعلومات المعقدة في مجالات مثل العلوم والشؤون المالية، كما سنتناول أيضًا تأثيره في تطوير أنظمة الترميز المتقدمة وكيف يشجع على تقديم محتوى تقني عالي الجودة.

هلموا معنا في هذه الرحلة لاستكشاف مستقبل الذكاء الاصطناعي من خلال عيون نموذج Gemini وكيف سيسهم في تطور هذا المجال وجعل التكنولوجيا أكثر فهمًا وتقدمًا.

ما هو نموذج الذكاء الاصطناعي Gemini

إن Gemini هو ثمرة الجهود التعاونية الواسعة النطاق التي بذلتها فرق العمل في شركة Google، بما في ذلك فريق أبحاث Google، من أجل تصميم نموذج متعدد الوسائط من الألف إلى الياء، ما يعني أنّ بإمكانه فهم أنواع مختلفة من المعلومات وإدارتها وجمعها وتعميمها بسهولة، مثل النصوص والصور والمحتوى الصوتي والفيديوهات والرموز البرمجية.

ويُعد نموذج الذكاء الاصطناعي Gemini هو النموذج الأكثر مرونةً على الإطلاق أيضًا، حيث يعمل بكفاءة على مختلف المنصات والأجهزة، من مراكز البيانات إلى الأجهزة الجوّالة، وبفضل قدراته المتطوّرة، يمكنه مساعدة المطوّرين والمؤسسات على البناء والتوسّع باستخدام الذكاء الاصطناعي.

وقامت شركة جوجل بإطلاق الإصدار الأوّل من النموذج باسم Gemini 1.0 في ثلاثة أحجام مختلفة كما يلي:

  • نموذج Gemini Ultra: النموذج الأكبر والأكثر تطورًا للمهام المعقدة جدًا.
  • نموذج Gemini Pro: النموذج الأنسب لمجموعة واسعة من المهام.
  • نموذج Gemini Nano: النموذج الأكثر كفاءة للمهام على الأجهزة.

مستوى أداء نموذج الذكاء الاصطناعي Gemini

تم إجراء اختبارات صارمة ودقيقة على نماذج Gemini لتقييم أدائها على مجموعة واسعة من المهام، بما في ذلك النصوص والفيديو والمحتوى الصوتي والرموز البرمجية وغيرها الكثير.

تفوّق نموذج Gemini Ultra على النتائج الحالية في 30 من أصل 32 معيارًا مستخدَمًا على نطاق واسع في نماذج اللغة الكبيرة أو Large Language Model والمعروفة اختصارًا بـ LLM، من فهم الصور الطبيعية والاستدلال في علم الرياضيات إلى فهم المحتوى الصوتي والفيديوهات.

كما أن نموذج Gemini Ultra هو أوّل نموذج يتفوّق على الخبراء في معيار "فهم اللغة لتأدية مهام متعددة هائلة" أو Massive Multitask Language Understanding والمعروف اختصارًا بـ MMLU، مسجلاً %90.04. 

ويتضمّن هذا المعيار 57 موضوعًا، مثل: الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق، لاختبار المعرفة وقدرات حل المشاكل، ويُعدّ هذا النهج المعياري طريقة أكثر موثوقية لتقييم أداء نماذج Gemini في التحليل بأسلوب أكثر طبيعيةً لتقديم الرد المناسب.

في الجدول التالي سوف تلاحظ تفوق نموذج Gemini Ultra على مختلف المعايير بالنسبة للنص والبرمجة:

القدرةالمعيارالوصفGemini UltraGPT-4
فهم الأسئلة العامةMMLUتمثيل الأسئلة في 57 موضوعًا (بما في ذلك العلوم والتكنولوجيا والهندسة والرياضيات والعلوم الإنسانية وغيرها)90.0%86.4%
فهم المنطقBig-Bench Hardمجموعة متنوعة من المهام الصعبة التي تتطلب تفكيرًا متعدد الخطوات83.6%83.1%

DROPفهم القراءة82.4%80.9%

HellaSwagالتفكير المنطقي للمهام اليومية87.8%95.3%
فهم الرياضياتGSM8Kالعمليات الحسابية الأساسية (بما في ذلك مسائل الرياضيات في المدرسة الابتدائية)94.4%92.0%

MATHمسائل الرياضيات الصعبة (بما في ذلك الجبر والهندسة وحساب التفاضل والتكامل الحسابي، وما إلى ذلك)53.2%52.9%
إنشاء الشيفرة البرمجيةHumanEvalتوليد رمز بايثون74.4%67.0%

Natural2Codeتوليد رمز بايثون. مجموعة البيانات الجديدة تشبه HumanEval، لكن لم يتم تحديثها، مسربة على الويب74.9%73.9%

سجّل نموذج Gemini Utra أيضًا نسبة متقدّمة بلغت %59.4 في معيار "الفهم المتعدد الوسائط والمتعدد التخصصات الهائل" أو Massive Multi-discipline Multimodal Understanding والمعروف اختصارًا بـ MMMU، وهو معيار جديد يتضمّن مهام متعددة الوسائط في مجالات مختلفة تتطلّب التفكير والتحليل بطريقة مدروسة.

وعلى صعيد المعايير المتعلّقة بتحليل الصور والتي شملتها اختباراتنا، تفوّق نموذج Gemini Ultra على النماذج المتطوّرة السابقة من دون الاستعانة بأنظمة التعرّف البصري على الأحرف أو Object Character Recognition والمعروفة اختصارًا بـ OCR.

وإن دلّت هذه المعايير على شيء، فهي تدل على القدرات الأصيلة المتعددة الوسائط لدى نماذج Gemini وتبيّن إمكاناته المبكرة في التفكير والتحليل ضمن وسائط متعددة وأطر أكثر تعقيدًا.

ملاحظة:  

تتوفّر المزيد من التفاصيل في التقرير الفني لنماذج Gemini.

في الجدول التالي سوف تلاحظ تفوق نماذج Gemini بالنسبة لمعيار الفهم المتعدد الوسائط والمتعدد التخصصات الهائل:

القدرةالمعيارالوصفGeminiGPT-4V
فهم الصورMMMUمشاكل التفكير على مستوى الكلية متعددة التخصصات59.4%56.8%

VQAv2التعرف على الصورة الطبيعية77.8%77.2%

TextVQAالتعرف البصري على الحروف بالصور الطبيعية82.3%78.0%

DocVQAفهم المستند90.9%88.4%

InfographicVQAفهم الرسوم البيانية80.3%75.1%

MathVistaالمنطق الرياضي في السياقات البصرية53.0%49.9%
فهم الفيديوVATEXالتسميات التوضيحية للفيديو باللغة الإنجليزية62.7%56.0%

اختبار الإدراك MCQAالإجابة على سؤال الفيديو54.7%46.3%
فهم الصوتCoVoST 2
21 لغة
الترجمة التلقائية للكلام40.1%29.1%

FLEURS
62 لغة
التعرف التلقائي على الكلام (استنادًا إلى معدل خطأ الكلمات، الأقل هو الأفضل)7.6%17.6%

قدرات الجيل القادم لنماذج Gemini

كان النهج المتّبع لتطوير النماذج المتعددة الوسائط يشتمل حتى الآن على تدريب المكوّنات بشكل منفصل في أنماط مختلفة، ثُمّ تجميعها في نموذج واحد يحاكي هذه الوظائف إلى حد ما، وقد تكون هذه النماذج جيّدة في تنفيذ بعض المهام، مثل: وصف صورة، ولكنّها تواجه صعوبة في إتقان التفكير التصوّري والمعقّد.

لذلك تم تصميم Gemini ليكون نموذجًا أصليًا متعدد الوسائط ومدرّبًا من الأساس على أنماط مختلفة، ثُمّ تم تزويده ببيانات إضافية متعددة الوسائط لتحسين فعاليته بشكل أكبر، مما يساعد Gemini على فهم جميع أنواع المعلومات وتحليلها بكل سهولة وبأسلوب أفضل بكثير من النماذج المتعددة الوسائط الحالية.

فهو يتميّز بإمكانات هي أحدث ما تم التوصّل إليه في كل مجال تقريبًا.

إمكانيات استدلالية متطوّرة

لدى Gemini 1.0 إمكانيات استدلالية متطوّرة ومتعددة الوسائط تساعده في فهم المعلومات المعقّدة، سواء كانت مكتوبة أو مرئية. وهذا ما يعزّز مهاراته في رصد المعلومات التي يصعب تمييزها وسط كميات هائلة من البيانات.

ولا شك في أنّ قدراته على استخلاص المعلومات من مئات آلاف المستندات من خلال قراءة المعلومات وفلترتها وفهمها سيساعد في تحقيق إنجازات جديدة على الساحة الرقمية في مجالات عديدة كالعلوم والشؤون المالية.

فهم النصوص والصور والمحتوى الصوتي وغيرها

تم تدريب Gemini 1.0 للتعرّف على أنواع مختلفة من المحتوى في الوقت نفسه، بما في ذلك النصوص والصور والمحتوى الصوتي، وذلك كي يتمكّن من فهم المعلومات الدقيقة والإجابة على أسئلة متعلّقة بمواضيع معقّدة.

ويتميّز Gemini 1.0 بشكل خاص في قدرته على شرح قواعد المنطق في الرياضيات والفيزياء، مما يجعله الوجهة المناسبة للمساعدة في الواجبات المنزلية.

الفيديو التالي يوضح لنا كيف يقوم نموذج Gemini بشرح مواضيع في الفيزياء والرياضيات:


إمكانيات ترميز متقدّمة

بإمكان الإصدار الأول من Gemini إنشاء الرموز البرمجية العالية الجودة وشرحها وفهمها بلغات البرمجة الأكثر شيوعًا في العالم، مثل: لغة البرمجة Python و لغة البرمجة Java و لغة البرمجة ++C و لغة البرمجة Go.

وإنّ قدرته على استخدام لغات البرمجة المختلفة وفهم المعلومات المعقّدة تعزّز مكانته كأحد النماذج الأساسية الرائدة للترميز في العالم، فوفق معيار HumanEval المعتمد لمهام الترميز، فإنّ نموذج Gemini Ultra يتفوق في مختلف المقارنات المعيارية الخاصة بالبرمجة، بالإضافة إلى معيار Natural2Code، وهي مجموعة بيانات داخلية.

ويمكن أيضًا استخدام Gemini كمحرّك لأنظمة الترميز الأكثر تقدّمًا، فقد أطلقت شركة جوجل منذ عامين نظام AlphaCode، وهو أول نظام قائم على الذكاء الاصطناعي لإنشاء الرموز البرمجية ينجح في تقديم مستوى تنافسي من الأداء في مسابقات البرمجة. 

وباستخدام إصدار متخصّص من Gemini، استطاعت جوجل تطوير نظام أكثر تقدّمًا لإنشاء الرموز البرمجية وهو AlphaCode 2، ليتفوّق هذا النظام في حل مشاكل البرمجة التنافسية التي تتعدّى إطار الترميز وتشمل الرياضيات المعقّدة وعلم الكمبيوتر النظري.

ومن خلال تقييم AlphaCode 2 على المنصة نفسها التي تم استخدامها في تقييم الإصدار الأول AlphaCode، تبيّن تحسينات هائلة في AlphaCode 2 حيث بإمكانه حل ضعف عدد المشاكل.

ومن المتوقع أنه يحقق أداءً أفضل من %85 من النماذج الأخرى المنافسة، مقارنةً بنسبة %50 تقريبًا سجّلها AlphaCode، ويكون أداء Gemini أفضل عندما يستخدمه المبرمجون لتحديد الخصائص المعيّنة المطلوب اتّباعها في إنشاء الرموز البرمجية.

لذلك يتجه المبرمجين إلى استخدام نماذج الذكاء الاصطناعي العالية الكفاءة كأدوات تعاونية يمكنها مساعدتهم في فهم المشاكل واقتراح تصاميم للرموز البرمجية والمساعدة في تطبيقها، حتى يتمكنّوا من إطلاق التطبيقات وتصميم الخدمات بشكل أفضل وأسرع.

الفيديو التالي يوضح لنا كيف تفوق نموذج Gemini في البرمجة:


أكثر موثوقية، وفعالية، وقابلية للتطوير

لقد تم تطوير نموذج Gemini 1.0 باستخدام وحدات معالجة تينسور أو Tensor Processing Units والمعروفة اختصارًا بـ TPUs وتحديدًا الإصدار v4 والإصدار v5e التي أطلقتها شركة Google.

وقد تم تصميم النموذج ليكون الأكثر موثوقية والأكثر فعالية لدى الشركة، كما أنّ Gemini يعمل بشكل أسرع مقارنة بالنماذج الأصغر والأقل فعالية، فمسرعات الذكاء الاصطناعي كانت دائمًا الجوهر الأساسي في المنتجات القائمة على الذكاء الاصطناعي والتي يستخدمها مليارات الأشخاص، والتي من ضمنها: محرك بحث جوجل، ومنصة YouTube، وبريد Gmail، وخرائط Google، ومتجر Google Play، ونظام التشغيل Android.

لذلك، أعلنت شركة جوجل عن نظام TPU الأكثر فعالية وقابلية للتطوير، وهو Cloud TPU v5p، وهو مصمم لتدريب نماذج الذكاء الاصطناعي الحديثة، فهذه النسخة الجديدة من TPU سوف تسرع من تطوير Gemini وتساعد المطورين والعملاء في تدريب نماذج مختلفة بطريقة أسرع، والمساهمة بإطلاق منتجات وقدرات جديدة قريبًا.

المسؤولية والأمان من جوهر أولويات نموذج Gemini

تلتزم شركة Google بتطوير نماذج الذكاء الاصطناعي بمسؤولية وإبداع في جميع منتجاتها وخدماتها، واستنادًا على مبادئ Google لاستخدام الذكاء الاصطناعي وسياساتها المتعلقة بالأمان في مختلف المنتجات، تأخذ بعين الاعتبار حماية إضافية لقدرات نماذج Gemini، وفي كل خطوة تحدد جوجل مختلف التحديات والمخاطر وتُجري الاختبارات لتفاديها.

يحظى نموذج Gemini بأعلى معايير اختبارات الأمان مقارنة بنماذج Google للذكاء الاصطناعي الأخرى، كما تم إجراء بحثًا لتحديد المخاطر، مثل: المخاطر الخاصة بالجرائم السيبرانية، والإقناع، واستقلالية الردود، كما طُبقت تقنيات مطورة للمساعدة في تحديد مخاطر الأمان.

ولتحديد المشاكل المتعلقة بأمان المحتوى خلال تجارب Gemini، والتأكد من اتباعه لسياسات الشركة، تم استخدام معايير مقارنة مثل Real Toxicity Prompts، وهي مجموعة من 100,000 سؤال أو طلب من الإنترنت، فيها مختلف درجات الإساءة، وقد طورها عدد من الخبراء في معهد Allen للذكاء الاصطناعي.

كيف سيتم توفير نماذج الذكاء الاصطناعي Gemini للمستخدمين؟

تُعد منتجات شركة Google واحدة من أبرز المنصات التي يستخدمها مليارات الأشخاص كل يوم، لذلك ستتيح جوجل لهؤلاء المستخدمين الوصول إلى نماذج Gemini من خلال منتجاتها على النحو التالي:

 أولاً  بدأ بالفعل نموذج Bard باستخدام نسخة محدثة من Gemini Pro قادرة على الفهم والتحليل والتخطيط وغيرها من المهام، ويُعد هذا التطوير الأكبر لأداة Bard منذ إطلاقها.

سيكون في بداية الأمر متوفرًا باللغة الإنجليزية في 170 دولة ومنطقة، ثم توفيره في مختلف اللغات والمناطق في المستقبل القريب.

 ثانيًا  سوف  يأتي Gemini أيضًا إلى عالم الهواتف الذكية من خلال جهاز Pixel 8 Pro، فهو الهاتف الذكي الأول المصمم لتوفير نموذج Gemini Nano، فسوف يدعم ميزات مثل: التلخيص في تطبيق Recorder، وميزة الردود الذكية على تطبيق Gboard، وذلك ابتداءً من تطبيق WhatsApp مع المزيد من تطبيقات المحادثة الأخرى في السنة القادمة.

وفي الأشهر القادمة ستكون نماذج Gemini متوفرة في المزيد من المنتجات والخدمات مثل: محرك البحث جوجل، والإعلانات، ومتصفح Chrome، وأداة Duet AI.

ولقد بدأت شركة جوجل بالفعل بتجربة Gemini في محرك بحث Google، حيث أن النموذج الجديد يُسرع ويُحسن من Search Generative Experience للمستخدمين، حيث قلل من وقت الانتظار للحصول على الإجابة بنسبة 40% باللغة الإنجليزية في الولايات المتحدة الأمريكية، بالإضافة إلى تطورات أخرى قد ساهم بها.

بناء التطبيقات مع نماذج Gemini

ابتداءً من 13 ديسمبر 2023، سيتمكن المطورون وعملاء الشركات من الوصول إلى نموذج Gemini Pro عن طريق واجهة برمجة التطبيقات Gemini API، في منصة Google AI Studio أو منصة Google Cloud Vertex AI.

وتُعد منصة Google AI Studio أداة مجانية تساعد المطورين في بناء نماذج أولوية وإطلاق التطبيقات بشكل سريع باستخدام مفتاح واجهة برمجة التطبيقات API. وفي حال تطوير منصة متكاملة قائمة على الذكاء الاصطناعي، فإنّ Vertex AI يساهم في استخدام Gemini بطريقة مخصصة والاستفادة من ميزات Google Cloud المختلفة للشركات، والمتعلقة بالأمان، والخصوصية، وإدارة البيانات وغيرها.

كما أنّ بإمكان مطوري Android بناء التطبيقات المختلفة باستخدام Gemini Nano، وهو النموذج الأكثر فعالية للمهام المتعلقة بالأجهزة، وذلك من خلال AICore وهو نظام جديد متوفر على نظام التشغيل Android 14 وموجود في الوقت الحالي على أجهزة Pixel 8 Pro.

ملاحظة:  

يمكنكم رؤية نموذج من AICore، وإذا كنتم مهتمين بإنشاء تطبيقات باستخدام Gemini Nano وAICore، فيمكنكم الاشتراك في برنامج الوصول المبكر.

إطلاق نموذج Gemini Ultra قريبًا

بالنسبة انموذج Gemini Ultra، يتم حاليًا إجراء اختبارات شاملة لقياس الأمان والثقة قبل الإطلاق الرسمي، وبعض هذه التجارب ستكون من خلال مجموعات موثوقة، كما سيتم إجراء تغييرات أخرى للنموذج من خلال التعليقات القادمة من فرق مختلفة بجوجل.

وخلال هذا الإجراء، سيتمكن مجموعة محددة من العملاء، والمطورين، والشركاء، وخبراء في الأمان والمسؤولية، من تجربة نموذج Gemini Ultra في المرحلة الأولى للحصول على التعليقات وردود الأفعال قبل إطلاق النموذج لجميع المطورين والعملاء في بداية العام القادم 2024.

كما ستُطلق شركة جوجل في بداية العام القادم 2024 نسخة Bard Advanced المطورة، وهي تجربة محدثة في الذكاء الاصطناعي قائمة على أحدث النماذج والقدرات، اعتمادًا على نموذج Gemini Ultra.

الخلاصة

في ختام هذا الرحلة الملهمة في عالم التكنولوجيا، يبرز نموذج Gemini 1.0 كابتكار فريد ومتقدم في ميدان الذكاء الاصطناعي، فمع قدراته المتعددة والرائدة، أظهر Gemini تفوقًا في فهم وتحليل المحتوى المتنوع، سواء كان نصيًا، أو صوتيًا، أو بصريًا.

وتأتي قدرات فهم المحتوى المتعددة مع القدرة على التفاعل مع مختلف الوسائط، مما يمكننا من استخدامه في مجالات متنوعة، مثل: التعليم، والعلوم، والشؤون المالية، كما تعزز قدرات استدلاله المتطورة من قدرة Gemini على استخراج المعلومات العميقة والمعقدة، مما يضعه في المقدمة كشريك قوي في مساعدة المبرمجين والمطورين.

ويُعد إطلاق Gemini للجميع حول العالم عبر منصات Google وفتح باب الوصول للمطورين للاستفادة من إمكانياته عبر Google AI Studio وGoogle Cloud Vertex AI، تجسيدًا لرؤية Google في جعل التكنولوجيا متاحة للجميع.

ومع إطلاق الموديلين المتقدمين Gemini Ultra و Bard Advanced، يتوقع المستخدمون تجارب أكثر تطورًا وفاعلية في مجال الذكاء الاصطناعي، مما يجسد التزام Google بالابتكار والتطوير المستدام.

في النهاية، يظل Gemini 1.0 محط الإعجاب والتقدير، فهو ليس مجرد نموذج برمجي، بل رفيق متقدم يمكنه فهم وتفسير مختلف أوجه الحياة بطريقة فريدة، مما يفتح أفقًا جديدة لمستقبل الذكاء الاصطناعي.

مصطفى أمان
بواسطة : مصطفى أمان
صانع محتوى تعليمي تقني على مدونتي وعلى قناة اليوتيوب. وهدفي من هذا المحتوى هو محو الأمية المتعلقة بمجال تكنولوجيا المعلومات حتى نبدأ من حيث انتهى الأخرين.
تعليقات



    حجم الخط
    +
    16
    -
    تباعد السطور
    +
    2
    -