un

guest
1 / ?
back to lessons

المعلومات تعيش في فضاء جبري

كل شيء محور

محاور وسمbeddings الكلمات: التشابه كتوجيه

في التعلم الآلي، تعيش المعلومات في فضاء جبري. كل نقطة بيانات ذات N سمات هي نقطة في فضاء N-مؤشر. هذا ليس تمثيلًا: إنها الأساس الرياضي الحقيقي لكل خوارزمية.


صورة رقم يدوي (28×28 بكسل) هي نقطة في فضاء 784-مؤشر. كل بكسل هو معامل واحد. صورة رقم مشابهة جدًا (نقطة قريبة) في هذا الفضاء. صورة رقم مختلفة (نقطة بعيدة)


تُستخدم محاور وسم الكلمات لتحويل كلمة إلى نقطة في فضاء 300-مؤشر. الكلمات ذات المعاني المتشابهة تصل إلى نفس الحيازة. 'كلب' و 'شكل' قريبان. 'كلب' و 'برلمان' بعيدان.


ملف مستخدم مع 50 سمعة (العمر، تاريخ الشراء، أنماط النقر) هو نقطة في فضاء 50-مؤشر. تتم عملية إيجاد المحركات التوصية للمستخدمين الذين هم 'قريبون' في هذا الفضاء وتقديم ما أحبّ جيرانه الجبري.


الجبر هو كيفية التفكير في هذه الفضاءات. المسافة، الاتجاه، الزاوية، التمثيل: هذه العمليات الأساسية للتعلم الآلي.

العمليات الجبرية: الأحجار الأساسية

منتج الفقاطع يهزم كل شيء

ثلاثة عمليات جبرية مهمة في التعلم الآلي:


إضافة المحاور: دمج سمات أو إشارات. إذا أضفت كتلتين وسميتين، ستحصل على محور يمثل كل مفاهيم مُحَمَّلَة معًا.


ضرب العدد الصافي: زيادة حجم المحور يتغير دون تغيير اتجاهه. معدلات التعلم في الانحدار بالجريان هي ضرب العدد الصافي.


منتج الفقاطع: هذا العمل الرئيسي. منتج الفقاطع بين محورين a و b يساوي |a||b|cos(θ)، حيث θ هو الزاوية بينهم. عندما يكون المحاور مُنَظَّفًا (طول وحدة)، يكون منتج الفقاطع هو cosin الزاوية.


تشابه الكوسين = cos(θ) = (a·b) / (|a||b|)


هذه الصيغة الوحيدة تؤدي:

- محركات البحث: إيجاد الوثائق المتشابهة مع طلب البحث

- آليات الانتباه: تحديد الكلمات المفتاحية التي تهم بعضها البعض

- محركات التوصية: تطابق ملفات المستخدمين مع ملفات العناصر

- الإنشاء المُحَدَّث بالاسترجاع: إيجاد السياق المناسب للنماذج اللغوية


cos(θ) = 1 يعني أن القوائم تشير في الاتجاهexact نفس (معنى مماثل). cos(θ) = 0 يعني أنهم عموديون (غير متصل). cos(θ) = -1 يعني أنهم يشيرون في اتجاهات معاكسة (معاكس المعنى).

تشابه الكوسين

تشابه الكوسين هو أحد أهم المعايير المستخدمة في الأنظمة الآلية الحديثة للتعلم.

لقد تم حساب تشابه الكوسين للنقاط اللغوية للكلمات في زوجين. يبلغ القيمة 0.95 بالنسبة للزوج الأول. والقيمة 0.12 بالنسبة للزوج الثاني. ما الذي يقول لك كل رقم حول العلاقة بين الكلمات في كل زوج؟

ثلاث طرق للقياس المسافة

اختيار قياس المسافة يغير ما يعنى 'مشابه'

ثلاثة قياسات المسافة: نفس النقاط، معاني مختلفة

بوجود نقطتين في الفضاء، هناك العديد من الطرق لقياس المسافة بينهما. لكل معيار هندسة مختلفة، وهذه الهندسة تحدد ما يعتبره نموذجك 'مشابه'.


المسافة الأوروبية (L2): المسافة المباشرة. d = √(Σ(aᵢ - bᵢ)²). هذا هو قياس 'كما يرى الغراب'، وهو ما تتوقعه ذاكرتك. وهو حساس للمagnitude.


المسافة الماني (L1): المسافة المشي في الشوارع. d = Σ|aᵢ - bᵢ|. مثل التنقل بين الأحياء: لا يمكنك الحركة диагونالية، بل فقط على المحاور. فهو أكثر استجابة للنقاط العارضة في الأبعاد الفردية لأنه لا يربط الفرق.


تشابه الكوسين: يقيس زاوية القوس بين القوائم، ويغفل على الكامل. d = 1 - cos(θ). يتمتع المستندان اللذين يتحدثان عن نفس الموضوع بمسافة كوسينية صغيرة بغض النظر عن الطول. المستندان اللذين يبلغ طولهما متساويًا ويختلفان في الموضوع يملكان مسافة كوسينية كبيرة.


الاختيار ليس عشوائيًا. إذا كانت القيمة المطلقة مهمة (جرعة دواء، درجة حرارة المفاعل)، فاستخدم الأوروبي. إذا كنت تهم بالتناسب أكثر من الأعداد الصحيحة (توزيعات تكرار الكلمات، ملفات تعريف تفضيل المستخدمين)، فاستخدم الكوسين. إذا كانت الفرق بين سمات الميزات مهمة أكثر من القيمة المطلقة (تشخيص العيوب، حيث يكون تفعيل جهاز مراقبة واحد مهمًا)، فاستخدم مانهاتن.

جيران الأقرب: هندسة خالصة

KNN: أسرع خوارزمية هندسية

جيران الأقرب هي الخوارزمية الهندسية الأكثر وضوحًا في التعلم الآلي. لا توجد فترة تدريب عليها: هي هي البيانات التدريبية.


لتصنيف نقطة جديدة: ابحث عن أقل من K نقطة قريبة في البيانات التدريبية. دعها تتصوت. الفئة الأكثر شعبية تفوز. وهذا هو الخوارزمية بأكملها.


الحدودية التي ينتجها KNN هي диаграмة فيورونوي: تقسيم المساحة حيث تتبع كل نقطة منطقة قربها أقرب مثال تدريبي. الحدود هي خطوط المتوسطة المتناظرة بين النقاط التدريبية المجاورة.


هنا هو الفهم الهندسي الذي يهم: اختيار مقياس المسافة يغير تمامًا диаграмة فيورونوي. المسافة الأوروبية تنتج حدودًا مفرطة، دائرية. المسافة المانهاتن تنتج حدودًا مفرطة، مفرطة الشكل. المسافة الكوسينية تنتج حدودًا مفرطة، مخروطية الشكل.


البيانات التدريبية نفسها. K نفسه. مقياس المسافة المختلف. نموذج مختلف تمامًا. الهندسة هي النموذج.

اختيار مقياس المسافة

المتغيرات غير متبادل: الخيار الصحيح يعتمد على ما يعني "متماثل" بالنسبة لبياناتك.

لماذا قد تستخدم المسافة الكوسينية بدلاً من المسافة الأوروبية عند مقارنة الوثائق؟ فكر في ما يحدث عندما تتحدث الوثائق نفس الموضوع ولكن واحدة طويلة جدًا.

المخططات: حدود مسطحة في الأبعاد العالية

لكل فئة تصنيفية خطية تجد مخططًا

حدود القرار: خطية وغير خطية والخدعة النمطية

فئة تصنيفية خطية تجد سطحًا مستوًى يفرق بين الفئتين. يعتمد نوعية هذا السطح على الفضاء:


- في الفضاء البنائي، يكون الحد الفاصل خطًا (بُعد واحد)

- في الفضاء الثلاثي الأبعاد، يكون الحد الفاصل طائرةً (بُعدين)

- في الفضاء البنائي المكون لـ 784 بعدًا (صور الأرقام المخططية)، يكون الحد الفاصل مخططًا ثلاثي الأبعاد (783 بعدًا)


النمط العام: في الفضاء N- البُعد، يكون الحد الفاصل مخططًا مستوًى (N-1) الأبعاد يسمى المخطط الثلاثي الأبعاد.


التصنيف اللوجستي والخوارزميات SVM ووحدة العرض الواحدة هي كلها بحثة عن مخطط ثلاثي الأبعاد. يختلفون في كيفية العثور على أفضل مخطط ثلاثي الأبعاد:

- التصنيف اللوجستي ي максимاليز الاحتمالية الصحيحة التصنيفية

- SVMs ي максимاليز المسافة الجيوميترية: المسافة بين المخطط الثلاثي الأبعاد والنقاط القريبة من الفضاء

- Perceptrons يجدون أي مخطط ثلاثي الأبعاد يفرق بين البيانات، دون ضمان الأفضلية


مصفوفة الوزن للفئة التصنيفية خطية هي المحور للثلاثي الأبعاد. العامل التأخيري يتحول المخطط الثلاثي الأبعاد بعيدًا عن المنشأ. هؤلاء هما جسم هندسي يملك تفسيرات هندسية.

خارج حدود مسطحة

عندما لا يمكن فصل البيانات بحدود خطية

عندما يكون المشكلة حقيقية العالم لا يمكن حلها بحدود مسطحة. افترض تصنيف الصور للقطط مقابل الكلاب: لا يمكن أن يفرق مخطط ثلاثي الأبعاد واحد في الفضاء البنائي بينهم بشكل نظيف.


توجد استراتيجيتين هندسيتين:


استراتيجية 1: خدعة النمط: تحويل البيانات إلى فضاء أعلى بعدًا حيث يمكن فصلها بشكل خطي. مثال كلاسيكي: النقاط داخل دائرة (الفئة أ) ونقاط خارجها (الفئة ب) في البُعد البنائي. لا يمكن أن يفرق خط بينهم. لكن إذا أضيفنا البُعد الثالث z = x² + y²، فإن النقاط الداخلية (صغيرة x² + y²) تقع منخفضة بينما تقع النقاط الخارجية (كبيرة x² + y²) في الأعلى. الآن يمكن فصلها بشكل مثالي بواسطة سطح مستوٍ محدد.


خوارزميات SVM مع وظائف النمطية تفعل هذا بشكل ضمني: تقوم بتقدير منتجات الأضلاع في الفضاء الأعلى دون بناء الفواصل الفعلية الأعلى. يسمى هذا الخدعة النمطية ويعتبرها فكرة هندسية.


استراتيجية 2: الشبكات العصبية: ترتيب التحويلات الخطية مع الوظائف التأكسيلية غير الخطية. تقوم كل طبقة بتحويل خطي (ضرب المصفوفات = الدوران + التكبير + الشفط) يلي ذلك انحناء غير خطي (ReLU و sigmoid و tanh). يمكن أن يقوم تركيب العديد من العمليات الخطية-ثم الانحناء بتقريب أي شكل مرئي للحدود ongoing.


شبكة عصبية عميقة هي سلسلة من التحويلات الجيومترية التي تغير مساحة الإدخال حتى تصبح الفئات منفصلة خطيًا في الطبقة النهائية.

فصل البيانات الدائرية

هذا أحد أهم المشاكل الجيومترية في التعلم الآلي.

في 2D، لديك نقاط حمراء داخل دائرة و نقاط بلورية خارجها. سطر مستقيم لا يمكنه فصلها. وصف استراتيجيتين جيومتريتين ل解决 هذه المشكلة.

منحنى الخسارة

التدريب = المشي على سفح الجبل في السطح

منحنى الخسارة: التنقل في السطح

كل نموذج التعلم الآلي لديه معلمات: الأوزان والمتغيرات. تعكس دالة الخسارة مدى خطأ التوقعات التي يقدمها النموذج. معا، هذين يحددان منحنى الخسارة: سطح حيث يمثل كل نقطة قيمة معينة من المعلمات، وارتفاع الخسارة.


لنموذج يحتوي على 2 معلمة، يكون منحنى الخسارة هو سطح ثلاثي الأبعاد يمكن رؤيته: الجبال والوديان والمناطق السهل التحرك فيها. بالنسبة لنموذج يحتوي على 175 مليار معلمة (مثل GPT-3)، يوجد منحنى الخسارة في مساحة 175 مليار بعدي. المعادلة هي نفسها.


نزول الميل هو الخوارزمية التي تتنقل على هذه السطح. الميل هو جسم هندسي:向ة تشير في اتجاه الصعود الأكبر. لخفض الخسارة، انتقل في الاتجاه المعاكس: الميل السلبي. هذا يعني حرفيا المشي في اتجاه الجبال.


تتحكم معدل التعلم في حجم الخطوة. إذا كان كبيراً ، فستفوت الواديات. إذا كان صغيراً ، فستشعرت. الميل يخبرك الاتجاه؛ معدل التعلم يخبرك بكمية الخطوة.

نقاط العتبة والمنخفضات والجغرافيا العالية الأبعاد

السطح الخسائر ليس كوب بسيط

صورة بسيطة من التدريب تخيل كوب سلسلة مع نقطة أقل من الحد. الواقع أكثر تعقيدًا:


المنخفضات المحلية: وادي ليس أعمق. نزول الميل قد يعلق هنا، يعتقد أن كل اتجاه يرتفع، حتى لو كان وادي أعمق موجودًا في مكان آخر.


نقاط العتبة: شكلها مثل ظهر الحصان. الخسائر تقلب في بعض الأبعاد وتصاعدًا في غيرها. في 2D هذا نادر. في الأبعاد العالية، نقاط العتبة أكثر شيوعًا متعددة بشكل指数ي من المنخفضات المحلية. نقطة حرجة في مساحة 1000 الأبعاد يجب أن تقلب صعودًا في جميع الأبعاد 1000 لتصبح نقطة منخفضة محلية. إذا كانت بضعة أبعاد تقلب إلى الأسفل، فهي نقطة العتبة.


المناطق المسطحة: المناطق التي يكون فيها الميل قريب من الصفر. يتوقف التدريب لأنه لا يوجد سلّة يتبع.


المنخفضات الحادة والمنخفضات المسطحة: منخفض حاد هو وادي ضيق. منخفض مسطح هو وادي واسع. التوصيات تقول أن المنخفضات المسطحة تتحمل بشكل أفضل لبيانات لم يتم رؤيتها من قبل، لأن التغييرات الصغيرة في المعلمات (من الضوضاء في بيانات جديدة) لا تؤثر بشكل كبير على الخسارة.


SGD مع القوة المحركة يساعد على تجنب نقاط العتبة والمنخفضات الحادة. الضوضاء في نزول الميل الاستوائي يعمل مثل شكوك كرة على السطح: يهزها خارج الأماكن الضيقة والبحث عن وديان أوسع وأعمق.

SGD ضد نزول الميل الكامل

هذا أحد أهم المعارف العملية في التعلم الآلي التدريب.

لماذا يجد نزول الميل الاستوائي (SGD) أحيانًا أفضل الحلول من وجهة نظر جيو مترية من نزول الميل الكامل؟

الكلمات ككواكب: حساب الجيومتري

المعنى لديه اتجاه

فضاء الانزلاق الجيومتري: الهندسة الجيومترية المعنوية

Word2Vec و GloVe و الانزلاقات الحديثة للترميز المترابط تُترجم الرموز المتناوبة (الكلمات، الفرديات) إلى فضاءات الكواكب ongoing. الناتج هو عالم هندسي حيث يكون المعنى بكوординات.


النماذج المرمزة: الملك - الرجل + المرأة ≈ الملكة


هذا حساب الكواكب. الفترة من 'رجل' إلى 'ملك' تمثل المفهوم 'الملكية تطبق على الذكر'. الفترة من 'مرأة' إلى 'ملكة' تمثل 'الملكية تطبق على الأنثى'. هذه الكواكب تقريبًا: الاتجاه نفسه، نفس العلاقة، بداية مختلفة.


بعض العلاقات الجيومترية الأخرى التي تنبع من تدريبها على النص:

- باريس - فرنسا + إيطاليا ≈ روما (علاقات العاصمة)

- مشى - مشي + غطس ≈ غطس (تحويل الماضي)

- أكبر - كبير + صغير ≈ أصغر (صيغة المقارنة)


لم يتم برمجة هذه العلاقات. اكتشف النموذج أن المعنى له تركيب هندسي بواسطة قراءة مليارات من الكلمات. الاتجاهات في فضاء الانزلاق تمثل العلاقات المعنوية. هذا واحد من اكتشافات الهندسة الجيومترية الأروع في التعلم الآلي.

مثالية المانيفولد

البيانات ذات الأبعاد العالية تعيش على سطوح منخفضة الأبعاد مملوكة

صورة وجه 64x64 رمادية اللون لديها 4096 قيمة البكسلات: هي نقطة في الفضاء الأبعدي 4096. لكن ليس كل نقطة في هذا الفضاء هي وجه صحيح. معظم الفواصل العشوائية 4096 الأبعاد تبدو مثل الضوضاء الصامتة، وليس وجوهًا.


تؤكد المثالية المانيفولد أن البيانات ذات الأبعاد العالية تتواجد في الواقع على أو بالقرب من السطوح المنخفضة الأبعاد المملوكة المملوكة في الفضاء الأبعدي العالي. قد يكون منحنى الوجوه فقط 50-أبعدي: محدد بواسطة العوامل مثل زاوية الضوء، ووضع الرأس، والتعبير، ودرجة حمرة البشرة، والعمر.


هذا ادعاء هندسي لديه عواقب عملية:


- التقليل من بعدية البيانات (PCA و t-SNE و UMAP) يعمل لأن البيانات تقريبًا منخفضة الأبعاد. يقوم هذه الخوارزميات بتحديد المانيفول्ड والتقاطه.

- الأنابيب العصبية تعلم压压 البيانات إلى مساحة خاملة منخفضة الأبعاد (المانيفول्ड) والبناء منها مجددًا.

- النمذجة الجينية (VAEs و MODELS التباعد) تعلم المانيفول्ड وتحصل على نقاط جديدة عليه: إنشاء وجوه جديدة وموسيقى جديدة وخطط جديدة النظرية لأنها تتماشى مع المانيفول्ड المكتشف.


عندما تفشل نموذجك في التعميم، واحدة من تفسيرات الجيومترية هي: تعلم المانيفول्ड الخاطئ. بيانات التدريب رسمت سطحًا لا يتناسب مع التوزيع الحقيقي للبيانات.

مثلثات الكائن

التركيب الجيومتري للفضاءات المنسقة إحدى نتائج التعلم الآلي الحديث الأكثر إذهالًا.

إذا تمتلك وحدات التمثيل الكائنية الجيومترية، ماذا يعني عندما نقول أن القطعة من 'رجل' إلى 'ملك' تقريبًا موازية للقطعة من 'امرأة' إلى 'ملكة'? ما المفهوم الجيومتري الذي يعمل؟

مثلثات ROC: جودة التصنيف كمساحة

أدوات تقييم تعيش في مساحات جيوترية

مساحة ROC: جودة التصنيف كجيوتريا

تظهر منحنى ROC (Receiver Operating Characteristic) نسبة الإيجابي الحقيقي (y-axis) ضد نسبة الكاذب الإيجابي (x-axis) عند تتبع حشوة التصنيف من 0 إلى 1.


هذا مساحة جيوترية لها معالم مهمة:

- (0, 1): الزاوية الأيسر العليا: تصنيف مثالي. كشف كل إيجابي، بدون أي تحذيرات كاذبة.

- (0, 0): الزاوية الأيسر السفلية: يصنف النموذج كل شيء سلبيًا.

- (1, 1): the top-right: the model classifies everything as positive.

- The diagonal from (0,0) to (1,1): a random classifier. At every threshold, it has equal true positive and false positive rates.


AUC (Area Under the Curve) is literally a geometric area measurement. AUC = 0.5 means the model is random (the area under the diagonal). AUC = 1.0 means perfect classification (the entire unit square). A good model's ROC curve bows toward the top-left corner, enclosing more area.


AUC has a beautiful probabilistic interpretation: it equals the probability that the model scores a random positive example higher than a random negative example. But geometrically, it is just area: and that geometric simplicity is what makes it intuitive.

Precision-Recall Space

Different Geometric Tradeoff

Precision-recall curves live in a different geometric space than ROC curves, & they tell a different story.


Precision = of everything the model flagged positive, what fraction was actually positive?

Recall = of all actual positives, what fraction did the model find?


As you lower the classification threshold (flag more things as positive), recall increases (you catch more real positives) but precision typically decreases (you also catch more false positives). This tradeoff traces a curve in precision-recall space.


F1 score = 2 × (precision × recall) / (precision + recall): the harmonic mean. Geometrically, the F1 score equals the point on the precision-recall curve where precision equals recall. It is where the curve intersects the diagonal of the precision-recall square.


Average Precision (AP) = the area under the precision-recall curve. Like AUC-ROC, it summarizes the entire curve into a single number that represents geometric area.


ROC curves & precision-recall curves are complementary geometric views of the same model. ROC curves can be misleadingly optimistic on imbalanced datasets (99% negative class). Precision-recall curves remain informative because they focus on the positive class.

AUC-ROC Interpretation

Understanding what AUC-ROC measures geometrically helps you choose between models.

Two models have the same accuracy (85%). Model A has AUC-ROC of 0.92. Model B has AUC-ROC of 0.78. Why might you prefer Model A? What does the geometric difference in their ROC curves tell you?

الترجمة: منتجات نقطة متعامدة كمعرفه بالتركيز

التركيز هو قياس هندسي للتشابه

(التحديد = التوافق الهندسي بين السؤال والفتحات

تعتمد بنية معالج الترانزفورمر، التي تقوم على معالجات اللغة الحديثة: تعتمد على عملية هندسية: منتددة النقطة.


للكلمة في كل سلسلة، يحتسب معالج الترانزفورمر ثلاثة وحدات: السؤال (Q): الفتحة (K): القيمة (V): كلها يتم الحصول عليها عن طريق ضرب الوحدة المتصلة بالمدخلات في جداول الأوزان المكتسبة.


درجة الاهتمام بين كلمتين هي: الدرجة = Q · K^T / √d


هذا منتددة نقطة مقاسلة: قياس التشابه الهندسي. عندما يوجه Q و K في نفس الاتجاه (صغير الزاوية بينهما)، منتددة النقطة كبيرة: هذه المفتاح ذات صلة تامة بالنسبة لهذا السؤال. عندما هما متعامدان، منتددة النقطة صفر: غير ذات صلة.


الدرجات تمر عبر softmax لإنشاء توزيع احتمالية: أوزان الاهتمام التي تبلغ المجموع 1. المخرج هو مجموع الوزنات من وحدات القيمة، حيث الأوزان محددة بواسطة التوافق الهندسي.


في جملة مثل 'القط كان جالسًا على السرير لأنها متعبة'، يحتسب الاهتمام: لكلمة 'إنها'، أي كلمات لديها التوافق الهندسي الأكبر؟ إذا كان وحدات Q ل 'إنها' توافقًا أقرب مع وحدات K ل 'قط'، سيُفترض أن يُفحص 'قط'، مما يسمح بمعالجة الاسم التعريفية من خلال الهندسة.

التركيز متعدد الرؤى: رؤى هندسية متعددة

لماذا رؤى متعددة؟

التنسيق الذاتي باستخدام مجموعة واحدة من مصفوفات Q، K، V يحسب نوع واحد من التوافق الجيومتري. لكن اللغة لديها العديد من أنواع العلاقات: التركيبية والمنطقية والوضعية والإشارة.


التنسيق متعدد الرؤوس يستخدم مجموعات متعددة من مصفوفات Q، K، V المشروعية، كل منها مشروع إلى فضاء جيو متري مختلف للإشارة. كل رأس يقيّم التوافق في فضاءه الجيومتري الخاص.


ما يراقبونه الباحثون عند فحص رؤوس التنسيق:

- رأس 1 قد يكون مفتوناً بالكلمة السابقة (البعد الجغرافي)

- رأس 2 قد يكون مفتوناً بالفعل من المبتدأ (التنسيق التحتاني)

- رأس 3 قد يكون مفتوناً بالكلمات ذات العلاقات المنطقية المبكرة في السياق

- رأس 4 قد يكون مفتوناً بالفعل الأخير (التحديد بالاشتراك)


كل رأس هو عدسة جيومترية مختلفة على نفس البيانات. يتم تغيير مساحة الإشارة بواسطة تناظر وتسلسل مختلف، مما يجعل العلاقات المختلفة مرئية من خلال التوافق.


هذا يشرح لماذا تفوق النماذج المتحولة النماذج التي تستخدم آلية تنسيق واحدة. يتم الحصول على ناتج نقطة واحدة في مساحة الإشارة الكاملة، مما يلقي مفهوم التشابه. يتم الحصول على نواتج نقطة متعددة في فضاءات إشارات مختلفة، مما يلقي مفاهيم التشابه المتعددة والمتضادة بشكل معاصر.

التنسيق متعدد الرؤوس

التنسيق متعدد الرؤوس هو إحدى ابتكارات الأسلوب الرئيسية للمحول.

في محول، لماذا يساعد استخدام رؤوس التنسيق متعددة مقارنة برأس واحد؟ الإجابة باللغة الجيومترية.

التعلم الآلي ينطبق الجبر

السلك الموحد

انظُر ما قمنا بتحقيقه. تملك كل مفهوم رئيسي في التعلم الآلي على قلب جيو متري:


البيانات = نقاط في الفضاء العالي الأبعاد

المميزات = الأبعاد لهذا الفضاء

التشابه = المسافة أو الزاوية بين النقاط

التصنيف = إيجاد حدود جيو مترية بين الفئات

التدريب = التنقل على سطح الخسائر بتبعِ الطرق المرتفعة

التعريض = أنظمة الأبعاد التي تعلم فيها الجيو مترية تعني المعنى

التقييم = المناطق تحت الجداول في المساحات القياسية

التركيز = منتجات نقطة تعيين مدى التوافق الزاوي


هذا ليس خطأ. تعلم الآلي ورث إطار عمل رياضي من التحليل الخطي والجيو مترية التفاضلية: المجالات التي تتمحور حول الفضاء والمظهر والتحويل


فهم الجيو مترية يعطيك شيئًا لا يمكن أن يعطيك تذكر خوارزميات: الاستدراك. عندما تفشل نموذجك ، يلخص المنظور الجيو متري حيث يمكنك البحث. هل الفئات غير قابلة للفصل؟ انظُر الحدود الجيو مترية. هل التدريب محبوس؟ فحص سطح الخسائر. هل التعريض سيئ؟ التحقق مما إذا كانت العناصر المتشابهة قريبة جيو متريًا. هل الانتباه غير واضح؟ فحص مشاريع الأبعاد الفرعية.


هذا الجيو متري هو نفسه سواء كنت تعمل مع 3 أبعاد أو 3 مليار. الرياضيات تنتشر. الاستدراك ينتقل. هذا ما يجعل الجيو مترية اللغة العالمية للتعلم الآلي.

التصحيح الجيو متري

لقدغطنا بمصفوفات، والdistances، والحدود، والتدريب، والتعريض، والتقييم، والانتباه: كل ذلك من خلال عدسة الجيو مترية.

اختر مفهومًا من هذا الدرس وشرح كيفية تغيير فهمك الجيو متري لطبيعة هذا المفهوم كيفية تصحيح أو تحسين نموذج يستخدمه. будь دقيقًا.