يمكن لمنظمة العفو الدولية حجز مطعم أو موعد للشعر ، ولكن لا تتوقع إجراء محادثة كاملة من المؤكد أن مساعد الذكاء الاصطناعي الخاص بك يمكنه حجز موعد لك ، ولكن ماذا عن أي محادثة ذات معنى؟ شترستوك / باس ناستاسيا

جوجل مؤخرا كشف النقاب أحدث تقنيات الذكاء الاصطناعي الناطقة باسم Duplex. يبدو الدوبلكس وكأنه شخص حقيقي ، كامل مع فترات توقف ، "أومس" و "آههس".

يقول عملاق التكنولوجيا إنه يمكنه التحدث إلى الأشخاص على الهاتف لتحديد المواعيد والتحقق من ساعات عمل العمل.

دوبلكس جدولة موعد صالون تجميل. شراء مراجعات جوجل445 KB (تحميل)

في المحادثات المسجلة التي تم إجراؤها في كشف النقاب عن Google ، تحدثت بسلاسة مع البشر في الطرف المتلقي ، الذين بدوا غير مدركين تمامًا أنهم لا يتحدثون مع شخص آخر.

دوبلكس يدعو إلى مطعم. شراء مراجعات جوجل399 KB (تحميل)

تركت هذه المكالمات الجمهور الموجه للتكنولوجيا في Google يلهث ويهتف. في أحد الأمثلة ، فهمت منظمة العفو الدولية حتى عندما اختلط الشخص الذي كانت تتحدث معه ، وكانت قادرة على الاستمرار في متابعة المحادثة والرد بشكل مناسب عندما قيل لها أنها لا تحتاج إلى إجراء حجز.


رسم الاشتراك الداخلي


صعود مساعدي منظمة العفو الدولية

إذا كنت قد استخدمت أيًا من المساعدين الصوتيين المتاحين حاليًا ، مثل Google Home أو Apple's Siri أو Amazon Echo، قد تفاجئك هذه المرونة. هؤلاء المساعدين هم صعب جدا لاستخدامها في أي شيء بخلاف الطلبات القياسية مثل الاتصال بجهة اتصال أو تشغيل أغنية أو إجراء بحث بسيط على الويب أو تعيين تذكير.

عندما نتحدث إلى هؤلاء المساعدين من الجيل الحالي ، فإننا ندرك دائمًا أننا نتحدث إلى الذكاء الاصطناعي ونقوم غالبًا بتكييف ما نقوله وفقًا لذلك ، بطريقة نأمل أن تزيد من فرصنا في جعلها تعمل.

لكن الأشخاص الذين يتحدثون إلى Duplex لم يكن لديهم أي فكرة. لقد ترددوا ، وتراجعوا ، وتخطوا الكلمات ، وحتى غيروا الحقائق في جزء منها من خلال جملة. دوبلكس لم يفوت أي فوز. يبدو حقا أن نفهم ما يجري.


اقرأ أكثر: يمكن أن تكون مكبرات الصوت الذكية هي نقطة التحول لأتمتة المنزل


فهل وصل المستقبل في وقت أبكر مما توقعه أي شخص؟ هل العالم على وشك أن يكون ممتلئًا بمساعدي الذكاء الاصطناعي على الإنترنت (والهاتف) الذين يتحدثون بسعادة ويفعلون كل شيء من أجلنا؟ أو ما هو أسوأ ، هل سنحاط فجأة بالذكاء الاصطناعي الذكي بأفكارهم وأفكارهم التي قد تشملنا أو لا تشملنا نحن البشر؟

الجواب هو "لا" أكيد. لفهم السبب ، من المفيد إلقاء نظرة سريعة تحت غطاء المحرك على ما يدفع الذكاء الاصطناعي مثل هذا.

دوبلكس: كيف يعمل

هذا هو ما نظام AI مزدوج يشبه.

تتم معالجة الصوت الوارد من خلال نظام ASR. ينتج عن ذلك نصًا يتم تحليله باستخدام بيانات السياق ومدخلات أخرى لإنتاج نص استجابة يتم قراءته بصوت عالٍ من خلال نظام تحويل النص إلى كلام (TTS). شراء مراجعات جوجل

يأخذ النظام "الإدخال" (الموضح على اليسار) وهو صوت الشخص الذي يتحدث إليه على الهاتف. يمر الصوت من خلال التعرف التلقائي على الكلام (ASR) ويتم تحويله إلى نص (كلمات مكتوبة). ASR هو في حد ذاته نظام AI متطور ، ولكنه من النوع المستخدم بالفعل بشكل شائع في مساعدي الصوت الحاليين.

يتم بعد ذلك مسح النص ضوئيًا لتحديد نوع الجملة (مثل التحية أو البيان أو السؤال أو التعليمات) واستخراج أي معلومات مهمة. تصبح المعلومات الأساسية بعد ذلك جزءًا من السياق ، وهو إدخال إضافي يبقي النظام على اطلاع دائم بما قيل حتى الآن في المحادثة.

ثم يتم إرسال النص من ASR والسياق إلى قلب Duplex ، الذي يسمى الشبكة العصبية الاصطناعية (ANN).

في الرسم البياني أعلاه ، يتم عرض ANN بواسطة الدوائر والخطوط التي تربطها. يتم تصميم ANNs بشكل فضفاض على أدمغتنا، التي لديها مليارات الخلايا العصبية المتصلة ببعضها البعض في شبكات هائلة.

ليس دماغًا تمامًا ، حتى الآن

ANNs أبسط بكثير من أدمغتنا. الشيء الوحيد الذي يحاول هذا الشخص القيام به هو مطابقة الكلمات المدخلة مع استجابة مناسبة. يتعلم ANN من خلال عرض نصوص الآلاف من المحادثات للأشخاص الذين يحجزون للمطاعم.

مع أمثلة كافية ، يتعرف على أنواع الجمل التي يمكن توقعها من الشخص الذي يتحدث إليه ، وأنواع الردود التي يجب تقديمها لكل منها.

ثم يتم إرسال استجابة النص التي تولدها ANN إلى مركب تحويل النص إلى كلام (TTS) ، الذي يحولها إلى كلمات منطوقة يتم تشغيلها بعد ذلك للشخص على الهاتف.

مرة أخرى ، يعد مُركب TTS هذا ذكاء اصطناعي متقدمًا - في هذه الحالة فهو أكثر تقدمًا من ذلك الموجود على هاتفك ، لأنه يبدو لا يمكن تمييزه تقريبًا عن أي صوت عادي.

هذا كل ما في الامر. على الرغم من كونها حديثة ، إلا أن قلب النظام هو في الواقع مجرد عملية مطابقة نصية. ولكن قد تسأل - إذا كان الأمر بسيطًا جدًا ، فلماذا لم نقم بذلك من قبل؟

استجابة مستفادة

والحقيقة هي أن اللغة البشرية ، ومعظم الأشياء الأخرى في العالم الحقيقي ، متغيرة للغاية وغير منظمة بحيث لا يمكن التعامل معها بشكل جيد بواسطة أجهزة الكمبيوتر العادية ، ولكن هذا النوع من المشاكل مثالي للذكاء الاصطناعي.

لاحظ أن الناتج الناتج عن الذكاء الاصطناعي يعتمد كليا على المحادثات التي تم عرضها أثناء التعلم.

وهذا يعني أنه يلزم تدريب ذكاء اصطناعي مختلف لإجراء حجوزات من أنواع مختلفة - لذا ، على سبيل المثال ، يمكن لمنظمة العفو الدولية حجز المطاعم وآخر يمكن حجز مواعيد الشعر.

يعد ذلك ضروريًا لأن أنواع الأسئلة والردود قد تختلف كثيرًا باختلاف أنواع الحجوزات. هذه هي أيضًا الطريقة التي يمكن أن يكون بها Duplex أفضل بكثير من مساعدي الصوت العام ، الذين يحتاجون إلى معالجة العديد من أنواع الطلبات.

لذا يجب أن يكون واضحًا الآن أننا لن نجري محادثات غير رسمية مع مساعدي الذكاء الاصطناعي في أي وقت قريب. في الواقع ، جميع عناصر الذكاء الاصطناعي الحالية لدينا ليست في الواقع أكثر من مطابقة الأنماط (في هذه الحالة ، مطابقة أنماط النص). إنهم لا يفهمون ما يسمعونه ، أو ما ينظرون إليه ، أو ما يقولونه.

مطابقة الأنماط هي أحد الأشياء التي تقوم بها أدمغتنا ، لكنها تفعل أكثر من ذلك بكثير. قد يكون مفتاح إنشاء ذكاء اصطناعي أكثر قوة هو فتح المزيد من أسرار الدماغ. هل نريد؟ حسن هذا سؤال آخر.المحادثة

نبذة عن الكاتب

بيتر ستراتون ، زميل أبحاث ما بعد الدكتوراه ، جامعة كوينزلاند

يتم إعادة نشر هذه المقالة من المحادثة تحت رخصة المشاع الإبداعي. إقرأ ال المقال الأصلي.