מקרה אמיתי · רכש חלפים מסין
סוכן AI שמסרב לשקר — והריצה הראשונה החזירה אפס לידים
לחפש ספק חלפים מקוריים מסין נשמע כמו בעיה של חיפוש בגוגל. זה לא. טעות אישור כאן זה העברה בנקאית למפעל לא נכון ומכולה של 40 רגל מלאה חלקים לא-מקוריים. אז בנינו את הסוכן ככה שיעדיף להגיד "אני לא יודע" על פני "כן".
פרויקט פנימי, מרכז חלפים · נבנה ומופעל על ידי אור לוי-סהר.
"מפיץ מורשה" זה לא הוכחה. זה טקסט שיווקי.
תחפשו "ספק פילטרים מקוריים מסין" ותקבלו שלושה עמודים של אתרים שנראים כמו מפיצים מורשים. רובם דילרים אמריקאיים שכותבים מה שגוגל אוהב, לא יצואנים סינים. תעברו ל-Alibaba ואותו ספק כותב "מוכר חלפים מקוריים" על כל מוצר — בלי קשר אם הוא באמת מחזיק קרטון Volvo מקורי במחסן, או שקנה פילטר לא-ממותג בשני דולר והדביק עליו מדבקה חדשה.
בגרסה הראשונה ביקשנו מ-AI לסווג 12 ספקים. הוא החזיר 3 שסומנו בביטחון כ"מפיץ מקורי". בדיקה ידנית: כל השלושה היו סוחרי חלפים לא-מקוריים. ה-AI סמך על תיאור-עצמי באתר כאילו זאת הוכחה.
שער ביקורת שלא ניתן לעקוף.
תהליך של 11 שלבים. חלק אחד אחראי על העבודה המכנית — חיפושים, סינון, ניקוד, ייצוא לאקסל. חלק שני, ה-AI, אחראי על שיקול הדעת — קריאת עמודים וסיווג. ביניהם יושב שער ביקורת: כל טענה של ה-AI חייבת להיתמך ב-קישור למקור וב-ציטוט מילולי מתוך טקסט שבאמת קיים בעמוד.
אקסל ריק היה התשובה הנכונה.
- 0טעויות אישור
- 3 / 3סיווגי "מפיץ מקורי" שגויים שהוסרו
- 49בדיקות אוטומטיות
- 5 דק׳סקירה ידנית של התוצאות
"אני מעדיף שהסוכן יחזיר אקסל ריק על פני שלוש שורות בטוחות ושגויות. שלוש שורות שגויות זה העברה בנקאית למפעל שלא יכול לספק. אקסל ריק זה אחר צהריים שקט שבו חוזרים לחיפוש."
תרצה משהו דומה לעסק שלך?
20 דקות. נראה לך את שער הביקורת בפעולה. בלי מצגת, בלי מכירה.