חזרה למקרים

מקרה אמיתי · רכש חלפים מסין

סוכן AI שמסרב לשקר — והריצה הראשונה החזירה אפס לידים

לחפש ספק חלפים מקוריים מסין נשמע כמו בעיה של חיפוש בגוגל. זה לא. טעות אישור כאן זה העברה בנקאית למפעל לא נכון ומכולה של 40 רגל מלאה חלקים לא-מקוריים. אז בנינו את הסוכן ככה שיעדיף להגיד "אני לא יודע" על פני "כן".

פרויקט פנימי, מרכז חלפים · נבנה ומופעל על ידי אור לוי-סהר.

0 טעויות אישור
3 / 3 סווגו מחדש כלא-מקוריים
11 שלבים בתהליך
49 בדיקות אוטומטיות עוברות
לפני

"מפיץ מורשה" זה לא הוכחה. זה טקסט שיווקי.

תחפשו "ספק פילטרים מקוריים מסין" ותקבלו שלושה עמודים של אתרים שנראים כמו מפיצים מורשים. רובם דילרים אמריקאיים שכותבים מה שגוגל אוהב, לא יצואנים סינים. תעברו ל-Alibaba ואותו ספק כותב "מוכר חלפים מקוריים" על כל מוצר — בלי קשר אם הוא באמת מחזיק קרטון Volvo מקורי במחסן, או שקנה פילטר לא-ממותג בשני דולר והדביק עליו מדבקה חדשה.

בגרסה הראשונה ביקשנו מ-AI לסווג 12 ספקים. הוא החזיר 3 שסומנו בביטחון כ"מפיץ מקורי". בדיקה ידנית: כל השלושה היו סוחרי חלפים לא-מקוריים. ה-AI סמך על תיאור-עצמי באתר כאילו זאת הוכחה.
בנייה

שער ביקורת שלא ניתן לעקוף.

תהליך של 11 שלבים. חלק אחד אחראי על העבודה המכנית — חיפושים, סינון, ניקוד, ייצוא לאקסל. חלק שני, ה-AI, אחראי על שיקול הדעת — קריאת עמודים וסיווג. ביניהם יושב שער ביקורת: כל טענה של ה-AI חייבת להיתמך ב-קישור למקור וב-ציטוט מילולי מתוך טקסט שבאמת קיים בעמוד.

חיפושים + סינון
AI: קריאה וסיווג
שער ביקורת
אקסל + Monday

אי אפשר לעבור את השער בעזרת המצאה — הציטוט חייב להתקיים בטקסט אמיתי בעמוד אמיתי. אם הראיה חסרה, הסיווג עובר אוטומטית ל"לא ידוע".

אחרי

אקסל ריק היה התשובה הנכונה.

  • 0טעויות אישור
  • 3 / 3סיווגי "מפיץ מקורי" שגויים שהוסרו
  • 49בדיקות אוטומטיות
  • 5 דק׳סקירה ידנית של התוצאות
"אני מעדיף שהסוכן יחזיר אקסל ריק על פני שלוש שורות בטוחות ושגויות. שלוש שורות שגויות זה העברה בנקאית למפעל שלא יכול לספק. אקסל ריק זה אחר צהריים שקט שבו חוזרים לחיפוש."

תרצה משהו דומה לעסק שלך?

20 דקות. נראה לך את שער הביקורת בפעולה. בלי מצגת, בלי מכירה.