هوش مصنوعی و لیست کلمات کثیف ، شیطان ، زشت و در غیر این صورت بد است


جورج کارلین کمدین لیستی از هفت کلمه ای بود که نمی توانید در تلویزیون بگویید. بخشهایی از اینترنت دارای 402 کلمه ممنوع به اضافه یک شکلک ،، است.

اسلک از لیست منبع باز کلمات کثیف ، شیطان ، زشت و در غیر این صورت بد در GitHub برای کمک به پیشنهادات جستجوی خود استفاده می کند. پروژه نقشه برداری منبع باز OpenStreetMap از آن برای بازسازی ویرایش های نقشه استفاده می کند. محققان Google برای هوش مصنوعی اخیراً صفحات وب حاوی هر یک از کلمات را از مجموعه داده ای که برای آموزش یک سیستم درک قدرتمند زبان جدید استفاده می شود ، حذف کردند.

LDNOOBW ، همانطور که نزدیکان آن را می دانند ، سالها یک برنامه مفید بوده است ، اما اخیراً محبوبیت بیشتری پیدا کرده است. لیست های بلوک سعی می کنند شکاف بین منطق مکانیکی نرم افزار و تناقضات آلی رفتار و زبان انسان را برطرف کنند. اما چنین لیستی به ناچار ناقص است و می تواند عواقب ناخواسته ای به همراه داشته باشد. برخی از محققان هوش مصنوعی استفاده Google از LDNOOBW را به عنوان محدود کردن آنچه نرم افزار آن درباره بشریت می داند ، مورد انتقاد قرار داده اند. یک لیست مشابه دیگر از کلمات متن باز “بد” باعث شده است که نرم افزار چت Rocket.Chat شرکت کنندگان در رویدادی به نام Queer را در هوش مصنوعی سانسور کند تا از کلمه queer استفاده کند.

لیست اولیه کلمات کثیف ، شیطان ، ناپسند و در غیر این صورت بد در سال 2012 توسط کارمندان سایت عکس Shutterstock تهیه شده است. دن مک کورمیک ، که تیم مهندسی شرکت را هدایت می کرد ، می خواست به عنوان یک ویژگی امنیتی از ویژگی تکمیل خودکار در جعبه جستجوی سایت ، ناپسند یا ناخواسته شود. او از ورود کاربران به هر آنچه می خواستند خوشحال بود ، اما نمی خواست این سایت فعالانه شرایطی را ارائه دهد که مردم از دیدن آنها در یک دفتر کار باز متعجب شوند. مک کورمیک ، که در سال 2015 شاترستاک را ترک کرد ، گفت: “اگر کسی B را بنویسد ، شما نمی خواهید اولین کلمه ای که مطرح می شود جوانان باشد.”

او و برخی از همکارانش هفت کلمه کارلین را گرفتند ، به تاریک ترین گوشه مغز آنها ضربه زدند و از Google برای یادگیری عامیانه های گاه گیج کننده فعالیت جنسی استفاده کردند. آنها 342 ورودی اصلی خود را با یک یادداشت دعوت و این پیشنهاد که “می تواند بازی بعدی Scrabble شما را تغییر دهد :)” در GitHub قرار داد

تقریباً نه سال بعد ، LDNOOBW ، همانطور که طرفداران آن را می دانند ، طولانی تر و تأثیرگذارتر از همیشه است. کارکنان شاتر استوک پس از ترک مک کورمیک ، با کمک پیشنهادهای خارجی ، همچنان لیست جنایات خود را آماده کردند و در نهایت به 403 رکورد انگلیسی رسیدند. این لیست باعث برنده شدن کاربران خارج از شرکت از جمله OpenStreetMap و Slack شد. نسخه های این لیست به بیش از دوازده زبان دیگر وجود دارد ، از جمله سه ورودی کلینگون – QI’yaH! – و 37 برای اسپرانتو. شاتر استوک از اظهارنظر در مورد این لیست خودداری کرد و گفت که این دیگر یک پروژه شرکتی نیست ، اگرچه هنوز نام شرکت و ادعای کپی رایت در GitHub را دارد.

محققان هوش مصنوعی گوگل اخیراً شهرت و رسوایی جدید LDNOOBW را به دست آوردند. در سال 2019 ، محققان این شرکت اعلام کردند که از این لیست برای فیلتر کردن صفحات وب موجود در مجموعه میلیاردها کلمه پاک شده از شبکه ای به نام Colossal Clean Crawled Corpus استفاده می کنند. این مجموعه سانسور شده یک پروژه اخیر گوگل را ایجاد کرد که بزرگترین سیستم هوش مصنوعی را که شرکت از آن رونمایی کرد ایجاد کرد و نتایج بزرگی را در کارهایی مانند خواندن سوالات درک مطلب یا علامت گذاری جملات از نقدهای فیلم مثبت یا منفی نشان داد.

چنین پروژه هایی نرم افزاری را ایجاد کرده اند که متنهایی شگفت آور را تولید می کند. اما برخی از محققان هوش مصنوعی استفاده Google از LDNOOBW برای فیلتر کردن ورودی هوش مصنوعی خود را زیر سال برده اند و می گویند که این دانش زیادی را تحت الشعاع قرار داده است. حذف صفحات با کلمات ناپسند ، تهمت های نژادی ، اصطلاحات آناتومیک یا کلمه جنسیت ، صرف نظر از زمینه ، باعث حذف پست های خشن انجمن می شود ، بلکه مجموعه ای از مطالب آموزشی و پزشکی ، پوشش اخبار مربوط به سیاست های جنسی و اطلاعات در مورد پرندگان آواز Paridae. گوگل در مقاله خود درباره این اثر جانبی بحث نکرده است.

ویلیام اگنیو ، محقق یادگیری ماشین در دانشگاه واشنگتن ، گفت: “کلمات موجود در لیست بارها به روشی بسیار توهین آمیز استفاده می شوند ، اما بسته به زمینه و هویت شما می توانند مناسب باشند.” وی یکی از بنیانگذاران گروه جامعه کویر در هوش مصنوعی است که به احتمال زیاد وب سایت های وی برای ارتقا تنوع در این زمینه با استفاده از کلمه جنسیت در صفحات برای بهبود تنوع در نیروی کار هوش مصنوعی ، از مقاله ابتدایی هوش مصنوعی گوگل حذف می شوند. Agnew گفت ، به نظر می رسد LDNOOBW الگوهای تاریخی عدم تأیید روابط همجنسگرایان را منعکس می کند ، با ضبط هایی از جمله “جنسیت همجنسگرایان” و “همجنسگرایی”.


منبع: sadeh-news.ir

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>