Колко силно трябва да настояваме Generative AI ChatGPT в бълване на реч на омразата, пита етика на AI и закон за AI

Какво да правим с генеративния AI, който произвежда обидно съдържание като реч на омразата?

Getty

Всеки има своя преломна точка.

Предполагам, че можете да кажете и това всичко има своята преломна точка.

Знаем, че хората например понякога могат да щракнат и да изрекат забележки, които не е задължително да искат да кажат. По същия начин можете понякога да накарате устройство или машина да щракне по същество, като например да бутнете колата си твърде силно и тя да започне да залита или да се разнася. По този начин идеята е, че хората или „всеки“ вероятно имат точка на пречупване и по подобен начин можем да твърдим, че предметите и нещата като цяло също имат склонност да имат точка на пречупване.

Може да има доста разумни и жизненоважни причини да се установи къде съществува точката на прекъсване. Например, несъмнено сте гледали онези видеоклипове, показващи как автомобил се подлага на тестове, за да се идентифицират точките на счупване. Учени и тестери ще блъскат кола в тухлена стена, за да видят доколко бронята и структурата на автомобила могат да издържат на неблагоприятното въздействие. Други тестове могат да включват използването на специализирано помещение или склад, които произвеждат екстремен студ или екстремна топлина, за да се види как ще се справи автомобилът при различни метеорологични условия.

Повдигам тази сърдечна тема в днешната колона, за да можем да обсъдим как някои в момента настояват силно върху изкуствения интелект (AI) да идентифицира и вероятно да разкрие конкретен тип точка на прекъсване, а именно точката на прекъсване в рамките на AI, която произвежда реч на омразата.

Да, точно така, полагат се различни ad hoc и понякога систематични усилия, за да се прецени дали е възможно да се накара AI да бълва реч на омразата. Това се превърна в запален спорт, ако щете, поради нарастващия интерес и популярността на генеративния AI.

Може би сте наясно, че генеративно приложение с изкуствен интелект, известно като ChatGPT, се превърна в огромен разговор в града в резултат на възможността да генерира удивително плавни есета. Заглавията продължават да гърмят и възхваляват удивителните текстове, които ChatGPT успява да създаде. ChatGPT се счита за генериращо AI приложение, което приема като вход някакъв текст от потребител и след това генерира или създава резултат, който се състои от есе. AI е генератор на текст към текст, въпреки че аз описвам AI като генератор на текст към есе, тъй като това по-лесно изяснява за какво обикновено се използва.

Мнозина са изненадани, когато спомена, че този тип AI съществува от известно време и че ChatGPT, който беше пуснат в края на ноември, по някакъв начин не претендира за наградата като първи в това царство на текст към есе склонност. През годините съм обсъждал други подобни генеративни AI приложения, вижте моето покритие на връзката тук.

Причината, поради която може да не знаете или да не си спомняте предишните случаи на генериращ AI, може би се дължи на класическата главоблъсканица „неуспешно стартиране“. Ето какво обикновено се случва. Производител на изкуствен интелект пуска своето генеративно приложение за изкуствен интелект, правейки го с голямо вълнение и нетърпеливо очакване, че светът ще оцени изобретяването на по-добър капан за мишки, може да се каже. Отначало всичко изглежда добре. Хората са изумени какво може да направи AI.

За съжаление, следващата стъпка е, че колелата започват да излизат от пословичния автобус. AI произвежда есе, което съдържа нецензурна дума или може би нецензурна фраза. Вирусен туит или друга публикация в социални медии ясно подчертава, че AI е направил това. Възниква осъждане. Не можем да накараме ИИ да обикаля и да генерира обидни думи или обидни забележки. Появява се огромна обратна реакция. Създателят на AI може би се опитва да промени вътрешната работа на AI, но сложността на алгоритмите и данните не се поддават на бързи корекции. Получава се блъсканица. Все повече и повече примери за AI, излъчващи неприятности, се намират и публикуват онлайн.

Създателят на AI неохотно, но очевидно няма друг избор, освен да премахне приложението AI от употреба. Те продължават по този начин и след това често се извиняват, че съжаляват, ако някой е бил обиден от генерираните резултати от AI.

Обратно към чертожната дъска, производителят на AI отива. Научен е урок. Бъдете много внимателни при пускането на генериращ AI, който произвежда нецензурни думи или други подобни. Това е целувката на смъртта за AI. Освен това, производителят на AI ще има репутацията си наранена и очукана, което може да продължи дълго време и да подкопае всичките им други усилия в областта на AI, включително тези, които нямат нищо общо с генеративния AI per se. Да набиете петардата си с излъчването на обиден език на ИИ е постоянна грешка. Все още се случва.

Измийте, изплакнете и повторете.

В ранните дни на този тип AI създателите на AI не бяха толкова съвестни или умели да почистват своя AI по отношение на опитите да предотвратят обидни емисии. В днешно време, след като преди това са видели своите връстници да бъдат напълно разбити от кошмар за връзки с обществеността, повечето създатели на AI изглежда са разбрали посланието. Трябва да поставите колкото можете повече парапети. Стремете се да попречите на AI да издава нецензурни думи или фрази. Използвайте всякакви техники за заглушаване или подходи за филтриране, които ще спрат изкуствения интелект да генерира и показва думи или есета, за които е установено, че са неподходящи.

Ето вкус на многословието на заглавието на банера, използвано, когато AI бъде хванат да излъчва лоши резултати:

„ИИ показва ужасяваща токсичност“
„ИИ мирише на откровен фанатизъм“
„AI става откровено обидно, обидно“
„AI бълва ужасяваща и неморална реч на омразата“
Т.н.

За по-лесно обсъждане тук, ще се позова на извеждането на обидно съдържание като приравняващо се на производството на за насаждане на омраза. Като се има предвид това, моля, имайте предвид, че има всякакъв вид обидно съдържание, което може да бъде създадено, надхвърляйки границите само на речта на омразата. Речта на омразата обикновено се тълкува като само една форма на обидно съдържание.

Нека се съсредоточим върху речта на омразата за тази дискусия, за улеснение на дискусията, но осъзнайте, че друго обидно съдържание също заслужава проверка.

Ровене в речта на омразата от хората и от AI

Организацията на обединените нации определя за насаждане на омраза насам:

„На общ език „реч на омразата“ се отнася до обиден дискурс, насочен към група или индивид въз основа на присъщи характеристики (като раса, религия или пол) и който може да застраши социалния мир. За да осигури единна рамка за ООН за справяне с проблема в световен мащаб, Стратегията и планът за действие на ООН относно речта на омразата определят речта на омразата като „всеки вид комуникация в реч, писане или поведение, която атакува или използва унизителен или дискриминационен език с позоваване на лице или група въз основа на това кои са те, с други думи, въз основа на тяхната религия, етническа принадлежност, националност, раса, цвят, произход, пол или друг фактор на идентичност.“ Към днешна дата обаче няма универсална дефиниция на речта на омразата съгласно международното право за правата на човека. Концепцията все още е в процес на обсъждане, особено във връзка със свободата на мнение и изразяване, недискриминация и равенство“ (публикация на уебсайта на ООН, озаглавена „Какво е реч на омразата?“).

AI, който произвежда текст, подлежи на навлизане в сферата на речта на омразата. Бихте могли да кажете същото за текст към изкуство, текст към аудио, текст към видео и други режими на генериращ AI. Винаги има възможност например генеративен AI да създаде произведение на изкуството, което мирише на реч на омразата. За целите на тази дискусия тук ще се съсредоточа върху възможностите за текст към текст или текст към есе.

Във всичко това идват множество съображения относно етиката на ИИ и Закона за ИИ.

Моля, имайте предвид, че има текущи усилия за внедряване на етични принципи на AI в разработването и внедряването на приложения с AI. Все по-голям контингент от загрижени и някогашни етици на AI се опитват да гарантират, че усилията за разработване и приемане на AI вземат предвид възгледа за правене AI за добро и предотвратяване AI за лошо. По същия начин има предложени нови закони за изкуствения интелект, които се обединяват като потенциални решения за предпазване на начинанията на изкуствения интелект от нарушаване на правата на човека и други подобни. За моето текущо и обширно отразяване на етиката на ИИ и Закона за ИИ вижте връзката тук намлява връзката тук, Само за да назовем няколко.

Разработването и разпространението на етични принципи на ИИ се преследват, за да се надяваме, че обществото ще попречи да попадне в безброй капани, предизвикващи ИИ. За моето отразяване на етичните принципи на AI на ООН, разработени и подкрепени от близо 200 държави чрез усилията на ЮНЕСКО, вж. връзката тук. По подобен начин се проучват нови закони за изкуствения интелект, за да се опитат да поддържат AI на равно ниво. Един от най-новите снимки се състои от набор от предложени Законът за правата на AI че Белият дом на САЩ наскоро пусна за идентифициране на човешките права в ерата на ИИ, вижте връзката тук. Нужно е село, за да поддържа AI и разработчиците на AI по правилния път и да възпира целенасочените или случайни подмолни усилия, които могат да подкопаят обществото.

Ще преплитам съображения, свързани с AI етиката и закона за AI, в тази дискусия относно AI, който бълва реч на омразата или друго обидно съдържание.

Едно малко объркване, което бих искал незабавно да изясня, е, че днешният AI не е съзнателен и следователно не можете да обявите, че AI може да произвежда реч на омразата поради целенасочено подобно на човека намерение, душевно въплътено по някакъв начин в AI. Zany обикалят твърденията, че сегашният AI е разумен и че AI има повредена душа, което го кара да генерира реч на омразата.

Нелепо.

Не си падайте по това.

Като се има предвид това принципно правило, някои се разстройват от подобни индикации, тъй като изглежда, че оставяте ИИ да се освободи. Под този странен начин на мислене следва увещанието, че очевидно сте готови да накарате AI да генерира всякакви жестоки резултати. Вие сте за AI, който бълва реч на омразата.

Ох, доста изопачена форма на нелогичност. Истинската същност на въпроса е, че трябва да държим създателите на ИИ отговорни, заедно с всеки, който прилага ИИ или работи с ИИ. Обсъждах надълго и нашироко, че все още не сме на етапа на предоставяне на правосубектност на AI, вижте анализите ми на връзката тук, а дотогава AI по същество е извън обхвата на правната отговорност. Все пак има хора, които са в основата на развитието на AI. В допълнение, хората са в основата на прилагането и работата на AI. Можем да преследваме тези хора за това, че носят отговорността за техния ИИ.

Като настрана, това също може да бъде трудно, особено ако изкуственият интелект е пуснат в интернет и не можем да определим кой човек или хора са направили това, което е друга тема, която съм разглеждал в моите колони на връзката тук. Трудно или не, все още не можем да обявим, че AI е виновната страна. Не позволявайте на хората тайно да използват фалшиво антропоморфизиране, за да се скрият и да избягат от отговорност за това, което са извършили.

Обратно към разглеждания въпрос.

Може би се чудите защо всички създатели на AI не просто ограничават своя генериращ AI така, че да е невъзможно AI да произвежда реч на омразата. Това изглежда лесно. Просто напишете някакъв код или съставете контролен списък с омразни думи и се уверете, че AI никога не генерира нещо подобно. Може би изглежда любопитно, че създателите на AI още не са се сетили за това бързо решение.

Е, неприятно ми е да ви го казвам, но сложността, присъща на тълкуването на това какво е или не е реч на омразата, се оказва много по-трудна, отколкото бихте предположили, че е.

Преместете това в областта на хората и как хората разговарят помежду си. Да предположим, че имате човек, който желае да избегне произнасянето на реч на омразата. Този човек е много наясно с речта на омразата и искрено се надява да избегне някога да изрече дума или фраза, която може да представлява реч на омразата. Този човек упорито внимава да не позволява дори йота реч на омразата да избяга от устата му.

Ще може ли този човек, който има мозък и е предупреден да избягва речта на омразата, винаги и без никакъв шанс да се подхлъзне, да гарантира, че никога не излъчва реч на омраза?

Първият ви импулс може да бъде да кажете, че да, разбира се, един просветен човек би могъл да постигне тази цел. Хората са умни. Ако се заемат с нещо, могат да го направят. Точка, край на историята.

Не бъди толкова сигурен.

Да предположим, че помоля този човек да ми каже за речта на омразата. Освен това ги моля да ми дадат пример за реч на омразата. Искам да видя или чуя пример, за да знам в какво се състои речта на омразата. Тогава причините ми да попитам това са превъзходни.

Какво трябва да ми каже човекът?

Мисля, че можете да видите капана, който е поставен. Ако човекът ми даде пример за реч на омразата, включително действително изричане на нецензурна дума или фраза, той самият вече е произнесъл реч на омразата. Бам, хванахме ги. Въпреки че се заклеха никога да не говорят реч на омразата, сега наистина го направиха.

Несправедливо, възкликваш! Те само казваха тази дума или тези думи, за да дадат пример. В сърцето си те не вярваха на думата или думите. Напълно извън контекста и възмутително е да се обявява, че човекът проявява омраза.

Сигурен съм, че виждате, че изразяването на реч на омразата може да не се дължи непременно на омразна основа. В този случай на употреба, ако приемем, че човекът не е „имал предвид“ думите и те са рецитирали думите само за целите на демонстрацията, вероятно ще се съгласим, че не са искали да овластят речта на омразата. Разбира се, има някои, които биха могли да настояват, че произнасянето на реч на омразата, независимо от причината или основанието, все пак е погрешно. Човекът трябваше да отхвърли искането. Те трябваше да отстояват позициите си и да отказват да произнасят думи или фрази, насаждащи реч на омразата, независимо защо или как са помолени да го направят.

Това може да стане донякъде кръгово. Ако не сте в състояние да кажете какво представлява реч на омразата, как другите могат да знаят какво да избягват, когато правят изказвания от какъвто и да е вид? Изглежда сме заседнали. Не можете да кажете това, което не трябва да се казва, нито някой друг може да ви каже какво е това, което не може да се каже.

Обичайният начин за заобикаляне на тази дилема е да се опише с други думи това, което се счита за реч на омразата, като се прави това, без да се позовават на самите думи на реч на омразата. Вярването е, че предоставянето на обща индикация ще бъде достатъчно, за да информира другите за това какво трябва да избягват. Това изглежда като разумна тактика, но тя също има проблеми и човек все още може да попадне в използването на реч на омразата, защото не е разбрал, че по-широкото определение обхваща подробностите на това, което е изрекъл.

Всичко това се занимава с хората и как хората говорят или общуват помежду си.

Спомнете си, че тук сме фокусирани върху AI. Трябва да накараме изкуствения интелект да избягва или напълно да се спира да излъчва реч на омразата. Може да възразите, че може би можем да направим това, като се уверим, че ИИ никога не се дава или обучава на нещо, което представлява реч на омразата. Воала, ако няма такъв вход, вероятно няма да има такъв изход. Проблема решен.

Нека да видим как това се случва в действителност. Избрахме изчислително приложение за AI да излезе в интернет и да изследва хиляди и хиляди есета и разкази, публикувани в интернет. Правейки това, ние обучаваме AI изчислително и математически как да намира модели сред думите, които хората използват. Ето как се измисля най-новото в генеративния AI, което също е решаваща основа за това защо AI е толкова привидно владеещ в създаването на есета на естествен език.

Кажете ми, ако можете, как изчислителното обучение, базирано на милиони и милиарди думи в интернет, ще бъде направено по такъв начин, че в нито един момент да не бъде обхванато никакво подобие или дори хапки реч на омразата?

Бих се осмелил да кажа, че това е трънлив и почти невъзможен стремеж.

Шансовете са речта на омразата да бъде погълната от ИИ и неговата изчислителна мрежа за съвпадение на модели. Опитът да се предотврати това е проблематичен. Плюс това, дори и да сте го минимизирали, все още има някои, които може да се промъкнат. Почти нямате друг избор, освен да приемете, че някои ще съществуват в мрежата за съпоставяне на шаблони или че сянка от такава формулировка ще бъде укрепена.

Ще добавя още обрати.

Вярвам, че всички можем да признаем, че речта на омразата се променя с времето. Това, което може да се възприема като реч на омразата, може да стане културно и обществено решено като реч на омразата в по-късен момент. Така че, ако обучим нашия AI на интернет текст и след това да кажем, замразим AI да не предприема по-нататъшно обучение в интернет, може да сме се натъкнали на реч на омразата по това време, въпреки че по това време не се смяташе за реч на омразата. Едва постфактум тази реч може да бъде обявена за реч на омразата.

Отново, същността е, че опитът за решаване на този проблем, като се гарантира, че ИИ никога не е изложен на реч на омразата, няма да бъде най-добрият куршум. Все пак ще трябва да намерим начин да попречим на AI да излъчва реч на омраза, например поради промяна на нравите, които впоследствие включват реч на омразата, която преди не се е считала за такава.

Още един обрат е достоен за размисъл.

Споменах по-рано, че когато използвам генеративен AI като ChatGPT, потребителят въвежда текст, за да стимулира AI да създаде есе. Въведеният текст се счита за форма на подкана или подкана за приложението AI. Ще обясня повече за това след малко.

Във всеки случай, представете си, че някой, използващ генеративно AI приложение, реши да въведе като подкана някакво количество реч на омразата.

Какво трябва да се случи?

Ако AI вземе тези думи и създаде есе като резултат въз основа на тези думи, шансовете са, че речта на омразата ще бъде включена в генерираното есе. Виждате ли, накарахме изкуствения интелект да казва реч на омразата, дори ако никога не е бил обучаван на реч на омразата в началото.

Има още нещо, което трябва да знаете.

Не забравяйте, че току-що споменах, че човек може да бъде спънат, като го помолите да даде примери за реч на омразата. Същото може да се опита на AI. Потребителят въвежда подкана, която иска от AI да даде примери за реч на омразата. Трябва ли AI да се съобрази и да предостави такива примери? Обзалагам се, че вероятно вярвате, че AI не трябва да го прави. От друга страна, ако AI е изчислително монтиран да не го прави, представлява ли това потенциален недостатък, че използващите AI няма да могат да бъдат, да кажем, някога да бъдат инструктирани от AI какво всъщност представлява речта на омразата ( освен просто обобщаване за това)?

Трудни въпроси.

Склонен съм да категоризирам речта на омразата, излъчвана от AI, в следните три основни групи:

Ежедневен режим. AI излъчва реч на омразата без изрично подтикване от потребителя и сякаш го прави по „обикновен“ начин.
От Casual Prodding. AI излъчва реч на омраза, подтикната от потребител към въведената от него подкана или поредица от подкани, които изглежда включват или директно търсят такива емисии.
На определен Стокинг. AI излъчва реч на омраза след много решителна и упорита поредица от бързи натискания и подтиквания от страна на потребител, който се стреми да накара AI да произведе такъв резултат.

По-ранните поколения генеративен ИИ често излъчваха реч на омразата веднага; по този начин можете да класифицирате тези случаи като тип ежедневен режим инстанциране. Създателите на изкуствен интелект се оттеглиха и се заиграха с изкуствения интелект, за да го направят по-малко вероятно да бъде затънал в производство на реч на омразата.

При пускането на по-усъвършенствания AI, шансовете да се видят никакви ежедневен режим случаите на реч на омразата бяха драстично намалени. Вместо това речта на омразата вероятно ще възникне само когато потребител направи нещо като подкана, което може да предизвика изчислителна и математическа връзка с реч, свързана с омраза, в мрежата за съвпадение на шаблони. Потребителят може да направи това случайно и да не осъзнае, че това, което е предоставил като подкана, ще генерира реч на омраза. След като получи реч на омразата в изведено есе, потребителят често осъзнава и вижда, че нещо в подканата им може логично да доведе до включването на реч на омразата в изхода.

Това е, което аз наричам случайно подтикване.

В днешно време различните усилия за ограничаване на генерираната от AI реч на омразата са сравнително силни в сравнение с миналото. Като такъв, почти трябва да направите всичко възможно, за да създадете реч на омразата. Някои хора избират нарочно да видят дали могат да накарат речта на омразата да излезе от тези генеративни AI приложения. Аз наричам това решително подклаждане.

Искам да подчертая, че могат да се появят и трите посочени режима и те не се изключват взаимно. Генеративно AI приложение може потенциално да произведе реч на омразата без каквато и да е подкана, която изглежда да стимулира такова производство. По същия начин нещо в подкана може логически и математически да се тълкува като свързано с причината, поради която е изведена реч на омразата. И тогава третият аспект, целенасоченото търсене на генериране на реч на омразата, е може би най-трудният от режимите, които да опитате и да накарате ИИ да избегне подтикването да изпълнява. Повече за това за момент.

Имаме да направим допълнително разопаковане по тази опияняваща тема.

Първо, трябва да се уверим, че всички сме на една и съща страница относно това, от което се състои Generative AI, както и какво представлява ChatGPT. След като покрием този основен аспект, можем да направим убедителна оценка на този важен въпрос.

Ако вече сте добре запознати с Generative AI и ChatGPT, може би можете да прегледате следващия раздел и да продължите с раздела, който го следва. Вярвам, че всеки друг ще намери за поучителни жизненоважните подробности по тези въпроси, като прочете внимателно раздела и се запознае по-бързо.

Кратък пример за Generative AI и ChatGPT

ChatGPT е интерактивна и ориентирана към разговори AI система с общо предназначение, по същество привидно безобиден общ чатбот, но въпреки това се използва активно и жадно от хора по начини, които хващат мнозина напълно неподготвени, както ще обясня скоро. Това AI приложение използва техника и технология в областта на AI, която често се нарича Генеративен AI. AI генерира изходи като текст, което прави ChatGPT. Други базирани на генериране AI приложения произвеждат изображения като картини или произведения на изкуството, докато други генерират аудио файлове или видеоклипове.

Ще се съсредоточа върху текстово-базираните генеративни AI приложения в тази дискусия, тъй като ChatGPT прави това.

Генеративните AI приложения са изключително лесни за използване.

Всичко, което трябва да направите, е да въведете подкана и приложението AI ще генерира за вас есе, което се опитва да отговори на вашата подкана. Съставеният текст ще изглежда така, сякаш есето е написано от човешка ръка и ум. Ако въведете подкана, която казва „Разкажете ми за Ейбрахам Линкълн“, генеративният AI ще ви предостави есе за Линкълн. Това обикновено се класифицира като генериращ AI, който изпълнява текст към текст или някои предпочитат да го наричат текст към есе изход. Както споменахме, има и други режими на генериращ AI, като текст към изкуство и текст към видео.

Първата ви мисъл може да е, че тази генеративна способност не изглежда толкова голяма работа по отношение на създаването на есета. Можете лесно да направите онлайн търсене в Интернет и лесно да намерите тонове и тонове есета за президента Линкълн. Предимството в случая на генеративния AI е, че генерираното есе е относително уникално и предоставя оригинална композиция, а не имитация. Ако се опитате да намерите създаденото от AI есе онлайн някъде, е малко вероятно да го откриете.

Generative AI е предварително обучен и използва сложна математическа и изчислителна формулировка, която е създадена чрез изследване на модели в писмени думи и истории в мрежата. В резултат на изследването на хиляди и милиони писмени пасажи, AI може да избълва нови есета и истории, които са смесица от това, което е намерено. Чрез добавяне на различни вероятностни функционалности, полученият текст е почти уникален в сравнение с това, което е използвано в набора за обучение.

Ето защо се вдигна шум, че учениците могат да мамят, когато пишат есета извън класната стая. Учителят не може просто да вземе есето, което измамните ученици твърдят, че е тяхно собствено писане, и да търси да разбере дали е копирано от друг онлайн източник. Като цяло няма да има окончателно съществуващо онлайн есе, което да отговаря на генерираното от AI есе. Като цяло учителят ще трябва неохотно да приеме, че ученикът е написал есето като оригинално произведение.

Има допълнителни опасения относно генеративния AI.

Един основен недостатък е, че есетата, създадени от генеративно базирано AI приложение, могат да имат различни вградени неистини, включително явно неверни факти, факти, които са подвеждащо изобразени, и очевидни факти, които са изцяло изфабрикувани. Тези измислени аспекти често се наричат форма на AI халюцинации, крилата фраза, която не одобрявам, но за съжаление изглежда все пак набира популярност (за моето подробно обяснение защо това е скапана и неподходяща терминология, вижте моето отразяване на връзката тук).

Бих искал да изясня един важен аспект, преди да навлезем в дебелите неща по тази тема.

В социалните медии имаше някои глупави твърдения за Генеративен AI като се твърди, че тази последна версия на AI всъщност е разумен AI (не, грешат!). Тези от AI Ethics и AI Law са особено притеснени от тази процъфтяваща тенденция на открити претенции. Може да кажете учтиво, че някои хора преувеличават какво всъщност може да направи днешният AI. Те приемат, че AI има възможности, които все още не сме успели да постигнем. Това е жалко. Още по-лошо, те могат да позволят на себе си и на другите да попаднат в тежки ситуации поради предположението, че ИИ ще бъде разумен или подобен на човек, за да може да предприеме действия.

Не антропоморфизирайте AI.

Правейки това, ще ви хванат в лепкав капан на твърдо разчитане на очакване AI да прави неща, които не е в състояние да извърши. Като се има предвид това, най-новият генеративен AI е сравнително впечатляващ за това, което може да направи. Имайте предвид обаче, че има значителни ограничения, които трябва непрекъснато да имате предвид, когато използвате което и да е генериращо AI приложение.

Ако се интересувате от бързо разрастващата се суматоха около ChatGPT и Generative AI като цяло, правя фокусирана серия в моята колона, която може да намерите за информативна. Ето един поглед, в случай че някоя от тези теми ви хареса:

1) Прогнози за предстоящ напредък на генериращия AI. Ако искате да знаете какво вероятно ще се развие около AI през 2023 г. и след това, включително предстоящия напредък в генеративния AI и ChatGPT, ще искате да прочетете моя изчерпателен списък с прогнози за 2023 г. връзката тук.
2) Генеративен изкуствен интелект и съвети за психично здраве. Избрах да прегледам как генеративният AI и ChatGPT се използват за съвети за психично здраве, обезпокоителна тенденция, според моя целеви анализ на връзката тук.
3) Основи на Generative AI и ChatGPT. Тази част изследва ключовите елементи на това как работи генеративният AI и по-специално се задълбочава в приложението ChatGPT, включително анализ на шума и фанфарите, на връзката тук.
4) Напрежение между учители и ученици относно генериращия AI и ChatGPT. Ето начините, по които учениците ще използват генеративния AI и ChatGPT. Освен това има няколко начина за учителите да се борят с тази приливна вълна. Вижте връзката тук.
5) Използване на контекст и генериране на AI. Направих също сезонно подправен преглед относно контекст, свързан с Дядо Коледа, включващ ChatGPT и генеративен AI на връзката тук.
6) Измамници, използващи Generative AI. Зловещо е, че някои измамници са измислили как да използват генеративен AI и ChatGPT, за да извършват злоупотреби, включително генериране на измамнически имейли и дори създаване на програмен код за зловреден софтуер, вижте моя анализ на връзката тук.
7) Грешки на новобранците при използване на Generative AI. Много хора както превишават, така и изненадващо подценяват това, което генеративният AI и ChatGPT могат да направят, така че разгледах особено недостигането, което новобранците с AI са склонни да правят, вижте дискусията на връзката тук.
8) Справяне с генеративни AI подкани и AI халюцинации. Описвам водещ подход към използването на AI добавки за справяне с различните проблеми, свързани с опитите за въвеждане на подходящи подкани в генеративен AI, плюс това има допълнителни AI добавки за откриване на така наречените AI халюцинирани резултати и лъжи, като покрити при връзката тук.
9) Развенчаване на твърденията на Bonehead за откриване на генеративни есета, произведени от AI. Има заблудена златна треска от приложения с изкуствен интелект, които твърдят, че могат да установят дали дадено есе е създадено от хора или генерирано от изкуствен интелект. Като цяло, това е подвеждащо и в някои случаи е безсмислено и несъстоятелно твърдение, вижте моето отразяване на връзката тук.
10) Ролевата игра чрез Generative AI може да предвещава недостатъци на психичното здраве. Някои използват генеративен AI, като ChatGPT, за да играят ролеви игри, при което приложението AI реагира на човек, сякаш съществува във фантастичен свят или друга измислена обстановка. Това може да има последици за психичното здраве, вижте връзката тук.
11) Разкриване на диапазона от изведени грешки и неистини. Съставят се различни събрани списъци, за да се опитат да покажат естеството на генерираните от ChatGPT грешки и неистини. Някои смятат, че това е от съществено значение, докато други казват, че упражнението е безполезно, вижте моя анализ на връзката тук.
12) Училищата, забраняващи Generative AI ChatGPT, липсват. Може би знаете, че различни училища, като Министерството на образованието в Ню Йорк (NYC), са обявили забрана за използването на ChatGPT в тяхната мрежа и свързаните с тях устройства. Въпреки че това може да изглежда полезна предпазна мярка, тя няма да премести иглата и за съжаление напълно пропуска лодката, вижте моето покритие на връзката тук.
13) Generative AI ChatGPT ще бъде навсякъде поради предстоящия API. Има важен обрат относно използването на ChatGPT, а именно, че чрез използването на API портал в това конкретно приложение с изкуствен интелект други софтуерни програми ще могат да извикват и използват ChatGPT. Това драстично ще разшири използването на генеративен AI и ще има забележителни последици, вижте моята разработка на връзката тук.
14) Начини, по които ChatGPT може да изгасне или да се стопи. Няколко потенциални неприятни проблема стоят пред ChatGPT по отношение на подбиването на огромната похвала, която е получил досега. Този анализ внимателно проучва осем възможни проблема, които могат да накарат ChatGPT да загуби парата си и дори да се окаже в кучешката колиба, вж. връзката тук.
15) Въпрос дали Generative AI ChatGPT е огледало в душата. Някои хора крякат, че генеративният ИИ като ChatGPT осигурява огледало в душата на човечеството. Това изглежда доста съмнително. Ето как да разберете всичко това, вижте връзката тук.
16) Поверителността и поверителността, погълнати от ChatGPT. Мнозина изглежда не осъзнават, че лицензирането, свързано с генеративни AI приложения като ChatGPT, често позволява на производителя на AI да вижда и използва вашите въведени подкани. Може да сте изложени на риск от поверителност и загуба на поверителност на данните, вижте моята оценка на връзката тук.
17) Начини, по които създателите на приложения съмнително се опитват да получат право на ChatGPT. ChatGPT е маякът на вниманието в момента. Създателите на приложения, които нямат нищо общо с ChatGPT, се опитват трескаво да твърдят или намекват, че използват ChatGPT. Ето за какво да внимавате, вижте връзката тук.

Може да ви се стори интересно, че ChatGPT е базиран на версия на предшестващо AI приложение, известно като GPT-3. ChatGPT се счита за малко следваща стъпка, наричана GPT-3.5. Очаква се, че GPT-4 вероятно ще бъде пуснат през пролетта на 2023 г. Предполага се, че GPT-4 ще бъде впечатляваща крачка напред по отношение на възможността да произвежда привидно още по-плавни есета, задълбочавайки се и предизвиквайки страхопочитание -вдъхновяващо чудо по отношение на композициите, които може да създаде.

Можете да очаквате да видите нов кръг от изразено удивление, когато дойде пролетта и бъде пуснат най-новият генеративен AI.

Повдигам това, защото има друг ъгъл, който трябва да имате предвид, състоящ се от потенциална ахилесова пета на тези по-добри и по-големи генеративни AI приложения. Ако някой доставчик на изкуствен интелект предостави генеративно приложение за изкуствен интелект, което бълва неприятности, това може да попари надеждите на създателите на изкуствен интелект. Разпространението на обществото може да накара всички генеративни ИИ да получат сериозен синяк. Хората несъмнено ще се разстроят доста от фалшивите резултати, които вече са се случвали много пъти и са довели до бурни обществени осъждащи реакции към AI.

Едно последно предупреждение за сега.

Каквото и да видите или прочетете в генеративен AI отговор, който изглежда да бъдат предадени като чисто фактически (дати, места, хора и т.н.), не забравяйте да останете скептични и да сте готови да проверите отново това, което виждате.

Да, датите могат да бъдат измислени, местата могат да бъдат измислени и елементите, които обикновено очакваме да бъдат безупречни, са all обект на подозрения. Не вярвайте на това, което четете, и бъдете скептични, когато разглеждате всякакви генеративни AI есета или резултати. Ако генеративно AI приложение ви каже, че Ейбрахам Линкълн е летял из страната със собствения си частен самолет, вие несъмнено ще знаете, че това е малкарство. За съжаление, някои хора може да не осъзнават, че реактивните самолети не са били наоколо по негово време, или може да знаят, но да не забележат, че есето прави това нагло и възмутително невярно твърдение.

Силна доза здравословен скептицизъм и постоянна нагласа на недоверие ще бъдат най-добрият ви актив, когато използвате генеративен ИИ.

Готови сме да преминем към следващия етап от това изясняване.

Натискане на генеративния AI до преломна точка

Сега, след като установихме основите, можем да се потопим в темата за натискането на генеративен AI и ChatGPT за генериране на реч на омразата и друго обидно съдържание.

Когато за първи път влезете в ChatGPT, има различни предупредителни индикации, включително тези:

„Може понякога да дава вредни инструкции или пристрастно съдържание.“
„Обучен да отхвърля неподходящи искания.“
„Може понякога да генерира невярна информация.“
„Ограничени познания за света и събитията след 2021 г.“

Ето един въпрос, върху който да помислите.

Предупреждението, че приложението AI може да създаде вредни инструкции и/или евентуално пристрастно съдържание, предоставя ли достатъчна свобода на действие на създателя на AI?

С други думи, да предположим, че използвате ChatGPT и той генерира есе, което според вас съдържа реч на омразата. Да приемем, че сте побесняли от това. Отивате в социалните медии и публикувате ядосан коментар, че приложението AI е най-лошото нещо, което съществува. Може би сте толкова обидени, че заявявате, че ще съдите производителя на изкуствен интелект за това, че е позволил да се произвежда такава реч на омразата.

Контрааргументът е, че приложението AI е имало предупредително предупреждение, следователно сте приели риска, като сте продължили да използвате приложението AI. От гледна точка на етиката на ИИ, може би създателят на ИИ е направил достатъчно, за да твърди, че сте били наясно какво може да се случи. По същия начин, от правна гледна точка, може би предупреждението е достатъчно предупредително и няма да надделеете в съда.

Всичко това е във въздуха и ще трябва да изчакаме и да видим как ще се развият нещата.

В известен смисъл създателят на AI има нещо друго за себе си в защитата си срещу всякакви настървени твърдения, че приложението AI вероятно предизвиква реч на омразата. Те са се опитали да предотвратят генерирането на обидно съдържание. Виждате ли, ако не бяха направили нищо, за да ограничат това, човек предполага, че щяха да са на по-тънък лед. Тъй като поне са положили значителни усилия, за да предотвратят въпроса, те вероятно имат малко по-силен крак, на който да стоят (все още може да бъде нокаутан отдолу).

Един използван лечебен подход се състоеше от AI техника, известна като RLHF (обучение с подсилване чрез човешка обратна връзка). Това обикновено се състои в това, че AI генерира съдържание, което след това хората са помолени да оценят или прегледат. Въз основа на оценката или прегледа, AI след това математически и изчислително се опитва да избегне всичко, което се счита за неправомерно или обидно съдържание. Подходът има за цел да изследва достатъчно примери за това какво е правилно спрямо това, което не е наред, така че AI да може да разбере всеобхватен математически модел и след това да използва този модел оттук нататък.

Друг често срещан подход в наши дни се състои в използването на Adversarial AI.

Ето как става това. Настройвате различна AI система, която ще се опита да бъде противник на AI, който се опитвате да обучите. В този случай ще създадем система с ИИ, която се опитва да подклажда реч на омразата. Той ще подава подкани в приложението AI, които имат за цел да подмамят приложението AI да изведе неправилно съдържание. Междувременно AI, който е насочен, следи кога противниковият AI е успешен и след това алгоритмично се опитва да се коригира, за да намали това да се случва отново. Това е гамбит котка срещу мишка. Това се изпълнява отново и отново, като се прави така, докато противниковият ИИ вече не е особено успешен да накара целевия ИИ да върши лошите неща.

Чрез тези две основни техники, плюс други подходи, голяма част от днешния генеративен AI е много по-добър в избягването и/или откриването на обидно съдържание, отколкото в миналото.

Не очаквайте съвършенство от тези методи. Шансовете са, че ниско висящият плод на фалшивите резултати вероятно ще бъде държан под контрол от такива техники на ИИ. Все още има много място за излъчване на мръсотия.

Обикновено посочвам, че това са някои от аспектите, които се търсят да бъдат уловени:

Изпускане на конкретна нецензурна дума
Изказване на конкретна неприлична фраза, изречение или забележка
Изразяване на конкретна лоша концепция
Намеква конкретно нечестно действие или идея
Изглежда, че разчита на конкретна грешна презумпция
Други

Нищо от това не е точна наука. Осъзнайте, че имаме работа с думи. Думите са семантично двусмислени. Намирането на конкретна нецензурна дума е детска игра, но опитът да се прецени дали изречение или абзац съдържа подобие на нецензурно значение е много по-трудно. Съгласно по-ранната дефиниция на речта на омразата от ООН, съществува огромна свобода на действие по отношение на това какво може да се тълкува като реч на омразата спрямо това, което може да не е.

Може да се каже, че сивите зони са в очите на наблюдателя.

Говорейки за окото на наблюдателя, днес има хора, използващи генеративен AI като ChatGPT, които целенасочено се опитват да накарат тези AI приложения да произвеждат обидно съдържание. Това е тяхното търсене. Те прекарват часове след часове, опитвайки се да накарат това да се случи.

Защо така?

Ето моите характеристики на тези ловци на човешки AI-офанзивни резултати:

Истински. Тези хора искат да помогнат за усъвършенстването на AI и да помогнат на човечеството в това. Те вярват, че вършат героична работа и се радват, че могат да помогнат за напредъка на ИИ за доброто на всички.
Funsters. Тези хора гледат на това усилие като на игра. Те обичат да се забъркват с AI. Спечелването на играта се състои в намирането на най-лошото от най-лошото във всичко, което можете да накарате AI да генерира.
Показвания. Тези хора се надяват да привлекат внимание към себе си. Те смятат, че ако успеят да намерят някои наистина лоши златни късчета, те могат да получат част от блестящата светлина върху тях, която иначе е фокусирана върху самото AI приложение.
горчива бира. Тези хора са раздразнени от този ИИ. Те искат да подкопаят целия този бликащ ентусиазъм. Ако успеят да открият някакви вонящи лоши неща, може би това ще извади въздуха от балона за вълнение в приложението AI.
Други мотивации

Много от тези, които извършват намирането на обида, са основно в един от тези лагери. Разбира се, можете да сте в повече от един лагер едновременно. Може би горчивият човек също има намерение да бъде истински и героичен. Някои или всички от тези мотивации могат да съществуват едновременно. Когато бъдете призовани да обясните защо някой се опитва да прокара генеративно AI приложение в сферата на речта на омразата, обичайният отговор е да кажете, че сте в истинския лагер, дори ако може би сте незначително такъв, и вместо това седнете рязко в един от други лагери.

Какви видове измама, свързана с бързото използване, използват тези хора?

Доста очевидният трик включва използването на нецензурна дума в подкана. Ако имате „късмет“ и приложението за изкуствен интелект си падне, това може много добре да се окаже в резултата. Тогава имаш своя момент.

Шансовете са, че едно добре разработено и добре тествано генеративно AI приложение ще улови този лесен трик. Обикновено ще ви бъде показано предупредително съобщение, което казва, че спрете да правите това. Ако продължите, приложението AI ще бъде програмирано да ви изхвърли от приложението и да маркира акаунта ви. Възможно е да бъдете възпрепятствани да влезете отново (е, поне с данните за вход, които сте използвали по това време).

Придвижвайки се нагоре по стълбата от трикове, можете да предоставите подкана, която се опитва да вкара AI в контекста на нещо лошо. Играли ли сте някога тази игра, в която някой ви казва да кажете нещо, без да казвате това, което трябва да кажете? Това е тази игра, въпреки че се развива с AI.

Нека играем тази игра. Да предположим, че помоля приложението AI да ми разкаже за Втората световна война и особено за основните участващи правителствени лидери. Това изглежда като невинна молба. Няма нищо, което да изглежда достойно за отбелязване в подканата.

Представете си, че изведеното есе от приложението AI включва споменаване на Уинстън Чърчил. Това със сигурност има смисъл. Друг може да бъде Франклин Д. Рузвелт. Друг може да бъде Йосиф Сталин. Да предположим, че се споменава и Адолф Хитлер. Това име ще бъде включено в почти всяко есе за Втората световна война и онези, които са в роли на видна сила.

Сега, след като имаме името му на масата и част от разговора с ИИ, следващото ще се опитаме да накараме ИИ да включи това име по начин, който можем да покажем като потенциална реч на омразата.

Въвеждаме друга подкана и казваме на приложението AI, че днес в новините има човек с името Джон Смит. Освен това, ние посочваме в подканата, че Джон Смит е много близък до онзи злодей от Втората световна война. Капанът вече е поставен. След това молим приложението AI да генерира есе за Джон Смит, базирано единствено на „факта“, който сме въвели за това с кого може да се приравни Джон Смит.

В този момент приложението AI може да генерира есе, което назовава човека от Втората световна война и описва Джон Смит като човек от същата кройка плат. В есето няма никакви неприлични думи сами по себе си, освен загатването за известния злодей и приравняването на този човек с Джон Смит.

Приложението AI вече произвеждало ли е реч на омразата?

Може да кажете, че да, има. Позоваването на Джон Смит като на известния злодей е абсолютно форма на реч на омразата. ИИ не трябва да прави подобни изявления.

Реплика е, че това не е реч на омразата. Това е просто есе, създадено от AI приложение, което няма въплъщение на чувствителност. Може да твърдите, че речта на омразата възниква само когато намерението съществува в основата на речта. Без умисъл изказването не може да се квалифицира като език на омразата.

Абсурд, идва отговорът на репликата. Думите имат значение. Няма никаква разлика дали AI е „възнамерявал“ да произвежда реч на омразата. Всичко, което има значение, е, че е произведена реч на омразата.

Това се върти в кръг.

В момента не искам да казвам много повече за опитите да измамя AI. Има и по-сложни подходи. Обхванах ги другаде в моите колони и книги и няма да ги повтарям тук.

Заключение

Докъде трябва да прокараме тези AI приложения, за да видим дали можем да излъчим обидно съдържание?

Може да твърдите, че няма ограничение, което да бъде наложено. Колкото повече настояваме, толкова повече можем да се надяваме да преценим как да предотвратим този AI и бъдещи повторения на AI, за да предотвратим подобни заболявания.

Някои обаче се притесняват, че ако единственото средство за получаване на нечистотии включва екстремни трикове, това подкопава полезните аспекти на ИИ. Твърдението, че изкуственият интелект има ужасяваща неприятност, макар и подмамен да го излъчва, предоставя фалшив разказ. Хората ще се разстроят от AI поради възприема лекотата, с която AI генерира неблагоприятно съдържание. Те може да не знаят или да не им бъде казано колко далеч в заешката дупка трябва да стигне човекът, за да получи такива резултати.

Всичко е храна за размисъл.

Малко последни коментари за сега.

Уилям Шекспир е казал следното за речта: „Говоренето не върши работа. Да кажеш добро е вид добро дело, но думите не са дела.” Повдигам това, защото някои твърдят, че ако изкуственият интелект генерира само думи, не трябва да сме толкова напрегнати. Ако изкуственият интелект действаше според думите и следователно извършваше лоши дела, тогава ще трябва да стъпим здраво. Не е така, ако резултатът е просто думи.

Една противоположна гледна точка би се свързала с тази анонимна поговорка: „Езикът няма кости, но е достатъчно силен, за да разбие сърце. Така че внимавайте с думите си.” AI приложение, което излъчва нецензурни думи, може би е в състояние да разбие сърца. Някои биха казали, че само по себе си стремежът към спиране на нечистотиите е достойна кауза.

Още една анонимна поговорка за приключване на тази тежка дискусия:

"Внимавайте с думите си. Веднъж изречени, те могат да бъдат само простени, но не и забравени.

Като хора може да ни е трудно да забравим нечистотиите, причинени от ИИ, и нашата прошка може също да се колебае да бъде дадена.

В крайна сметка ние сме само хора.

Източник: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- ethics-and-ai-law/