Какво означава новото Text-To-3D на Nvidia за инженерството и продуктовия дизайн

TL; р: Generative AI се развива с вълнуваща скорост. Най-новият алгоритъм на Nvidia преобразува текст в 3D мрежа два пъти по-бързо от проекти, публикувани преди едва 2 месеца. Това означава, че техническите възможности вече надминават възможностите ни да работим с тях.

Миналата седмица хартия от учените на Nvidia демонстрираха експоненциалната скорост, с която се развива генеративното AI пространство. Тази експлозия на активност – особено видима през последните 9 месеца – ще окаже влияние върху всяка част от живота, не на последно място върху продуктовия дизайн, инженеринга и производството. Промените ще освободят индустрията от структурните ограничения в начина, по който се комуникират идеите, ще дадат възможност за по-бързи иновационни цикли и в крайна сметка ще й позволят да изпълни своите обещания за устойчивост.

Примерни мрежи от Magic 3D алгоритмите на Nvidia Research с подканите, използвани за генерирането им.

Nvidia Deep Imagination Research

След като от години ни беше казано, че изкуственият интелект ще революционизира фундаментално начина ни на работа, малцина очакваха творческият сектор да бъде сред първите му жертви. Появата на подобен на човека текстов генератор на GPT-3 през 2020 г. постави възможностите в по-голям фокус. Оттогава беше диво пътуване: DALL-E (текст към изображение), Whisper (разпознаване на реч) и наскоро Stable Diffusion (текст към изображение) не само увеличиха възможностите на речта и визуалните AI инструменти, но и намали ресурсите, необходими за използването им (от 175 милиарда параметри за GPT-3 до 900 милиона за стабилна дифузия).

Размерът на Stable Diffusion означава по-малко от 5gb дисково пространство – може да се използва на всеки лаптоп. Не само това; за разлика от OpenAI (който се финансира основно от Microsoft и публикува GPT-3, DALL-E и Whisper), Stable Diffusion е с отворен код, което означава, че другите могат да надграждат върху неговите знания много по-лесно. Това означава, че виждаме само началото на иновативния цикъл – има много повече, както показва документът на Nvidia.

Поддръжниците на Stable Diffusion (stability.ai) допълнително засилват тази тенденция, като предоставят технологични и финансови безвъзмездни средства на други екипи, които поемат изследването в нови посоки. Освен това, множество проекти правят инструментите достъпни за все по-широк кръг от потребители. Сред тях са плъгини за Blender, инструмент за проектиране с отворен код и собствения еквивалент на Photoshop на Adobe. Пълният API достъп до инструментите се финансира с големи долари за рисков капитал, което означава, че стотици милиони разработчици на софтуер, а не само няколкостотин хиляди инженери по данни, вече ще създават свои собствени инструменти на тези алгоритми.

Речта, изображенията и текстът са сред първите вертикали, които ще бъдат нарушени от тези технологии. Но 3D не остава по-назад. Отвъд нишовото генеративно изкуство, карикатурите са очевидната първа точка на приложение. Вече има генератор на Pokémon, базиран на Stable Diffusion. Визуалните ефекти и филмите са следващите. Но много други сектори вероятно ще бъдат нарушени – сред тях интериорният дизайн с Interiorai.com, който води отговорността.

В цялото това вълнение прилагането на иновациите в дизайна и инженеринга се чувства като последваща мисъл. И все пак вероятно това ще бъде зоната, която в крайна сметка ще бъде най-значително засегната. Разбира се, има първоначални предизвикателства: от една страна, Stable Diffusion и неговите сънародници все още не са много прецизни. Това не е проблем за карикатурите, но е голямо предизвикателство за всеки опит да се трансформира текст в пълни 3D геометрии, използвани в индустриален контекст. Това е област, която е имала някакъв зараждащ се интерес (проект, наречен Bits101, стартира в Израел през 2015 г.). Това може да е светият граал на индустрията, но има много междинни предизвикателства, които може да са много по-лесни за решаване. Те включват подобрено разпознаване на обекти (алгоритъмът Yolo вече се използва с голям ефект), което ще доведе до подобрено цитиране и пояснение – подобряване на качеството и намаляване на грешките. Добавките трябва също така да улеснят използването на Generative AI за разработване на основни дизайни (примитиви), които след това могат да бъдат допълнително редактирани в инструменти за проектиране, за да се подобри толерантността според изискванията. Това е подход, който вече се използва в Inspire на Altair, който използва анализ на крайни елементи, за да направи същото. Тези примитиви могат също така да служат като синтетична база данни на анотираните модели, от които има недостиг в 3D CAD индустрията. Изпълнителен директор и основател на Physna посочва това в статия детайлизирайки собствените си опити да използват тези нови методи за създаване на подробни 3D дизайни, което също подчертава редица клопки при използването на синтетични данни за задвижване на тези алгоритми. Създаването на 3D дизайни от 2D чертежи е друга потенциална област на приложение, както и интелигентният CAM – захранващ се с библиотека от износване на инструменти за определяне на най-добрите стратегии за обработка.

Тези предизвикателства са важни и доходоносни за справяне сами по себе си. И все пак основното им въздействие ще бъде да помогнат за развитието на пътя от идея към дизайн, като в крайна сметка намалят зависимостта от 3D дизайни за предаване на намерение. Дизайните, независимо дали са 2D или 3D, са служили като основно средство за пренасяне на нуждите на клиентите в крайни продукти. Това ограничава индустрията, тъй като тези дизайни служат като черна кутия, в която се съхраняват всички онези ценни прозрения на клиентите, производствените ограничения и целите на компанията, които не могат да бъдат разплетени, но само идентифицирани. Това означава, че когато нещо се промени, е почти невъзможно просто да коригирате дизайна. Това е причината производствените иновации като 3D печат да отнемат толкова много време, за да бъдат възприети и завинаги да разочароват краткосрочните инвеститори. Компонентите, които изграждат един самолет, са „настроени“ от момента, в който са проектирани, въпреки 20-годишен+ продуктивен живот. Няма почти никакъв обхват на иновации – те трябва да изчакат пускането на пазара на следващото поколение.

Възможността да промените едно ограничение и да позволите на алгоритъм като Stable Diffusion да възстанови проектните и производствените параметри значително ще ускори приемането на нови иновации и ще ни позволи да създаваме по-леки продукти с по-добра производителност по-бързо. Както правят във Формула 1 или Системен дизайн, бъдещите инженери ще действат като мениджъри на ограничения, способни да изразят с думи и по отношение на източниците на данни каква е целта и ограниченията на продукта.

Без да ускорим инженерния процес за нови и съществуващи продукти по този начин, нямаме почти никакви средства за постигане на амбициозните цели за устойчивост, които трябва да си поставим. За да направим това, първо трябва да се споразумеем за език, който можем да използваме, за да общуваме отвъд дизайна. Този нов семантичен модел е очевидната празнина в иновациите, описани по-горе. Редица компании вече са започнали да експериментират с него, като напр nТопология с нейните концепции за полета. И все пак темпът на промяна е бавен, за разлика от алгоритмите, които семантичният модел ще захранва. Съобщава се, че новият алгоритъм на Nvidia е над два пъти по-бърз от DreamFusion, публикувана преди по-малко от 2 месеца. Продуктовите и инженерните компании трябва да работят върху улавянето на своите идеи по нови, ориентирани към бъдещето начини сега, за да се възползват максимално от възможностите, които тази експлозия на генеративен ИИ притежава. Скоростта на промяна в алгоритмите показа още веднъж, че законът на Морз се прилага навсякъде, където инструментите се дигитализират. Предизвикателството остава нашата човешка неспособност да прегърнем тази промяна и да разгърнем нови комуникационни методи, способни да отключат своя потенциал, въпреки спешността на задачата.

Източник: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/