Напредъкът в компютърното зрение стимулира транспортната автономност

Зрението е мощно човешко сетиво. Той позволява сложни задачи и процеси, които приемаме за даденост. С нарастването на AoT™ (автономия на нещата) в различни приложения, вариращи от транспорт и селско стопанство до роботика и медицина, ролята на камерите, изчислителната техника и машинното обучение в осигуряването на човешка визия и познание стават значителни. Компютърното зрение като академична дисциплина започва да се развива през 1960-те години на миналия век, предимно в университети, занимаващи се с нововъзникващата област на изкуствения интелект (AI) и машинното обучение. Той напредна драматично през следващите четири десетилетия, тъй като беше постигнат значителен напредък в полупроводниковите и компютърните технологии. Последните постижения в областта на дълбокото обучение и изкуствения интелект допълнително ускориха приложението на компютърното зрение, за да осигурят възприятие в реално време с ниска латентност и познаване на околната среда, позволявайки автономност, безопасност и ефективност в различни приложения. Транспортът е една област, която има значителни ползи.

LiDAR (Light Detection and Ranging) е активен подход за оптично изображение, който използва лазери за определяне на 3D средата около обект. Това е една от технологиите, които решенията за компютърно зрение (които разчитат само на околната светлина и не използват лазери за 3D възприятие) се опитват да нарушат. Общата тема е, че хората-шофьори не се нуждаят от LiDAR за възприемане на дълбочина, така че нито машините трябва. Текущи комерсиални функции за автономно шофиране L3 (пълна автономност в специфични географски райони и метеорологични условия, като водачът е готов да поеме контрола за секунди) продукти днес използвайте LiDAR. Чисто базираните на зрението техники все още не са успели да предложат тази възможност на търговска основа.

РЕКЛАМА

TeslaTSLA
е доминиращ привърженик на използването на компютърно зрение, базирано на пасивна камера, за осигуряване на автономност на пътническите превозни средства. По време на неотдавнашното събитие на компанията AI Day, Илон Мъск и неговите инженери направиха впечатляваща презентация на неговите AI, управление на данни и изчислителни възможности, които поддържат, наред с други инициативи, функцията за пълно самостоятелно шофиране (FSD) на множество модели на Tesla. FSD изисква човешкият водач да бъде ангажиран със задачата за шофиране през цялото време (което е в съответствие с автономността L2). В момента тази опция е налична за 160,000 8 автомобила, закупени от клиенти в САЩ и Канада. Комплект от 360 камери на всяко превозно средство осигурява 75° карта на заетостта. Данните от камерата (и други) от тези превозни средства се използват за обучение на нейната невронна мрежа (която използва автоматично етикетиране) да разпознава обекти, да чертае потенциални траектории на превозни средства, да избира оптималните и да активира подходящите контролни действия. През последните 12 месеца са извършени ~1K актуализации на невронната мрежа (~7 актуализация на всеки 4 минути), тъй като непрекъснато се събират нови данни и се откриват грешки при етикетиране или грешки при маневриране. Обучената мрежа изпълнява действия за планиране и контрол чрез вградена, резервирана архитектура на специално изградена изчислителна електроника. Tesla очаква FSD в крайна сметка да доведе до автономни превозни средства (AV), които осигуряват пълна автономност в определени области на оперативния дизайн, без да се изисква ангажиране на човешки водач (наричано още LXNUMX автономия).

Други компании като Phiar, Helm.ai и NODAR също преследват пътя на компютърното зрение. NODAR има за цел значително да разшири обхвата на изображения и 3D възприемането на системите със стерео камери, като се научи да коригира несъответствието на камерата и вибрационните ефекти чрез патентовани алгоритми за машинно обучение. Наскоро събра 12 милиона долара за производството на своя водещ продукт, Hammerhead™, който използва „готови“ автомобилни камери и стандартни изчислителни платформи.

Освен цената и размера, честият аргумент срещу използването на LiDAR е, че има ограничен обхват и разделителна способност в сравнение с камерите. Например, днес са налични LiDAR с обхват от 200 m и 5-10 M точки/секунда (PPS, близък до резолюцията). На 200 m малки препятствия като тухли или остатъци от гуми ще регистрират много малко точки (може би 2-3 във вертикална посока и 3-5 в хоризонтална посока), което затруднява разпознаването на обекта. Нещата стават още по-груби на по-големи разстояния. За сравнение, стандартните мегапикселови камери, работещи на 30 Hz, могат да генерират 30M пиксела/секунда, позволявайки превъзходно разпознаване на обекти дори на големи разстояния. По-модерните камери (12 M пиксела) могат да увеличат това още повече. Въпросът е как да се използват тези масивни данни и да се създаде възприятие, което да действа с латентност от милисекунди, ниска консумация на енергия и влошени условия на осветление.

РЕКЛАМА


признание, базирана в Калифорния компания, се опитва да реши този проблем. Според главния изпълнителен директор Марк Болито, неговата мисия е да „осигуряват свръхчовешко визуално възприятие за напълно автономни превозни средства.” Компанията е основана през 2017 г., събрала е 75 милиона долара до момента и има 70 служители. Р. К. Ананд, възпитаник на Juniper Networks, е един от съоснователите и главен продуктов директор. Той вярва, че използването на камери с по-висока разделителна способност, с > 120 dB динамичен обхват, работещи при високи честоти на кадрите (например OnSemi, Sony и Omnivision) осигурява данните, необходими за създаване на 3D информация с висока разделителна способност, което е от решаващо значение за реализирането на AV. Средствата за това са:

  1. Специално проектирани ASIC за ефективна обработка на данните и създаване на точни 3D карти с висока разделителна способност на автомобилната среда. Те са произведени по TSMC 7 nm процес, с размер на чипа от 100 mm², работещи на 1 GHz честота.
  2. Собствени алгоритми за машинно обучение за обработка на милиони точки от данни офлайн, за създаване на обучена невронна мрежа, която след това може да работи ефективно и да се учи непрекъснато. Тази мрежа осигурява възприемането и включва класифициране и откриване на обекти, семантично сегментиране, откриване на платно, пътни знаци и разпознаване на светофари
  3. Минимизиране на операциите за съхранение и умножение извън чипа, които са енергоемки и създават голямо забавяне. ASIC дизайнът на Recogni е оптимизиран за логаритмична математика и използва събиране. Допълнителна ефективност се реализира чрез оптимално групиране на тегла в обучената невронна мрежа.

По време на фазата на обучение, комерсиален LiDAR се използва като основна истина за обучение на данни от стерео камера с висока разделителна способност и висок динамичен обхват, за да извлече информация за дълбочината и да я направи здрава срещу разместване и вибрационни ефекти. Според г-н Ананд тяхното внедряване на машинно обучение е толкова ефективно, че може да екстраполира оценки на дълбочината отвъд диапазоните на обучение, осигурени от калибриращия LiDAR (който осигурява истината за земята до диапазон от 100 m).

РЕКЛАМА

Данните за обучение по-горе бяха проведени през деня със стерео двойка от 8.3-мегапикселови камери, работещи при честота на кадрите 30 Hz (~0.5B пиксела в секунда). Той демонстрира способността на обучената мрежа да извлича 3D информация в сцената извън обхвата от 100 m, с който е била обучена. Решението на Recogni може също така да екстраполира обучението си с данни през деня към производителността през нощта (Фигура 2).

РЕКЛАМА

Според г-н Ананд данните за обхвата са точни до 5% (на големи разстояния) и близо до 2% (на по-къси разстояния). Решението осигурява 1000 TOPS (трилиона операции в секунда) с 6 ms латентност и 25 W консумация на енергия (40 TOPS/W), което води в индустрията. Състезателите, използващи целочислена математика, са > 10 пъти по-ниски по този показател. Решението на Recogni понастоящем се тества при множество доставчици от първо ниво за автомобили.

пророкува („предсказване и виждане къде е действието“), базирана във Франция, използва своите базирани на събития камери за AV, усъвършенствани системи за подпомагане на водача (ADAS), индустриална автоматизация, потребителски приложения и здравеопазване. Основан през 2014 г., компанията наскоро затвори своя C кръг финансиране от $50 милиона, с общо събрани $127 милиона до момента. Xiaomi, водещ производител на мобилни телефони, е един от инвеститорите. Целта на Prophesee е да подражава на човешкото зрение, при което рецепторите в ретината реагират на динамична информация. Човешкият мозък се фокусира върху обработката на промените в сцената (особено при шофиране). Основната идея е да се използват камерни и пикселни архитектури, които откриват промени в интензитета на светлината над прага (събитие) и предоставят само тези данни на изчислителния стек за по-нататъшна обработка. Пикселите работят асинхронно (не са рамкирани като в обикновените CMOS камери) и при много по-високи скорости, тъй като не трябва да интегрират фотони, както в конвенционална камера, базирана на рамка, и да чакат целият кадър да завърши това преди прочитането на данните. Предимствата са значителни – по-ниска честотна лента на данни, забавяне при вземане на решения, съхранение и консумация на енергия. Първият VGA базиран на събития визуален сензор на компанията от комерсиален клас се отличава с висок динамичен обхват (>120 dB), ниска консумация на енергия (26 mW на ниво сензор или 3 nW/събитие). Беше пусната и HD (High Definition) версия (разработена съвместно със Sony) с водещ в индустрията размер на пикселите (< 5 μm).

РЕКЛАМА

Тези сензори формират ядрото на сензорната платформа Metavision®, която използва AI, за да осигури интелигентно и ефективно възприятие за приложения за автономност и се оценява от множество компании в транспортното пространство. Освен насоченото напред възприятие за AV и ADAS, Prophesee е активно ангажиран с клиенти за наблюдение в кабината на водача за L2 и L3 приложения, вижте Фигура 4:

Автомобилните възможности са доходоносни, но циклите на проектиране са дълги. През последните две години Prophesee видя значителен интерес и привличане в пространството за машинно зрение за индустриални приложения. Те включват високоскоростно броене, проверка на повърхността и мониторинг на вибрациите.

РЕКЛАМА

Prophesee наскоро обяви сътрудничество с водещи разработчици на системи за машинно зрение за използване на възможностите в индустриалната автоматизация, роботиката, автомобилостроенето и IoT (Интернет на нещата). Други непосредствени възможности са корекция на замъгляване на изображения за мобилни телефони и AR/VR приложения. Те използват сензори с по-нисък формат от тези, използвани за по-дългосрочни ADAS/AV възможности, консумират дори по-ниска мощност и работят със значително по-ниска латентност.


Израел е водещ иноватор във високите технологии, със значителни рискови инвестиции и активна среда за стартиране. От 2015 г. насам са направени около 70 милиарда долара в рискови инвестиции в технологичния сектор. Част от това е в областта на компютърното зрение. Mobileye оглави тази революция през 1999 г., когато Амнон Шашуа, водещ изследовател на ИИ в Еврейския университет, основа компанията, за да се съсредоточи върху базираното на камера възприятие за ADAS и AV. Компанията подаде документи за IPO през 2014 г. и беше придобита от IntelINTC
през 2017 г. за 15 милиарда долара. Днес той лесно е водещ играч в областта на компютърното зрение и AV и напоследък обяви намерението си да подаде заявление за IPO и да стане независим субект. Mobileye имаше приходи от $1.4 млрд./година и скромни загуби ($75 млн.). Той предоставя възможности за компютърно зрение на 50 OEM производители на автомобили, които го внедряват в 800 модела автомобили за възможности на ADAS. В бъдеще те възнамеряват да бъдат водещи в L4 автономността на превозните средства (не е необходим шофьор), използвайки този опит в компютърното зрение и възможностите на LiDAR, базирани на платформата за силиконова фотоника на Intel. Оценката на Mobileye се оценява на ~50 милиарда долара, когато най-накрая станат публични.

РЕКЛАМА

Чампъл Капитал, базирана в Йерусалим, е в челните редици на инвестирането в компании, разработващи продукти, базирани на компютърно зрение за различни приложения от транспорт и селско стопанство до сигурност и безопасност. Амир Уайтман е съосновател и управляващ партньор и стартира своята рискова компания през 2017 г. Първият фонд инвестира 20 милиона долара в 14 компании. Една от техните инвестиции беше в Innoviz, която стана публична чрез сливане на SPAC през 2018 г. и стана LiDAR еднорог. Воден от Омер Кейлаф (който произхожда от технологичния отдел на Разузнавателния корпус на Израелските отбранителни сили), компанията днес е лидер в разгръщането на LiDAR за ADAS и AV, с многобройни дизайнерски победи при BMW и Volkswagen.

Вторият фонд на Champel Capital (Impact Deep Tech Fund II) беше иницииран през януари 2022 г. и досега е събрал $30 милиона (целта е $100 милиона до края на 2022 г.). Доминиращ фокус е върху компютърното зрение, с 12 милиона долара, разпределени в пет компании. Три от тях използват компютърно зрение за транспорт и роботика.

TankU, със седалище в Хайфа, започна дейност през 2018 г. и е набрала 10 милиона долара финансиране. Дан Валдхорн е главен изпълнителен директор и е възпитаник на Unit 8200, елитна високотехнологична група в рамките на израелските отбранителни сили, отговорна за сигнално разузнаване и дешифриране на кодове. Продуктите SaaS (софтуер като услуга) на TankU автоматизират и осигуряват процеси в сложни външни среди, обслужващи превозни средства и водачи. Тези продукти се използват от собственици на автопаркове, лични автомобили, станции за зареждане с гориво и електрически зарядни станции за предотвратяване на кражби и измами при автоматизирани финансови транзакции. Услугите за гориво за превозни средства генерират ~2 трилиона долара глобални приходи годишно, от които собствениците на частни и търговски превозни средства консумират 40% или 800 милиарда долара. Търговците на дребно и собствениците на автопаркове губят ~100 милиарда долара годишно поради кражби и измами (например използване на карта за гориво на автопарка за неоторизирани частни превозни средства). Измамата с CNP (Card not present) и подправянето/кражбата на гориво са допълнителни източници на загуба, особено когато се използват данни за открадната карта в мобилни приложения за плащания.

РЕКЛАМА

Продуктът TUfuel на компанията улеснява сигурно плащане с едно докосване, блокира повечето видове измами и предупреждава клиентите, когато подозира измама. Той прави това въз основа на AI двигател, обучен на данни от съществуващи камери за видеонаблюдение в тези съоръжения и данни за цифрови транзакции (включително POS и други бек-енд данни). Параметри като траектория и динамика на превозното средство, ID на превозното средство, време за пътуване, пробег, време за зареждане, количество гориво, история на горивото и поведение на водача са някои от атрибутите, които се наблюдават за откриване на измами. Тези данни също така помагат на търговците на дребно да оптимизират работата на сайта, да повишат лоялността на клиентите и да внедрят базирани на визия маркетингови инструменти. Според изпълнителния директор Дан Валдхорн, тяхното решение открива 70% от флота, 90% от кредитни карти и 70% от събития, свързани с манипулиране.

Sonol е компания за енергийни услуги, която притежава и управлява мрежа от 240 станции и магазини в Израел. TUfuel е внедрен на техните обекти и демонстрира повишена сигурност, предотвратяване на измами и лоялност на клиентите. Изпитанията на продукта са в ход в САЩ в сътрудничество с водещ световен доставчик на оборудване за бензиностанции и магазини. Подобни инициативи се провеждат и в Африка и Европа.

РЕКЛАМА

Базиран в Тел Авив ITC е основана през 2019 г. от академици по машинно обучение от университета Бен-Гурион. ITC създава SaaS продукти, които „измерете потока на трафика, предвидете задръстванията и ги смекчете чрез интелигентно манипулиране на светофарите – преди да започнат да се образуват задръствания.“ Подобно на TankU, той използва данни от готови камери (вече инсталирани на множество кръстовища), за да получи данни за трафика на живо. Данните от хиляди камери в целия град се анализират и параметри като тип превозно средство, скорост, посока на движение и последователност от типове превозни средства (камиони срещу автомобили) се извличат чрез прилагането на собствени алгоритми за AI. Симулациите предвиждат трафика и потенциалните задръствания до 30 минути предварително. Светофарите се настройват с помощта на тези резултати, за да се изглади трафикът и да се предотвратят задръствания.

Обучението на AI системата отнема един месец визуални данни в типичен град и включва комбинация от контролирано и неконтролирано обучение. Решението на ITC вече е внедрено в Тел-Авив (класиран на 25-то място в най-натоварените градове в света през 2020 г.), с хиляди камери, разположени на стотици кръстовища, контролирани от светофари. Системата на ITC в момента управлява 75 XNUMX превозни средства, като се очаква да продължи да нараства. Фирмата монтира a подобна способност в Люксембург и започва изпитания в големите градове на САЩ. В световен мащаб решението му управлява 300,000 XNUMX превозни средства с опериращи обекти в Израел, САЩ, Бразилия и Австралия. Двир Кениг, техническият директор, е страстен за решаването на този проблем – да върне на хората личното време, да намали парниковите газове, да подобри общата производителност и най-важното, да намали инцидентите на задръстените кръстовища. Според г-н Кениг, „нашите внедрявания демонстрират 30% намаление на задръстванията, намалявайки непродуктивното време за шофиране, стреса, разхода на гориво и замърсяването.“

РЕКЛАМА

Роботика на закрито беше основана в 2018 намлява наскоро събра 18 милиона долара финансиране. Компанията, базирана близо до Тел-Авив, Израел, разработва и продава решения за автономни дронове за вътрешна сигурност, безопасност и мониторинг на поддръжката. Главният изпълнителен директор и съосновател Дорон Бен-Дейвид има значителен опит в роботиката и аеронавтиката, натрупан в IAIIAI
(основен главен изпълнител на отбраната) и MAFAT (организация за напреднали изследвания в рамките на израелското министерство на отбраната), която е подобна на DARPA в Съединените щати. Нарастващите инвестиции в интелигентни сгради и пазари за търговска сигурност подхранват необходимостта от автономни системи, които могат да използват компютърно зрение и други сензорни входове в малки и големи вътрешни търговски пространства (офиси, центрове за данни, складове и търговски площи). Indoor Robotics се насочва към този пазар, като използва вътрешни дронове, оборудвани с готови камери и термични и инфрачервени сензори за обхват.

Офир Бар-Левав е главен бизнес директор. Той обяснява, че липсата на GPS е попречила на вътрешните дронове да се локализират вътре в сгради (обикновено GPS-отказано или неточно). Освен това липсваха удобни и ефективни решения за докинг и захранване. Indoor Robotics се справя с това с четири монтирани на дрон камери (отгоре, отдолу, отляво, отдясно) и прости сензори за обхват, които точно картографират вътрешното пространство и съдържанието му. Данните от камерата (камерите предоставят данни за локализиране и картографиране) и термичните сензори (също монтирани на дрона) се анализират от AI система, за да открият потенциални проблеми със сигурността, безопасността и поддръжката и да предупредят клиента. Дроновете се захранват сами чрез монтирана на тавана „докинг плочка“, която спестява ценно подово пространство и позволява събиране на данни по време на зареждане. Финансовите предимства на автоматизирането на тези светски процеси, при които човешкият труд е сложен и скъп по отношение на набирането, задържането и обучението, са очевидни. Използването на въздушни дронове спрямо наземни роботи също има значителни предимства по отношение на капиталови и оперативни разходи, по-добро използване на подовото пространство, свобода на движение без срещане на препятствия и ефективност на улавяне на данни от камерата. Според г-н Бар-Левав, TAM (Total Addressable Market) на Indoor Robotics в интелигентните системи за сигурност на закрито ще бъде $80 милиарда до 2026 г. Ключовите клиентски местоположения днес включват складове, центрове за данни и офиси на водещи глобални корпорации.

РЕКЛАМА


Компютърното зрение революционизира играта за автономност – в автоматизацията на движението, сигурността, интелигентното наблюдение на сградите, откриването на измами и управлението на трафика. Силата на полупроводниците и AI са мощни фактори. След като компютрите овладеят тази невероятна сензорна модалност по мащабируем начин, възможностите са безкрайни.

Източник: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/