Главная » технологии » NVIDIA Omniverse Avatar позволяет создавать в реальном времени умных помощников для общения
NVIDIA Omniverse Avatar позволяет создавать в реальном времени умных помощников для общения
09.11.2021
Omniverse Avatar объединяет технологии компании в области речевого ИИ, компьютерного зрения, понимания естественного языка, систем рекомендаций и технологий моделирования. Аватары, созданные на платформе, представляют собой интерактивные персонажи с 3D графикой на базе трассировки лучей, которые могут видеть, говорить, разговаривать на самые разные темы и понимать высказанные намерения собеседника.
Omniverse Avatar открывает двери для создания умных помощников, которых легко настраивать практически для любой отрасли. Это может помочь в миллиардах ежедневных взаимодействий с клиентами - заказами в ресторане, банковскими операциями, назначением личных встреч, бронированием и т. д., что ведет к расширению деловых возможностей и повышению удовлетворенности клиентов.
«Наступило время умных виртуальных помощников, - говорит Дженсен Хуанг, основатель и генеральный директор NVIDIA. - Omniverse Avatar сочетает в себе основные технологии графики, моделирования и искусственного интеллекта от NVIDIA, позволяя создавать сложнейшие приложения, работающие в реальном времени. Сценарии использования готовых к сотрудничеству роботов и виртуальных помощников невероятны и перспективны».
Omniverse Avatar является частью NVIDIA Omniverse™, платформы для совместной работы в виртуальной среде и моделирования для рабочих процессов 3D. В своем выступлении на конференции NVIDIA GTC Дженсен поделился различными примерами Omniverse Avatar: Project Tokkio для поддержки клиентов, NVIDIA DRIVE Concierge для умных сервисов в транспорте и Project Maxine для видеоконференцсвязи.
На первой демонстрации Project Tokkio Дженсен показал коллег, беседующих на такие темы, как биология и изучение климата, с аватаром Toy Jensen, созданным как игрушечная копия его самого.
Во второй демонстрации Project Tokkio он показал аватар службы поддержки клиентов в ресторане, который мог видеть, разговаривать и понимать двух клиентов, когда они заказывали вегетарианские гамбургеры, картофель фри и напитки. Демонстрации проводились на базе программного обеспечения NVIDIA для ИИ и Megatron 530B - крупнейшей в мире настраиваемой языковой модели.
В демонстрации платформы DRIVE Concierge AI цифровой помощник на экране центральной приборной панели помогает водителю выбрать режим вождения, чтобы вовремя добраться до пункта назначения, а затем следует его запросу, чтобы установить напоминание, когда до цели останется менее 100 миль.
Дженсен также продемонстрировал способность Project Maxine добавлять современные видео и аудио функции в приложения для виртуального сотрудничества и создания контента. Во время видеовызова женщина находится в шумном кафе, но ее слышно четко, без фонового шума. Ее слова транскрибируются и переводятся в реальном времени на немецкий, французский и испанский языки с тем же голосом и интонацией.
Ключевые элементы Omniverse Avatar
Omniverse Avatar использует элементы речевого ИИ, компьютерного зрения, понимания естественного языка, механизмов рекомендаций, лицевой анимации и графики, получаемые с помощью следующих технологий:
Распознавание речи основано на пакете разработки программного обеспечения NVIDIA Riva, который распознает речь на нескольких языках. Riva также используется для генерации речевых ответов с использованием возможностей преобразования текста в речь.
Понимание естественного языка основано на большой языковой модели Megatron 530B, которая может распознавать, понимать и генерировать человеческий язык. Megatron 530B - это предварительно обученная модель, которая может при небольшом обучении или без него составлять полные предложения, отвечать на вопросы большой предметной области, резюмировать длинные сложные истории, переводить на другие языки и работать во многих других областях, для которых она специально не обучена.
Механизм рекомендаций основан на фреймворке NVIDIA Merlin™, который позволяет компаниям создавать рекомендательные системы глубокого обучения, способные обрабатывать большие объемы данных, чтобы делать более подходящие предложения.
Возможности восприятия базируются на фреймворке компьютерного зрения для видеоаналитики NVIDIA Metropolis.
В основе анимации аватара лежат технологии 2D и 3D лицевой анимации и рендеринга на основе искусственного интеллекта NVIDIA Video2Face и Audio2Face™.
Эти технологии объединены в приложение и обрабатываются в реальном времени с помощью фреймворка NVIDIA Unified Compute Framework. Упакованные в виде масштабируемых настраиваемых микросервисов эти навыки можно разворачивать и ими можно управлять в разных локациях с помощью NVIDIA Fleet Command™.
Китай представил первый в мире банкомат с возможностью распознавания лица владельца карточки. Каждый предусмотрительный владелец банковской карточки считает, что пин-код лучше всего записать на самой пластиковой карточке. Все остальные знают, что ...
Конкуренция среди создателей полезных и высокотехнологичных носимых устройств постоянно растет, это мотивирует производителей на разработку новых прикольных гаджетов, на которые возлагается дополнительная функция - служить украшением. Безусловно, в ...
Перед тем как сесть за руль автомобиля и выехать на дорогу, человек должен пройти обучение, сдать соответствующий экзамен и получить водительское удостоверение. Калифорнийский Департамент Транспорта полагает, что роботы, а также все автомобили ...
Современные технологии позволяют передавать данные без проводов. И для этого необходимо обеспечить безопасность такого обмена, чтобы не произошло утечки важной информации. На сегодняшний день многие беспроводные устройства разработаны на базе ...
Вождение в нетрезвом состоянии может привести не только к штрафу, но, к сожалению, и более серьезным последствиям, потеря автомобиля - не самое страшное, что может случиться из-за минутного легкомыслия. За последние годы уже появилось несколько ...
Пока в Беларуси только-только запустили беспроводную передачу данных по технологии 4G, в самых технологически развитых странах мира уже обсуждается переход к технологиям 5G. Что же это такое? Со стороны многим кажется, что 5G – это просто более ...
С 5 по 8 апреля 2016 года во Франкфурте-на-Майне пройдет очередная ежегодная международная выставка технологий и услуг для проведения зрелищных мероприятий Prolight + Sound 2016. Задолго до открытия выставки многие ключевые игроки из всех сегментов ...
Рассекая горные склоны, каждый любитель снега и скорости прекрасно понимает, что хороший шлем — это не просто модный аксессуар, но необходимый элемент из соображений безопасности. Горнолыжный шлем Forcite обладает и другими полезными особенностями. ...
Банкоматы в настоящее время являются вполне привычным явлением. Практика показывает, что они предусмотрены в любом торговом комплексе, на остановках и в прочих местах. Каждый человек имеет отличную возможность либо перевести, либо обналичить ...
Кажется, повальное увлечение детей в СССР авиамоделизмом было знаковым. Как только технологии заметно продвинулись вперед, человечество тут же бросилось конструировать разного рода дистанционно управляемые летательные аппараты разных типов. Сперва ...
Мультимедиа — это условная совокупность аппаратных и программных средств, нацеленных на взаимодействие с человеком посредством звука, объемных или плоских изображений, анимации, а иногда и действий. Идеальным примером грамотного использования ...
Facebook и Google объединяют усилия для строительства высокоскоростного канала оптической связи между Северной Америкой и Азией. Самый длинный и самый скоростной подводный волоконно-оптический кабель с расчетной пропускной способностью канала в 120 ...