23 МАРТА 2023
Обзор технологий на базе искусственного интеллекта, которые точно заинтересуют потенциального инвестора
Индустрия AI и Big Data растет, как на дрожжах, и демонстрирует стабильную заинтересованность со стороны инвесторов и корпораций. При этом использование технологий искусственного интеллекта уже сейчас генерирует бизнесу дополнительные нули к доходам. Мы решили сделать обзор перспективных технологий, привлекательных для инвестиций и кратно увеличивающих прибыль предпринимателей.
Венчурные инвестиции в AI и Big Data
Объем мировых венчурных инвестиций в AI и Big Data стартапы в 2021 году, по данным Организации Экономического Сотрудничества и Развития (OECD), достиг 248 миллиардов долларов. Консалтинговая группа PwC оценивает потенциальный вклад AI в мировую экономику к 2030 году в 15,7 триллионов долларов. Как стать частью этих денежных потоков и что для этого нужно делать?
Пример: Нежно Space
На примере Нежно Space (платформы для самостоятельной терапии нарушений и расстройств пищевого поведения на основе искусственного интеллекта) я покажу, как можно интегрировать эти технологии в свой продукт, ну или хотя бы пофантазировать об этом.
Эмбеддинги текстов
Эмбеддинги текстов (они же семантические векторные представления) обычно получают из нейросетевых языковых моделей и затем используют в прикладных задачах: классификации, кластеризации, извлечении именованных сущностей, рекомендательных системах, и т. д. Эмбеддинг текста — это числовой вектор, содержащий в сжатом виде информацию о его смысле.
Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи.
Бенчмарк ruSciBench
В этом году, благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик. Кроме того, в ruSciBench почти для всех статей есть аннотация как на английском, так и на русском языках, что дает возможность тестировать сохранение семантики при смене языка.
Заключение
В этом посте был рассмотрен бенчмарк для научных текстов ruSciBench и модель SciRus-tiny. Технологии на базе искусственного интеллекта предоставляют огромные возможности для инвесторов и предпринимателей. Будущее принадлежит AI и Big Data!
Центр Испытаний и Аккредитации
На базе ФБУН ФНЦГ им. Ф.Ф. Эрисмана Роспотребнадзора созданы и функционируют 2 испытательных центра.
Центр исследований и аккредитации
Испытательный лабораторный центр аккредитован в национальной системе аккредитации и внесен в реестр аккредитованных лиц Росаккредитации под номером РОСС.RU.0001.510122. Центр проводит лабораторные исследования в соответствии с требованиями ГОСТ ISO/IEC 17025-2019 Общие требования к компетентности испытательных и калибровочных лабораторий в утвержденной области аккредитации.
Росаккредитация прекратила с 30 июля 2018 года выдачу аттестатов аккредитации на бумажном носителе.
Понятие выписка из реестра аккредитованных лиц
В соответствии с законодательством, выписка из реестра аккредитованных лиц (аттестат аккредитации) – это документ, удостоверяющий аккредитацию в определенной области на момент его формирования.
Руководитель ИЛЦ
Руководителем Испытательного Лабораторного Центра является кандидат медицинских наук, доцент Скопин Антон Юрьевич. Для связи можно использовать номер телефона +7 495 586 11 44 (добавочный номер 1363).
Принципы надлежащей лабораторной практики
Испытательный центр прошел процедуру признания принципам надлежащей лабораторной практики ОЭСР национальным органом мониторинга (Росаккредитация) и подтвердил статус соответствия Принципам GLP.
Центр Неклинических Исследований
Отдел приема, регистрации, кодирования образцов и выдачи результатов испытаний (ОПРКОиВРИ)
Центр ФБУН ФНЦГ им. Ф.Ф. Эрисмана Роспотребнадзора проводит неклинические лабораторные исследования в соответствии с Принципами GLP по различным направлениям.
Для проведения исследований заявитель должен представить определенные документы в отдел приема, регистрации, кодирования образцов и выдачи результатов испытаний. Заявитель несет ответственность за отбор и доставку образцов, а также за предоставление необходимых документов и сведений.
Прием заявок и образцов
Прием заявок, образцов и объектов испытаний на исследования осуществляется с понедельника по четверг с 09:00 до 17:00, в пятницу – с 09:00 до 16:00 (обед с 13:00 до 13:30) в комнатах 134 и 135 на первом этаже. Дополнительную информацию можно получить по телефону 8-495-586-11-44 (добавочный номер 1317).
Стоимость услуг
Информацию о стоимости платных услуг можно узнать на сайте по ссылке Прейскурант платных услуг.
Эта технология преобразует структурированные данные в текст на естественном языке
Благодаря NLG общение компаний со своими клиентами стало более быстрым, точным и персонализированным. Осенью 2022 ювелирный бренд Sokolov приносил свой кейс на студенческий хакатон. Задачей было создать алгоритм, который по фотографии изделия мог бы генерировать его описание.
Оптическое распознавание символов (OCR)
Эта технология позволяет компьютерам распознавать текст на изображениях и преобразовывать его в редактируемые данные с возможностью поиска.
На данный момент технология OCR уже произвела революцию в обработке и управлении документами, сделав ее более быстрой, точной и экономически эффективной. Распознавание касается любых документов: паспортов, СНИЛС, резюме, больничных карт, квитанций. Например, вы пользовались этой технологией, когда загружали в банке счет на оплату в PDF или JPG, а система сама считывала все данные.
Кейс Нежно Space
Статус: в процессе. Психологи любят тесты и измерения. К счастью, признанные в мировой практике опросники в любой стране имеют одинаковый вид и последовательность вопросов. Это создает возможности для проведения научных исследований без языковых барьеров. Представляете, какие датасеты можно будет собрать, чтобы впоследствии использовать под задачи Mental Health Tech?
Обработка естественного языка
Технология, которая позволяет компьютеру взаимодействовать с человеком, или чат-бот. Google Assistant помогает организовывать встречи, а Alexa от Amazon облегчает совершение покупок. Количество успешных взаимодействий с чат-ботами в период с 2019 по 2023 год росло со скоростью на 3,2% в год. В результате было сэкономлено примерно 862 миллиона часов рабочего времени.
Статья Литий, стресс и дроны: 3 идеи для стартапа на миллионы
Acknowledgement
Исследования проводятся в рамках гранта 23-Ш05–21 Междисциплинарной научно‑образовательной школы МГУ им.М.В.Ломоносова Математические методы анализа сложных систем, проект Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема. Благодарим портал eLibrary за предоставленный датасет.
Машинное обучение (ML)
Технология обучает компьютерную систему составлять точные прогнозы, предлагать рекомендации, просчитывать сценарии, ставить диагнозы.
## Статус: реализован
Мы использовали машинное обучение, чтобы создать рекомендательную систему. Наша платформа умеет подбирать оптимальные упражнения для пользователей в индивидуальном порядке.
Мы собрали датасет, который учитывает:
- пол
- возраст
- стратегии управления стрессом
- отношения в родительской семье
- уровень перфекционизма
- тип пищевого поведения
- образ идеального тела
Наш алгоритм помогает не только тем, кто столкнулся с расстройством пищевого поведения, но и всем, кто хотел бы найти инструменты борьбы со стрессом.
## SciRus-tiny
Мы обучали SciRus‑tiny в три этапа.
### Первый этап
На первом этапе модель обучалась с нуля решению задачи предсказания маскированных токенов на 12M аннотаций научных статей на русском и английском.
### Второй этап
На втором этапе модель SciRus‑tiny дообучалась с использованием контрастной функции потерь, приближая эмбеддинги аннотаций одной и той же статьи.
### Третий этап
На третьем этапе модель дообучалась также с использованием контрастной функции потерь, но приближая вектора статей, имеющих общие или близкие научные категории согласно классификатору OECD.
### Результаты
В таблицах представлены результаты SciRus-tiny в сравнении с различными моделями на всех метриках бенчмарка ruSciBench.
### Примечание
Моноязычные и разработанные специально для работы с научными текстами ruSciBERT и SciNCL показывают примерно такое же качество, как и лучшая модель, имея более, чем в 2 раза меньшее количество параметров.
### Достижения
SciRus‑tiny достигла высоких значений метрик на ruSciBench, сохранив скорость и эффективность. Мы использовали в качестве основной модели для сравнения ruBERT‑tiny2 и превзошли ее по 10 из 14 метрик.
### Планы на будущее
SciRus‑tiny – это первая небольшая модель в линейке наших моделей для получения семантических эмбеддингов научных текстов на разных языках. В будущем мы планируем выпустить ряд моделей с большим количеством параметров и добиться максимальных метрик на ruSciBench и не только.
## Как применять
Мы опубликовали SciRus-tiny на huggingface, также реализовав возможность удобного инференса с помощью библиотеки sentence-transformers. Удачного использования!
## Распознавание речи
Эта технология преобразует человеческую речь в понятный компьютеру формат. Siri, Алиса, Маруся — классические примеры распознавания речи и Voice Control, то есть цифрового помощника, которого достаточно попросить и он сразу выполнит задачу без того, чтобы прокрастинировать еще пару дней. В целом уже практически у каждого гиганта в ИТ есть свой цифровой помощник для пользователей. Вы можете набирать и редактировать текст голосом в Google Docs или Google Slides. Можно вспомнить также Telegram с его функцией перепечатывать для нас аудиосообщения.
Технология уже применяется в таких сферах, как:
Здравствуйте, хотим вас поздравить. Вы стали счастливым обладателем подарочного купона. Мы рандомно выбрали ваш номер и дарим вам купон, на сумму 5 тысяч рублей в стоматологию.
Деньги — лучший подарок. Так что вы лучше пришлите купон наличкой.
Статус: в процессе. Планируем протестировать интеграцию Speechmatics. В упражнениях на платформе мы предлагаем пользователям вести дневники эмоций и питания, в моменте не всегда хочется писать, а вот надиктовать, как пользователь себя чувствует, было бы отличной опцией. И еще одна идея для улучшения продукта и сервиса — делегировать технологиям преобразование данных из маркетинговых исследований. Маркетолог/предприниматель общается с пользователями, ИИ записывает интервью — в итоге мы сможем сэкономить время и не упустить ничего важного.
Состав датасета и задач ruSciBench
ruSciBench состоит из двух типов задач: классификации и поиск перевода, постановка которых более подробно описана ниже. Датасет, на котором проводятся замеры метрик, состоит из 194 071 названия+аннотации научной статьи на русском языке и 182 436 — на английском. Для каждой статьи известна его рубрика OECD и ГРНТИ. В задаче классификации используются 29 рубрик OECD и 28 рубрик ГРНТИ. Рубрики OECD детализированы до 2 уровня (например, 5.03), рубрики ГРНТИ до 1 (например, 76.). Наибольшую долю в датасете занимают гуманитарные науки, наименьшую — сельскохозяйственные (Рисунок 1).
Длины текстов соответствуют принятой длине названия и аннотации научной статьи: 99% названий короче 26 слов, аннотаций — 384 слов, и 99% итоговых текстов (название+аннотация) — 400 слов. Также 90% итоговых текстов короче 250 слов.
Рисунок 1. Распределение датасета по 0 уровню OECD
Классификация
Задача построена аналогично задачам MAG и MeSH из бенчмарка SciDocs от Allen Institute for AI. Только вместо рубрик Microsoft Academic Graph и Medical Subject Headings используются рубрики OECD и ГРНТИ. Для получения метрик используется следующий пайплайн. На 90% датасета обучается классификатор на базе метода опорных векторов (LinearSVC), использующий оцениваемые эмбеддинги в качестве векторов признаков. Затем на отложенных 10% оцениваются метрики точности этого классификатора. Задача построена на предположении, что чем более информативные эмбеддинги поданы на вход классификатору, тем выше результат он сможет показать.
Поскольку некоторые модели работают только с русским или только с английским языком, задача поделена еще и по этому принципу на три: только на русском (ru), только на английском (en) и объединяющая оба языка (full). Таким образом, возникает 6 задач, в зависимости от рубрикатора и языка: oecd‑ru, oecd‑en, oecd‑full и grnti‑ru, grnti‑en, grnti‑full. Для каждой задачи вычисляются метрики: weighted‑f1, оценивающая то, как модель работает в среднем, и macro‑f1, в большей степени отражающая способность модели работать с равномерным качеством как на малых, так и на больших рубриках.
Рассмотрим для примера сравнение двух моделей на этой задаче: Multilingual‑E5-base с довольно большим количеством параметров и маленькую модель SciRus‑tiny, у которой параметров почти в десять раз меньше. Также Multilingual‑E5-base имеет размерность эмбеддинга более, чем в два раза превосходящий SciRus‑tiny. Тем не менее, разрыв в метриках не так велик, в среднем менее 10%. Кроме того, можно заметить, что на weighted‑f1 разрыв уменьшается, судя по всему, большая модель лучше решает задачи, связанные с небольшими рубриками классификаторов.
Поиск перевода
Задача поиска перевода оценивает способность модели отражать в эмбеддингах смысл сказанного, вне зависимости от языка текста. Для этого проверяется, что самым близким из всего датасета к эмбеддингу аннотации статьи на одном языке является эмбеддинг аннотации этой же статьи на другом языке. Например, если взять эмбеддинг русской аннотации статьи А и сравнить его с эмбеддингами всех английских аннотаций в датасете, то самым близким должен оказаться эмбеддинг английской аннотации этой же статьи А. Таким образом, возникает две метрики: поиск русской аннотации по английской и, наоборот, английской по русской. В качестве метрики возвращается доля статей, где поиск был выполнен успешно.
Посмотрим на метрики для тех же двух моделей: Multilingual‑E5-base и SciRus‑tiny. Большая модель все так же лидирует, но тоже примерно на 10%, как и в предыдущей задаче.
Чтобы оценить свою модель на ruSciBench нужно сделать несколько довольно простых шагов. Мы подробно показали этот процесс в инструкции/примере в нашем ноутбуке в Google‑Colab. Текстовые данные для бенчмарка размещены на huggingface, а код доступен на github. Хороших вам метрик!
Заключение
Сегодня многие вещи, которые казались невозможными, стали вполне обыденными. Еще 3 года назад мы видели гневные сообщения пользователей чат-ботов «человека позови!», а сегодня Reddit уже докладывает о буме использования ChatGPT в качестве терапевта, который прочитает о травмах и проблемах пользователя и даже сгенерирует поддерживающий ответ.
Это история про фантазии, на которые способен наш мозг, чтобы придумать новые задачи для искусственного интеллекта и новые решения для всех возможных областей и индустрий. Мы с Нежно Space на каждом питче привлекаем интерес инвесторов, инкубаторов, экспертов и партнеров. Одна только идея позволила нам сотрудничать со Сколково, обсудить возможности с МТС Startup Hub, участвовать в грантовом конкурсе Старт ИИ от Фонда Содействия Инновациям.
Рынок искусственного интеллекта растет каждый день, а начальный уровень развития самих технологий открывает возможности создавать проекты, привлекать инвестиции и получать гранты как на фундаментальные научные исследования, так и на прикладные бизнес-решения.
Если вам нужна помощь в анализе рынка и привлечении инвестиций в ваш проект, запишитесь на консультацию с экспертом:
Присоединяйтесь к нам в Telegram, Вконтакте, Дзен.
Узнавайте первыми
Подпишитесь и раз в неделю получайте подборку полезных материалов