День LLM и GenAI
Среда, 6 Марта
Регистрация и приветственный кофе
Введение в ИИ для новичков
Игорь Пивоваров, OpenTalks.AI
Пока конференция не началась — для тех, кто только начинает свой путь в ИИ, краткое знакомство с основными технологиями ИИ. Простым языком про компьютерное зрение и большие языковые модели, что такое трансформеры и attention, обзор технологий и применений и как они будут представлены на конференции.
Пленарная сессия 1 — обзоры
Открытие конференции и первого дня
Что будет на конференции, основные идеи, цифры, акценты.
Развитие больших языковых моделей: от понимания языка до автономных агентов
Михаил БурцевLondon Institute for Mathematical Sciences (UK)
В этом выступлении мы рассмотрим уровень развития и текущие ограничения больших языковых моделей (LLM), таких как ChatGPT, которые произвели революцию в ИИ за последний год. В первой части будет общий обзор LLM, их возможностей решения широкого спектра проблем понимания естественного языка. Также будут представлены данные, показывающие, что LLM могут отставать от более специализированных традиционных моделей NLP в решении определенных конкретных задач, иллюстрируя компромисс между универсальностью и качеством, специфичным для конкретной задачи. Затем мы углубимся в фундаментальные ограничения размера входного сигнала трансформера и представим наше инновационное решение: разработку преобразователя рекуррентной памяти, который устанавливает новый рекорд по длине последовательности, обрабатываемой нейронной сетью. Во второй части доклада мы обсудим потенциал LLM в создании автономных агентов, способных к независимым действиям и принятию решений. Мы рассмотрим популярные методы подсказки, такие как цепочка мыслей (chain of thought) и дерево мыслей (tree of thought), и рассмотрим текущие проблемы, позволяющие LLM изучать и применять абстрактные правила, особенно в нестандартных областях. Цель этого доклада — дать всестороннее представление о том, где LLM преуспевают, где они терпят неудачу, а также о захватывающих возможностях и вызовах, которые ждут нас впереди в исследованиях и приложениях искусственного интеллекта.
Превосходя обучающие данные: получаем больше от LLMs на этапе выполнения.
Александр Новиков (online)DeepMind (UK)
Языковые модели становятся все более повседневным инструментов показывающим впечатляющие возможности по интерполяции обычающих данных. Но могут ли они создавать новые знания, превосходящие то что можно найти в интернете? Я представлю обзор недавних идей о том, как можно подойти к задаче создания новых знаний при помощи LLM в различных областях: генерации кода (такие работы, как FunSearch (Nature, 2023), AlphaCode и AlphaCodium), математики (AlphaGeometry), действиях (Voyager: агент в Minecraft) и тексте (Tree of thoughts).»
Рекомендательные системы — под капотом
Генеративный ИИ: мульти-модальность
Когда поиск разнообразия встречается с неожиданностью: Включение поведения, стремящегося к разнообразию, в дизайн неожиданных рекомендательных систем
Туториал — Как учить большие языковые модели
Хольгер Цшайге,Infotropic Media
Точные алгоритмы для факторизации булевых матриц и их применение в рекомендательных системах
Алексей Гончаров, Compress.ai
Эффективный инференс LLM для прикладных задач
Большие мультимодальные модели — путь к AGI?
LLM и мульти-модальность Sber AI
Mультимодальная модель событий AIRI
Mульти-модальная модель событий AIRI
Thomas G. Martin,Lawdroid, CA
Alan Ragueneau, Denton Nextlaw, SW
Начала законодательства для автономных систем искусственного интеллекта.
Turning Dross Into Gold Loss: is BERT4Rec really better than SASRec?
Большие языковые модели являются основой большинства AI-продуктов, и компании постоянно соревнуются друг с другом, стараясь обучить как можно более сильные модели. Процесс создания LLM является нетривиальным и состоит из широкого набора этапов и подзадач. Несмотря на отсутствие идеальных решений, в ходе множества экспериментов за последние годы исследователи выделили основные идеи и техники, помогающие получить модель более высокого качества с меньшими затратами времени и ресурсов. В рамках туториала будут рассмотрены основные аспекты обучения LLM (данные, архитектура, масштабирование и оптимизация обучения и дообучения, модификация и оценка моделей) и наиболее распространённые практики, связанные с ними. Рассказ рассчитан на слушателей с опытом работы с моделями ML и DL, не специализирующихся на обучении LLM.
Искатели разнообразия — это те клиенты, которым легко надоедают продукты, которые они покупали ранее, и, следовательно, они предпочитают новый контент для расширения своего кругозора. Несмотря на свою распространенность, поведение, связанное с поиском разнообразия, практически не изучается в рекомендательных приложениях из-за различных ограничений в существующих мерах по поиску разнообразия. Чтобы восполнить пробел в исследованиях, в этой статье мы представляем систему поиска разнообразия для измерения уровня поведения потребителей, стремящихся к разнообразию, в рекомендациях, основанных на их отчетах о потреблении. Мы подтверждаем эффективность нашей системы с помощью опросов пользователей, проведенных в Alibaba, где наши показатели стремления к разнообразию хорошо согласуются с самооценками потребителей в отношении их поведения, связанного с поиском разнообразия. Кроме того, мы представляем систему рекомендаций, которая сочетает выявленные уровни поиска разнообразия с неожиданными рекомендательными системами в литературе по интеллектуальному анализу данных, чтобы удовлетворить неоднородное стремление потребителей к разнообразию продукции, в которой мы предоставляем более неожиданные рекомендации по продукту потребителям, ищущим разнообразие, и наоборот. С помощью автономных экспериментов по трем различным сценариям рекомендаций и крупномасштабного контролируемого онлайн-эксперимента на крупной платформе потоковой передачи видео мы демонстрируем, что модели, соответствующие нашей системе рекомендаций, значительно повышают различные показатели эффективности бизнеса и приносят ощутимый экономический эффект для компании. Наши выводы приводят к важным управленческим выводам, позволяющим лучше понять поведение потребителей, стремящихся к разнообразию, и разработать рекомендательные системы. В результате компания внедрила наиболее эффективную модель из предложенных нами фреймворков для обслуживания всех потребителей на платформе потоковой передачи видео.
В этом докладе мы рассмотрим некоторые свойства современных алгоритмов факторизации булевых матриц (таких как GreConD и IterEss), популярных методов интеллектуального анализа данных с бинарными реляционными данными. Этот жадный алгоритм был вдохновлен тем фактом, что оптимальное число множителей для разложения булевой матрицы на множители (BMF) может быть выбрано среди формальных понятий соответствующего формального контекста. В частности, мы рассматриваем один из самых сложных случаев (с точки зрения количества возможных факторов), так называемые контраноминальные шкалы, и показываем, что выходные данные GreConD в этом случае не являются оптимальными. Более того, мы формально анализируем его выходные данные с помощью рекуррентных и генерирующих функций и получаем замкнутую форму для возвращаемого количества факторов. Алгоритм, генерирующий оптимальное количество факторов и соответствующие матрицы произведений P и Q, также предоставляется нами для случая контраноминальных шкал. В дополнение к алгоритмическим исследованиям мы предоставляем слушателям краткое изложение наших предыдущих результатов по приложениям BMF для совместной фильтрации (в сотрудничестве с Е. Неновой, М. Ахматнуровым и др.), а также некоторые недавние результаты для булевых тензоров. (Это совместная работа с Александрой Яковлевой и Язагом Мезиане)
Как сделать инференс LLM быстрым, эффективным по цене и кастомизируемым при работе на серверах компании при отсутствии дорогих GPU? В докладе поделюсь опытом разработки и расскажу о методах масштабирования инфраструктуры под LLM и подходах к росту эффективности песочницу для экспериментов.
Сейчас в научной и бытовой сфере большой популярностью пользуются большие языковые модели (large language models). Про них мы читаем новости, видим впечатляющие видеопрезентации крупных корпораций и узнаём конспирологические теории о том, что эти самые языковые модели уже познали мир лучше, чем средний человек. Попробуем последовательно разобраться, что сейчас умеют LLM, с чем ещё, кроме текстов, могут работать и как они могут помочь в создании сверхсильной интеллектуальной машины. В рамках доклада поделюсь своим опытом исследований в этой сфере, расскажу об экспериментах, бенчмарках и других больших проблемах человечества в открытых вопросах, а также о нашей мультимодальной архитектуре OmniFusion. Обсудим также мультиагентный подход, способы «общения» LLM, механизмы Chain-of-Thought и Tree-of-Thought, общую память, self-reflection и другие аспекты, на которые уже стоит обратить внимание. Также немного расскажу и о наших исследованиях в области генеративного ИИ (а именно Kandinsky 3.0, Kandinsky Video) — и самое главное о том, как связать между собой OmniFusion и, например, Kandinsky в единую систему, которая может решать практически весь спектр задач на стыке разных модальностей
В области последовательностей событий, в отличие от компьютерного зрения (CV) или обработки естественного языка (NLP), не принято использовать предварительно обученную модель для решения сразу нескольких задач и обобщения на новые. Существующие подходы имеют ограничения с точки зрения гибкости, обобщения и вычислительной эффективности. Кроме того, интеграция длинных последовательностей событий в подходы, основанные на нейронных сетях, остается сложной задачей. Для решения этих проблем в данной статье предлагается новый подход под названием Event Sequences Question Answering (ESQA), основанный на модели большого языка (LLM). Мы представляем все задачи, основанные на последовательности событий, в форме вопрос-ответ. Более того, мы предлагаем универсальный метод кодирования последовательностей событий с использованием обучаемого кодера, основанного на архитектуре Transformer. Эффективное извлечение признаков из выходных данных кодера и значительное сокращение длины последовательности достигаются за счет использования модели Q-Former в качестве соединительного уровня между кодером и LLM. Результаты наших эмпирических исследований показывают, что применение предварительно обученных моделей большого языка к модальности последовательности событий в ESQA обеспечивает качество, сравнимое с современными подходами для различных задач прогнозирования в многозадачных условиях в различных наборах финансовых данных с открытым исходным кодом. Кроме того, ESQA продемонстрировала адаптивность к новым задачам с качеством, превышающим статистические показатели.
The significant part of the operational context for autonomous company management systems is the regulatory and legal environment in which corporations operate. In order to create a dedicated operational context for autonomous artificial intelligence systems, the wording of local regulatory documents can be simultaneously presented in two versions: for use by people and for use by autonomous systems. In this case, the artificial intelligence system will get a well-defined operational context that allows such a system to perform functions within the required standards. Local regulations that provide basis for the joint work of individuals and autonomous artificial intelligence systems can form the grounds for the relevant legislation governing the development and implementation of autonomous systems.
В последнее время задача последовательных рекомендаций и прогнозирования следующего элемента становится все более популярной в области рекомендательных систем. В настоящее время наиболее современными являются модели на основе трансформеров SASRec и BERT4Rec. За последние несколько лет появилось довольно много публикаций, в которых сравнивались эти два алгоритма и предлагались новые модели. В большинстве публикаций BERT4Rec обеспечивает лучшую производительность, чем SASRec. Но BERT4Rec использует перекрестную энтропию поверх softmax для всех элементов, в то время как SASRec использует отрицательную выборку и вычисляет двоичную потерю перекрестной энтропии для одного положительного и одного отрицательного элемента. В нашей работе мы показываем, что если обе модели обучаются с одинаковыми потерями, которые использует BERT4Rec, то SASRec значительно превзойдет BERT4Rec как по качеству, так и по скорости обучения. Кроме того, мы показываем, что SASRec может быть эффективно обучен с отрицательной выборкой и по-прежнему превосходить BERT4Rec, но количество отрицательных примеров должно быть намного больше одного.
Александр Резанов,Rask AI
Илья Ненахов, Яндекс Маркет
Внутреннее устройство нейробаннеров на Яндекс Маркете
В докладе я расскажу про решение реальной AdTech задачи по генерации рекламных баннеров на Яндекс Маркете при помощи современных нейросетевых архитектур. Мы немного поговорим откуда такая задача берется в рекламных системах, и в чем ее специфика в екоме. Фокус будет на технических деталях решения — YaGPT и ее дообучение под свои задачи, ptune, архитектура SAM и ее ускорение. Также я расскажу про устройство рантайма и всего продового процесса, с какими проблемами мы столкнулись, и что получили в итоге.
Решения для бизнеса на базе LLM
Implementing AI into office software
Анна Плешакова, OnlyOffice
Роман Доронин, Bioptic.io
RAG и его производные. Продуктовые кейсы, в которых LLM приносит реальную пользу бизнесу
Инна Лизунова,Группа компаний ЦРТ
Как написать свой CUDA kernel: практический подход к низкоуровневой оптимизации
Григорий Алексеев, Perplexity
Математика и искусственный интеллект.
Созданий приложений с LLM: больше, чем просто написать промпт
GigaSearch или Поисковая система на GigaChat
Прохор Гладких, SberDevices

Александр Гасников, Иннополис, МФТИ
AI вино, AI шоколад и другие новые методы оптимизации
В этом выступлении я выделю несколько фундаментальных проблем в ИИ, которым не хватает математического формализма, например, согласование больших языковых моделей. С другой стороны, многие математические концепции могут быть эффективно использованы для улучшения качества алгоритмов ML. Например, гиперболическая геометрия является ярким примером. Замена обычных вложений гиперболическими приводит к SOTA в обучении метрике.
Расскажу, как мы боремся с галлюцинациями и устареванием данных в GigaChat с помощью подхода RAG (Retrieval-Augmented Generation)
На первый взгляд может показаться, что создатели приложений, использующих LLM, просто пишут промпты и интегрируют их с публичным API. Однако при автоматизации сценариев с использованием LLM разработчикам необходимо уделять особое внимание правильности ответов и обеспечению безопасности при взаимодействии с моделью. В то же время развиваются методы проектирования цепочек вызовов LLM, что позволяет промпт-инженерам разрабатывать не просто промпты, а целые сценарии получения данных и вызовов модели при помощи таких техник, как ReAct, RAG, FLARE и других. В этом докладе будут освещены основные трудности, возникающие при создании приложений на основе LLM, список необходимых компетенций, а так же особенности планирования, разработки и поддержки подобных приложений.
На волне популярности LLM мы в ЦРТ пропустили через себя большое количество продуктовых пилотов. Большая часть из них тем или иным образом связана с генеративным поиском (RAG, Retrieval Augmented Generation) по очень разным источникам информации. В докладе мы поделимся собственным опытом решения продуктовых кейсов с использованием LLM: — Во что в продуктовых кейсах может трансформироваться «ванильный» RAG? Как его узнать? — В какие RAG-подобные кейсы идти стоит, а в какие — нет, и при каких условиях? — Где бизнес-ценность в подобных кейсах?
Agenda:1. How to fuse a QKV Attention Layer into a single CUDA kernel?2. Step-by-step guide to writing efficient kernels using a basic algorithm
Quick Overview:1. We will explore kernel-level operations to understand how LLM layers function, specifically focusing on the QKV attention layer from llama_7b. I will present my approach for implementing a fused CUDA kernel, including code snippets. This session will also cover benchmark analysis and potential optimization strategies.2. This segment involves a deeper examination of CUDA kernels, focusing on optimization techniques and profiling. We’ll research the process of enhancing a basic histogram kernel, analyzing its behavior from various aspects and comparing it to a third-party solution.
В докладе пойдет речь о том, как решать задачи оптимизации, если невозможно получить градиент целевой функции и невозможно даже получить значение целевой функции. А можно только сравнивать между собой значения целевой функции в разных точках. То есть запросив значения целевой функции в наборе точек, можно, например, сказать, в какой точке значение было наименьшее (или наибольшее), но нельзя сказать, чему именно оно равно. Такие постановки задач возникают при разработке с помощью искусственного интеллекта различных продуктов питания (например, шоколада). В докладе будет обсуждаться вопрос, какие алгоритмы являются оптимальными для класса задач гладкой оптимизации (выпуклой, невыпуклой) большой размерности и малой размерности. Удивительно, но оказывается, оценки оракульной сложности оптимальных алгоритмов для задач оптимизации с таким оракулом получаются с точностью до логарифмического множителя такими же как для обычных безградиентных методов, в которых возможно вычисление значения функции.
Пленарная сессия 2 — обзоры
Главное в Генеративном ИИ в 2023
Александр Нотченко, ODS London
Прошлый год был монументальным для генеративного ИИ, и скорее всего все знакомы с LLM (большими языковыми моделями) и их ролью в этой революции. Но в этом докладе я сделаю обзор других важных достижений в генеративных моделях за прошлый год, а именно в области генерации 2D изображений, Видео, Аудио, 3D моделей, анимации и прочего. Также я проанализирую основные причины которые на мой взгляд привели к появлению этих моделей.
ИИ в ритейле — обзор
В нашем выступлении мы покажем, как Data Science и AI трансформируют продуктовый ритейл, от выбора места для магазина до персонализации сервиса и оптимизации работы сотрудников. Рассмотрим примеры использования аналитики для прогнозирования трендов, управления запасами и разработки программ лояльности, которые увеличивают продажи и улучшают клиентский опыт. Присоединяйтесь, чтобы узнать, как data-driven решения делают ритейл более адаптивным и клиентоориентированным.
Взгляд СТО на генеративный ИИ
Марина Дорохова,Яков и Партнеры
Доклад посвящен перспективам генеративного ИИ для бизнеса. Результаты получены в ходе нашего собственного опроса технических директоров 100 крупнейших компаний в России из 15 отраслей и посвящены их ожиданиям от внедрения генеративного ИИ, наиболее популярным сценариям использования, предполагаемому бюджету на генеративный ИИ, а также общим рискам и проблемам, встречающимся в этой области. Таким образом, в докладе обобщены основные уроки, которые бизнес, разработчики и исследователи могут принять во внимание при создании моделей генеративного ИИ и продуктов для конкретных отраслей.
Рекомендательныесистемы в бизнесе
Генеративный ИИ: изображения и видео
Аркадий Сандлер, True Click Technologies
Руслан Салахутдинов,Carnegie Mellon
Последние достижения в RL (название уточняется)
Рекомендательные системы в медиа платформах
Федор Смирнов, Glowbyte Consulting
Руслан Ермагамбетов, Контур
Пульс-индекс: динамическая модель оценки вероятности банкротства компании
От стохастических дифференц-иальных уравнений до задачи Монжа-Канторовича и обратно: путь к искусственному интеллекту?
Методы оптимизации нейросетевых алгоритмов
Дмитрий Иванов,МГУ, Цифрум
Autoregressive models for Conversational Gestures Generation. The Path through GENEA challenges
Нейросеть для оптимизации количества и стоимости конверсий в рекламных кампаниях
Каждый день продавцы в Точке прозванивают 3000+ карточек, но что если мы можем влиять на этот процесс и подбирать карточки на прозвон для каждого продавца? Расскажу, как мы сделали машинку, которая ранжирует компании по вероятность конвертации в клиента, а потом переделали ее в своеобразный тиндер: карточки с контактами каждый день разделяются между продавцами на основе персональных скоров, предсказанной производительности и срочности прозвона. Затрону техническую сторону машинки для предсказания персональных скоров + стратегию бронирования карточек и как подобрать оптимальное временное окно бронирования. А ещё — покажу, сколько денег мы на этом заработали
В сфере услуг Over-The-Top (OTT) и Video On Demand (VOD) на операционную эффективность существенно влияют две основные проблемы: отток пользователей и использование контента. Высокий уровень оттока подрывает усилия, вложенные в привлечение пользователей, а неоптимальное использование контента может снизить интерес зрителей, что еще больше усугубляет проблему оттока. Эти платформы часто выделяют большую часть своих бюджетов на привлечение новых пользователей и защиту прав на контент. Поэтому решение важнейших вопросов о том, как поддерживать вовлеченность зрителей и какой контент приобретать — или как лучше использовать существующий контент — становится необходимым условием успеха в индустрии OTT/VOD. В исследовании PWC подчеркивается, что удержание зрителей положительно коррелирует с широтой потребляемого контента, что указывает на то, что разнообразная и увлекательная библиотека контента является ключом к снижению уровня оттока. Учитывая это, лидеры рынка вкладывают значительные средства в сложные алгоритмы рекомендаций, стремясь выделиться на высококонкурентном рынке. На предстоящей конференции будут представлены стратегии для компаний, у которых нет ресурсов для прямой конкуренции с гигантами отрасли. Она будет посвящена тому, как эти организации могут использовать передовые технологии в рекомендательных системах для повышения вовлеченности зрителей и принятия обоснованных решений по приобретению контента, тем самым находя свой собственный путь к успеху на переполненном рынке OTT/VOD.
Тема – вероятностное программирование и генеративные вероятностные модели. Вероятностное программирование позволяет включать в модели машинного обучения экспертные знания и допущения, в первую очередь о взаимосвязях различных факторов, и учитывать ненаблюдаемые факторы, которые управляют процессом генерации данных. В качестве практического примера будем рассматривать задачу определения скрытых потребностей, определяющих структуру чеков у покупателей.
В своем докладе расскажу про то, как мы в Контур.Фокусе разрабатывали и внедряли в продукт динамическую модель оценки вероятности банкротства. Данная модель призвана помочь пользователям Контур.Фокуса в оценке надежности контрагентов, так как обладает предиктивной способностью оценивать риск банкротства компании на основании данных бухгалтерской отчетности, арбитражных исков и других событий. Подробно разберем детали обучения и деплоя модели, с какими трудностями столкнулись при интеграции и как собирали обратную связь по новой фиче.
А.Н. Колмогоров — крупнейший математик XX века, основоположник современной теории вероятностей, также заложивший основы теории марковских случайных процессов с непрерывным временем. Эти результаты, оказавшие огромное влияние на развитие прикладных методов обработки сигналов, фильтрации, моделирования и обработки финансовых данных, в 21 веке снова оказались в центре внимания в связи с развитием искусственного интеллекта и его приложений. Действительно, для решения таких важных прикладных задач, как повышение разрешения изображений, синтезирование речи по тексту, генерация изображений на основе текстовых описаний, и др. требуются эффективные методы генеративного моделирования, которые способны порождать объекты из распределения, задаваемого выборкой примеров. Недавние достижения в области генеративного моделирования как раз и базируются на диффузионных моделях и используют математическую основу, заложенную еще в прошлом веке А.Н. Колмогоровым и его последователями. В докладе будет рассказано о современных подходах к генеративному моделированию на основе диффузионных процессов и на основе решения задачи Монжа-Канторовича. Будет показана связь решения энтропийно-регуляризованной задачи Монжа-Канторовича с задачей построения диффузионного процесса с определенными экстремальными свойствами. Работа соответствующих алгоритмов будем продемонстрирована на примере решения различных задач обработки изображений.
Современные нейронные сети представляют собой чрезвычайно ресурсоемкие алгоритмы с точки зрения памяти, вычислений и энергии. Это приводит к дополнительным затратам на их использование, а также ограничивает их использование на edge-устройствах. В туториале обсуждаются проблемы inference нейронных сетей с аппаратной и программной точки зрения. В первой мы кратко обсудим проблему «узких мест» фон Неймана и способы ее обхода. Во второй мы обсуждаем основные подходы к оптимизации нейронных сетей, такие как: pruning, кантизация, дистилляция, их варианты и их комбинации. Заодно сравним современные системы ИИ с мозгом и объясним причины большей эффективности мозга. Мы покажем, что наиболее эффективные подходы к оптимизации систем ИИ используют (в некотором смысле) принципы, основанные на мозге.
Развитие больших языковых моделей, а также систем синтеза речи привело к появлению «живых» агентов в виртуальных мирах. Этим агентам также требуется реалистичная жестикуляция во время взаимодействия с человеком. В своем докладе я расскажу о том, как такие жесты можно генерировать из речи и не только. Я представляю наши подходы к генерации разговорных жестов, возникшим в ходе участия в GENEA Challenges, что в итоге привело к трем статьям. Я расскажу о самой задаче, о первых подходах к её решению, а также о подходах, предложенных нами, с какой главной проблемой авторегрессионных моделей мы столкнулись, как мы пытались её решить и как нам помогли видеоигры.
Эксплуатация нейросети по масштабированию и последующей оптимизации брендовых рекламных кампаний, с условием повышения доли целевых заявок и без каннибализации органического трафика
Предиктивная аналитика в бизнесе
LLM — мультиагентные модели
Предсказание успешности стартапа и прогнозирование портфеля венчурного фонда
Георгий Кекелидзе, IITech
Анастасия Семенова, Smile2Impress
FractalMath — Мультиагентный подход в решении математических задач arithmetic reasoning
Сергей Шумский,Adam & Eva, Inc.
Нейро-символьный диалоговый интеллект за недорого
Машинное обучение в металлургии
Дмитрий Муравьев,ММК — Информсервис
Дмитрий Ветров,Constructor University
Михаил Бурцев,London Institute for Mathematical Sciences
LLM4Anything: мультиагентные LLM системы
Трансформаторы и синтетические данные для обнаружения дефектов на конвейерных лентах
Олег Карташев,Severstal Digital
Представлена новая нейро-символьная архитектура больших языковых моделей. Она сочетает в себе обучение без учителя и обучение с подкреплением и требует на несколько порядков меньше вычислений для обучения по сравнению с нейросетевыми языковыми моделями. Сложность обучения в предлагаемой архитектуре растет линейно с размером данных, в отличие от квадратичной зависимости в нейросетевых моделях языка.
Мы предлагаем новый, мультиагентный подход к решению задач математического ризонинга. LLM показали значительный прогресс в решении мат. задач, однако они имеют фундаментальные ограничения и не позволяют добиваться высокого качества решения стабильно. В предлагаемом подходе агенты самоорганизуются для создания стратегии решения задачи на лету, что позволяет добиваться надежного решения целого класса математических задач арифметического ризонинга.
We explore predicting startup success using CrunchBase data and deep learning. Our model forecasts milestones like IPOs, unicorn status, and M&A for Series B and C startups. We achieved 14x capital growth (98th percentile of VC funds), identified high-potential startups, and stress the importance of diverse data for accuracy. This work shows deep learning’s promise in startup success prediction.
1. Who are the mathematicians in the MMK? 2. What kind of problems they are solving by using different methods and instruments? 3. What is the economic effect of the application of the mathematical modelling? 4. Why mathematical modelling is related to the machine learning? 5. What kind of the case studies we have already carried out?
We will talk about the ability of Large Language Models (LLMs) to provide personalized business-oriented communication with the help of agents. We also tackle the problem of finetuning and adding new modalities for practical applications. Finally, we formulate core challenges and approaches for building applications over LLMs.
Мы покажем вам, как мы используем и улучшаем трансформеры и какие алгоритмы мы применяем для создания синтетических данных, чтобы предсказать редкие дефекты на конвейерных лентах.
Выбор и реализация алгоритма классификации
Несмотря на то, что в процессе эксплуатации железнодорожного полотна решающее значение имеет наличие или отсутствие дефекта (бинарная классификация), количественно оценим какие дефектные участки имеют большую вероятность быть ложно классифицированными как без дефектные, что является опасным случаем при диагностике рельсов. При этом задача классификации сводится в данной работе к однозначной многоклассовой с четырьмя классами.
Ормирование набора данных
Набор данных набирается из дефектограмм, полученных дефектоскопом «Avicon-11» на нескольких железнодорожных испытательных треках (Railroad Test Track — RTT) и обычных путях при различных условиях. Каждый экземпляр данных представлен в виде прямоугольных данных «глубина × длинна» и имеет форму (224, 1024), что позволяет вместить образы более шести болтовых отверстий по длине рельса при их болтовом стыке.
Формирование набора данных затруднено отсутствием достаточного количества дефектных участков, поэтому для его расширения использовалось смещение по длине рельса и сканирование одного и того же дефекта при различных условиях и настройках испытательного оборудования, что позволяет получить отличающиеся образы дефектов (рис.7).

Рис.7 – Пример увеличения набора данных
результате указанной методики набор данных для классов 0, 1, 2, 3 составляет соответственно 2151, 1043, 1584, 582, а в сумме 5360 экземпляров. Бездефектный класс «0» содержит 10% (214 экз.) экземпляров без болтовых отверстий, остальные 90% (1937 экз.) содержат от одного до шести болтовых отверстий. Набор данных получил название «avicon» и используется в работе только для окончательного тестирования. Это позволяет избежать проблемы дисбаланса классов при обучении и получить более достоверную оценку точности классификатора.
Для целей тренировки и проверки моделей классификации в данной работе используется синтетический, сбалансированный dataset, полученный на основе математического моделирования моделей описывающих процесс отражения и регистрации ультразвуковых волн от конструктивных отражателей рельсов и дефектов. Применение такой обученной модели для классификации реальных данных полученных дефектоскопом при диагностике рельсов демонстрирует рис.8.

Рис.8 – Применение нейронной сети обученной на модельных данных
Табл.2 – Примеры экземпляров (B-scan) для выделенных классов (синтетические данные)



Процесс моделирования позволяет получить значительное количество экземпляров, ограничимся в работе величиной 2048 экземпляров для каждого из синтетических наборов «train», «valid», «test».
Каждый экземпляр данных и метки записывается для каждого набора в соответствующие бинарные файлы images.bin и labels.bin (тип данных «uint8») согласно рис.9.

Рис.9 – Распределение наборов по директориям
Азведывательный анализ данных
Информация о количестве данных, балансе классов для синтетических наборов и набора «avicon» представлена на рис.10.

Рис.10 – Сводная информация о наборах данных
Анализ графического представления фреймов реальных данных позволяет выявить, по крайней мере, одно важное свойство дефектов 3 класса: образы дефектов наиболее трудно отличимы от образов болтовых отверстий, особенно если находятся на одном и том же уровне по глубине рельса, что в значительной степени затрудняют задачу классификации.
Каждый экземпляр данных имеет размер 224 х 1024 и является достаточно большим для применения алгоритмов ML, вызывая трудности организации процесса обучения. Каждый такой экземпляр можно считать точками данных в 224*1024 = 229376-мерном пространстве, которое является высоко разряженным так как содержит достаточно большое количество нулевых значений. Построенный график интегральной объяснимой дисперсии набора «train» как функции от количества компонент метода PCA (рис. 11) показывает, что при использовании 1000 компонент (в 228376 / 1000 = 330 раз меньше исходного размера) объясняется уже 98.5% дисперсии, что свидетельствует о высоком уровне избыточности в исходных данных. Такой уменьшенный набор данных может использоваться в алгоритмах ML, однако его получение на всём наборе данных одновременно вызывает затруднения, поэтому далее в работе рассматривается алгоритм, основанный на Deep Learning.

Рис.11 – График интегральной объяснимой дисперсия данных как функция количества компонент метода PCA для наборе данных «train»
Рхитектура нейронной сети
В работе рассматривается модель DL в виде линейного стека слоёв (рис.12а – окончательный вариант сети). Функция активации: relu (rectified linear unit), для выходного полносвязного слоя — нормализованная экспоненциальная функция softmax, при которой сумма значений всех выходных нейронов равна единице. Функция потерь: мера ошибки в виде расстояния между распределениями вероятностей фактических данных и их прогнозом (перекрёстная энтропия). Оптимизатор: алгоритм стохастического градиентного спуска в модификации RMSProp. Метрики в процессе обучения: точность, как величина равная отношению количества правильно классифицированных объектов к общему числу объектов.
Бучение сети

Рис.12 — NN и результаты её обучения: а) архитектура сети; b) Изменение «Loss» and «Accuracy» при обучении; с) Classification Report; d) Confusion matrix
Полученная confusion matrix и сводный отчёт о качестве модели представлен на рис. 12d,c. Обученная модель обладает высокими показателями precesion и recall выше 96% для всех классификаторов классов, что также означает достаточность информационных признаков в данных для классификации.
Важным для понимания работы классификатора и его изменения является рассмотрение ложно классифицированных образцов. Согласно confusion matrix классификатор 3 класса ошибочно распознал 4 образца класса 0, которые имеют как минимум одну сигнализацию болтового отверстия схожую с образом дефекта 3 группы (пример на рис.13а), что возможно и стало причиной ошибки.
Классификатор класса 0 ошибочно распознал два образца класса 1. Оба неправильно распознанных дефекта имеют характерный внешний вид и расположены крайне близко к верней границы кадра данных. Одни из таких кадров – рис.13b.
Классификатор класса 0 ошибочно распознал один образец класса 2, который расположен достаточно близко к глубине нахождения болтовых отверстий (рис.13с).
Классификатор класса 0 ошибочно распознал 13 образцов класса 3, который расположен достаточно близко к глубине нахождения болтовых отверстий (рис.13d).
По результатам тестов работы сети отмечается сложность различия дефекта 3 класса с болтовыми отверстиями.

Рис.13 – Характерные фреймы ошибочно классифицированных данных
