# Материалы по совместному экспертному консультированию с помощью AI
[TOC]
## [1. Language Models Still Struggle to Zero-shot Reason about Time Series](https://arxiv.org/pdf/2404.11757.pdf)
Большие языковые модели пока (или всегда?) не могут выдавать быстрые (и точные) результаты при предсказании и объяснении последовательностей данных, зависящих от времени (временных рядов).
Временные ряды используются для принятия решений в финансовых областях, здравоохранении и других. Наблюдается приток работ по использованию временных рядов в языковых моделях. Получены очень интересные результаты, например, для прогноза погоды и анализа некоторых типов наборов данных. Но остается неизвестным, насколько глубоко языковые модели могут рассуждать о временных рядах.
В [статье](https://arxiv.org/pdf/2404.11757.pdf) рассматриваются три формы рассуждения:
- *[Этиологические рассуждения](https://en.wikipedia.org/wiki/Etiology) — при наличии входящего временного ряда без подсказок, может ли языковая модель определить сценарий, который, скорее всего, ее создал?*
- *Ответы на вопросы: может ли языковая модель отвечать на фактические вопросы о временных рядах?*
- *Контекстное прогнозирование — помогает ли очень хороший (релевантный) текстовый контекст улучшать прогнозы языковых моделей для временных рядов?*
Обнаружено, что даже высокоэффективные языковые модели демонстрируют удивительно ограниченное качество рассуждениий о временных рядах: они чуть лучше случайного выбора результатов в этиологических задачах и задачах ответа на вопросы (и до 30 процентных пунктов хуже, чем люди) и демонстрируют очень скромные успехи в использовании контекста для улучшения прогнозирования.
Рассуждения о временных рядах является важным, но глубоко недостаточно развитым направлением исследования языковых моделей. Наборы данных и код для дальнейших исследований: https://github.com/behavioral-data/TSandLanguage.
### 1.1 Вопросы
#### Исследовать возможности модификации лингвистических моделей в сторону временных рядов ?
#### Исследовать возможности построения языкового интерфейса к обыкновенным базам данных, временным базам данных (может быть, логическим базам данных) и их языков запросов на базе лингвистических моделей ?
## [2. Этиологические рассуждения. Теория (объяснения) причинно-следственных связей болезней](https://philpapers.org/archive/DAMEE-2.pdf)

https://philpeople.org/profiles/olaf-dammann
## [3. Актуальные направления исследований IBM в области LLM + временные ряды ](https://research.ibm.com/blog/AI-time-series-forecasting)
### 3.1 Некоторые ссылки на статьи
[A Transformer-based Framework for Multivariate Time Series Representation Learning](https://dl.acm.org/doi/10.1145/3447548.3467401)
(*Трансформер-фреймворк для многомерных временных рядов*)
[TS Foundation Models - The Battle of Time-series Transformers](https://www.linkedin.com/pulse/ts-foundation-models-battle-time-series-vijay-ekambaram/)
[A TIME SERIES IS WORTH 64 WORDS:LONG-TERM FORECASTING WITH TRANSFORMERS](https://arxiv.org/pdf/2211.14730.pdf)
[PatchTSMixer](https://huggingface.co/docs/transformers/model_doc/patchtsmixer)
[Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning](https://arxiv.org/abs/2202.10629)
### [3.2 Выдержка из обзора "A crystal ball made of AI transformers"](https://research.ibm.com/blog/AI-time-series-forecasting)
Трансформеры могут улучшить качество традиционного прогнозирования, извлекая закономерности за большие периоды времени среди связанных переменных. Также, как большие языковые модели (LLM) вычисляют отношения между словами для "построения" структуры текстов, трансформеры временных рядов должны искать закономерности во временных наблюдениях для «понимания» динамики процессов.
Существует три основных препятствия на пути адаптации трансформеров к данным временных рядов.
1. Данные временных рядов почти всегда представлют из себя непрерывные потоки, например, потоковое видео, данные о частоте пульса и т.п. Проблема - объем данных и явные и неявные отношения порядка в них.
2. Плохая связность данных из параллельных временных рядов разных типов: от цен на акции и спутниковых изображений до записей активности мозга и кривых блеска далеких звезд. Проблема - формализация и компактизация разрозненных наблюдений.
3. Вычислительные трудности с выявлением и использованием существующей корреляции данных и их совместного влияния на прогноз. В реальном мире сложные события возникают из-за множества факторов. Например, температура воздуха, давление и влажность сильно взаимодействуют друг с другом, определяя погоду. Чтобы предсказать ураган, вы должны знать, как эти переменные влияли друг на друга в прошлом, чтобы понять, как может развиваться будущее. По мере увеличения количества переменных вычисления быстро становятся непосильными, особенно если речь идет о длительных исторических данных.
Технические проблемы все еще решаются, но трансформаторы уже демонстрируют свои преимущества по сравнению с традиционными методами прогнозирования. Независимо от того, каким бизнесом вы занимаетесь, перспектива получения более точных прогнозов имеет огромную ценность.
«Прогнозирование временных рядов — это основа деятельности предприятия», — сказал Джаянт Каланьянам из IBM. «У каждой организации есть прогноз продаж, спроса, доходов и требований к мощности. Точные и надежные прогнозы могут сэкономить миллиарды долларов».
## [4. Эффективное масштабирование (трансформация, обучение) больших лингвистических моделей при помощи повторного использования модели](https://openreview.net/pdf?id=iXYnIz4RRx)
https://openreview.net/pdf?id=iXYnIz4RRx
Краткое резюме - авторы утверждают, что дообучение больших моделей на маленьких экспертных наборах данных (<100MB) неэффективно.
Однако, если начать обучать модель с нуля на основе даже малых экспертных данных, ее качество ответов -- на порядки выше (но не достигает тех уровней, которые есть у человека-эксперта)!

В качестве альтернативы к их варианту последовательного повторного использования модели (с ее прогрессивным ростом) рассматриваются работы, в которых предлагаются методы:
* регуляризация модели (Steiner et al., 2021),
* разрежение модели (Chen et al., 2022; Varma T et al., 2022)
* пометка обучающих данных (Touvron et al., 2022; 2021a).
Однако авторы утвреждают, что их подход гораздо эффективней и при этом является ортогональным к указанным подходам, то есть их можно использовать совместно.