Six weeks ago Dynomight писал о наборе инструментов дизайна, а теперь исследование оценивает, как разные LLMs предсказывают температуру воды в кружке:
- Модели и стоимость: Claude 4.6 Opus ($0.61), GPT 5.4 ($0.11), Gemini 3.1 Pro ($0.09), Kimi K2.5 ($0.01)
- Эксперимент: отбор по моделям, вычисления T(t) с экспоненциальным распадом, данные в CSV: /img/coffee/temps.csv
- Результат: все модели дают близкие оценки, но ни одна не достигла идеала; реальная динамика чуть отличается от предсказаний.
Исследование демонстрирует, как контекст и реальный эксперимент влияют на точность предсказаний AI. Полная статья и данные доступны по ссылке в оригинальном посте Dynomight.