LLMs predict my coffee

Обзор эксперимента Dynomight: как LLM предсказывают температуру кофе

Experiment Coffee LLMs

Six weeks ago Dynomight писал о наборе инструментов дизайна, а теперь исследование оценивает, как разные LLMs предсказывают температуру воды в кружке:

Модели и стоимость: Claude 4.6 Opus ($0.61), GPT 5.4 ($0.11), Gemini 3.1 Pro ($0.09), Kimi K2.5 ($0.01)
Эксперимент: отбор по моделям, вычисления T(t) с экспоненциальным распадом, данные в CSV: /img/coffee/temps.csv
Результат: все модели дают близкие оценки, но ни одна не достигла идеала; реальная динамика чуть отличается от предсказаний.

Исследование демонстрирует, как контекст и реальный эксперимент влияют на точность предсказаний AI. Полная статья и данные доступны по ссылке в оригинальном посте Dynomight.

Источник: dynomight.net/coffee