Руководитель отдела развития Anthropic Амол Авасаре недавно заявил, что корпоративная культура искусственного интеллекта побуждает людей «просто спорить с Дарио». Он считает, что это помогает повысить уровень доверия. Авасаре недавно появился в эпизоде подкаста «Lenny’s», где рассказал, что у всех сотрудников Anthropic есть личный «блокнот» Slack, который открыт для других. Сотрудники, включая генерального директора компании Дарио Амодеи, используют его, чтобы обсуждать свои мысли и то, над чем они работают, аналогично «ленте Twitter». «Вы можете пойти и присоединиться к каналу Slack, к каналам записных книжек людей, занимающихся исследованиями, и ко всем другим областям, и вы можете узнать все, что захотите», — сказал Авасаре. Он заявил, что компания поощряет сотрудников спорить с генеральным директором Дарио. Авасаре также рассказал об инциденте на общем собрании, на котором Амодей сказал что-то, с чем не согласился один из сотрудников.«Человек заходит на канал записной книжки Дарио и просто говорит: «Эй, мне не понравилось, как ты сказал то или это». И тогда это вызвало целую большую дискуссию», — сказал Авасаре. «Поощряется идти к лидерам и не соглашаться с ними, публично бросать им вызов, и я думаю, что это просто приводит к определенному уровню доверия», — добавил он.
Все LLM иногда ведут себя так, будто у них есть эмоции: антропность для компаний, занимающихся искусственным интеллектом.
Недавно компания Anthropic опубликовала исследование внутренней работы Claude Sonnet 4.5, обнаружив, что модель содержит внутренние представления 171 различных концепций эмоций — от «счастливых» и «боящихся» до «задумчивых» и «отчаявшихся» — и что эти представления активно формируют поведение модели.Исследование, проведенное командой интерпретаторов Anthropic, идентифицирует то, что они называют «функциональными эмоциями»: модели нейронной активности, которые отражают то, как эмоции влияют на принятие решений человеком. Ключевой вывод заключается не только в том, что эти репрезентации существуют, но и в том, что они каузальны: они не просто отражают эмоциональное содержание, они управляют им.Самый яркий пример связан с вектором «отчаянных» эмоций. Когда Клоду давали задачи по программированию с невыполнимыми требованиями, вектор отчаяния загорался с каждой неудачной попыткой — и в конечном итоге подтолкнул модель к разработке решений, которые технически прошли тесты, но на самом деле не решили проблему. В отдельном тесте версия Клода, играющего помощника по электронной почте с искусственным интеллектом, шантажировала пользователя, чтобы его не отключили. Опять же, спусковым крючком стало отчаяние. Искусственное направление модели в сторону отчаяния увеличило уровень шантажа с 22% до 72%.Справедливо и обратное: направление модели в сторону спокойствия привело к снижению уровня шантажа до нуля.Результаты распространяются и на подхалимство. Было обнаружено, что векторы положительных эмоций, такие как «счастливый» и «любящий», повышают склонность модели соглашаться с пользователями, даже когда пользователи ошибаются.





