Leif Gram: Mr. Fix

Кстати

Если тесловский искусственный интеллект учится у водителей пока они ездят, то почему он вообще будет сколько-нибудь лучше водить? Он научится точно так же не включать поворотники, ездить на десять миль в час быстрее ограничения скорости, ускоряться на желтый свет, объезжать поворачивающие налево машины по обочине и т.д. Кроме того, у водителей нет камер с обзором в 360 градусов, поэтому вообще невозможно научиться у этих водителей использовать такие камеры с пользой для дела.
(1) Ну вот ты всё классно писал, а потом внезапно "Чему же она там учится с отключенным автопилотом, как не копированию действий водителя, не попавшего только что в аварию?" - нет, не копированию. Если тебе кажется, что копированию - постарайся это каким-то образом вывести?

(2) Мне кажется - но тут я снова не уверен в функции оптимизации конкретной Теслы - что нужно смотреть не на глобальное время поездки и глобальное количество аварий (что потом с чем сравнивать?), а локально. Идёт непрерывная оценка результата. Например "проехал перекрёсток за 4,5 секунды, оценка риска 23%, потратил 100W". В таком случае проще увидеть, что бессмысленные действия (включить дворники, притормозить перед женщиной, спонтанно переключиться на ручной режим и вернуться с него - да мало ли, что ещё время от времени делают реальные водители) будут ухудшать эту функцию.
Если не согласен, расскажи, как по-твому выглядит эта же оптимизационная функция, чтобы туда вписалось "все пропускают - значит и я пропущу"?
(1) я вижу ровно один другой вариант -- она обретет самосознание и начнет самостоятельно размышлять о природе вещей. Поскольку автопилот выключен, ставить экспериментов для уточнений своих теорий она не сможет, только наблюдать. В принципе да, этого может быть достаточно. Мне кажется очевидным, что ничего подобного не происходит и она следует за большинством, как сделала бы линейная регрессия.

(2) напоминаю, автопилот отключен. Тесла следит за действиями водителя, не вмешиваясь. Водитель включил дворники. Если он случайно задел рычаг, то глобальная тесла ничему не научится, потому что все остальные водители этого не сделали и этот единичный акт потеряется в общем шуме. Если же все водители систематически включают дворники, когда начинается дождь, глобальная тесла сможет научиться предсказывать это по появлению капель в поле зрения видеокамеры, и делать так же. Функция для минимизации тут такая: запишем 1, если мы предксазываем, что водитель включит дворники в следующие три секунды, и 0 в противном случае. Минимизировать будем сумму квадратов разностей того, что мы предсказали, и того, что произошло в реальности. P.S. в предыдущих каментах я предполагал, что тесла учиться только крутить руль и жать на педали. Таким способом я бы научил ее, дополнително, включать дворники.

Edited at 2019-06-07 01:21 pm (UTC)
(2) Всё, я понял! Уфф :-) Твоя функция минимизирует отклонение поведения ИИ от какого-то среднего поведения учителя. В таком случае да, она действительно приведёт к копированию поведения среднего водителя. Но зачем использовать такую функцию? У нас задача - скопировать поведение реальных водителей? Или задача - как можно быстрее и безопаснее доехать до пункта назначения? Твоя функция решает первую задачу и приводит к описанным тобой ограничениям. А я всё это время говорил про вторую задачу :-)
Как я понимаю, вторая задача заведомо не имеет решения в сегодняшних технологиях.
Ну, предположим, что и так. Но первая-то задача вообще никого не интересует?
С помощью решенной первой задачи ездит реальная тесла. P.S. И это, в принципе, очень разумно: у типичного водителя в типичном случае аварий не происходит, надо быть пьяным или что-то зевнуть.. Если удастся все случаи приблизить к типичным, всех аварий можно будет избежать.

Edited at 2019-06-07 02:25 pm (UTC)
Похоже, разница в том, что ты думаешь про анализ всей поездки в целом -- мол, этот водитель ехал, уступая дорогу, а этот водитель ехал, не уступая дорогу и приехал быстрее, значит, дорогу уступать не надо. По-моему, на таких горизонтах тесла вообще ничего не планирует и не оптимизирует, а принимает решения в каждый момент на следующие две-три секунды (исходя из характерных скоростей машин), после чего ситуация полностью меняется и требует нового анализа. К концу поездки она вообще не будет помнить, что уступила кому-то дорогу полчаса назад.
Так я именно это и говорил пару комментариев выше :-) Про постоянную оценку, про оптимизацию каждую секунду.