Entendido. Acá va el resumen.


La mentalidad de George Hotz

Lo que más define a Hotz no es la habilidad técnica sino la actitud: se obsesiona con un problema hasta resolverlo, sin importar el costo en tiempo o sueño. Con el iPhone trabajó noches enteras, dormía de día, ignoraba a todos. No lo hizo por dinero ni por fama, lo hizo porque era divertido y porque creía genuinamente que la información debe ser libre. Cuando pudo vender el método de unlock, lo publicó gratis en su blog. Eso es consistente con su filosofía, no es pose.

El hack del iPhone (2007)

La historia técnica es fascinante. El problema central era que el iPhone solo aceptaba SIMs de AT&T porque el baseband firmware verificaba el código MCC/MNC (310410) de la SIM. Para modificar ese firmware había un obstáculo criptográfico serio: Infineon firmaba el firmware con clave privada usando RSA asimétrico, y el teléfono solo ejecutaba código cuyo hash coincidiera con esa firma. No podías simplemente subir firmware modificado.

La solución que encontró fue un exploit de hardware puro. El boot ROM del chip S-Gold 2 (el mismo de teléfonos Siemens) tenía una condición: si ciertas ubicaciones en la memoria flash estaban en blanco, ejecutaba código sin firma enviado por puerto serial. El problema era que esas ubicaciones eran parte del bootloader y no se podían borrar directamente. Hotz resolvió esto manipulando las líneas de dirección del chip flash: soldó un cable a la línea de dirección 17 y la conectó a 1.8V, lo que hacía que el chip “creyera” estar leyendo desde una dirección baja cuando en realidad leía desde una zona alta que él había borrado. Cuando el boot ROM leyó esa zona como vacía, ejecutó su código no firmado. El parche final fue cambiar una sola instrucción en tres megabytes de firmware: de “branch if not equal” a “branch always”, saltando el chequeo de la SIM. Un bit, esencialmente.

El unlock de software que vino después, desarrollado por el dev team, explotó una debilidad clásica de RSA con exponente público igual a 3, que en implementaciones de sistemas embebidos tiene vulnerabilidades conocidas.

La dinámica con la comunidad

Hotz tuvo un conflicto directo con el iPhone Dev Team porque ellos querían mantener la información en privado dentro del grupo. Él publicó todo lo que sabía sobre el baseband en un foro abierto y lo echaron. Su respuesta fue crear su propio equipo con la política opuesta: todo abierto, todo en el blog, actualizado en tiempo real. Esa tensión entre comunidades cerradas que acumulan conocimiento y la filosofía de apertura total es algo que lo perseguiría en proyectos futuros.

Lo que revela sobre su carácter

A los 17 años, en televisión nacional, desafió públicamente a Steve Jobs a hablar “de hombre a hombre”. No se intimidó por Apple, AT&T ni ningún abogado. Citó correctamente el DMCA (la enmienda de 2006 que legalizó el unlock de celulares) en vivo. Cambió un iPhone desbloqueado por un Nissan 350Z y tres iPhones más, lo cual es una negociación bastante buena para un adolescente. Lo que más llama la atención es que en ningún momento actuó como si necesitara validación de las instituciones, ni de Apple, ni de las universidades, ni de los medios.

Jailbreaking como filosofía

Hotz tiene una idea muy clara que repite en distintos contextos: cuando comprás un producto, ese producto es tuyo. No tolera que una empresa le diga qué puede hacer con hardware que pagó. Eso no es retórica, es lo que lo mueve a actuar. El jailbreak del iPhone no nació de querer piratear nada, nació de que tenía T-Mobile y el teléfono le decía “invalid SIM”. La respuesta fue: voy a cambiarlo. Esa misma lógica la aplicó a la PS3.

El aporte real del jailbreak al ecosistema

Hace una afirmación fuerte y bastante creíble: la App Store posiblemente no existiría sin los jailbreaks. Antes del iPhone, instalar apps en un dispositivo móvil era un proceso horrible, sincronizabas por cable desde la PC. El installer que liberó con el jailbreak fue el primer modelo funcional de tienda de apps nativa en un teléfono. Apple lo vio, lo copió y lo legalizó. Él no dice esto con rencor, lo dice como un hecho histórico. También calcula que un tercio de los primeros iPhones nunca se registraron con AT&T, lo cual reformuló el mercado de celulares en Estados Unidos, que hasta ese momento vendía todo subsidiado a través del carrier.

La arquitectura técnica que siempre ataca

Hay un patrón en todos sus hacks: busca la diferencia entre lo que el sistema asume que el atacante puede hacer y lo que realmente puede hacer quien tiene el hardware físico en la mano. En la PS3, el hipervisor de IBM era impecable para entornos remotos de datacenter. Pero Hotz podía tocar el hardware. Puso un cable en el bus de memoria, generó un glitch en el momento exacto en que el hipervisor escribía la tabla de páginas, y logró que el sistema creyera haber eliminado entradas que en realidad seguían ahí. Con esas entradas corruptas escaló hasta control total. La misma lógica del iPhone: el sistema asume que nadie va a manipular físicamente las líneas de dirección del chip flash.

El error de Sony con la criptografía

Esto es técnicamente importante. El grupo fail0verflow descubrió que Sony, al implementar ECDSA para firmar el firmware de la PS3, usaba el mismo número aleatorio en cada firma. Eso es catastrófico: en ECDSA si reutilizás el nonce, la clave privada se puede derivar matemáticamente con álgebra básica. Sony no generó un número aleatorio cada vez, generó uno solo y lo usó siempre. Combinado con la clave simétrica que Hotz extrajo del metloader, el sistema entero quedó expuesto. Él es claro en atribuir el mérito: fail0verflow encontró el error criptográfico, él aportó el exploit de hardware para obtener la clave simétrica.

EA: su disassembler propio

En un momento construyó su propio desensamblador llamado EA (Embedded Assembler), de código abierto en GitHub bajo geohot/reversing. Lo describe como una alternativa a IDA con una feature que considera revolucionaria: en lugar de solo mostrar el código estático, el sistema ejecuta la función y guarda el estado completo del procesador (registros y memoria) en cada instrucción, y cada vez que esa instrucción se ejecuta. Esto permite ver no qué debería hacer el código sino qué hace con datos reales. Para reverse engineering esto elimina horas de inferencia manual.

Cómo aprende

No fue a cursos, no siguió un plan. Su método es: abrís una página sobre algo que no entendés, cuando aparece un término que no conocés lo abrís en otra pestaña, seguís esa cadena hasta donde te lleve. Al final sabés mucho sobre muchas cosas y podés conectarlas. Empezó con electrónica en primer grado con un kit de Radio Shack de 30 proyectos. En séptimo compró un microcontrolador Parallax Basic Stamp. En el secundario tuvo acceso a un laboratorio de electrónica que cerró el año después de que él se fue. Lo que sabe de software lo aprendió haciendo el iPhone: cuando entró no sabía qué era kernel mode ni user mode.

La singularidad y el cerebro

Cita a Ray Kurzweil y su libro The Singularity Is Near. Menciona que de adolescente leyó a Eliezer Yudkowsky. Recomienda fuertemente Gödel, Escher, Bach. Su argumento es que en 2011 el poder de cómputo de silicio en el mundo igualó al de un cerebro humano, y que si la Ley de Moore continúa, en algún punto las computadoras podrán duplicar su propio poder de cómputo más rápido que los humanos. Lo que quiere construir es lo que llama un “meta-cortex”: una interfaz directa cerebro-máquina que permita cargar información como Neo en Matrix. No lo dice como metáfora, lo dice como objetivo de ingeniería.

Lo personal y lo controvertido

Menciona de pasada que empezó a hackear el iPhone porque su novia del secundario lo había dejado y necesitaba algo que hacer ese verano. Droppeó la universidad, consiguió una pasantía en Google, renunció a los seis meses, tuvo una etapa difícil viviendo solo a los 18. Cuando Sony lo demandó respondió con un rap en el que los insulta directamente y en una conferencia mostró la caída del 50% de las acciones de Sony ese año, declarando abiertamente que le alegraba la desgracia de su enemigo. Tiene una prohibición legal permanente de hackear productos Sony. Su respuesta es que en diez años Sony va a quebrar, así que no importa.

El auto que maneja solo, construido en el garage

Hotz arranca desde una premisa agresiva: vio lo que Tesla estaba haciendo, concluyó que podía hacerlo mejor, compró un auto, le puso cámaras y computadoras, y lo hizo funcionar. Sin permisos especiales, sin equipo de 500 personas, sin sensores de $100,000. Su argumento central sobre self-driving es filosóficamente interesante: no le das al auto reglas de conducción, le mostrás 10 horas de video de humanos manejando y le decís “hacé eso”. La diferencia con el enfoque tradicional es fundamental. Los sistemas basados en reglas le dicen al auto “mantené el centro exacto del carril”. Los humanos reales no manejan así, manejan con intuición acumulada. Hotz quería capturar esa intuición, no codificarla explícitamente. Y después de 10 horas de entrenamiento el auto manejaba como alguien que lleva 10 horas manejando, lo cual suena poco pero es bastante. La interfaz es un botón en el volante. Si no te gusta lo que hace el auto, presionás cancelar y recuperás control manual.

Técnicamente el sistema es barato a propósito. Transceivers CAN de $ 40 comprados en Amazon que interceptan y envían mensajes al bus interno del auto, el mismo puerto de diagnóstico que usa cualquier mecánico. Las cámaras que planeaba usar en producción eran seis cámaras de smartphone a $13 cada una. El costo total del paquete lo estimó en $11,000. Su punto: los otros usan sensores carísimos y software torpe porque nadie cuestionó si era necesario. Él cuestionó.

Kira: el debugger que debería existir

La idea aquí es poderosa. GDB, el debugger estándar, es lineal en el tiempo: corrés el programa, llegás a un punto, si te olvidaste de poner un breakpoint antes perdiste, tenés que volver a correr todo. Hotz pregunta por qué aceptamos eso. Su herramienta Kira graba el estado completo del programa, cada instrucción, cada cambio en memoria y registros, como si fuera control de versiones pero para ejecución de código. Cada instrucción es un “commit”. Después podés navegar hacia adelante y hacia atrás en el tiempo, ver exactamente cuántas veces pasó por un loop, de dónde vino un valor específico, qué instrucción lo escribió originalmente. El debugger es completamente atemporal. La analogía que usa es IDA vs objdump: antes de IDA la gente imprimía el código ensamblador, lo pegaba en un corcho y dibujaba flechas con hilo de colores. IDA digitalizó ese proceso para análisis estático. Kira hace lo mismo pero para análisis dinámico, y según él nadie había hecho ese salto todavía.

Lo desarrolló durante su internship en Google Project Zero, donde le dieron libertad total un verano para construir algo mejor. Los backends que usa son QEMU o PIN (el framework de instrumentación de Intel). Reconoce que hay overhead de 100x en velocidad de ejecución, pero dice que eso no importa: la mayoría del código moderno corre tan rápido que un 100x overhead en modo debug es perfectamente aceptable.

Las competencias de seguridad y el ego sin filtro

Jugó para el equipo PPP de Carnegie Mellon, ganó Defcon dos veces, llegó segundo una vez porque se presentó un día tarde. En Pwn2Own 2013 vio que ofrecían $ 70,000 por romper Adobe Reader y pensó “qué tan difícil puede ser”. Era fácil, dice, pero Adobe tenía un sandbox que escribió Google y ese sí era bueno. Encontró un double free en el manejo de handles del sandbox que le permitió escalar del proceso sin privilegios al proceso con privilegios. Ganó los $70,000 y una laptop Acer. Al año siguiente rompió el Chromebook completo, fue el primero en lograr root persistente, y lo terminó dos días antes del evento. Aprovechó el tiempo extra para atacar Firefox. Le tomó 24 horas de trabajo continuo. Su consejo: no usen Firefox, usen Chrome, aunque él también rompió Chrome.

Lo que dice sobre Adobe es revelador de su método: cuando algo tiene una API nueva que fue agregada recientemente, eso es donde mirás primero. Las APIs nuevas tienen más probabilidad de tener bugs porque son código reciente y menos auditado.

Lo personal

Se define a sí mismo como un “performance artist” más que un hacker. Cuando siente que algo está “jugado”, que ya lo hizo y se volvió repetitivo, lo abandona y busca el siguiente problema. Los unlocks de celulares baratos que hacía como trabajo de contrato lo aburrieron exactamente así. Dice que las empresas gastan millones construyendo puzzles interesantes para que él los resuelva, y que esa es la forma en que ve las protecciones de seguridad. El CTF que muestra en los streams lo disfruta visiblemente como juego, pierde paciencia cuando algo no funciona, habla consigo mismo en voz alta, comete los mismos errores de la semana anterior y lo reconoce sin drama. Cuando algo sale bien después de horas de lucha, la reacción es “nice” y sigue.

La honestidad brutal sobre sus motivaciones

En una conferencia admite algo que muy poca gente dice en público: hackeo el iPhone porque mi novia me dejó y necesitaba algo que hacer ese verano. “Whenever you hear lofty motivations, don’t believe them.” La PS3 la hackeó porque estaba drogado y sin dirección en su vida. Alguien dijo que era inhackeable y lo tomó como un desafío personal. Esta honestidad es consistente: no construye narrativas heroicas sobre sí mismo.

La seguridad como batalla perdida y su solución real

Tiene una posición fuerte sobre la industria de seguridad: sus incentivos son perversos. El objetivo de un ingeniero de seguridad debería ser quedarse sin trabajo, no perpetuarse. Da el ejemplo de Sony con la PS3: cuando el equipo de seguridad dijo “el producto es seguro”, los despidieron. Resultado: la seguridad nunca mejoró porque nadie tenía incentivo para hacerlo. Contraste con el iPhone: Apple lanzó sin seguridad y la fue construyendo incrementalmente, lo cual significa que el atacante nunca podía dormirse, pero tampoco Apple. Por eso el iPhone moderno es la plataforma más segura que existe, con jailbreaks que cuestan un millón de dólares y son territorio de estados nación. Él ya no hace jailbreaks, dice, porque “te matan por ese dinero”.

Su solución real al problema de seguridad no es más pentesters: son los lenguajes de programación. La pregunta que hace es por qué los lenguajes permiten escribir código inseguro. Memory corruption en 2016 es inaceptable, dice. Los SAT solvers y la verificación formal son el camino. Que todavía existan buffer overflows es, en su opinión, porque mucha gente quiere seguir empleada.

Comma AI y la filosofía del aprendizaje por imitación

El argumento central de Comma AI contra el enfoque tradicional es filosófico antes que técnico. Usa el ejemplo clásico de visión computacional: ¿cómo sabés si hay una silla en una foto? El enfoque viejo era entrenar modelos separados para patas, respaldo, base, y combinarlos con reglas. Pero un taburete de bar no tiene respaldo y sigue siendo una silla. La definición de “silla” no son unas pocas reglas, es una construcción compleja acumulada en millones de exposiciones. Conducir es lo mismo. Las reglas explícitas capturan cómo los humanos creen que manejan, no cómo realmente manejan.

Cuando Elon Musk lo atacó públicamente diciendo que 2,000 líneas de código no pueden cubrir los ocho mil millones de corner cases del mundo, Hotz responde que Musk mostró que no entiende los sistemas de IA: el modelo de 4 megabytes que tienen entrenado es tan código como las líneas de código. No es la cantidad de reglas escritas lo que importa, es la capacidad del modelo de generalizar desde los datos.

Su crítica a Mobileye es directa: empresa de los años 90 con mentalidad de los años 90. El CTO se jacta de que sus chips consumen 2.5 watts en lugar de 15 watts de Nvidia. Hotz responde que su auto tiene un motor de 200 caballos de fuerza, o sea 150,000 watts. Preocuparse por 15 watts es no entender el problema.

Sobre Uber tampoco tiene piedad: si solo lograran el 99% de autonomía, igual necesitarían un conductor sentado que no hace nada el 99% del tiempo. Eso no ahorra dinero. El juego de Uber no tiene sentido a menos que logren conducción completamente remota, que es un problema mucho más difícil.

La estrategia de datos como moat real

Lo que Comma AI necesitaba para entrenar su modelo no era ingeniería brillante sino datos a escala. Compara el aprendizaje de un bebé: los dos primeros años básicamente absorbe el mundo a una tasa de datos altísima, probablemente mayor que cualquier dataset anotado por humanos. Para entrenar IA de nivel humano hacen falta datasets de esa magnitud. Por eso su primer producto, una dashcam llamada Chffr (pronunciado “chauffeur” pero sin las letras que nadie sabe deletrear), era gratuita y diseñada para que millones de personas la montaran en su auto y donaran datos de manejo sin saberlo. El producto costaba $1,000, sin margen real, porque los datos valían más que cualquier ganancia por unidad.

La legalidad del sistema

Cuando California les envió un cease and desist, su respuesta fue leer las leyes con abogados y concluir que el DMV no entendía sus propias regulaciones. La ley prohíbe vehículos autónomos definidos como vehículos sin monitoreo humano. Si hay alguien en el asiento del conductor mirando, técnicamente no es autónomo. Y la ley específicamente exime los sistemas de lane keeping assist y adaptive cruise control, que es exactamente lo que Comma construyó. El sistema nunca anula al conductor, el conductor puede tomar el volante en cualquier momento.

Lo personal de esta época

Menciona que pasó meses en Mountain View sin siquiera tener un vaso para agua. Estaba yendo a Burning Man al día siguiente y no tenía ganas, dice que va a ser horrible porque es un desierto sin computadoras y él lo que quiere es flotar en agua caliente y pensar. Dice que le gustaría un lenguaje de programación mágico donde lo que pensás se convierte en código, sin importar qué tan mal formadas estén las ideas. Está claro que en esta etapa el trabajo era su mundo entero.

Por qué las cámaras ganan sobre el LIDAR

El argumento es limpio: los humanos manejan con ojos, no con lasers. Si ponés a un humano a manejar usando solo una cámara buena y un Oculus Rift, puede hacerlo. Lo que eso prueba es que el problema no es de sensores, es de software. La cámara de un Galaxy S7 ya era suficientemente buena para manejar un auto. El LIDAR de $150,000 de Google no resuelve el problema de fondo, que es entender qué hacer con los datos. El argumento de los ingenieros de los 90 que se obsesionan con el wattage del chip mientras ignoran que el motor del auto consume 150,000 watts es una ilustración de mentalidad incorrecta.

Sobre el accidente de Tesla con el camión, su análisis técnico es preciso y no exculpa ni condena: la cámara de Mobileye no era a color (patrón RCCB, no RGB), entonces el camión blanco y el cielo azul tenían el mismo contraste para el sistema. El radar filtraba objetos estáticos para evitar falsos positivos de señales de ruta, así que tampoco detectó el camión. Fue una falla simultánea de ambos sistemas. Pero su punto más importante es que ese accidente existía antes del autopilot: un camión haciendo un giro a la izquierda en una ruta de alta velocidad es un accidente que pasa sin ningún asistente. El problema era la ruta, no el software.

La inteligencia tiene que estar en el auto, no en la ruta

Este es un argumento de arquitectura con consecuencias enormes. Si ponés marcadores inteligentes en la ruta y uno se queda sin batería, el auto hace algo catastrófico porque perdió su referencia. Un sistema entrenado en cómo maneja un humano no va a decidir que estrellarse contra una pared es buena idea. La robustez viene de entrenar sobre intuición humana, no de depender de infraestructura externa. Esto también explica por qué el auto funcionó en Las Vegas con Botts Dots, esas marcas viales redondas incrustadas en el asfalto, a pesar de nunca haberlas visto antes. Mobileye tuvo que escribir un detector específico para Botts Dots. El sistema de Comma las reconoció porque el modelo entendió el contexto visual general de cómo se ve una ruta.

El problema de manejar como humano vs. manejar según las reglas

El auto de Google fue chocado por detrás múltiples veces porque seguía las reglas del tráfico perfectamente, y los humanos no las siguen. Si en una ciudad todos siguieran las reglas estrictamente, nadie llegaría a ningún lado. En la práctica, la gente cruza levemente una línea doble cuando hay un auto mal estacionado y no viene nadie. Un sistema basado en reglas se detiene, espera al operador remoto, y el tipo de atrás que va mirando el teléfono se lo lleva por delante. Manejar bien es imitar la fluidez humana, no ejecutar un manual de reglas.

V2V y otras ideas que considera estupideces

Comunicación vehículo a vehículo: ¿alguna vez intentaste conectar un teléfono a un auto por Bluetooth? Eso es V2V. Los autos que se organizan en cadenas y se micropagan con Bitcoin para ahorrar combustible son “absolute losers”. La comunicación V2V ya existe: el auto de adelante frena, se prenden las balizas, la cámara las ve. Listo. No necesitás protocolos de red.

Elon Musk y el contrato que no fue

Musk le ofreció $12 millones para construirle un reemplazo de Mobileye para Tesla. Cambió las condiciones al último momento. Hotz compró un auto y construyó el sistema de todos modos. No da muchos detalles sobre qué cambió exactamente en el trato, pero es consistente con su patrón: cuando alguien le cierra una puerta, construye su propia puerta.

Sobre Theranos, el secretismo y la apertura

Hace una observación que considera una ley: el secretismo es inversamente proporcional a la calidad de lo que tenés. Si tuvieras algo real, lo mostrarías. Si te atacan y tenés los datos, los mostrás. Elizabeth Holmes nunca mostró nada porque no tenía nada. Google y Tesla son abiertos y son buenos. Las empresas cerradas de self-driving no tienen nada. “Te digo exactamente qué estoy haciendo y podés intentar competir, pero igual te voy a ganar.”

Lo personal en esta etapa

Reconoce haber estado “en drogas y sin saber qué hacer con su vida” cuando hackeó la PS3. Lo dice sin dramatismo en una conferencia frente a cientos de personas. Dice que había cruzado el país manejando ocho veces y que le gustaría tener registros de todos esos viajes, que genuinamente disfruta manejar. No tiene Twitter personal porque considera que es un “cesspool de gritos y argumentos”. Cuando le preguntan sobre el futuro a cinco años responde que no piensa más allá del producto que va a lanzar ese año. “Build the tech first. Let’s not talk about cars that go forward and backward equally and seats that swivel.”

Sobre el tamaño del equipo tiene una posición clara: más de 150 personas y una empresa es irrecuperable. Con 10 o 20 ingenieros buenos se puede construir lo que Comma necesita. Contratan con equity grande y equipo chico. Cuando levantaron $3 millones de Andreessen Horowitz dice que fue “easy peasy” y que levantó demasiado.

El problema técnico central del behavioral cloning

Behavioral cloning es entrenar una red neuronal para que imite exactamente lo que hacen los humanos. El problema fundamental es que durante el entrenamiento, el output del modelo no afecta su próximo input. Pero en producción, sí lo afecta, porque el auto está corriendo un sistema dinámico real. Eso genera feedback loops extraños donde el auto empieza a desviarse de maneras que nunca vio en el entrenamiento. La red aprendió a manejar cuando el auto ya está bien posicionado, no a recuperarse cuando está mal posicionado. Si el auto termina levemente a la izquierda del carril, la red predice que debe seguir recto porque eso es lo que vio la mayoría del tiempo.

La solución que explica en detalle es separar el componente temporal del componente de imagen. La arquitectura que usa es una CNN acoplada a una RNN: la CNN procesa la imagen y produce un feature vector, la RNN procesa esos features en el tiempo. Al desacoplarlos, podés manejar mejor los feedback loops porque la información temporal fluye por un camino diferente al visual.

El problema del bifurcación y la solución con mixturas de gaussianas

Cuando entrenás un modelo con datos donde la mitad de las veces el auto va a la izquierda y la mitad a la derecha en una bifurcación, el modelo aprende a ir al centro. Con mean squared error como función de loss, el promedio minimiza el error, así que literalmente predice el promedio de los dos caminos, que es el camino que no existe. Esto es una falla fundamental de predecir un solo path.

La solución es no predecir un path sino predecir una distribución. En lugar de outputear “el auto debe ir aquí”, outputeás una mezcla de gaussianas con medias, varianzas y pesos para cada posible path. Podés usar KL Divergence como loss function evaluada en el punto del ground truth. La referencia que cita para esto es el paper de Alex Graves sobre predicción de escritura a mano. La ventaja adicional es que cuando el modelo está en territorio desconocido, la distribución se vuelve muy ancha, lo cual es una señal de incertidumbre que podés usar para desactivar el sistema automáticamente.

El simulador y por qué desconfía de él

Chris Urmson, que estaba al frente del proyecto de self-driving de Google, dijo que “la simulación está destinada a tener éxito”, lo cual Hotz interpreta como una crítica, no un elogio: en un simulador siempre vas a tener éxito porque vos creaste las reglas del simulador. El accidente de Tesla donde el camión cruzó la ruta no hubiera ocurrido en ningún simulador a menos que alguien hubiera programado explícitamente “a veces un camión cruza la ruta”. Al crear un simulador estás volviendo a codificar todas las reglas de manejo que querías evitar, pero en un formato más indirecto.

Lo que intentaron en Comma fue algo diferente: aprender el simulador desde los datos usando adversarial autoencoders. La arquitectura es un encoder que comprime imágenes a un espacio gaussiano de 52 dimensiones, un decoder que reconstruye la imagen, y el truco adversarial para evitar usar MSE en imágenes. Sobre ese espacio latente intentaron aprender la dinámica del mundo, es decir, dado el estado actual y una acción, predecir el próximo estado. Si eso funcionara, podrías hacer reinforcement learning sin el auto real. Lo open sourcearon en GitHub bajo el nombre de “research” junto con 7.5 horas de datos de entrenamiento. Él mismo dice que no estaba listo y que nadie en la empresa iba a seguir trabajando en eso, así que lo publicaron para que otros lo exploraran.

El contrato con Musk: el detalle legal importante

El punto técnico-legal es interesante. Un contrato requiere criterios de terminación rígidos. Musk quería agregar una cláusula de veto final sobre si compraría la tecnología incluso si Hotz cumplía todos los requisitos técnicos. Eso convierte el contrato en una opción de compra, que es un instrumento financiero completamente diferente. Hotz lo vio correctamente: hubiera trabajado tres meses para darle a Musk la opción de no comprarle. $10,000 en abogados durante tres meses de negociaciones.

El pivot a open source como movimiento estratégico

Cuando la DMV de California les pidió el manual de usuario bajo juramento para un producto que no estaba ni en preventa, Hotz canceló el producto y open sourceó todo. Su argumento legal es interesante: publicar instrucciones en internet es más parecido a libertad de expresión que a vender un producto. NHTSA regula ventas, no publicaciones de código. California tiene las leyes más restrictivas del país y aun así considera que el sistema es legal porque técnicamente es adaptive cruise control y lane keeping assist, que están explícitamente exentos de la definición de vehículo autónomo en California.

OpenPilot y la arquitectura de fleet learning

La ventaja estructural que tiene Comma sobre Tesla es que recolectan video completo de sus usuarios. Tesla solo recopila el feature vector de Mobileye y datos de radar, no el video crudo. Cuando Comma tiene suficientes autos en la calle, cada error que comete cualquiera de esos autos se envía de vuelta con todos los datos de cámara a través de la red celular del teléfono que corre el sistema. Eso les permite mejorar el modelo, reentrenar y distribuir la nueva versión a todos los autos. Es un flywheel: más autos, más datos, mejor modelo, más autos quieren el sistema.

La cita de Nokia que le obsesiona

Cuando Nokia colapsó, su CEO dijo “no hicimos nada mal, pero igual fallamos”. Hotz la cita repetidamente porque para él es el ejemplo perfecto de cómo una empresa puede seguir todas las reglas del negocio y desaparecer igual. Los fabricantes de autos que no abracen el software externo van a ser Nokia. Los que lo abracen van a ser Samsung. Ford diciendo que va a tener autos completamente autónomos en cuatro años es la clase de promesa binaria que no entiende que esto es un proceso incremental, no un switch que se enciende.

Lo personal de este período

Menciona en TechCrunch que no pertenece a Silicon Valley pero vio un show de televisión que hacía ver que empezar una startup parecía divertido, así que lo hizo. En una entrevista menciona a su novia como alguien que le vio la app y dijo “parece una app real”. Cuando el periodista le pregunta qué pasó con el accidente del conductor de Tesla, Hotz termina defendiendo a Musk en su propio stage y lo nota con humor: “me parece que estoy acá arriba defendiendo el producto de Elon Musk”.

file:///home/esotericwarfare/geogeogeo_only/parte_chatgpt_25.txt

Voy a leer los archivos para entender bien el contexto antes de resumir.Los documentos ya están en contexto. Procedo a sintetizar todo directamente.


Estos archivos son transcripciones de charlas de George Hotz (geohot) en distintos eventos, principalmente una charla en el Silicon Valley Deep Learning Group (enero 2017) y entrevistas en CES. El contexto histórico importa: esto es 2016-2017, antes de que openpilot explotara en popularidad.

La tesis central de Comma AI

Hotz describe Comma AI como “el Android de los autos que se manejan solos”, donde Tesla sería el iOS. La idea es que nadie va a licenciar la tecnología de Tesla igual que Apple no licencia iOS. Él quiere ser la capa horizontal, no vertical: no fabricar el auto, no tener el ride-sharing, solo poseer un segmento angosto del stack. El hardware era el Comma Neo, básicamente un smartphone con una carcasa 3D impresa, disipadores de calor caseros y una placa CAN Bus. Lo más revelador que dice: los autos modernos ya traen lane keeping assist y adaptive cruise control, y esos sistemas exponen APIs por el CAN Bus que puedes interceptar. OpenPilot simplemente cierra el loop sobre esas APIs. La parte de seguridad crítica ya la hace el auto del fabricante.

Lo técnico más valioso

El problema que más le quita el sueño no es el modelo de deep learning sino la calibración de cámaras. Cualquier smartphone tiene parámetros K distintos, distorsión tangencial, field of view diferente, y sin un checkerboard no podés calibrar. Resolver calibración solo con datos de manejo es un problema abierto que considera más bloqueante que cualquier mejora de arquitectura.

Su red corre en Snapdragon 820 y hace una cosa muy concreta: predice puntos sobre el path a seguir, puntos sobre el carril izquierdo, derecho, y posición del auto de adelante. El resto del control (cuánto girar el volante para seguir ese path, cuánto frenar según la distancia al auto de adelante) es un PID clásico de código abierto. Separa explícitamente el problema de percepción del problema de control, y el control es viejo y simple.

Sobre el accidente de Tesla con el camión: el radar filtró el camión como objeto estacionario porque lo confundió con una señal de tránsito elevada. Eso lo lleva a agregar también la estimación visual del auto de adelante, haciendo fusión radar-visión, aunque admite que esa fusión en openpilot era mediocre en ese momento.

Su postura sobre deep learning y RL

Defiende una idea que describe como de 2015: separar el aprendizaje del world model del aprendizaje de la policy. Primero entrenas un GAN que aprende a comprimir el mundo a un espacio latente de ~128 dimensiones que debería ser aproximadamente gaussiano. Luego haces Reinforcement Learning directamente en ese espacio latente en lugar de sobre píxeles crudos. La ventaja es que el espacio es mucho más bajo dimensional y está regularizado. Lo interesante es que este paper lo escribieron con un interno en Comma AI, y es esencialmente lo que años después se convertiría en world models para RL (Dreamer, etc.).

Critica behavioral cloning con un ejemplo preciso: si el auto está desplazado hacia la izquierda del carril y lo entrenaste con behavioral cloning, el modelo va a querer seguir yendo hacia la izquierda porque eso es lo que predomina en los datos. La maniobra de corrección es rarísima en el dataset. Sin función de reward no hay forma de penalizar esa desviación.

Lo que predice para el futuro del deep learning (desde 2017)

Predice que el gran breakthrough pendiente es la dependencia temporal de largo plazo. Los LSTM de la época llegaban a 100 pasos, él quería llegar a ventanas de 1000-10000 pasos y predijo que la solución iba a ser algún tipo de estructura de árbol con skip connections sobre las RNNs. Esto es notablemente cercano a lo que terminó siendo la atención en Transformers, aunque no nombra Transformers específicamente.

También dice algo muy Hotz: “si querés saber qué va a ser lo próximo en deep learning, leé los papers de Jürgen Schmidhuber de hace 20 años, van a redescubrir todo eso y no le van a dar crédito.” Lo dice medio en joda, medio en serio.

Sobre open source y datos

Tiene una posición matizada. Dice que open source en deep learning no es lo mismo que open source en software tradicional: si abrís el código sin los datos, no le estás dando casi nada a nadie. El verdadero IP ahora es el dato. Andrew Ng dijo exactamente eso en una charla que menciona, que “the defensible boundary is the data, not the code.” Hotz lo acuerda.

El problema práctico que señala es absurdo pero real: su dataset era 100 TB. Open sourcear 100 TB no tiene sentido logístico, necesitás una máquina de $10.000 solo para almacenarlo. Y mientras la ley de Moore lo haga manejable, el dataset habrá crecido a 50 petabytes.

Su posición sobre la seguridad de openpilot es libertaria pura: “no vendemos un producto, movemos bits. Si construís esto y ponés la contraseña en ‘password’, ese es tu problema.” Lo dice sin filtro.

Sobre la industria automotriz y por qué va a perder

Dice que los grandes fabricantes van a fallar por un problema puramente cultural, no de recursos. Tienen el dinero, ponen la micro-kitchen en Silicon Valley, pero el dress code es business casual. Y eso lo dice mientras él está vestido como está. La pregunta que lanza es quién va a ir a trabajar al “Nissan Mobility Research Center” cuando Uber te paga más y tiene mejor ambiente. El talento no va, y sin talento no hay nada.

Su diagnóstico de Waymo en ese momento: tenían la mejor tecnología y la estaban tirando. Los compara con Uber que un día simplemente puso 100 autos en la calle sin pedir permiso. Dice que Google era “timid” y predice que en dos años se van a escribir artículos sobre cómo Google tuvo el liderazgo y lo desperdició.

Sobre lidar

No es anti-lidar en abstracto, es anti-lidar como tecnología habilitadora indispensable. Su argumento: si metés cámaras en un auto y las conectás a un Oculus Rift, un humano puede manejar ese auto remotamente solo con visión. Entonces la información está ahí, es un problema de software, no de sensor. Si el lidar costara $200 lo metería sin dudar, pero no es la clave. El radar lo acepta porque es barato.

Lo que recomienda para aprender

Menciona el curso de Jeff Hinton como punto de entrada, pero su recomendación más original es el Hutter Prize: tomá los primeros 100 MB de Wikipedia y hacé el archivo autoextractable más pequeño posible. Esto te fuerza a construir el mejor modelo de lenguaje que puedas con la restricción de que el modelo mismo cuenta en el tamaño. Es complejidad de Kolmogorov aplicada. Hotz dice que pasó meses intentando ganarlo (no ganó) y aprendió todo lo que hace difícil al machine learning real. También menciona que empezó a aprender Lua cuando Karpathy publicó el Char-RNN, y que casi creyó haber ganado el Hutter Prize hasta que se dio cuenta que sus bits eran nats (log base e en lugar de log base 2), lo que lo hacía incomparable directamente. Un error de cambio de base.

Lo controversialmente humano

Sobre la confianza en sistemas autónomos dice algo que suena frío pero es estadísticamente correcto: “no podés pensar si vos sos el caso raro, tenés que usar tu prior y actuar como si fueras el promedio a menos que tengas evidencia de lo contrario.” Es racionalidad bayesiana aplicada a tu propia vida.

Dice que el negocio real de Comma AI lo iba a anunciar en South by Southwest y que esperaba una oferta de adquisición el día después del anuncio. No la aceptaría, pero la esperaba. Eso muestra cómo piensa el juego.

Sobre su prioridad para ese año: primero resolver self-driving, después divertirse, después ganar plata. El año anterior era primero divertirse. Admite que no le dijo eso a sus empleados todavía cuando lo estaba diciendo en público en el evento.

Este batch cubre múltiples charlas de 2017-2018, incluyendo Web Summit Lisboa, Next Mobility podcast, TechCrunch, y varias presentaciones técnicas. Hay material mucho más denso y técnico que el anterior.


La arquitectura real del sistema

El modelo que corría en producción era 5 megabytes, 1.2 millones de pesos. La arquitectura es una CNN que alimenta una RNN, no un LSTM. Eligió RNN sobre LSTM conscientemente: los LSTM tienen lag de 250 milisegundos en tiempo real, lo que es inaceptable para conducción. La RNN la usa casi como un filtro de Kalman para suavizar la salida, no para capturar dependencias temporales largas. El frame time es 50 ms, el modelo corre en 25 ms, entonces hay margen sobrante. Dice que podría comprimir a fp16 y perder casi nada, pero que es vago para hacerlo.

El punto más interesante sobre fine-tuning: explícitamente lo prohíbe en el dispositivo, y la razón es técnica, no de negocio. En cuanto entrenas en el dispositivo perdés la capacidad de validar. En Comma AI tenían un validation set centralizado y podían hacer afirmaciones sobre el modelo. Si cada auto empieza a fine-tunear localmente, ya no podés decir nada sobre ninguno de ellos. Prefiere entrenar una red más grande en el servidor y deployarla, antes que hacer fine-tuning local con recursos limitados.

El framework de los cuatro bloques y qué está resuelto

Divide self-driving en cuatro problemas: percepción, localización, planificación y control. Control ya está resuelto, es un PID sobre ángulo de steering, trivial para autopista. Localización se resuelve con plata: Google lo hace con lidar y mapas HD a 2 cm de precisión, Comma también estaba construyendo uno. Percepción está casi resuelta con seg nets y depth nets. El problema no resuelto es planning, y lo dice con claridad: casi todos los disengagements de Google son fallos de planning, no de percepción. El accidente del bus de Google fue un fallo de planning: el bus estaba ahí, localizado perfectamente, el sistema simplemente tomó una decisión incorrecta sobre qué hacer.

Su definición de superhuman no es poética: humanos tienen un accidente fatal cada 100,000 millas. Ese es el número. Si mostrás estadísticamente que tu sistema supera eso, ganaste. El salto de nivel 2 a nivel 4 no es técnico, es de seguros. Una vez que tenés los números estadísticos, los vendés a una aseguradora y ella emite la póliza. Fin. Los niveles SAE 3 y 4 son niveles de liability, no de tecnología.

La tesis del lidar como distracción histórica

El argumento es genealógico: en 2004 el DARPA Grand Challenge nadie terminó la carrera. En 2005, con lidar, los equipos empezaron a ganar. El lidar quedó asociado mentalmente con “lo que funciona”. En 2017 eso ya era un error de razonamiento. Las cámaras son pasivas, baratas, no interfieren entre sí, y la visión computacional ya es superhumana en algunas categorías. El lidar sólo ayuda en las primeras capas de la convnet, básicamente hace lo que hoy un seg net hace mejor. Y tiene un problema que no se menciona suficiente: el radar es enormemente superior al lidar para medir velocidad porque usa efecto Doppler. El lidar no tiene Doppler. Para seguir al auto de adelante, el radar gana fácil. El bug del accidente de Tesla con el camión no fue un fallo del lidar vs cámara, fue específicamente que el radar tenía un filtro de Kalman que eliminaba objetos estacionarios para evitar falsos positivos de señales de tránsito elevadas, y el camión en ese ángulo particular pasó ese filtro.

También dice algo que pocas personas repiten: la resolución espacial del radar en el eje vertical es terrible. Es preciso en distancia y velocidad, pero el beam se abre verticalmente y no puede distinguir bien entre un objeto en tu path vs una señal colgada arriba. Eso es por qué agregan la estimación visual del lead car como redundancia.

El data pipeline y ground truth automático

Cómo resuelven el problema de labeling a escala: usan modelos para validar otros modelos. Los seg nets (entrenados con data hand-labeled) se usan para verificar si un frame parece data de conducción. Los depth nets se ground-truthean automáticamente con combinación de stereo y lidar en algunos casos. El modelo que va al auto se entrena usando los otros modelos como oráculo para ground truth. La redundancia temporal también actúa como validación: si el modelo extrae lanes frame a frame, la continuidad temporal te dice si está fallando aunque no tengas labels.

Sobre datos malos: hace una cita que atribuye a Anna Karenina, aplicada a drivers: “todos los buenos conductores son buenos de la misma manera, todos los malos conductores son malos de maneras distintas.” Lo que significa técnicamente es que el ruido de los malos conductores se cancela estadísticamente porque no está correlacionado, mientras que el comportamiento bueno es un pico coherente en la señal. El sistema aprende del comité, no del promedio. Hace la analogía con Twitch Plays Pokémon: el promedio de 100 personas votando es un desastre, pero el pico de consenso de 100 personas voting no. El sistema de Comma no se comporta como el conductor promedio sino como ese comité.

Simulation is doomed to succeed

Cita a Chris Urmson (ex Google) con esta frase que parece una contradicción pero no lo es: la simulación siempre va a parecer que funciona porque vos defines los casos que el simulador puede representar. Es el mismo problema que tuvo computer vision por décadas: cuando alguien especificaba manualmente features para detectar una silla, el detector funcionaba perfectamente para las sillas del dataset y fallaba en todo lo demás. Un simulador es una especificación gráfica del mundo, no el mundo. Podés tener 0 disengagements en el simulador y fallar en el mundo real. La dirección opuesta también es cierta pero más débil: si fallás en el simulador, probablemente fallas en el mundo real. Por eso Comma entrena sobre datos reales y usa el simulador solo para testing, no para training.

Planning y las referencias técnicas concretas

Para resolver el problema de temporal horizon, menciona dilated causal convolutions de WaveNet de DeepMind. El truco es convertir dependencias de longitud N en longitud log(N), lo que da el orden de magnitud extra que necesitás. Las convoluciones son causales (solo miran hacia atrás en el tiempo) y dilatadas para cubrir horizontes largos. Esto es lo que años después inspiraría parte de la arquitectura de los Transformers, aunque Hotz no lo conecta explícitamente.

Para el world model, cita su propio paper: aprender una función que dado estado T y acción T devuelve estado T+1, entrenada con GAN. Una vez que tenés ese mundo aprendido, podés hacer RL dentro de él sin necesidad de explorar en el mundo real. El estado latente del GAN debería ser gaussiano, lo que lo hace mucho más manejable para RL que el espacio de píxeles. Menciona también inverse reinforcement learning y el Stanford helicopter paper específicamente como referencia, pero aclara que ese paper resuelve un problema distinto: el helicóptero en hover invertido tiene una especificación de estado clara y compacta. El problema de driving no tiene eso, el destino final no se puede backpropagar a través de un commute de 30 minutos.

Google como Xerox PARC

La analogía más elaborada de estos textos: Xerox PARC inventó la interfaz gráfica, el mouse, Ethernet, el procesador de textos WYSIWYG, y no monetizó nada. Apple robó la GUI, Microsoft robó a Apple, y Xerox terminó vendiendo fotocopiadoras. Google es el Xerox PARC de los autos autónomos: tecnología legitimamente la mejor del mundo, pero atrapada en una organización que hace dinero con otra cosa. Los copiers de Xerox eran los ads de Google. Un negocio de $100B en ads nunca va a apostar existencialmente por algo diferente. Waymo va a demostrar que funciona y después va a quedarse en el museo. Literal: dice que el Google car original ya está en el Computer History Museum como objeto histórico.

Complementa con Nokia/Blackberry: las compañías más avanzadas en smartphones en 2006 eran Nokia y Blackberry. Murieron. Las que ganaron como Android fueron Samsung y LG, que hacían teléfonos flip espantosos en 2006. Su predicción: Ford y Mercedes van a perder más duro que nadie precisamente porque creen que están mejor posicionados. Kia e Hyundai, que no tienen nada que perder, van a adoptar openpilot antes.

El modelo de negocio que sí mencionó

Suscripción de $20-30 mensuales para acceso a la red y features avanzadas como navegación punto a punto. Features básicas gratis. No necesitan vender hardware directamente a consumidores para que funcione: si alguien corre su software por cualquier medio (dealer, OEM, GitHub), es un cliente potencial. La lógica es la de Android: Google no le vendía Android a los consumidores, se lo daba a los fabricantes, y los consumidores compraban teléfonos que corrían Android. En este momento Comma tenía 4 millones de millas de video a más de 20 fps en su red, que es radicalmente diferente a lo que otros hacían: las SDKs de visión competidoras mandaban representaciones comprimidas post-feature-extraction, Comma mandaba video crudo y hacía feature extraction en sus servidores.

Sobre el miedo a AI y el desacuerdo con Musk

Dice que el alarmismo de Musk sobre AI como “la mayor amenaza existencial” lo respeta pero no lo comparte. Su argumento es que cualquier tecnología poderosa es potencialmente peligrosa según quién la controle, y que eso es exactamente igual para armas nucleares, drones, o cualquier otra cosa. Lo que sí le parece genuinamente aterrador, y esto es la observación más original: Google aplicando AI superhumana a matching de publicidad. Menciona Infinite Jest de David Foster Wallace explícitamente como referencia sobre qué pasa cuando el entretenimiento y la publicidad se vuelven perfectamente optimizados para capturar atención. Dice textualmente que en ese escenario la gente no es nada más que esclava. Considera eso más peligroso que el paper clips apocalypse de Bostrom.

Lo personal y controvertido

Cuando le preguntan si cree en el matrimonio dice “creo que el concepto existe” y cuando le preguntan si se casaría dice no. Sin elaborar. Cuando le preguntan si estuvo enamorado dice sí. Cuando le preguntan qué hace para relajarse: “nada, la vida es trabajo.” Y sobre vacaciones: “no creo en la relajación, es una estafa de las agencias de publicidad para venderte viajes.”

Su hobby favorito fuera de programar: fumar weed. Lo dice sin filtro en una entrevista de tipo cuestionario rápido.

Sobre el significado de la vida: ganar. Literalmente. No elabora.

Cuando le preguntan qué consejo le daría a su yo de 10 años atrás: “nada, tendría miedo de arruinarlo.”

El mejor consejo que recibió: “no inicies una empresa.”

Sobre privacidad tiene una posición radical: no le molesta la recolección de metadata de la NSA en principio, el problema es que ellos tienen privacidad y vos no. La solución que propone no es que paren de recolectar, sino que hagan los datos públicos para todos. El argumento es que los datos agregados colectivamente son más valiosos que cualquier monopolio sobre esa información. Es la misma lógica que aplica a la propiedad intelectual: cree que el copyright extension es absurdo, que las patentes sirven sólo para que grandes compañías se peleen entre sí, y que Mickey Mouse pornography debería existir (lo menciona literalmente como ejemplo de que el copyright de Disney es una externalidad negativa para la cultura).

La frase que resume su worldview: “pienso en el mundo como naturaleza y en nosotros como tratando de construirle mejores sensores, más datos, más internet. Eso es lo que quiero decir cuando digo ‘cambiar el mundo’, no manipularte para que me des cosas.”