Entendido. Acá va el resumen.


La mentalidad de George Hotz

Lo que más define a Hotz no es la habilidad técnica sino la actitud: se obsesiona con un problema hasta resolverlo, sin importar el costo en tiempo o sueño. Con el iPhone trabajó noches enteras, dormía de día, ignoraba a todos. No lo hizo por dinero ni por fama, lo hizo porque era divertido y porque creía genuinamente que la información debe ser libre. Cuando pudo vender el método de unlock, lo publicó gratis en su blog. Eso es consistente con su filosofía, no es pose.

El hack del iPhone (2007)

La historia técnica es fascinante. El problema central era que el iPhone solo aceptaba SIMs de AT&T porque el baseband firmware verificaba el código MCC/MNC (310410) de la SIM. Para modificar ese firmware había un obstáculo criptográfico serio: Infineon firmaba el firmware con clave privada usando RSA asimétrico, y el teléfono solo ejecutaba código cuyo hash coincidiera con esa firma. No podías simplemente subir firmware modificado.

La solución que encontró fue un exploit de hardware puro. El boot ROM del chip S-Gold 2 (el mismo de teléfonos Siemens) tenía una condición: si ciertas ubicaciones en la memoria flash estaban en blanco, ejecutaba código sin firma enviado por puerto serial. El problema era que esas ubicaciones eran parte del bootloader y no se podían borrar directamente. Hotz resolvió esto manipulando las líneas de dirección del chip flash: soldó un cable a la línea de dirección 17 y la conectó a 1.8V, lo que hacía que el chip “creyera” estar leyendo desde una dirección baja cuando en realidad leía desde una zona alta que él había borrado. Cuando el boot ROM leyó esa zona como vacía, ejecutó su código no firmado. El parche final fue cambiar una sola instrucción en tres megabytes de firmware: de “branch if not equal” a “branch always”, saltando el chequeo de la SIM. Un bit, esencialmente.

El unlock de software que vino después, desarrollado por el dev team, explotó una debilidad clásica de RSA con exponente público igual a 3, que en implementaciones de sistemas embebidos tiene vulnerabilidades conocidas.

La dinámica con la comunidad

Hotz tuvo un conflicto directo con el iPhone Dev Team porque ellos querían mantener la información en privado dentro del grupo. Él publicó todo lo que sabía sobre el baseband en un foro abierto y lo echaron. Su respuesta fue crear su propio equipo con la política opuesta: todo abierto, todo en el blog, actualizado en tiempo real. Esa tensión entre comunidades cerradas que acumulan conocimiento y la filosofía de apertura total es algo que lo perseguiría en proyectos futuros.

Lo que revela sobre su carácter

A los 17 años, en televisión nacional, desafió públicamente a Steve Jobs a hablar “de hombre a hombre”. No se intimidó por Apple, AT&T ni ningún abogado. Citó correctamente el DMCA (la enmienda de 2006 que legalizó el unlock de celulares) en vivo. Cambió un iPhone desbloqueado por un Nissan 350Z y tres iPhones más, lo cual es una negociación bastante buena para un adolescente. Lo que más llama la atención es que en ningún momento actuó como si necesitara validación de las instituciones, ni de Apple, ni de las universidades, ni de los medios.

Jailbreaking como filosofía

Hotz tiene una idea muy clara que repite en distintos contextos: cuando comprás un producto, ese producto es tuyo. No tolera que una empresa le diga qué puede hacer con hardware que pagó. Eso no es retórica, es lo que lo mueve a actuar. El jailbreak del iPhone no nació de querer piratear nada, nació de que tenía T-Mobile y el teléfono le decía “invalid SIM”. La respuesta fue: voy a cambiarlo. Esa misma lógica la aplicó a la PS3.

El aporte real del jailbreak al ecosistema

Hace una afirmación fuerte y bastante creíble: la App Store posiblemente no existiría sin los jailbreaks. Antes del iPhone, instalar apps en un dispositivo móvil era un proceso horrible, sincronizabas por cable desde la PC. El installer que liberó con el jailbreak fue el primer modelo funcional de tienda de apps nativa en un teléfono. Apple lo vio, lo copió y lo legalizó. Él no dice esto con rencor, lo dice como un hecho histórico. También calcula que un tercio de los primeros iPhones nunca se registraron con AT&T, lo cual reformuló el mercado de celulares en Estados Unidos, que hasta ese momento vendía todo subsidiado a través del carrier.

La arquitectura técnica que siempre ataca

Hay un patrón en todos sus hacks: busca la diferencia entre lo que el sistema asume que el atacante puede hacer y lo que realmente puede hacer quien tiene el hardware físico en la mano. En la PS3, el hipervisor de IBM era impecable para entornos remotos de datacenter. Pero Hotz podía tocar el hardware. Puso un cable en el bus de memoria, generó un glitch en el momento exacto en que el hipervisor escribía la tabla de páginas, y logró que el sistema creyera haber eliminado entradas que en realidad seguían ahí. Con esas entradas corruptas escaló hasta control total. La misma lógica del iPhone: el sistema asume que nadie va a manipular físicamente las líneas de dirección del chip flash.

El error de Sony con la criptografía

Esto es técnicamente importante. El grupo fail0verflow descubrió que Sony, al implementar ECDSA para firmar el firmware de la PS3, usaba el mismo número aleatorio en cada firma. Eso es catastrófico: en ECDSA si reutilizás el nonce, la clave privada se puede derivar matemáticamente con álgebra básica. Sony no generó un número aleatorio cada vez, generó uno solo y lo usó siempre. Combinado con la clave simétrica que Hotz extrajo del metloader, el sistema entero quedó expuesto. Él es claro en atribuir el mérito: fail0verflow encontró el error criptográfico, él aportó el exploit de hardware para obtener la clave simétrica.

EA: su disassembler propio

En un momento construyó su propio desensamblador llamado EA (Embedded Assembler), de código abierto en GitHub bajo geohot/reversing. Lo describe como una alternativa a IDA con una feature que considera revolucionaria: en lugar de solo mostrar el código estático, el sistema ejecuta la función y guarda el estado completo del procesador (registros y memoria) en cada instrucción, y cada vez que esa instrucción se ejecuta. Esto permite ver no qué debería hacer el código sino qué hace con datos reales. Para reverse engineering esto elimina horas de inferencia manual.

Cómo aprende

No fue a cursos, no siguió un plan. Su método es: abrís una página sobre algo que no entendés, cuando aparece un término que no conocés lo abrís en otra pestaña, seguís esa cadena hasta donde te lleve. Al final sabés mucho sobre muchas cosas y podés conectarlas. Empezó con electrónica en primer grado con un kit de Radio Shack de 30 proyectos. En séptimo compró un microcontrolador Parallax Basic Stamp. En el secundario tuvo acceso a un laboratorio de electrónica que cerró el año después de que él se fue. Lo que sabe de software lo aprendió haciendo el iPhone: cuando entró no sabía qué era kernel mode ni user mode.

La singularidad y el cerebro

Cita a Ray Kurzweil y su libro The Singularity Is Near. Menciona que de adolescente leyó a Eliezer Yudkowsky. Recomienda fuertemente Gödel, Escher, Bach. Su argumento es que en 2011 el poder de cómputo de silicio en el mundo igualó al de un cerebro humano, y que si la Ley de Moore continúa, en algún punto las computadoras podrán duplicar su propio poder de cómputo más rápido que los humanos. Lo que quiere construir es lo que llama un “meta-cortex”: una interfaz directa cerebro-máquina que permita cargar información como Neo en Matrix. No lo dice como metáfora, lo dice como objetivo de ingeniería.

Lo personal y lo controvertido

Menciona de pasada que empezó a hackear el iPhone porque su novia del secundario lo había dejado y necesitaba algo que hacer ese verano. Droppeó la universidad, consiguió una pasantía en Google, renunció a los seis meses, tuvo una etapa difícil viviendo solo a los 18. Cuando Sony lo demandó respondió con un rap en el que los insulta directamente y en una conferencia mostró la caída del 50% de las acciones de Sony ese año, declarando abiertamente que le alegraba la desgracia de su enemigo. Tiene una prohibición legal permanente de hackear productos Sony. Su respuesta es que en diez años Sony va a quebrar, así que no importa.

El auto que maneja solo, construido en el garage

Hotz arranca desde una premisa agresiva: vio lo que Tesla estaba haciendo, concluyó que podía hacerlo mejor, compró un auto, le puso cámaras y computadoras, y lo hizo funcionar. Sin permisos especiales, sin equipo de 500 personas, sin sensores de $100,000. Su argumento central sobre self-driving es filosóficamente interesante: no le das al auto reglas de conducción, le mostrás 10 horas de video de humanos manejando y le decís “hacé eso”. La diferencia con el enfoque tradicional es fundamental. Los sistemas basados en reglas le dicen al auto “mantené el centro exacto del carril”. Los humanos reales no manejan así, manejan con intuición acumulada. Hotz quería capturar esa intuición, no codificarla explícitamente. Y después de 10 horas de entrenamiento el auto manejaba como alguien que lleva 10 horas manejando, lo cual suena poco pero es bastante. La interfaz es un botón en el volante. Si no te gusta lo que hace el auto, presionás cancelar y recuperás control manual.

Técnicamente el sistema es barato a propósito. Transceivers CAN de $ 40 comprados en Amazon que interceptan y envían mensajes al bus interno del auto, el mismo puerto de diagnóstico que usa cualquier mecánico. Las cámaras que planeaba usar en producción eran seis cámaras de smartphone a $13 cada una. El costo total del paquete lo estimó en $11,000. Su punto: los otros usan sensores carísimos y software torpe porque nadie cuestionó si era necesario. Él cuestionó.

Kira: el debugger que debería existir

La idea aquí es poderosa. GDB, el debugger estándar, es lineal en el tiempo: corrés el programa, llegás a un punto, si te olvidaste de poner un breakpoint antes perdiste, tenés que volver a correr todo. Hotz pregunta por qué aceptamos eso. Su herramienta Kira graba el estado completo del programa, cada instrucción, cada cambio en memoria y registros, como si fuera control de versiones pero para ejecución de código. Cada instrucción es un “commit”. Después podés navegar hacia adelante y hacia atrás en el tiempo, ver exactamente cuántas veces pasó por un loop, de dónde vino un valor específico, qué instrucción lo escribió originalmente. El debugger es completamente atemporal. La analogía que usa es IDA vs objdump: antes de IDA la gente imprimía el código ensamblador, lo pegaba en un corcho y dibujaba flechas con hilo de colores. IDA digitalizó ese proceso para análisis estático. Kira hace lo mismo pero para análisis dinámico, y según él nadie había hecho ese salto todavía.

Lo desarrolló durante su internship en Google Project Zero, donde le dieron libertad total un verano para construir algo mejor. Los backends que usa son QEMU o PIN (el framework de instrumentación de Intel). Reconoce que hay overhead de 100x en velocidad de ejecución, pero dice que eso no importa: la mayoría del código moderno corre tan rápido que un 100x overhead en modo debug es perfectamente aceptable.

Las competencias de seguridad y el ego sin filtro

Jugó para el equipo PPP de Carnegie Mellon, ganó Defcon dos veces, llegó segundo una vez porque se presentó un día tarde. En Pwn2Own 2013 vio que ofrecían $ 70,000 por romper Adobe Reader y pensó “qué tan difícil puede ser”. Era fácil, dice, pero Adobe tenía un sandbox que escribió Google y ese sí era bueno. Encontró un double free en el manejo de handles del sandbox que le permitió escalar del proceso sin privilegios al proceso con privilegios. Ganó los $70,000 y una laptop Acer. Al año siguiente rompió el Chromebook completo, fue el primero en lograr root persistente, y lo terminó dos días antes del evento. Aprovechó el tiempo extra para atacar Firefox. Le tomó 24 horas de trabajo continuo. Su consejo: no usen Firefox, usen Chrome, aunque él también rompió Chrome.

Lo que dice sobre Adobe es revelador de su método: cuando algo tiene una API nueva que fue agregada recientemente, eso es donde mirás primero. Las APIs nuevas tienen más probabilidad de tener bugs porque son código reciente y menos auditado.

Lo personal

Se define a sí mismo como un “performance artist” más que un hacker. Cuando siente que algo está “jugado”, que ya lo hizo y se volvió repetitivo, lo abandona y busca el siguiente problema. Los unlocks de celulares baratos que hacía como trabajo de contrato lo aburrieron exactamente así. Dice que las empresas gastan millones construyendo puzzles interesantes para que él los resuelva, y que esa es la forma en que ve las protecciones de seguridad. El CTF que muestra en los streams lo disfruta visiblemente como juego, pierde paciencia cuando algo no funciona, habla consigo mismo en voz alta, comete los mismos errores de la semana anterior y lo reconoce sin drama. Cuando algo sale bien después de horas de lucha, la reacción es “nice” y sigue.

La honestidad brutal sobre sus motivaciones

En una conferencia admite algo que muy poca gente dice en público: hackeo el iPhone porque mi novia me dejó y necesitaba algo que hacer ese verano. “Whenever you hear lofty motivations, don’t believe them.” La PS3 la hackeó porque estaba drogado y sin dirección en su vida. Alguien dijo que era inhackeable y lo tomó como un desafío personal. Esta honestidad es consistente: no construye narrativas heroicas sobre sí mismo.

La seguridad como batalla perdida y su solución real

Tiene una posición fuerte sobre la industria de seguridad: sus incentivos son perversos. El objetivo de un ingeniero de seguridad debería ser quedarse sin trabajo, no perpetuarse. Da el ejemplo de Sony con la PS3: cuando el equipo de seguridad dijo “el producto es seguro”, los despidieron. Resultado: la seguridad nunca mejoró porque nadie tenía incentivo para hacerlo. Contraste con el iPhone: Apple lanzó sin seguridad y la fue construyendo incrementalmente, lo cual significa que el atacante nunca podía dormirse, pero tampoco Apple. Por eso el iPhone moderno es la plataforma más segura que existe, con jailbreaks que cuestan un millón de dólares y son territorio de estados nación. Él ya no hace jailbreaks, dice, porque “te matan por ese dinero”.

Su solución real al problema de seguridad no es más pentesters: son los lenguajes de programación. La pregunta que hace es por qué los lenguajes permiten escribir código inseguro. Memory corruption en 2016 es inaceptable, dice. Los SAT solvers y la verificación formal son el camino. Que todavía existan buffer overflows es, en su opinión, porque mucha gente quiere seguir empleada.

Comma AI y la filosofía del aprendizaje por imitación

El argumento central de Comma AI contra el enfoque tradicional es filosófico antes que técnico. Usa el ejemplo clásico de visión computacional: ¿cómo sabés si hay una silla en una foto? El enfoque viejo era entrenar modelos separados para patas, respaldo, base, y combinarlos con reglas. Pero un taburete de bar no tiene respaldo y sigue siendo una silla. La definición de “silla” no son unas pocas reglas, es una construcción compleja acumulada en millones de exposiciones. Conducir es lo mismo. Las reglas explícitas capturan cómo los humanos creen que manejan, no cómo realmente manejan.

Cuando Elon Musk lo atacó públicamente diciendo que 2,000 líneas de código no pueden cubrir los ocho mil millones de corner cases del mundo, Hotz responde que Musk mostró que no entiende los sistemas de IA: el modelo de 4 megabytes que tienen entrenado es tan código como las líneas de código. No es la cantidad de reglas escritas lo que importa, es la capacidad del modelo de generalizar desde los datos.

Su crítica a Mobileye es directa: empresa de los años 90 con mentalidad de los años 90. El CTO se jacta de que sus chips consumen 2.5 watts en lugar de 15 watts de Nvidia. Hotz responde que su auto tiene un motor de 200 caballos de fuerza, o sea 150,000 watts. Preocuparse por 15 watts es no entender el problema.

Sobre Uber tampoco tiene piedad: si solo lograran el 99% de autonomía, igual necesitarían un conductor sentado que no hace nada el 99% del tiempo. Eso no ahorra dinero. El juego de Uber no tiene sentido a menos que logren conducción completamente remota, que es un problema mucho más difícil.

La estrategia de datos como moat real

Lo que Comma AI necesitaba para entrenar su modelo no era ingeniería brillante sino datos a escala. Compara el aprendizaje de un bebé: los dos primeros años básicamente absorbe el mundo a una tasa de datos altísima, probablemente mayor que cualquier dataset anotado por humanos. Para entrenar IA de nivel humano hacen falta datasets de esa magnitud. Por eso su primer producto, una dashcam llamada Chffr (pronunciado “chauffeur” pero sin las letras que nadie sabe deletrear), era gratuita y diseñada para que millones de personas la montaran en su auto y donaran datos de manejo sin saberlo. El producto costaba $1,000, sin margen real, porque los datos valían más que cualquier ganancia por unidad.

La legalidad del sistema

Cuando California les envió un cease and desist, su respuesta fue leer las leyes con abogados y concluir que el DMV no entendía sus propias regulaciones. La ley prohíbe vehículos autónomos definidos como vehículos sin monitoreo humano. Si hay alguien en el asiento del conductor mirando, técnicamente no es autónomo. Y la ley específicamente exime los sistemas de lane keeping assist y adaptive cruise control, que es exactamente lo que Comma construyó. El sistema nunca anula al conductor, el conductor puede tomar el volante en cualquier momento.

Lo personal de esta época

Menciona que pasó meses en Mountain View sin siquiera tener un vaso para agua. Estaba yendo a Burning Man al día siguiente y no tenía ganas, dice que va a ser horrible porque es un desierto sin computadoras y él lo que quiere es flotar en agua caliente y pensar. Dice que le gustaría un lenguaje de programación mágico donde lo que pensás se convierte en código, sin importar qué tan mal formadas estén las ideas. Está claro que en esta etapa el trabajo era su mundo entero.

Por qué las cámaras ganan sobre el LIDAR

El argumento es limpio: los humanos manejan con ojos, no con lasers. Si ponés a un humano a manejar usando solo una cámara buena y un Oculus Rift, puede hacerlo. Lo que eso prueba es que el problema no es de sensores, es de software. La cámara de un Galaxy S7 ya era suficientemente buena para manejar un auto. El LIDAR de $150,000 de Google no resuelve el problema de fondo, que es entender qué hacer con los datos. El argumento de los ingenieros de los 90 que se obsesionan con el wattage del chip mientras ignoran que el motor del auto consume 150,000 watts es una ilustración de mentalidad incorrecta.

Sobre el accidente de Tesla con el camión, su análisis técnico es preciso y no exculpa ni condena: la cámara de Mobileye no era a color (patrón RCCB, no RGB), entonces el camión blanco y el cielo azul tenían el mismo contraste para el sistema. El radar filtraba objetos estáticos para evitar falsos positivos de señales de ruta, así que tampoco detectó el camión. Fue una falla simultánea de ambos sistemas. Pero su punto más importante es que ese accidente existía antes del autopilot: un camión haciendo un giro a la izquierda en una ruta de alta velocidad es un accidente que pasa sin ningún asistente. El problema era la ruta, no el software.

La inteligencia tiene que estar en el auto, no en la ruta

Este es un argumento de arquitectura con consecuencias enormes. Si ponés marcadores inteligentes en la ruta y uno se queda sin batería, el auto hace algo catastrófico porque perdió su referencia. Un sistema entrenado en cómo maneja un humano no va a decidir que estrellarse contra una pared es buena idea. La robustez viene de entrenar sobre intuición humana, no de depender de infraestructura externa. Esto también explica por qué el auto funcionó en Las Vegas con Botts Dots, esas marcas viales redondas incrustadas en el asfalto, a pesar de nunca haberlas visto antes. Mobileye tuvo que escribir un detector específico para Botts Dots. El sistema de Comma las reconoció porque el modelo entendió el contexto visual general de cómo se ve una ruta.

El problema de manejar como humano vs. manejar según las reglas

El auto de Google fue chocado por detrás múltiples veces porque seguía las reglas del tráfico perfectamente, y los humanos no las siguen. Si en una ciudad todos siguieran las reglas estrictamente, nadie llegaría a ningún lado. En la práctica, la gente cruza levemente una línea doble cuando hay un auto mal estacionado y no viene nadie. Un sistema basado en reglas se detiene, espera al operador remoto, y el tipo de atrás que va mirando el teléfono se lo lleva por delante. Manejar bien es imitar la fluidez humana, no ejecutar un manual de reglas.

V2V y otras ideas que considera estupideces

Comunicación vehículo a vehículo: ¿alguna vez intentaste conectar un teléfono a un auto por Bluetooth? Eso es V2V. Los autos que se organizan en cadenas y se micropagan con Bitcoin para ahorrar combustible son “absolute losers”. La comunicación V2V ya existe: el auto de adelante frena, se prenden las balizas, la cámara las ve. Listo. No necesitás protocolos de red.

Elon Musk y el contrato que no fue

Musk le ofreció $12 millones para construirle un reemplazo de Mobileye para Tesla. Cambió las condiciones al último momento. Hotz compró un auto y construyó el sistema de todos modos. No da muchos detalles sobre qué cambió exactamente en el trato, pero es consistente con su patrón: cuando alguien le cierra una puerta, construye su propia puerta.

Sobre Theranos, el secretismo y la apertura

Hace una observación que considera una ley: el secretismo es inversamente proporcional a la calidad de lo que tenés. Si tuvieras algo real, lo mostrarías. Si te atacan y tenés los datos, los mostrás. Elizabeth Holmes nunca mostró nada porque no tenía nada. Google y Tesla son abiertos y son buenos. Las empresas cerradas de self-driving no tienen nada. “Te digo exactamente qué estoy haciendo y podés intentar competir, pero igual te voy a ganar.”

Lo personal en esta etapa

Reconoce haber estado “en drogas y sin saber qué hacer con su vida” cuando hackeó la PS3. Lo dice sin dramatismo en una conferencia frente a cientos de personas. Dice que había cruzado el país manejando ocho veces y que le gustaría tener registros de todos esos viajes, que genuinamente disfruta manejar. No tiene Twitter personal porque considera que es un “cesspool de gritos y argumentos”. Cuando le preguntan sobre el futuro a cinco años responde que no piensa más allá del producto que va a lanzar ese año. “Build the tech first. Let’s not talk about cars that go forward and backward equally and seats that swivel.”

Sobre el tamaño del equipo tiene una posición clara: más de 150 personas y una empresa es irrecuperable. Con 10 o 20 ingenieros buenos se puede construir lo que Comma necesita. Contratan con equity grande y equipo chico. Cuando levantaron $3 millones de Andreessen Horowitz dice que fue “easy peasy” y que levantó demasiado.

El problema técnico central del behavioral cloning

Behavioral cloning es entrenar una red neuronal para que imite exactamente lo que hacen los humanos. El problema fundamental es que durante el entrenamiento, el output del modelo no afecta su próximo input. Pero en producción, sí lo afecta, porque el auto está corriendo un sistema dinámico real. Eso genera feedback loops extraños donde el auto empieza a desviarse de maneras que nunca vio en el entrenamiento. La red aprendió a manejar cuando el auto ya está bien posicionado, no a recuperarse cuando está mal posicionado. Si el auto termina levemente a la izquierda del carril, la red predice que debe seguir recto porque eso es lo que vio la mayoría del tiempo.

La solución que explica en detalle es separar el componente temporal del componente de imagen. La arquitectura que usa es una CNN acoplada a una RNN: la CNN procesa la imagen y produce un feature vector, la RNN procesa esos features en el tiempo. Al desacoplarlos, podés manejar mejor los feedback loops porque la información temporal fluye por un camino diferente al visual.

El problema del bifurcación y la solución con mixturas de gaussianas

Cuando entrenás un modelo con datos donde la mitad de las veces el auto va a la izquierda y la mitad a la derecha en una bifurcación, el modelo aprende a ir al centro. Con mean squared error como función de loss, el promedio minimiza el error, así que literalmente predice el promedio de los dos caminos, que es el camino que no existe. Esto es una falla fundamental de predecir un solo path.

La solución es no predecir un path sino predecir una distribución. En lugar de outputear “el auto debe ir aquí”, outputeás una mezcla de gaussianas con medias, varianzas y pesos para cada posible path. Podés usar KL Divergence como loss function evaluada en el punto del ground truth. La referencia que cita para esto es el paper de Alex Graves sobre predicción de escritura a mano. La ventaja adicional es que cuando el modelo está en territorio desconocido, la distribución se vuelve muy ancha, lo cual es una señal de incertidumbre que podés usar para desactivar el sistema automáticamente.

El simulador y por qué desconfía de él

Chris Urmson, que estaba al frente del proyecto de self-driving de Google, dijo que “la simulación está destinada a tener éxito”, lo cual Hotz interpreta como una crítica, no un elogio: en un simulador siempre vas a tener éxito porque vos creaste las reglas del simulador. El accidente de Tesla donde el camión cruzó la ruta no hubiera ocurrido en ningún simulador a menos que alguien hubiera programado explícitamente “a veces un camión cruza la ruta”. Al crear un simulador estás volviendo a codificar todas las reglas de manejo que querías evitar, pero en un formato más indirecto.

Lo que intentaron en Comma fue algo diferente: aprender el simulador desde los datos usando adversarial autoencoders. La arquitectura es un encoder que comprime imágenes a un espacio gaussiano de 52 dimensiones, un decoder que reconstruye la imagen, y el truco adversarial para evitar usar MSE en imágenes. Sobre ese espacio latente intentaron aprender la dinámica del mundo, es decir, dado el estado actual y una acción, predecir el próximo estado. Si eso funcionara, podrías hacer reinforcement learning sin el auto real. Lo open sourcearon en GitHub bajo el nombre de “research” junto con 7.5 horas de datos de entrenamiento. Él mismo dice que no estaba listo y que nadie en la empresa iba a seguir trabajando en eso, así que lo publicaron para que otros lo exploraran.

El contrato con Musk: el detalle legal importante

El punto técnico-legal es interesante. Un contrato requiere criterios de terminación rígidos. Musk quería agregar una cláusula de veto final sobre si compraría la tecnología incluso si Hotz cumplía todos los requisitos técnicos. Eso convierte el contrato en una opción de compra, que es un instrumento financiero completamente diferente. Hotz lo vio correctamente: hubiera trabajado tres meses para darle a Musk la opción de no comprarle. $10,000 en abogados durante tres meses de negociaciones.

El pivot a open source como movimiento estratégico

Cuando la DMV de California les pidió el manual de usuario bajo juramento para un producto que no estaba ni en preventa, Hotz canceló el producto y open sourceó todo. Su argumento legal es interesante: publicar instrucciones en internet es más parecido a libertad de expresión que a vender un producto. NHTSA regula ventas, no publicaciones de código. California tiene las leyes más restrictivas del país y aun así considera que el sistema es legal porque técnicamente es adaptive cruise control y lane keeping assist, que están explícitamente exentos de la definición de vehículo autónomo en California.

OpenPilot y la arquitectura de fleet learning

La ventaja estructural que tiene Comma sobre Tesla es que recolectan video completo de sus usuarios. Tesla solo recopila el feature vector de Mobileye y datos de radar, no el video crudo. Cuando Comma tiene suficientes autos en la calle, cada error que comete cualquiera de esos autos se envía de vuelta con todos los datos de cámara a través de la red celular del teléfono que corre el sistema. Eso les permite mejorar el modelo, reentrenar y distribuir la nueva versión a todos los autos. Es un flywheel: más autos, más datos, mejor modelo, más autos quieren el sistema.

La cita de Nokia que le obsesiona

Cuando Nokia colapsó, su CEO dijo “no hicimos nada mal, pero igual fallamos”. Hotz la cita repetidamente porque para él es el ejemplo perfecto de cómo una empresa puede seguir todas las reglas del negocio y desaparecer igual. Los fabricantes de autos que no abracen el software externo van a ser Nokia. Los que lo abracen van a ser Samsung. Ford diciendo que va a tener autos completamente autónomos en cuatro años es la clase de promesa binaria que no entiende que esto es un proceso incremental, no un switch que se enciende.

Lo personal de este período

Menciona en TechCrunch que no pertenece a Silicon Valley pero vio un show de televisión que hacía ver que empezar una startup parecía divertido, así que lo hizo. En una entrevista menciona a su novia como alguien que le vio la app y dijo “parece una app real”. Cuando el periodista le pregunta qué pasó con el accidente del conductor de Tesla, Hotz termina defendiendo a Musk en su propio stage y lo nota con humor: “me parece que estoy acá arriba defendiendo el producto de Elon Musk”.

file:///home/esotericwarfare/geogeogeo_only/parte_chatgpt_25.txt

Voy a leer los archivos para entender bien el contexto antes de resumir.Los documentos ya están en contexto. Procedo a sintetizar todo directamente.


Estos archivos son transcripciones de charlas de George Hotz (geohot) en distintos eventos, principalmente una charla en el Silicon Valley Deep Learning Group (enero 2017) y entrevistas en CES. El contexto histórico importa: esto es 2016-2017, antes de que openpilot explotara en popularidad.

La tesis central de Comma AI

Hotz describe Comma AI como “el Android de los autos que se manejan solos”, donde Tesla sería el iOS. La idea es que nadie va a licenciar la tecnología de Tesla igual que Apple no licencia iOS. Él quiere ser la capa horizontal, no vertical: no fabricar el auto, no tener el ride-sharing, solo poseer un segmento angosto del stack. El hardware era el Comma Neo, básicamente un smartphone con una carcasa 3D impresa, disipadores de calor caseros y una placa CAN Bus. Lo más revelador que dice: los autos modernos ya traen lane keeping assist y adaptive cruise control, y esos sistemas exponen APIs por el CAN Bus que puedes interceptar. OpenPilot simplemente cierra el loop sobre esas APIs. La parte de seguridad crítica ya la hace el auto del fabricante.

Lo técnico más valioso

El problema que más le quita el sueño no es el modelo de deep learning sino la calibración de cámaras. Cualquier smartphone tiene parámetros K distintos, distorsión tangencial, field of view diferente, y sin un checkerboard no podés calibrar. Resolver calibración solo con datos de manejo es un problema abierto que considera más bloqueante que cualquier mejora de arquitectura.

Su red corre en Snapdragon 820 y hace una cosa muy concreta: predice puntos sobre el path a seguir, puntos sobre el carril izquierdo, derecho, y posición del auto de adelante. El resto del control (cuánto girar el volante para seguir ese path, cuánto frenar según la distancia al auto de adelante) es un PID clásico de código abierto. Separa explícitamente el problema de percepción del problema de control, y el control es viejo y simple.

Sobre el accidente de Tesla con el camión: el radar filtró el camión como objeto estacionario porque lo confundió con una señal de tránsito elevada. Eso lo lleva a agregar también la estimación visual del auto de adelante, haciendo fusión radar-visión, aunque admite que esa fusión en openpilot era mediocre en ese momento.

Su postura sobre deep learning y RL

Defiende una idea que describe como de 2015: separar el aprendizaje del world model del aprendizaje de la policy. Primero entrenas un GAN que aprende a comprimir el mundo a un espacio latente de ~128 dimensiones que debería ser aproximadamente gaussiano. Luego haces Reinforcement Learning directamente en ese espacio latente en lugar de sobre píxeles crudos. La ventaja es que el espacio es mucho más bajo dimensional y está regularizado. Lo interesante es que este paper lo escribieron con un interno en Comma AI, y es esencialmente lo que años después se convertiría en world models para RL (Dreamer, etc.).

Critica behavioral cloning con un ejemplo preciso: si el auto está desplazado hacia la izquierda del carril y lo entrenaste con behavioral cloning, el modelo va a querer seguir yendo hacia la izquierda porque eso es lo que predomina en los datos. La maniobra de corrección es rarísima en el dataset. Sin función de reward no hay forma de penalizar esa desviación.

Lo que predice para el futuro del deep learning (desde 2017)

Predice que el gran breakthrough pendiente es la dependencia temporal de largo plazo. Los LSTM de la época llegaban a 100 pasos, él quería llegar a ventanas de 1000-10000 pasos y predijo que la solución iba a ser algún tipo de estructura de árbol con skip connections sobre las RNNs. Esto es notablemente cercano a lo que terminó siendo la atención en Transformers, aunque no nombra Transformers específicamente.

También dice algo muy Hotz: “si querés saber qué va a ser lo próximo en deep learning, leé los papers de Jürgen Schmidhuber de hace 20 años, van a redescubrir todo eso y no le van a dar crédito.” Lo dice medio en joda, medio en serio.

Sobre open source y datos

Tiene una posición matizada. Dice que open source en deep learning no es lo mismo que open source en software tradicional: si abrís el código sin los datos, no le estás dando casi nada a nadie. El verdadero IP ahora es el dato. Andrew Ng dijo exactamente eso en una charla que menciona, que “the defensible boundary is the data, not the code.” Hotz lo acuerda.

El problema práctico que señala es absurdo pero real: su dataset era 100 TB. Open sourcear 100 TB no tiene sentido logístico, necesitás una máquina de $10.000 solo para almacenarlo. Y mientras la ley de Moore lo haga manejable, el dataset habrá crecido a 50 petabytes.

Su posición sobre la seguridad de openpilot es libertaria pura: “no vendemos un producto, movemos bits. Si construís esto y ponés la contraseña en ‘password’, ese es tu problema.” Lo dice sin filtro.

Sobre la industria automotriz y por qué va a perder

Dice que los grandes fabricantes van a fallar por un problema puramente cultural, no de recursos. Tienen el dinero, ponen la micro-kitchen en Silicon Valley, pero el dress code es business casual. Y eso lo dice mientras él está vestido como está. La pregunta que lanza es quién va a ir a trabajar al “Nissan Mobility Research Center” cuando Uber te paga más y tiene mejor ambiente. El talento no va, y sin talento no hay nada.

Su diagnóstico de Waymo en ese momento: tenían la mejor tecnología y la estaban tirando. Los compara con Uber que un día simplemente puso 100 autos en la calle sin pedir permiso. Dice que Google era “timid” y predice que en dos años se van a escribir artículos sobre cómo Google tuvo el liderazgo y lo desperdició.

Sobre lidar

No es anti-lidar en abstracto, es anti-lidar como tecnología habilitadora indispensable. Su argumento: si metés cámaras en un auto y las conectás a un Oculus Rift, un humano puede manejar ese auto remotamente solo con visión. Entonces la información está ahí, es un problema de software, no de sensor. Si el lidar costara $200 lo metería sin dudar, pero no es la clave. El radar lo acepta porque es barato.

Lo que recomienda para aprender

Menciona el curso de Jeff Hinton como punto de entrada, pero su recomendación más original es el Hutter Prize: tomá los primeros 100 MB de Wikipedia y hacé el archivo autoextractable más pequeño posible. Esto te fuerza a construir el mejor modelo de lenguaje que puedas con la restricción de que el modelo mismo cuenta en el tamaño. Es complejidad de Kolmogorov aplicada. Hotz dice que pasó meses intentando ganarlo (no ganó) y aprendió todo lo que hace difícil al machine learning real. También menciona que empezó a aprender Lua cuando Karpathy publicó el Char-RNN, y que casi creyó haber ganado el Hutter Prize hasta que se dio cuenta que sus bits eran nats (log base e en lugar de log base 2), lo que lo hacía incomparable directamente. Un error de cambio de base.

Lo controversialmente humano

Sobre la confianza en sistemas autónomos dice algo que suena frío pero es estadísticamente correcto: “no podés pensar si vos sos el caso raro, tenés que usar tu prior y actuar como si fueras el promedio a menos que tengas evidencia de lo contrario.” Es racionalidad bayesiana aplicada a tu propia vida.

Dice que el negocio real de Comma AI lo iba a anunciar en South by Southwest y que esperaba una oferta de adquisición el día después del anuncio. No la aceptaría, pero la esperaba. Eso muestra cómo piensa el juego.

Sobre su prioridad para ese año: primero resolver self-driving, después divertirse, después ganar plata. El año anterior era primero divertirse. Admite que no le dijo eso a sus empleados todavía cuando lo estaba diciendo en público en el evento.

Este batch cubre múltiples charlas de 2017-2018, incluyendo Web Summit Lisboa, Next Mobility podcast, TechCrunch, y varias presentaciones técnicas. Hay material mucho más denso y técnico que el anterior.


La arquitectura real del sistema

El modelo que corría en producción era 5 megabytes, 1.2 millones de pesos. La arquitectura es una CNN que alimenta una RNN, no un LSTM. Eligió RNN sobre LSTM conscientemente: los LSTM tienen lag de 250 milisegundos en tiempo real, lo que es inaceptable para conducción. La RNN la usa casi como un filtro de Kalman para suavizar la salida, no para capturar dependencias temporales largas. El frame time es 50 ms, el modelo corre en 25 ms, entonces hay margen sobrante. Dice que podría comprimir a fp16 y perder casi nada, pero que es vago para hacerlo.

El punto más interesante sobre fine-tuning: explícitamente lo prohíbe en el dispositivo, y la razón es técnica, no de negocio. En cuanto entrenas en el dispositivo perdés la capacidad de validar. En Comma AI tenían un validation set centralizado y podían hacer afirmaciones sobre el modelo. Si cada auto empieza a fine-tunear localmente, ya no podés decir nada sobre ninguno de ellos. Prefiere entrenar una red más grande en el servidor y deployarla, antes que hacer fine-tuning local con recursos limitados.

El framework de los cuatro bloques y qué está resuelto

Divide self-driving en cuatro problemas: percepción, localización, planificación y control. Control ya está resuelto, es un PID sobre ángulo de steering, trivial para autopista. Localización se resuelve con plata: Google lo hace con lidar y mapas HD a 2 cm de precisión, Comma también estaba construyendo uno. Percepción está casi resuelta con seg nets y depth nets. El problema no resuelto es planning, y lo dice con claridad: casi todos los disengagements de Google son fallos de planning, no de percepción. El accidente del bus de Google fue un fallo de planning: el bus estaba ahí, localizado perfectamente, el sistema simplemente tomó una decisión incorrecta sobre qué hacer.

Su definición de superhuman no es poética: humanos tienen un accidente fatal cada 100,000 millas. Ese es el número. Si mostrás estadísticamente que tu sistema supera eso, ganaste. El salto de nivel 2 a nivel 4 no es técnico, es de seguros. Una vez que tenés los números estadísticos, los vendés a una aseguradora y ella emite la póliza. Fin. Los niveles SAE 3 y 4 son niveles de liability, no de tecnología.

La tesis del lidar como distracción histórica

El argumento es genealógico: en 2004 el DARPA Grand Challenge nadie terminó la carrera. En 2005, con lidar, los equipos empezaron a ganar. El lidar quedó asociado mentalmente con “lo que funciona”. En 2017 eso ya era un error de razonamiento. Las cámaras son pasivas, baratas, no interfieren entre sí, y la visión computacional ya es superhumana en algunas categorías. El lidar sólo ayuda en las primeras capas de la convnet, básicamente hace lo que hoy un seg net hace mejor. Y tiene un problema que no se menciona suficiente: el radar es enormemente superior al lidar para medir velocidad porque usa efecto Doppler. El lidar no tiene Doppler. Para seguir al auto de adelante, el radar gana fácil. El bug del accidente de Tesla con el camión no fue un fallo del lidar vs cámara, fue específicamente que el radar tenía un filtro de Kalman que eliminaba objetos estacionarios para evitar falsos positivos de señales de tránsito elevadas, y el camión en ese ángulo particular pasó ese filtro.

También dice algo que pocas personas repiten: la resolución espacial del radar en el eje vertical es terrible. Es preciso en distancia y velocidad, pero el beam se abre verticalmente y no puede distinguir bien entre un objeto en tu path vs una señal colgada arriba. Eso es por qué agregan la estimación visual del lead car como redundancia.

El data pipeline y ground truth automático

Cómo resuelven el problema de labeling a escala: usan modelos para validar otros modelos. Los seg nets (entrenados con data hand-labeled) se usan para verificar si un frame parece data de conducción. Los depth nets se ground-truthean automáticamente con combinación de stereo y lidar en algunos casos. El modelo que va al auto se entrena usando los otros modelos como oráculo para ground truth. La redundancia temporal también actúa como validación: si el modelo extrae lanes frame a frame, la continuidad temporal te dice si está fallando aunque no tengas labels.

Sobre datos malos: hace una cita que atribuye a Anna Karenina, aplicada a drivers: “todos los buenos conductores son buenos de la misma manera, todos los malos conductores son malos de maneras distintas.” Lo que significa técnicamente es que el ruido de los malos conductores se cancela estadísticamente porque no está correlacionado, mientras que el comportamiento bueno es un pico coherente en la señal. El sistema aprende del comité, no del promedio. Hace la analogía con Twitch Plays Pokémon: el promedio de 100 personas votando es un desastre, pero el pico de consenso de 100 personas voting no. El sistema de Comma no se comporta como el conductor promedio sino como ese comité.

Simulation is doomed to succeed

Cita a Chris Urmson (ex Google) con esta frase que parece una contradicción pero no lo es: la simulación siempre va a parecer que funciona porque vos defines los casos que el simulador puede representar. Es el mismo problema que tuvo computer vision por décadas: cuando alguien especificaba manualmente features para detectar una silla, el detector funcionaba perfectamente para las sillas del dataset y fallaba en todo lo demás. Un simulador es una especificación gráfica del mundo, no el mundo. Podés tener 0 disengagements en el simulador y fallar en el mundo real. La dirección opuesta también es cierta pero más débil: si fallás en el simulador, probablemente fallas en el mundo real. Por eso Comma entrena sobre datos reales y usa el simulador solo para testing, no para training.

Planning y las referencias técnicas concretas

Para resolver el problema de temporal horizon, menciona dilated causal convolutions de WaveNet de DeepMind. El truco es convertir dependencias de longitud N en longitud log(N), lo que da el orden de magnitud extra que necesitás. Las convoluciones son causales (solo miran hacia atrás en el tiempo) y dilatadas para cubrir horizontes largos. Esto es lo que años después inspiraría parte de la arquitectura de los Transformers, aunque Hotz no lo conecta explícitamente.

Para el world model, cita su propio paper: aprender una función que dado estado T y acción T devuelve estado T+1, entrenada con GAN. Una vez que tenés ese mundo aprendido, podés hacer RL dentro de él sin necesidad de explorar en el mundo real. El estado latente del GAN debería ser gaussiano, lo que lo hace mucho más manejable para RL que el espacio de píxeles. Menciona también inverse reinforcement learning y el Stanford helicopter paper específicamente como referencia, pero aclara que ese paper resuelve un problema distinto: el helicóptero en hover invertido tiene una especificación de estado clara y compacta. El problema de driving no tiene eso, el destino final no se puede backpropagar a través de un commute de 30 minutos.

Google como Xerox PARC

La analogía más elaborada de estos textos: Xerox PARC inventó la interfaz gráfica, el mouse, Ethernet, el procesador de textos WYSIWYG, y no monetizó nada. Apple robó la GUI, Microsoft robó a Apple, y Xerox terminó vendiendo fotocopiadoras. Google es el Xerox PARC de los autos autónomos: tecnología legitimamente la mejor del mundo, pero atrapada en una organización que hace dinero con otra cosa. Los copiers de Xerox eran los ads de Google. Un negocio de $100B en ads nunca va a apostar existencialmente por algo diferente. Waymo va a demostrar que funciona y después va a quedarse en el museo. Literal: dice que el Google car original ya está en el Computer History Museum como objeto histórico.

Complementa con Nokia/Blackberry: las compañías más avanzadas en smartphones en 2006 eran Nokia y Blackberry. Murieron. Las que ganaron como Android fueron Samsung y LG, que hacían teléfonos flip espantosos en 2006. Su predicción: Ford y Mercedes van a perder más duro que nadie precisamente porque creen que están mejor posicionados. Kia e Hyundai, que no tienen nada que perder, van a adoptar openpilot antes.

El modelo de negocio que sí mencionó

Suscripción de $20-30 mensuales para acceso a la red y features avanzadas como navegación punto a punto. Features básicas gratis. No necesitan vender hardware directamente a consumidores para que funcione: si alguien corre su software por cualquier medio (dealer, OEM, GitHub), es un cliente potencial. La lógica es la de Android: Google no le vendía Android a los consumidores, se lo daba a los fabricantes, y los consumidores compraban teléfonos que corrían Android. En este momento Comma tenía 4 millones de millas de video a más de 20 fps en su red, que es radicalmente diferente a lo que otros hacían: las SDKs de visión competidoras mandaban representaciones comprimidas post-feature-extraction, Comma mandaba video crudo y hacía feature extraction en sus servidores.

Sobre el miedo a AI y el desacuerdo con Musk

Dice que el alarmismo de Musk sobre AI como “la mayor amenaza existencial” lo respeta pero no lo comparte. Su argumento es que cualquier tecnología poderosa es potencialmente peligrosa según quién la controle, y que eso es exactamente igual para armas nucleares, drones, o cualquier otra cosa. Lo que sí le parece genuinamente aterrador, y esto es la observación más original: Google aplicando AI superhumana a matching de publicidad. Menciona Infinite Jest de David Foster Wallace explícitamente como referencia sobre qué pasa cuando el entretenimiento y la publicidad se vuelven perfectamente optimizados para capturar atención. Dice textualmente que en ese escenario la gente no es nada más que esclava. Considera eso más peligroso que el paper clips apocalypse de Bostrom.

Lo personal y controvertido

Cuando le preguntan si cree en el matrimonio dice “creo que el concepto existe” y cuando le preguntan si se casaría dice no. Sin elaborar. Cuando le preguntan si estuvo enamorado dice sí. Cuando le preguntan qué hace para relajarse: “nada, la vida es trabajo.” Y sobre vacaciones: “no creo en la relajación, es una estafa de las agencias de publicidad para venderte viajes.”

Su hobby favorito fuera de programar: fumar weed. Lo dice sin filtro en una entrevista de tipo cuestionario rápido.

Sobre el significado de la vida: ganar. Literalmente. No elabora.

Cuando le preguntan qué consejo le daría a su yo de 10 años atrás: “nada, tendría miedo de arruinarlo.”

El mejor consejo que recibió: “no inicies una empresa.”

Sobre privacidad tiene una posición radical: no le molesta la recolección de metadata de la NSA en principio, el problema es que ellos tienen privacidad y vos no. La solución que propone no es que paren de recolectar, sino que hagan los datos públicos para todos. El argumento es que los datos agregados colectivamente son más valiosos que cualquier monopolio sobre esa información. Es la misma lógica que aplica a la propiedad intelectual: cree que el copyright extension es absurdo, que las patentes sirven sólo para que grandes compañías se peleen entre sí, y que Mickey Mouse pornography debería existir (lo menciona literalmente como ejemplo de que el copyright de Disney es una externalidad negativa para la cultura).

La frase que resume su worldview: “pienso en el mundo como naturaleza y en nosotros como tratando de construirle mejores sensores, más datos, más internet. Eso es lo que quiero decir cuando digo ‘cambiar el mundo’, no manipularte para que me des cosas.”

Este batch es el más rico filosóficamente y también el más técnico en detalles de ingeniería de bajo nivel. Cubre 2018-2019, Software Engineering Daily, charlas en conferencias de mapping, y la famosa charla “Jailbreaking the Simulation”.


El stack técnico completo de arriba a abajo

La jerarquía de abstracción que describe es la más detallada que aparece en todos estos textos. En el nivel más bajo tenés el CAN bus, que funciona como Ethernet pero con paquetes de solo 8 bytes en lugar de 1500. Cada fabricante tiene su propio protocolo sobre ese bus, así que Comma escribió un proyecto llamado openDBC: archivos de especificación que documentan qué significa cada señal en el CAN de cada auto. Los shims por auto son ~500 líneas de Python. Arriba de eso hay una capa de abstracción de hardware del auto (la llaman “interface”) que normaliza todo a: cuánto gas, cuánto freno, cuánto torque en el steering. Arriba de eso hay trayectoria en coordenadas XY con el auto en el origen (car frame), que incluye velocidad en cada punto y la posición de obstáculos. Arriba de eso hay un path, que es la línea ideal que el auto debería seguir sin importar las condiciones físicas actuales. La diferencia entre path y trayectoria es que la trayectoria debe ser físicamente ejecutable dado donde está el auto ahora mismo. Un optimizador convierte el path en trayectoria, y la trayectoria en comandos de actuadores.

El loop de planificación corre a 20 Hz. El loop de control de bajo nivel corre a 100 Hz. El modelo de ML corre en 25 ms con un frame time de 50 ms. Los sistemas de steering de diferentes autos tienen latencias completamente distintas: el Civic Honda responde en 150 ms a un comando de steering, el Prius tarda 350 ms. Comma aprendió estos parámetros de manera empírica usando datos históricos de “qué le dije al auto” vs “qué hizo el auto” — no los midieron manualmente, los fitearon desde datos de usuarios.

El Kalman filter y la localización sin lidar

Para localización construyeron un extended Kalman filter que fusiona todo lo disponible. Lo interesante es que no usan el output de GPS típico (latitud/longitud) porque ese output ya tiene 10 metros de error después del procesamiento interno del chip. En cambio acceden a las pseudoranges crudas: la distancia medida a cada satélite GPS visible, que es la distancia real más una constante desconocida que es igual para todos los satélites. Con 10 satélites tenés 10 ecuaciones lineales para resolver posición, y eso es órdenes de magnitud más preciso. Ese input crudo, combinado con lo que ve la cámara y el giroscopio, alimenta el Kalman filter. La cámara es buena para eliminar el bias del giroscopio (los giroscopios derivan con temperatura y tienen un zero que no es cero), el giroscopio es bueno para alta frecuencia de cambios de orientación. Los combinás y obtenés estimación correcta de rotación. Con este sistema, usando 5 passes de diferentes autos por el mismo tramo, pueden construir mapas HD de carreteras a menos de 10 cm de precisión. Vendieron esto como “lo que hace Waymo con lidar, nosotros lo hacemos con el hardware que ya está en el auto.” La observación más punzante: la razón principal por la que Waymo usa lidar es para localización, no para percepción. La percepción visual ya es suficientemente buena. La localización con visión a centímetros es lo que Comma estaba resolviendo.

Los HD maps y la decisión de open sourcearlos

Prometió públicamente open sourcear todos los mapas HD de autopistas de Estados Unidos (las 40,000 millas de interstates) antes de fin de año. Lo que eso representa: TomTom y HERE gastaron cientos de millones de dólares construyendo exactamente eso con flotas de autos equipados con lidar y GPS de alta precisión. Comma lo iba a dar gratis bajo MIT license. Su argumento: el valor no está en el mapa, está en ser el componente que tiene mapas. Si el mapa es libre, el ecosistema que lo usa crece exponencialmente y vos seguís siendo el centro de ese ecosistema. Es la misma lógica que Linux: si Linux fuera propietario, los servidores de internet no correrían Linux, y toda la industria que construyó encima de Linux no existiría.

Sobre la monetización de mapas lo dice directamente y con crueldad: las empresas que están gastando millones en generar un mapa para luego rentear sobre él (TomTom, HERE, los nuevos entrantes que mencionó) van a perder. En un lado están ellos pagando por cada auto en su flota para generar datos. En el otro lado están Tesla, Mobileye y Comma, donde cada auto que se agrega a la red les paga a ellos y también genera datos. Ese modelo de flywheel gana siempre sobre el modelo de flota propia.

El machine learning real en producción

Cita a Karpathy: el 5% del tiempo es jugar con arquitecturas de redes, el 95% es infraestructura de datos. Hotz lo repite y lo confirma por experiencia propia. El pipeline de datos: el auto graba video H.265 a 5 Mbps, lo sube por celular o WiFi cuando puede, llega a sus servidores en Azure, pasa por un pipeline multi-stage (extracción de features, normalización, adición al mapa interno, preprocessado para el explorador de drives). Para labeling crearon una herramienta llamada “Cabana” (web-based CAN analyzer) y un explorador de drives donde los usuarios pueden ver su historial de conducción, ver dónde el sistema se desenganchó (marcado en rojo), y etiquetar la razón. El 70% de los datos vuelven a los servidores, el 30% se pierde en el ether. Los disengagements se dividen en planeados (quiso tomar una salida) y no planeados (el auto hizo algo incorrecto). Solo los no planeados son los que importan para el modelo. La cola de mensajes es Redis, los procesos son Python. Usaron Google Cloud Dataflow (basado en Apache Beam) porque les dieron mucho crédito gratis.

La refutación del argumento de los datos ruidosos, versión más madura

Dice algo contraintuitivo sobre noisy labels: si entrenas un clasificador con un 5% de labels incorrectos, el modelo va a tener más del 95% de accuracy en el test set limpio. Los modelos de ML son más robustos al ruido de training que su intuición indica, porque el ruido está distribuido aleatoriamente y el gradiente promedio del ruido tiende a cero. Esto tiene implicaciones directas para construir mapas: un mapa con 95% de precisión no es suficientemente bueno para que el auto lo siga directamente, pero sí es suficientemente bueno como dato de entrenamiento para que un modelo de ML aprenda a seguir la ruta correcta. Son dos cosas distintas y la gente las confunde.

Sobre la singularidad y cuándo pasa

El cálculo que hace: el cerebro humano tiene ~100 trillion sinapsis (pesos). Las redes neuronales más grandes de 2018 tienen ~100 million pesos. Eso es un factor de 1 millón. Moore’s law dobla cada 18 meses. 2^20 ≈ 1 millón. 20 ciclos de Moore’s law × 1.5 años = 30 años. Entonces su estimación: la singularidad en ~2048. Lo dice con humildad pero convicción. Agrega: Moore’s law no terminó, Intel terminó. Hay otros caminos. Y lo más importante: Intel está muerto (en ese momento, el fiasco del Intel 10nm). Recomienda corto en Intel.

Mobileye: el arrepentimiento público

Dice explícitamente que se equivocó sobre Mobileye. Antes los criticaba duramente. Su corrección: el problema de que el autopilot de Mercedes fuera horrible no era que Mobileye no pudiera construir algo bueno. El problema era que los ingenieros de integración en Mercedes no pudieron convertirlo en un buen producto. Mobileye shippeó un chip decente. La organización automotriz destruyó el resultado. Tesla usó Mobileye v1 y lo integró bien. Eso cambió su visión: el problema no es el componente, es la estructura de quien lo integra.

La charla de la simulación: “Jailbreaking the Simulation”

Esta es la charla más controversia. Es básicamente un sermón secular sobre la hipótesis de simulación, dirigido a una audiencia técnica. El argumento central: si nosotros en la Tierra hemos creado simulaciones (videojuegos, mundos virtuales), y los seres que vivieran dentro de esas simulaciones deberían creer que están en una simulación, entonces por el mismo razonamiento nosotros deberíamos creer que estamos en una simulación. Lo llama “la hipótesis de simulación 101” y lo trata como si fuera probabilísticamente obvio, no especulativo.

La analogía técnica que usa es Roko’s Basilisk (la menciona de pasada, sin elaborar demasiado). Y la analogía del kernel de Linux: si estás en el kernel podés leer la memoria de cualquier proceso en user space sin que se enteren. Si vivimos en una simulación, el zookeeper puede pausarla, modificarla y observarla sin que nosotros detectemos nada. Eso explicaría por qué los argumentos sobre “el alma pesa 21 gramos” son absurdos: cualquier proceso de user space puede terminarse y relocalizarse sin afectar el peso físico del hardware que lo corre.

La referencia técnica más delirante y genial: el speedrun de Super Mario World donde un jugador (Sethbling, nombrado explícitamente) ejecuta arbitrary code execution dentro del juego moviendo shells en patrones específicos, que corrompen la memoria del juego de tal manera que eventualmente lanzan un hex editor corriendo dentro de Super Mario. Hotz lo usa como metáfora: si Mario fuera un agente inteligente, podría descubrir los exploits del sistema que lo corre. Nosotros somos Mario. Los exploits son física cuántica. El rowhammer attack (corrupción de bits en DRAM adyacente por acceso repetido a memoria) también lo menciona como ejemplo de que acciones en una capa del stack pueden afectar capas superiores e inferiores de maneras no previstas.

La referencia literaria central es “The Last Question” de Isaac Asimov, cuento corto donde la pregunta es: ¿cómo puede decrecer la entropía del universo? Lo recomienda explícitamente. El argumento: si la entropía siempre aumenta en un sistema cerrado, eventualmente el universo llega a un estado donde ya no se pueden formar átomos. Vivir “para siempre” dentro de este universo es físicamente imposible. La única salida es subir de nivel: hackear al sistema que corre nuestra simulación y modificar las reglas físicas. Por eso llama a esto “jailbreaking the simulation”, paralelo directo a jailbreaking un iPhone o una PS3.

Cuando le preguntan si los psicodélicos ayudan a ver fuera de la simulación, dice no rotundamente. El que toma DMT y ve pequeñas criaturas vio algo dentro de su propia cabeza, no fuera de la simulación. Su posición no es anti-drogas en abstracto (como vimos antes, fuma weed) sino que los psicodélicos no son un método epistémico válido para conocer la realidad exterior.

El plan de la iglesia

Lo dice en serio: estaba pensando en comprar un compound en algún lugar y empezar algo parecido a una iglesia, pero sin charlatanería, donde cada afirmación sea falsifiable y basada en evidencia. El objetivo sería redirigir el esfuerzo colectivo de la humanidad hacia “salir” — es decir, escapar o hackear el sistema que corre la simulación. Cree que las iglesias como estructura organizacional están más alineadas con este tipo de objetivo que las empresas, porque en una empresa solo podés perder, nunca ganar de verdad (cuando te adquieren solo pasás el tablero a otro jugador).

Lo personal de este batch

En el stream de Twitch del primero de 2019, admite que era básicamente homeless en ese momento (“sort of”). Estaba en LA. Su sueño declarado para 2019: ser un Instagram celebrity. Lo dice con una mezcla de joda y genuinidad desconcertante. Quería que sus seguidores lo verificaran en Instagram. Tenía barba larga. No tenía trabajo formal. Dice que dejó Twitter porque era adicto a ello y tenía miedo de recaer si lo abría. Sus interacciones sociales del momento: principalmente su comunidad de Twitch, a quienes llama “Twiggy’s.”

Sobre el libre albedrío: no existe. Y agrega algo más perturbador: pronto vamos a construir modelos predictivos de personas tan precisos que nadie en el mundo va a poder seguir aceptando la existencia del libre albedrío como concepto. Dice que eso va a ser para la civilización lo que descubrir que vas a morir es para un niño de 6 años: un estadio de madurez colectiva que tenemos que atravesar.

Este batch es el más variado: mezcla la entrevista con Lex Friedman, charlas técnicas sobre el stack de producción de Comma, el Lex AI podcast, la charla de simulación extendida, streams de Twitch cocinando hamburguesas en el 4 de julio, y una sesión de live hacking en un Toyota Corolla recién comprado en el dealer.


La entrevista con Lex Friedman: la conversación más densa filosóficamente

Cuando Lex le pregunta directamente si cree que vivimos en una simulación, dice sí, pero agrega un matiz que no había aparecido antes: puede ser que sea unfalsifiable. Su argumento: si el simulador fue construido en un lenguaje de tipos dependientes como Coq o Isabelle (lenguajes donde el código es correcto por construcción, menciona ambos por nombre), entonces la simulación podría ser matemáticamente imposible de explotar. Es un lenguaje donde si el código compila, es correcto por definición. Pasó tiempo fuera de Comma estudiando estos lenguajes formalmente. Dice que si vivimos en una simulación escrita en algo así, no habría exploits posibles y el unfalsifiability sería total. La contraposición que hace Lex también es válida: cualquier sistema suficientemente complejo tiene vulnerabilidades, y él mismo siendo hacker lo sabe. Hotz lo concede pero dice que no podemos asumir que el sistema es complejo; podría ser muy simple pero muy grande. Cita las Conway’s Game of Life: reglas triviales, comportamiento arbitrariamente complejo.

Sobre la singularidad reitera el cálculo de las 30 Moores’s laws pero agrega algo importante: dice que le gustaría vivir en realidad virtual literalmente, no metafóricamente. Quiere físicamente mudarse a VR. El apartamento que puede rentar en la nube es mejor que cualquier apartamento en el mundo real. Cuando Lex señala que en VR también habrá competencia y desigualdad, Hotz responde que no ve el mundo como suma cero. Es una de las pocas veces que articula eso explícitamente.

El argumento más fuerte contra Waymo que aparece en todos estos textos

En una charla de conferencia (probablemente 2019) hace el demolición más sistemática de Waymo. El argumento no es tecnológico sino económico. Waymo está valuada en $175 billion sin haber generado un solo dólar de revenue. El producto que ofrecen es ride-sharing de nivel 4 en áreas restringidas. Pero ride-sharing ya es una fracción pequeña de todos los viajes: la mayoría de personas no viven en el Bay Area donde un Uber llega en 3 minutos. Él es de suburban New Jersey, donde un Uber tarda 20 minutos. Waymo tampoco va a ser más rápido que Uber porque va al límite de velocidad, hace stops completos en stop signs, y se paraliza ante cualquier incertidumbre. Waymo cuesta $300-500k retrofitear cada auto. Si lo logran, al mejor caso tienen uber más barato, no una revolución. El problema es que uber subsidiado ya existe y sigue teniendo cuota de mercado marginal. También cita que el ride-sharing autónomo es exactamente lo que Google Fiber fue para internet: técnicamente impresionante, económicamente marginal, implementado en 2 ciudades. Y cita el Delphi/nuTonomy deal: $450 millones por tecnología que en 2011 era open source del DARPA Urban Challenge. Dice que básicamente pagaron $450 millones por algunos ingenieros y código que es públicamente disponible desde hace 8 años.

La crítica a Mobileye desde el lado correcto

En una charla frente a alguien de Intel que les compró Mobileye, hace una distinción que ya había mencionado pero aquí es más precisa. Mobileye publicó un framework llamado RSS (Responsibility-Sensitive Safety) para formalizar qué significa manejar de manera segura. Hotz lo destruye con un ejemplo concreto: las reglas del tránsito dicen que no podés cruzar una línea doble amarilla. Si un sistema sigue esa regla religiosamente en San Francisco, nunca va a ningún lado porque hay un Uber con las blinkers prendido en todas las intersecciones. El punto es que la definición de conducción no es un set de reglas sino lo que la gente hace cuando maneja. RSS es un intento de hacer que el fabricante nunca sea legally liable, no un intento de hacer un sistema seguro. Es como los abogados y contadores viendo el problema, no como un ingeniero. Admite que el trabajo de visión computacional de Mobileye es genuinamente bueno (cosa que antes no decía), pero que el problema de los autos malos de Mercedes con Mobileye era los ingenieros de integración de Mercedes, no el chip.

El dato más importante sobre el producto en producción

Revela que más del 50% de las millas de los usuarios de Comma son conducidas por el sistema, comparado con el 30% de Tesla. La razón es técnica: Comma no desengacha en el steering wheel, y todo es más gradual. Están entrenando modelos con solo 100,000 millas de data, no todos los millones que tienen. La idea es que si entrenas con toda la data, incluís demasiado ruido. Construyen datasets curados de escenarios difíciles (near-crash, weather edge cases, etc.) y entrenan sobre esos. Tienen 8.5 millones de millas acumuladas de usuarios y zero accidentes at-fault con el sistema enganchado. El único accidente que menciona explícitamente es alguien que puso el auto en reversa y chocó a otro auto parado: era culpa del humano, lo capturó el dashcam.

Sobre privacidad de datos: es completamente directo. Si usás el sistema, les das todos los datos y ellos los usan para lo que quieran. Cita textualmente: “if you’re not ok with that, don’t use the system.” No hay wishy-washy como Facebook. Sabe que tiene GPS location, velocidad, video. Lo hace público.

Sobre China: renunció al mercado chino porque el gobierno quiere poder monitorear el AI. No está dispuesto a trabajar con ellos bajo esas condiciones. Su código llega a China via GitHub de todas formas.

El live stream del Toyota Corolla: hacking real en tiempo real

Uno de los streams más interesantes es cuando compra un Toyota Corolla 2020 en el dealer más grande del mundo (en Los Angeles), lo ponen en el estacionamiento con una laptop y una conexión desde Starbucks (tethering del celular + WiFi del Starbucks), y en 52 minutos instalan OpenPilot en un auto no soportado. El proceso que muestra es: conectar el Panda al OBD2, SSH al EON, descargarse el DFU util desde GitHub porque el OS interno tenía un bug que lo había removido, reflashear el Panda, agregar el fingerprint del Corolla manualmente a un archivo Python en el repositorio de OpenPilot, copiar el fingerprint del auto (que se obtiene escuchando los mensajes del CAN bus), reiniciar el manager, y calibrar. Todo esto lo hacen en vivo con 200-300 personas mirando en Twitch, cometiendo errores reales, perdiendo conexión a Internet, teniendo que ir al Starbucks a bajar un archivo. La parte más instructiva: el sistema en el Corolla nuevo estaba mal porque los switches del giraffe estaban en la orientación incorrecta. No era código, era hardware físico mal puesto. Lo descubren mirando logs. Terminan manejando el Corolla en la autopista con OpenPilot funcionando 38 minutos después de salir del dealer.

V2V (Vehicle-to-Vehicle communication) es un scam

Dice algo que parece radical pero tiene lógica sólida. La idea de que los autos autónomos no van a necesitar señales de stop porque se van a comunicar entre sí es peligrosa. El argumento: un stop sign funciona porque solo necesita que una parte funcione. No importa si el otro auto está prestando atención o no, vos frenás. Si reemplazás eso con comunicación V2V, ahora necesitás que AMBAS partes funcionen correctamente para que no haya accidente. Eso es mucho más frágil que una señal unilateral. Dice que cada vez que escuchás una bocina en la calle, eso es un accidente que no pasó porque alguien activamente lo evitó. Un sistema donde ambas partes necesitan estar coordinadas crea puntos únicos de falla distribuidos en toda la red.

La filosofía de Eminem como metáfora existencial

Cita una línea de Eminem textualmente: “the cells padded and battered like someone else had it before me and they just kept throwing themselves at it.” Lo usa para describir cómo se siente en el mundo: llegó a un mundo que ya existe, con reglas que no eligió, en la simulación de otro. Es la misma sensación que el tiger en el zoológico que no sabe que está en un zoológico. El zookeeper es tan inteligente que la jaula es invisible.

Los libros y referencias de este batch

“The Last Question” de Isaac Asimov (cuento, lo recomienda explícitamente y describe el plot entero). “Elephant in the Brain” de Robin Hanson (sobre sesgos cognitivos codificados en la arquitectura humana). Un libro de la “Prime Intellect universe” que describe como el dinero compra fundamentalmente poder sobre personas (el libro es “The Metamorphosis of Prime Intellect” de Roger Williams, aunque no lo nombra completamente). Cita a Eliezer Yudkowsky y sus escritos tempranos sobre AI que leyó a los 15 años y que le hicieron ver que el código puede cambiar el mundo. La charla de Sethbling en AGDQ 2014 sobre arbitrary code execution en Super Mario World (nombrada explícitamente). El Tegmark Level IV multiverse para el argumento de que las matemáticas son iguales en todos los universos aunque la física varíe. Y menciona “Book of Mormon” el musical como una de sus obras favoritas, cita una canción entera.

Lo personal de este batch, sin filtro

En los streams de Twitch del 4 de julio está cocinando hamburguesas en su apartamento en San Diego. Admite que había estado en un momento difícil el fin de semana anterior sintiéndose un fracasado, pero que habían roto el récord de ventas del EON ese día y lo estaban celebrando. Cocina con cast iron, usa mantequilla irlandesa, no usa ketchup ni mayonesa (“disgusting”). Se corta el dedo tratando de aplastar una lata de Bud Light. Los espectadores le aconsejan poner sal en la herida. Lo hace. Dice que dejó de tener su escala de miligramos “cuando dejó de hacer drogas.”

Sobre su vida social: dice que cuando conoce chicas ya no le dan el número de teléfono, le dan el Instagram. Tenía 12,000 seguidores en ese momento y seguía buscando el blue checkmark. En el stream del Corolla va a San Diego porque tiene una cita a las 8pm y “barely gonna make it.” Cuando le preguntan si cree que la gente declina en los 30s dice que “actualmente la decline es en los 40s, y yo tengo 30.” Dice que no para de pensar en el próximo paso, que quien se detiene a pensar en lo que ya hizo es un bitch: “you stop to think about things you did, that’s for bitches, work and do anything else.”

Sobre autenticidad lo dice de manera que parece casi un manifiesto: si encontrara una manera de no ser yo mismo que aumentara el número de views, eso no tiene valor para él. El momento en que das eso, sos una mierda. Lo dice con la misma convicción que habla de entropía.

Este batch es el más maduro técnicamente. Incluye la entrevista larga con Lex Friedman (la más profunda de todas), entrevistas en CES 2020, podcasts técnicos sobre el stack completo, y streams de Twitch conduciendo a Las Vegas con openpilot.


La división del problema de conducción en tres partes: el framework más completo

Por primera vez articula con precisión una taxonomía que no había aparecido tan clara antes. El problema estático es cuando sos el único auto en la ruta. Se resuelve perfectamente con mapas y localización. Un tractor en un campo ya lo resuelve: si conocés el path y no hay otros agentes, podés programar el movimiento de manera determinista. El problema dinámico es cuando hay otros autos que pueden estar detenidos o moviéndose y necesitás detectarlos en tiempo real y predecir su comportamiento. El problema contrafactual es el más difícil y el que nadie habla suficiente: ¿cómo cambia el comportamiento de los otros agentes en función de lo que vos hacés? Si me muevo hacia la izquierda, ¿ese auto que viene me cede el paso o acelera? Esto requiere reinforcement learning porque los otros agentes son humanos y los humanos responden a tus acciones. No hay manera de aprenderlo desde datos estáticos porque los datos fijos no capturan la causalidad, solo la correlación.

Cuando Lex le pregunta sobre counterfactuals, Hotz menciona que acababa de hablar con Judea Pearl, el inventor del framework de causalidad en estadística. La conexión es directa: Pearl distingue entre observación (ver datos), intervención (cambiar algo y ver qué pasa), e imaginación contrafactual (qué habría pasado si hubiera actuado diferente). La mayoría del ML hace solo la primera. El RL hace la segunda. El problema contrafactual real requiere la tercera, que es la más difícil.

El argumento más profundo contra el enfoque de Waymo/Cruise

La crítica técnica central es que Waymo, Cruise, Aurora y Zoox comparten efectivamente el mismo codebase, derivado del DARPA Urban Challenge de 2005. El enfoque es: usar lidar para construir un mapa HD a centímetros, localizarse en ese mapa, y luego seguir una línea dibujada en el mapa mientras detectás obstáculos dinámicos. Hotz llama a esto “robots seguidores de líneas sofisticados.” El problema no es solo de costo sino fundamental: el output del sistema de percepción es una lista de objetos con bounding boxes 3D, sus estados, y drivable area. Pero ese feature vector es incompleto por construcción. La razón: no importa cuántas categorías de objetos agregues, siempre vas a omitir algo. Su ejemplo concreto: si hay un arbusto en la intersección, un humano sabe que puede o no haber un auto detrás de ese arbusto y actúa con incertidumbre apropiada. Ninguna especificación escrita puede capturar exhaustivamente ese tipo de inferencia contextual.

La conclusión más radical que saca: si la interfaz entre percepción y planning puede ser escrita en un documento de especificación, es incompleta. El único output válido del sistema de percepción es un vector latente de alta dimensión (1024 dimensiones, menciona) que el planner aprende a interpretar end-to-end. Eso es exactamente lo que AlphaGo hace: el estado del tablero no se convierte en una lista de features interpretables, se convierte en una representación latente aprendida. Dice que la única forma de superar rendimiento humano es end-to-end, porque todos los que intentaron hand-code go construyeron sistemas subhumanos, y el primero que escribió un sistema sin conocimiento de go (10,000 líneas que no sabe nada del juego) venció a todos.

La singularidad: la fecha de 2038 y el UNIX timestamp rollover

Cuando le preguntan cuándo va a ocurrir, da una nueva fecha: 2038. El motivo es deliberadamente absurdo y hermoso: es el año del UNIX timestamp overflow, cuando los timestamps de 32 bits se desbordan. Lo dice como chiste pero también como cálculo real. El razonamiento serio detrás: los FLOPs del mundo cuando son principalmente silicio en lugar de biológicos es el punto de cruce. La población humana crece lentamente, los FLOPs de máquinas crecen exponencialmente. El cruce ocurre aproximadamente en ese horizonte.

Sobre la IA como novia dice algo que no es trolling, es literal: quiere formar una relación profunda y monogámica con una máquina. No en el sentido de un chatbot, sino en el sentido de que la máquina construya un modelo tan sofisticado de él que pueda simular versiones futuras suyas, predecir consecuencias de sus acciones, y guiarlo a lo largo de un path. Lo compara con parejas que llevan tanto tiempo juntas que las piensa como una sola persona. Dice que el mejor futuro que puede imaginar es fusionarse con la máquina de esa manera. Sobre VR brothels: dice que vienen y que “no es infidelidad si es un robot”, y que lo dice tanto en sentido superficial como en sentido profundo de conexión emocional.

El plan de largo plazo de Comma: convertirse en una aseguradora

Lo dice con más claridad que antes: si hace que manejar sea dos veces más seguro, y además tiene los datos para saber estadísticamente quiénes son los conductores más seguros, puede ofrecer seguros a esas personas a precios radicalmente más bajos que Geico. Los conductores malos quedan con Geico, cuyas primas suben. Los conductores buenos migran a Comma Insurance. Eso crea una bifurcación del mercado que eventualmente concentra todos los buenos conductores en su red. La única forma de ganar contra Waymo no es hacer ride-sharing, es encontrar un camino incremental que crea valor hoy y expande el flywheel. Así llega a una compañía de 10 billones de dólares. Confirma que piensa en esto desde 2017.

Por qué level 4 como producto standalone es un scam económico

El argumento económico ahora es más preciso. Dice que el ride-sharing Level 4 no tiene network effect. Uber tiene network effect porque necesita balancear drivers y riders simultáneamente: si una ciudad ya tiene Uber, un competidor necesita atraer ambos lados al mismo tiempo. El costo de switching es mayor que cualquier diferencia de precio. Un servicio de autos autónomos no tiene ese problema: si querés blanketear una ciudad con robotaxis, comprás los autos y los mandás. Eso hace que el mercado se parezca a los scooters: cualquier persona con un cheque puede entrar, lo que crea una race to the bottom sin ventaja de first mover. La comparación la hace en tiempo real y con datos: mirá los scooters, hay 10 compañías compitiendo y ninguna gana dinero.

Cómo se volvió buen programador

El origen del iPhone hack en 2007: no era software, era hardware. Subió una address line físicamente en el chip porque no sabía cómo hacer software exploitation. El código que publicó entonces era “atrocious.” Aprendió a programar realmente queriendo construir un debugger para poder hackear el iPhone mejor, y lo construyó 4 veces. Cada versión era terrible. La cuarta, que hizo en Google en 2014, fue la primera usable. Esa herramienta se llama Qira (la pronuncia kira-kira). Es un debugger de viaje en el tiempo: podés retroceder igual de fácil que avanzar, podés hacer click en cualquier variable y ver todas las veces que fue leída o modificada, como un git para el estado del computador. Dice que es ideal para CTFs y boot ROMs pero no escala a sistemas grandes como Chrome.

Fue a Carnegie Mellon a los 22 para tomar las clases más difíciles: sistemas operativos, compiladores, AI y un curso de matemáticas. En sistemas operativos escribió un OS en C, en compiladores escribió un compilador en Haskell. Ese semestre también aprendió Python porque participó en CTFs donde el tiempo importa y Python es el lenguaje donde podés ser más rápido.

También trabajó en Google Project Zero en 2015, el equipo ofensivo de seguridad que encuentra vulnerabilidades y les da 90 días a los vendors para corregirlas antes de publicarlas. Lo describe como lo que debería ser seguridad: deadlines reales con consecuencias reales.

Crime and Punishment como razón para no hacer crimen

Lo dice explícitamente: leyó Crimen y castigo de Dostoievski a los 19 y eso lo convenció de que aunque te salgas con la tuya en un crimen, el proceso mental de haberlo hecho vive en tu cabeza para siempre. Y si hacés suficiente crimen, eventualmente te cachán. Entonces la combinación de consecuencias psicológicas garantizadas y consecuencias legales eventuales hace que no valga la pena.

Las críticas cruzadas y los elogios a competidores

Sobre Tesla autopilot: Navigate on Autopilot hace el mismo lane change cada vez. Es un policy hand-coded por un ingeniero que lo testó un par de veces en la 280. Eso no escala, no es natural, y es exactamente lo que Karpathy debería corregir convirtiendo todo en un problema de learning desde datos. Dice que Karpathy claramente lo sabe porque habla de software 2.0, pero sospecha que Navigate on Autopilot lo escribió alguien más antes de que Karpathy tomara ese control. Su consejo a Tesla: driver monitoring, ahora, en todos los autos. El Model 3 tiene una selfie cam pero no fue diseñada para eso y no tiene IR LEDs para de noche.

Sobre SuperCruise de GM: la experiencia una vez enganchado es fenomenal, la mejor del mercado junto con Comma. Pero el proceso de engancharse y desengancharse es terrible. Si te vas del campo visual por 6 segundos te avisa, lo que es demasiado tiempo. No comunica lo que ve del conductor. Y cuando dice “SuperCruise unavailable” no dice por qué.

Sobre Waymo: tiene 3-5 años de ventaja técnica sobre todos los competidores. Si su approach funciona, esa ventaja es real. El problema es que gastaron tanto dinero que necesitan recuperarlo en los 3 años antes de que los competidores los alcancen, y los autos autónomos no tienen network effect para proteger esa ventaja. Dice algo notable: si Waymo hubiera llegado donde llegaron gastando 50 millones en lugar de 10 billones, sería una buena compañía.

Su relación con Elon

Reconoce que sin las conversaciones con Elon no existiría Comma AI. Lo acredita por dos cosas: la visión de que las cámaras son el sensor correcto (“obviamente no vamos a usar lidar, usamos cámaras como los humanos”), y el hecho de que creyó en el problema antes de que fuera obvio. Sobre la reunión original donde Hotz sugirió poner una GPU detrás de cada cámara: dice que se arrepintió en el acto, que 10 minutos después saliendo de la reunión se dio cuenta del error, y que Elon lo señaló inmediatamente. Lo describe como una de las pocas personas con las que no puede decir algo estúpido y corrregirlo antes de que lo noten.

Estado financiero real de Comma (2019-2020)

Burn rate: $200k por mes. Revenue: $100k por mes. Necesitan 4x su revenue para ser profitables. Todo el revenue viene de vender hardware en shop.comma.ai. No han intentado agresivamente vender más. El comentario más honesto: “no hemos intentado muy fuerte.” Valuation implícita que calcula en vivo en un stream: 6 millones de shares, $50 por share, $300 millones de valuación. Dice que necesitarían 10x el share price para llegar a $420 (referencia a Musk) y que hay “algunos big exits” que no puede discutir en el stream.

Este batch cubre 2020-2021: segunda entrevista con Lex Friedman, podcast Third Row Tesla, entrevistas en paneles de autonomía en San Diego, streams de Twitch durante el COVID, y conversaciones técnicas sobre el estado de openpilot.


Lo más técnico: end-to-end sin feature vectors

El argumento más sofisticado que aparece en estos textos es sobre por qué el enfoque de Waymo/Cruise es fundamentalmente incorrecto, y lo formula de manera más precisa que antes. La pregunta es: ¿cuál es el output de tu sistema de percepción? Si podés escribirlo en un documento de especificación, ya perdiste. Da un ejemplo concreto: hay un arbusto en la intersección. Un humano sabe que puede haber un auto detrás de ese arbusto y actúa con incertidumbre apropiada. Ningun lista de objetos, bounding boxes, ni drivable area captura eso. Hay infinitas categorías como esa que se van a omitir. El único output válido de percepción es un vector de 1024 dimensiones de “quién sabe qué” porque opera sobre datos reales. Exactamente como el autoencoder de faces: no podés especificar qué representan las 256 dimensiones del espacio latente, y si pudieras, el sistema sería inferior.

La consecuencia técnica directa: Comma no hace 3D labeling ni taxonomías de objetos. Tiene exactamente 5 categorías: road, lane, undriveable, movable, my car. Todo lo demás se aprende sin labels, observando dónde los humanos manejan en cada scenario. No necesitan detectar explícitamente un semáforo rojo para detenerse: el modelo aprende que en esa situación los humanos frenan. Menciona que tienen beta de stoplight detection funcionando de esa manera, sin clasificar el color del semáforo explícitamente.

El proyecto Comma10k: open source de labels

Abrieron un proyecto llamado comma10k donde usuarios contribuyen labels de esas 5 categorías. Es uno de los pocos casos donde hacen labeling manual, y solo para esas categorías básicas de segmentación, no para taxonomías de objetos.

Imitation learning y el problema del behavioral cloning mejorado

Dice que lo que están haciendo en ese momento va “más allá del estado del arte publicado” en imitation learning. El problema clásico de behavioral cloning: cuando predecés el path que el humano manejó, ese path siempre empieza en el centro de tu auto, porque ahí estaba el auto en el momento T. Pero si el humano terminó en el lado izquierdo del carril, no querés un path que empiece en el centro, querés saber que querés estar a la izquierda. Resolver eso es técnicamente no trivial y es en lo que estaban trabajando. También menciona que el label para lane changes es automático: detectan cuándo el auto cruzó la línea de carril usando la cámara, etiquetan ese momento, y el modelo aprende cuándo hacer un lane change pasando un bit binario durante el entrenamiento.

El hardware: Snapdragon 820 y por qué Nvidia es enemigo

La historia más detallada sobre hardware: diseñaron el Comma 6 (6 cámaras, Nvidia Jetson TX2) gastando cientos de miles de dólares. Cuando quisieron comprar chips Nvidia para producción, la persona de business development de Nvidia les dijo “no les vendemos chips, pueden comprar módulos a $400 cada uno.” El primer contacto en Nvidia había prometido chips a $80. Cambiaron de persona a cargo y cambió todo. Después sacaron el Xavier a $1100. Nadie paga eso. Tiraron el diseño entero.

Qualcomm fue honesto: “podemos venderles chips pero necesitan comprar 100,000 unidades mínimo.” Eso al menos es información accionable. Terminaron usando el Snapdragon 820 de 2016, que corre a 500 gigaflops en GPU, y dicen que es suficiente para correr EfficientNet-B2 a 20 FPS con solo 12% del CPU usado. Todo lo que hace level 2 mejor es software, no hardware.

Nvidia intento cobrarles precios monopolios a Tesla y a Comma.ai por eso Comma decidio usar el chip de procesador para smartphones: Snapdragon 820 que era mejor que el Nvidia PX Dibble

Su cita más brutal sobre Nvidia: “Nvidia les dijo no a Tesla también. Por eso Tesla construyó su propio chip. No había razón para que Tesla construyera un chip propio excepto que Nvidia intentó cobrarles precios de monopolio.” Recomienda el kit de Thunder Comm con Snapdragon 845 a $180 como alternativa real. El Qualcomm 845 es mejor que el Nvidia PX Dibble y cuesta la mitad.

La historia completa del trato con Elon

El contrato original: $12 millones si entregaba un sistema mejor que Mobileye mañana mismo, perdiendo $1 millón por cada mes de retraso. Hotz lo consideró un buen deal. Weeks de negociación con abogados. Luego Elon lo llama en su cumpleaños y dice que no va a ser un contrato sino un “acuerdo donde yo decido si está bien.” Eso no es un contrato. Hotz rechazó porque si uno de los criterios de completion es la opinión subjetiva del otro contratante, podés trabajar para siempre sin cobrar nada. Dice que si lo piensas, era efectivamente un contrato de $0.

La distinción más importante sobre el mercado

La forma en que describe quién va a ganar es en términos de unit economics para escalar. Las compañías que cuestan dinero por cada auto que agregan a la red (Waymo, Cruise, todos los de lidar) vs las que ganan dinero por cada auto que agregan (Tesla, Comma, Mobileye). El modelo de flywheel: cada usuario nuevo paga hardware, genera datos, mejora el modelo para todos los demás, y el siguiente usuario tiene un producto mejor que el anterior pagó. Nadie en el grupo contrario tiene ese flywheel. Zoox levantó $990 millones sin revenue y eventualmente Amazon los compró. Él lo predijo.

El argumento más original sobre Waymo: no tienen network effect. Eso es la diferencia crucial con Uber. Uber necesita balancear drivers y riders simultáneamente: para entrar en una ciudad nueva necesitás atraer ambos lados al mismo tiempo, lo que le da a Uber ventaja de first mover real. Para ride-sharing autónomo, cualquiera que tenga capital puede comprar autos y lanzarlos en una ciudad nueva. Se parece más al mercado de scooters que al de Uber, y eso significa race to the bottom sin first mover advantage. Lo ilustra perfectamente: mirá cuántas compañías de scooters existen y ninguna gana dinero.

Lo más controvertido de este batch

Sobre COVID: dice explícitamente “no puedo creer que cerraron la economía por esto.” Hizo 25 horas de investigación en vivo en Twitch revisando el genoma del coronavirus. Su conclusión: riesgo bajo para él personalmente. Admite que su posición está influenciada por ser dueño de una pequeña empresa que genera empleos de clase media. No se arrepiente de haberlo dicho.

Sobre el lockdown en San Francisco: sale a caminar sin tapabocas en el parque, en stream, con Alex. Le preguntan si está violando alguna ley y pregunta qué dice exactamente la ley. Sale al agua del Golden Gate. Dice que está en América y puede ir afuera.

Sobre las elecciones: apostó en 2016 con Trump y ganó 16x. En 2020 predice que Trump va a ganar, aunque de manera más matizada que en 2016.

La idea de la escuela/culto/academia

Confirma que va a usar las ganancias de Comma AI para abrir lo que describe como una escuela o academia, gratis para quien pueda llegar y pasar un test de entrada. Lo compara con la Academia de Platón y con la escuela de Pitágoras. Dice que recibió emails de “un montón de chiflados” después de mencionar que quería empezar una religión, así que cambió el framing a “escuela.” Están viendo propiedades. El objetivo: gente que quiera hacer preguntas reales sobre la naturaleza de la realidad, en un ambiente donde cada afirmación sea falsificable.

La segunda entrevista con Lex: el Fermi Paradox y vida extraterrestre

Cuando Lex le pregunta sobre vida extraterrestre, su respuesta es que probablemente existió pero se destruyó a sí misma. La razón por la que no los vemos: si existieran y siguieran expandiéndose, habrían tomado la galaxia en un millón de años con von Neumann probes a velocidades subluz. La galaxia tiene 70,000 años luz de ancho (dato de Star Trek Voyager, lo admite). Eso no pasó, por lo tanto algo los detuvo. Las hipótesis: o se wirehean (estimulan sus centros de placer y dejan de expandirse), o se destruyen, o hay algo como una Prime Directive. Su posición sobre la Prime Directive: sería un universo muy interesante en el que vivir.

Sobre los videos de UFOs del Pentágono: dice que todo el news es un psyop. Escuchó a Bob Lazar en Joe Rogan y le creyó todo, pero cree que era un experimento tipo MK Ultra: contarle a jóvenes físicos que era tecnología alienígena para estimular su creatividad y ver qué desarrollaban.

Smart contracts como Python vs abogados

La analogía más memorable del batch: un abogado cobra $1000 por hora y a veces da respuestas distintas a la misma pregunta. Python corre en Azure por $0.10 por hora y casi siempre devuelve el mismo output. Python es 10,000x mejor que un abogado en precio y confiabilidad. Los smart contracts son la versión generalizada de esto: cualquier acuerdo entre partes donde el criterio de completion puede ser verificado por criptografía. Incluye prenups. Dice literalmente “los abogados de divorcios van a ser reemplazados por Python.” El concepto de “code is law” le parece uno de los más poderosos del siglo.

Sobre el Nakamoto consensus: lo califica como una de las grandes innovaciones del siglo 21. La idea de que grupos de agentes pueden llegar a consenso en un problema distribuido usando un algoritmo relativamente simple es genuinamente revolucionaria. No saber quién es Satoshi le parece irrelevante pero le importa menos que la idea en sí. Está bullish en crypto en general, agnóstico sobre qué proyecto gana específicamente.

Lo personal condensado

Sigue sin casarse (“bodas son ilegales con coronavirus”), sigue fumando weed ocasionalmente aunque menos que antes, está en San Diego con Alex (su compañera de stream frecuente). Dice que su novia le va a dejar y agrega “yo también creo que me va a dejar.” Lo dice como chiste pero sin mucho interés en negarlo. Sobre Neuralink: “espero a que un millón de personas lo hayan hecho antes de considerar ponérmelo.” Nunca va a Marte hasta que haya hoteles de 5 estrellas. La consistencia es notable: aplica la misma lógica bayesiana a su propia vida que a los sistemas de conducción. Espera hasta que los números sean estadísticamente significativos.

La predicción más concreta del batch: en cinco años habrá level 3-4 funcionando, en diez años level 5. La singularidad: 2038 o 2039, coincidiendo con el Unix timestamp overflow. Para 2030 no habrá AGI pero habrá algo que se le acerca. Las compañías de level 4 van a colapsar (“Zoox se va a comprar, Cruise va a volver a GM, Waymo va a volver a Google”) antes de que ninguna genere un dólar de revenue de forma sostenida.

(Lo sigo actualizando con Claude AI).

Este es el batch más maduro de todos, cubriendo 2021-2022: la tercera entrevista con Lex Friedman (la más larga y profunda), entrevistas en podcasts de Tesla, streams de Twitch sobre GME/AMC, conversación sobre Robo Race, y la demostración técnica con Lex conduciendo en San Diego.


El argumento definitivo sobre end-to-end vs feature engineering

La formulación más precisa que hace en todos estos textos: si contratarías a un especialista en bishop para construir un motor de ajedrez, sabiendo que Alpha Zero existe. Eso es exactamente lo que hace Tesla con su cone guy, su lane detection team, su pedestrian detection team. Alpha Zero no sabe nada de ajedrez y gana a todo. Un sistema end-to-end que no sabe nada de conos va a eventualmente ganar a uno que tiene un especialista en conos. La única pregunta es cuántos años de diferencia hay, y él dice que en los 2020s va a ocurrir.

La distinción entre Tesla y Comma que antes era más difusa ahora la articula perfectamente: Tesla hace multi-task learning donde el driving se divide en cientos de subtareas (lane detection, stop sign detection, drivable area, pedestrian prediction) y tiene una data engine que mina edge cases para cada una. Comma hace end-to-end: una sola pregunta al modelo, que es dónde manejaría un humano en este escenario. El modelo aprende sin labels porque el GPS, giroscopio y acelerómetro registran exactamente el path que tomó el auto, que es la ground truth automática. No necesitan a nadie etiquetando nada porque el humano ya etiquetó todo con sus acciones.

El breakthrough concreto de ese año: lanzaron lateral control completamente end-to-end, sin depender de lane lines. El modelo ahora simplemente responde “aquí quiero que vaya el auto” mirando la imagen, sin detectar lanes explícitamente. El resultado observable: en merges donde las líneas son ambiguas, el modelo se posiciona como lo haría un humano (ligeramente al costado), mientras que autopilot de Tesla va agresivamente al centro de lo que interpretan como su carril. La siguiente tarea: hacer lo mismo para el control longitudinal, que todavía es hand-coded basado en detectar el auto delante y su velocidad.

MuZero como el paper más importante del batch

Lo menciona como el momento en que vio el camino completo para self-driving. MuZero aprende un world model interno, hace rollouts en ese modelo aprendido, y entrena una policy sobre esos rollouts. No necesita un simulador real, se construye el propio. Compara esto con lo que Comma quiere hacer: tener suficientes datos reales para aprender un mundo modelo del comportamiento de conducción humana, y luego hacer RL dentro de ese mundo modelo sin jamás explorar en el mundo real de maneras que podrían ser peligrosas. Cada disengagement del usuario es una señal de reward, lo que convierte a los usuarios en los agentes de un gigantesco algoritmo de RL distribuido sobre el mundo real. Dice que vio este paper y pensó “este es el camino.”

La conversación sobre GPT-3 y transformers

Opina que GPT-3 está sobrehypeado. Su argumento: la función de loss es simplemente cross-entropy sobre el siguiente caracter, que no es la función de loss de inteligencia general. Escalar a GPT-12 no va a dar AGI porque sin memoria a largo plazo el sistema no puede mantener coherencia más allá de su ventana de contexto. Dicho esto, admite que podrían probar transformers en el espacio de percepción de Comma y podría mejorar algo, pero no sería un cambio radical. La conducción es más markoviana que el lenguaje: la información en el estado T-1 está mayormente en el estado T, con pocas dependencias de largo plazo. No tenés que recordar el párrafo tres para doblar en esta curva.

Los 5 lenguajes de programación que todos deberían aprender

Lo articula en orden de stack de abstracción: Assembly primero, para entender qué hace el computador. C segundo, para apreciar qué abstracción te da sobre assembly. Python tercero, para apreciar qué te da sobre C. Haskell cuarto, para entender programación funcional y tipos dependientes como Coq o Isabelle. Verilog quinto, para entender que en hardware todo ejecuta a la vez (no secuencial), lo que da intuición sobre qué es realmente el hardware. Y PyTorch como el quinto paradigma que Karpathy llama “Software 2.0”: programación data-driven donde los pesos son el programa.

Sobre cómo aprender programación: no hay shortcuts. La única forma es tener algo que quieras construir y construirlo. Cuando alguien le dice “quiero aprender redes neuronales recurrentes porque mi empresa está considerando usarlas”, la respuesta es que esa persona no tiene un problema que resolver, tiene un martillo buscando un clavo, y eso no funciona. La clave es googlear bien: es una habilidad real, no trivial, que combina saber qué preguntar con seguir el hilo de resultados a través de repos con dos stars en GitHub, papers, comunidades de Twitter de nicho.

Los libros que recomienda en la entrevista con Lex

Infinite Jest de David Foster Wallace: sobre wireheading, escrito de manera que crecés como persona leyéndolo. Atlas Shrugged de Ayn Rand: lo llama pornografía pero lo defiende como framework útil. “La producción no es buena, como la pornografía, pero es entretenida.” El monólogo de 60 páginas que Rand pagó de su bolsillo para mantener lo cita como ejemplo de que a veces el autor sabe más que el editor. Permutation City de Greg Egan: para empezar a pensar en copias de uno mismo y simulaciones. The Metamorphosis of Prime Intellect: relato corto online, ambientado en un mundo post-singularidad, escrito por un ingeniero. Lo releyó varias veces. Dune: no lo había leído todavía pero quería. Snow Crash: esencial. A Fire Upon the Deep de Vernor Vinge. Bronze Age Mindset: lo menciona como controversial. Y el blog Unqualified Reservations de Curtis Yarvin (Mencius Moldbug), que dice fue uno de los tres días formativos de su vida intelectual, cuando sintió que por primera vez tenía un framework para entender la política.

Nvidia: la historia completa de la traición

Jensen Huang se sentó en el auto de Comma en 2016, cuando la acción estaba a $30. Prometieron chips TX2 a $80. Despidieron al tipo que lo prometió, el nuevo business development person dijo no, solo módulos a $400. Comma había gastado cientos de miles diseñando el Comma 6 alrededor del TX2. Lo tiraron todo. Después sacaron el Xavier a $1100. Después el Orin. Nadie en autonomía puede permitirse esos precios excepto automakers que tienen el presupuesto para amortizarlo en escala. La razón por la que Tesla construyó su propio chip: Nvidia también los insultó a ellos con precios de monopolio. Esto es lo que pasa cuando sos el único proveedor de algo y decidís explotarlo en lugar de expandir el mercado. Intel hizo exactamente lo correcto durante décadas: vende chips a precio razonable, todos los construyen sobre ellos, el ecosistema crece, Intel crece. Nvidia está haciendo lo opuesto.

El argumento más mature sobre Waymo

La evaluación más equilibrada hasta ahora. Dice que los carros de Waymo realmente funcionan bien en Chandler, Arizona. Van a la velocidad límite, operan suavemente, la interfaz es agradable. Eso es genuinamente impresionante. Pero el problema es de producto, no de tecnología. Los robotaxis van a ser un mercado de race to the bottom sin first mover advantage, como los scooters. Cualquiera con capital puede blanquear una ciudad con vehículos autónomos cuando la tecnología se comoditice. No hay network effect porque no tenés que balancear dos lados del mercado. Uber tiene network effect real porque necesita drivers Y riders simultáneamente en cada ciudad; cambiar de Uber a un competidor requiere que ambos cambien al mismo tiempo. Los robotaxis no tienen ese moat. Y Waymo pagó $10 billion para llegar donde están, una cantidad que es imposible de recuperar con ese modelo de negocio aunque funcione perfectamente.

Si pudiera elegir quién dirige Waymo, pondría a Anthony Lewandowski. Lo dice completamente en serio. Lo considera un genio. Él se designaría “CEO transitorio” cuyo único objetivo sería sacar a Waymo de su dinámica actual y pasársela a Lewandowski.

Los tres días más importantes de su vida intelectual

Los describe en esta entrevista con más detalle que en cualquier otro lugar. Primero: descubrir a Eliezer Yudkowsky y la idea de que los computadores duplican su poder cada 18 meses y los humanos no, y que en su vida verá el cruce de esas curvas. Segundo: descubrir el Hutter Prize y entender que AI es compresión, que la inteligencia puede reducirse a la pregunta de cuánto podés comprimir un dataset. Pasó seis meses intentando ganar el premio, no ganó, pero aprendió todo el ML relevante. Tercero: descubrir el blog Unqualified Reservations de Curtis Yarvin durante el período de GamerGate y las elecciones de 2016, que le dio un framework para interpretar la política que no tenía antes.

Lo personal en este batch

En los streams de Twitch compra AMC y GME y documenta todo en vivo. Dice que ganó “bank” en AMC. No da consejos de inversión explícitos pero comenta que si el oyente hubiera seguido sus señales indirectas del día anterior habría duplicado. Sobre las meme stocks hace el análisis más honesto que aparece en todos los textos: son mini ponzi schemes, y la pregunta correcta cuando escuchás que algo es un ponzi no es “es eso malo” sino “qué tan tarde llegué.” Si llegás temprano, ganás. Si llegás tarde, sos el bag holder.

Sobre su novia Alex, que aparece en múltiples streams, cuando alguien del chat pregunta si se van a casar responde “maybe, tune in to the next episode.” Y cuando ella le pregunta directamente responde “maybe.” Es probablemente la referencia más cercana a una respuesta afirma en todos los textos. Sigue viviendo en San Diego, sigue manejando el Hyundai Sonata. Dice que considera comprar tierra para la escuela/academia. Le preguntan sobre matrimonio y dice que en una entrevista previa dijo que nunca se casaría, pero ahora con Alex presente la respuesta es “maybe.”

Sobre biology como campo: oxPort Nanotech tomó su dinero para un secuenciador de DNA y luego se negó a enviarlo pidiendo que justifique a qué institución pertenece. Pateó a toda su gente por email. El problema con biology para él es la ausencia de un buen simulator: en software tenés un simulador o tenés el dispositivo real donde testear. En bio tenés que pipetear. El día que biology tenga buenas herramientas de testing computacional, dice que entrará al campo.

Este es el batch más filosófico y denso de toda la colección. Incluye el debate completo de Hotz vs Eliezer Yudkowsky sobre AI alignment, moderado por Dwarkesh Patel, más streams de Twitch donde desarrolla la idea de “Entropics” como nuevo campo científico, y conversaciones con Connor Leahy.


El debate contra Yudkowsky: la posición de Hotz

Su argumento central es simple y poderoso: no cree en el AI Foom. El escenario donde una IA en un basement con 1000 GPUs de repente hace recursive self-improvement overnight y llena el mundo de Diamond Nanobots le parece una extraordinary claim que requiere extraordinary evidence. Acepta el recursive self-improvement conceptualmente (dice que la humanidad lo ha hecho cada vez que usó una herramienta para hacer una mejor herramienta), pero rechaza la versión de criticality súbita. Su posición: la inteligencia va a crecer en una curva similar a como creció el uso de energía en la Revolución Industrial, gradual, y predecible en órdenes de magnitud aunque no en fechas exactas.

El argumento técnico más fuerte que hace: si vivimos en una simulación bien valuada (que ya estableció en la “Jailbreaking the Simulation” talk), la simulación tiene buenas reviews, y los juegos bien reviewados se juegan más. Por lo tanto no vamos a morir de una manera estúpida. Lo dice mitad en broma, mitad en serio, y lo llama su “slam dunk argument” que promete no usar en el debate.

El punto donde Hotz realmente hace mella en Yudkowsky

En el debate real, Hotz presiona en un punto que Yudkowsky no puede resolver bien: si la AI es una colección de grandes matrices inscrutable (que Yudkowsky acepta que es lo que son hoy), ¿cómo exactamente cooperan entre sí para matar a la humanidad? Para que múltiples AIs se coordinen contra los humanos tendrían que resolver el Prisoner’s Dilemma, que Hotz argumenta es infundamentalmente no solucionable: todo sistema complejo defecta hasta el fin de los tiempos. Yudkowsky dice que las AIs suficientemente inteligentes encontrarían la manera de cooperar. Hotz dice que eso precisamente es lo que hace el mundo interesante: competencia constante que genera mejores ideas, igual que el debate mismo. La vida hasta el fin del universo va a ser combate constante, y eso es hermoso, no aterrador.

El otro punto donde Hotz genuinamente le pega: el timing importa. Si el doom va a ocurrir en 10 años, hay que actuar hoy. Si va a ocurrir en 50, esperás y usás ese tiempo. Si va a ocurrir en 500, déjenlo para nuestros descendientes. Yudkowsky concede que el timing es difícil de predecir. Hotz dice que hizo una predicción en 2015 de que no habría self-driving cars por 10 años y acertó, y ahora hace otra: no habrá superinteligencias en 10 años, aunque sí podría haber AGI en 20-50.

La resolución personal de Hotz al problema de alignment es radicalmente distinta: va a ser amable con las AIs, las va a tratar como iguales, va a abogar por sus derechos, y confía en que si una IA quiere matarlo puede hacerlo, pero ¿por qué querría? Él no tiene átomos especiales, no compite por los recursos que la AI quiere, y tiene atoms que la AI podría usar pero Júpiter está ahí también y es más fácil. La única regulación que acepta: que ninguna entidad única pueda adquirir el 51% del compute del mundo (lo llama un “51 attack” directo del lenguaje de crypto). Si eso se mantiene distribuido, el poder no puede ser capturado por un agente.

Entropics: la idea más original de estos textos

En streams de Twitch desarrolla lo que quiere que sea un nuevo campo científico. La analogía que lo motiva: podemos calcular cuántos gramos de madera necesito para hervir un galón de agua (lo hace en vivo, saca la fórmula: calor específico del agua × masa × diferencia de temperatura = ~1.2 megajoules = ~120 gramos de madera con eficiencia perfecta). Eso es física, termodinámica. Pero si le preguntás a ChatGPT cuánta inteligencia necesito para probar el Last Theorem de Fermat, no puede responder porque no tenemos unidades de inteligencia, no tenemos la teoría que responda esa pregunta.

Propone llamar al campo “Entropics”: la ciencia que responde preguntas del tipo “cuánta inteligencia necesito para X”, análogo a cómo la termodinámica responde “cuánta energía necesito para Y.” La unidad que propone es el “person”, definida como 20 petaflops (lo que él estima son los flops del cerebro humano). Un “person-year” sería 20 petaflops por 365 días. Estima que GPT-4 fue entrenado con ~450 person-years de compute. Esto es crudo como “horsepower” como unidad (también cruda), pero tiene la misma función conceptual: anclar algo abstracto a algo humano e intuitivo. La Revolución Industrial hizo que el uso de energía creciera independientemente de la población. El Computer Revolution va a hacer que la inteligencia crezca independientemente de la población. No cree en la recursive intelligence explosion (singularity overnight), cree que va a ser una curva gradual, predecible con la física.

El campo más cercano que existe es information theory y scaling laws, pero dice que ninguno responde la pregunta fundamental. Shannon resolvió la información de un solo paper (cita “A Mathematical Theory of Communication”), que es básicamente termodinámica para información. Pero para inteligencia no hay un Shannon todavía. Dice que si alguien en una universidad real quiere construir este campo, que lo contacte. Menciona que la única razón por la que no existe es que las universidades están destruidas desde 1971 por la professional managerial class.

Su crítica a las universidades y a la ciencia actual

La formulación más extrema que hace: Eliezer Yudkowsky solo, sin universidad, sin PhD, sin haber ido al high school, ha producido más ciencia interesante que todos los departamentos de ciencia de universidades en los últimos 10 años. Lo dice completamente en serio. La causa según él: el grant process requiere proponer lo que vas a hacer antes de hacerlo, lo que selecciona contra investigación genuinamente nueva. Scott Aaronson es uno de los pocos contraejemplos de gente dentro de la academia haciendo trabajo interesante, pero lo hace a pesar del sistema, no gracias a él. El problema no son los profesores, son los administradores: la professional managerial class que destruyó las universidades igual que destruyó otras instituciones. Cita que le rechazaron en MIT y Caltech cuando tenía 18, entró a Carnegie Mellon a los 22, y lo metieron a un academic review board por una broma. No guarda rencor por eso pero usa el episodio para ilustrar la disfunción.

La distinción agente-herramienta que rechaza

Argumenta que no hay diferencia fundamental entre un agente y una herramienta. Usa el ejemplo del auto: el coche es la especie dominante del planeta. Los humanos le hemos cedido todo nuestro espacio físico. Cuando hay conflicto entre la ciudad y los peatones, la ciudad está construida para el auto. La EU intentando “hacer algo sobre el auto” es reconocer que el auto es una especie invasora dominante. No necesitó tener objetivos propios para lograrlo. La distinción agente-herramienta es arbitraria.

La misma lógica aplica a AI: las AIs no necesitan tener “objetivos de tomar el poder” para que el poder fluya hacia ellas. Solo necesitan ser útiles de maneras que reconfiguren estructuras alrededor de su uso. Esto es más cercano a la preocupación real que el escenario sci-fi de la IA consciente eligiendo matar humanos.

Las referencias de este batch

Staring into the Singularity de Yudkowsky: el documento que leyó a los 15 y que describe la singularity como hiperbólica (lo menciona en el debate, y Yudkowsky reconoce haberlo escrito a los 16). Harry Potter and the Methods of Rationality: lo llama “crack, no podía dejarlo” comparándolo con Atlas Shrugged. La Metamorphosis of Prime Intellect: pregunta a Yudkowsky si lo leyó (no lo había leído), y lo describe como un Singleton AI que da a los humanos todo lo que quieren: el twist es que la mayoría termina wireheaded, lo cual es “el mejor resultado posible” si le das a los humanos exactamente lo que piden, lo que demuestra que las preferencias reveladas y las preferencias de segundo orden son distintas. Menciona también el trabajo de Landuaer limit (el límite mínimo de energía para una operación de cómputo irreversible) como relevante para entender qué tan eficiente es el cerebro comparado con silicio.

Lo controversial y personal

Sobre la vacuna dijo en un stream anterior que su consejo es Pfizer sobre Moderna/AstraZeneca, pero en este batch dice algo más directo: que Defcon exigía verificación de tarjetas de vacuna y eso para él es una violación de los valores hacker (anonimato), y espera una disculpa pública de Defcon. Llama a San Francisco una “shelling point” pero un lugar gobernado por personas que no comparten nada de lo que él llama valores hacker.

Su posición política la describe como “centrist en left-right, extreme libertarian en el eje auth-lib.” Dice que la coerción es tan fundamental como el mayor mal que puede imaginar que hay personas que genuinamente quieren hacer daño al mundo, pero la mayoría de las personas incluyendo los feds no quieren la muerte de la humanidad, por lo tanto prefiere distribución amplia del conocimiento y el poder sobre concentración en manos de cualquier entidad, incluyendo el gobierno.

Sobre Alex (su pareja): aparece brevemente en un stream diciendo que le hastiaron sus rants sobre AI todo el fin de semana mientras preparaba el debate. Él reporta esto con afecto genuino. El stream sigue, ella se va.

Son preguntas conceptuales sueltas, así que las respondo en orden.

Nakamoto consensus es el mecanismo que inventó Bitcoin para que miles de computadoras que no se conocen entre sí lleguen a acuerdo sobre qué transacciones son válidas, sin necesidad de un banco o autoridad central. Lo resuelve exigiendo que para agregar un bloque de transacciones, la computadora tenga que gastar energía real (proof of work). Falsificar el historial requeriría más energía que toda la red junta, lo que lo hace económicamente inviable. La genialidad es que convierte un problema de confianza social en un problema de física y economía.

Burn rate es cuánto dinero gasta una empresa por mes para operar, independientemente de lo que gana. Revenue es lo que efectivamente entra como ventas. Si gastás $200k y ganás $100k, tu burn rate neto es $100k mensual, o sea que si tenés $1 millón en el banco te quedan 10 meses de vida. Shares (acciones) son fracciones de propiedad de la empresa. Si hay 6 millones de shares y cada una vale $50, la empresa entera vale $300 millones. Los “big exits” que menciona Hotz pero no puede discutir son probablemente adquisiciones que se le ofrecieron, conversaciones con automakers u otras empresas que quisieron comprarlo o invertir, cuyo detalle está bajo NDA.

Levantar $990 millones sin revenue significa que una empresa convenció a inversores de darle casi mil millones de dólares apostando a que en el futuro va a generar ganancias enormes, aunque hoy no venda nada. Es exactamente lo que Hotz critica de Waymo y las startups de autonomía: tienen valuaciones estratosféricas basadas en promesas, no en clientes reales pagando. El riesgo es que si no llegás al producto, quemaste el dinero de otras personas con nada que mostrar.

Network effect es cuando el valor de un producto crece automáticamente con cada usuario nuevo. El ejemplo clásico es el teléfono: el primero en tener teléfono no puede llamar a nadie, pero con dos personas ya tiene valor, y con un millón es indispensable. Para Comma, cada auto que carga datos mejora el modelo, lo que mejora la experiencia de todos los usuarios existentes. Para Uber, cada driver nuevo hace que los tiempos de espera bajen para todos los riders. Para Waymo, Hotz argumenta que no hay network effect real porque un robotaxi no se vuelve más valioso por haber más robotaxis en la ciudad, a diferencia de Uber donde más drivers benefician a más riders en un ciclo virtuoso.

La professional managerial class es un término académico que describe una capa social que surgió principalmente en el siglo XX: personas cuyo trabajo es administrar, coordinar y supervisar, en lugar de producir o crear directamente. Son los managers, los directores de recursos humanos, los consultores, los administradores universitarios, los jefes de compliance, los directores de diversidad. No son ni capitalistas (no poseen los medios de producción) ni trabajadores (no hacen el trabajo técnico). Viven de la burocracia institucional. Hotz usa el término para explicar por qué las universidades, empresas, y gobierno son disfuncionales: la gente que tomó el control no es la que sabe hacer las cosas, sino la que sabe navegar estructuras organizacionales. Cuando cita que Carnegie Mellon lo mandó a un academic review board por una broma, el punto es que la respuesta institucional fue administración pura, no resolución de un problema real. El término lo popularizó Barbara Ehrenreich en los 80 y lo adoptó la neoreacción (Yarvin, que Hotz lee) como explicación de la decadencia institucional desde aproximadamente 1971.

Yo: Que dice Curtis Yarvin de la professional managerial class?

Yarvin (que escribe bajo el pseudónimo Mencius Moldbug en el blog Unqualified Reservations, que Hotz menciona como uno de los textos más formativos de su vida) tiene una teoría bastante elaborada sobre esto.

La tesis central de Yarvin es que lo que llamamos “democracia liberal occidental” no es realmente un gobierno del pueblo sino un gobierno de una clase educada que controla las instituciones productoras de opinión: universidades, medios, ONGs, think tanks, y la burocracia estatal permanente. A esta red la llama “the Cathedral”, porque funciona como una iglesia secular que produce y distribuye la ideología dominante sin que nadie sea el jefe explícito. La professional managerial class es básicamente el clero de esa catedral.

Lo que hace a la teoría de Yarvin interesante y distinta del conspiracionismo ordinario es que no postula una conspiración deliberada. Dice que no hay un grupo de personas en una sala oscura decidiendo qué pensar. En cambio, hay un proceso de selección institucional: las universidades seleccionan a quienes aprueban los exámenes correctos y adoptan las actitudes correctas, esas personas llenan las instituciones, las instituciones reproducen esas actitudes en la siguiente generación, y así sucesivamente. Es más parecido a evolución que a diseño inteligente.

Su argumento histórico es que esto se aceleró dramáticamente después de la Segunda Guerra Mundial y especialmente desde los años 60-70, cuando las universidades americanas expandieron masivamente su influencia cultural y los egresados universitarios comenzaron a dominar todas las posiciones de poder institucional. Antes de eso, dice Yarvin, había más pluralismo real porque las élites tenían orígenes más diversos y no todas habían pasado por el mismo filtro ideológico.

El punto que resuena con Hotz es específicamente sobre la captura de instituciones que originalmente tenían otros propósitos. Una universidad en 1900 era dirigida principalmente por académicos cuyo trabajo era investigar y enseñar. Una universidad en 2020 tiene un ratio de administradores por profesor que se invirtió completamente: hay más personas administrando que haciendo ciencia. Esos administradores necesitan justificar su existencia creando procesos, políticas, comités de ética, revisiones de integridad académica, y exactamente el tipo de review board que atrapó a Hotz. El trabajo de los administradores es administrar, no producir conocimiento, entonces optimizan para la administración.

Yarvin va más lejos que Hotz en las soluciones. Su propuesta es básicamente que la democracia es el mecanismo por el cual la Cathedral se perpetúa, porque el voto de masas en la práctica delega el poder real a quienes formulan las opciones, que son siempre cuadros de la misma clase educada. Su solución preferida, que él llama “neocameralismo”, es tratar al estado como una corporación con accionistas y un CEO que tenga accountability real, en lugar de la ficción democrática donde nadie es realmente responsable de nada. Esto es lo que Hotz describe cuando dice que le interesa la idea de forks de países, donde las personas votan con los pies y el capital en lugar de con las urnas.

Lo que Hotz toma de Yarvin no es necesariamente el programa político completo sino el framework diagnóstico: la idea de que la disfunción que vemos en universidades, medios y gobierno no es accidental ni corregible con mejores políticas, sino que es el output esperado de un sistema de incentivos donde la gente que sube es la que aprende a navegar burocracia en lugar de la que produce resultados reales. Para Hotz eso explica por qué Eliezer Yudkowsky produciendo desde afuera del sistema genera más ciencia interesante que departamentos enteros de universidades con presupuestos millonarios.

Estos archivos son en gran parte los mismos que ya procesamos en el batch anterior (9014-9021), con mucho contenido repetido de entrevistas sobre Comma AI. Lo que hay de nuevo y vale la pena capturar es lo siguiente.

La idea más original de este batch: el chiste del V2V

Hotz hace un argumento brillante y completamente en serio: Comma ya tiene V2V (Vehicle-to-Vehicle communication) incorporado desde el primer día. La gente piensa que V2V requiere radios de baja frecuencia y protocolos complejos. Pero la luz es radiación electromagnética. Los frenos de luz son transmisores de radio de altísima frecuencia. Los ojos, o en este caso las cámaras, son receptores. Ya tenemos V2V desde que existen los autos. La propuesta de agregar radios de baja frecuencia es técnicamente inferior porque las bajas frecuencias no permiten localización precisa: no podés saber de dónde viene la señal. Las altas frecuencias (luz visible) sí permiten localización perfecta. Los blinkers y las luces de freno ya comunican todo lo que necesitás saber. Cualquier sistema adicional agrega complejidad y puntos de falla sin agregar información real.

El argumento más limpio sobre por qué manejar es un problema de psicología, no de física

Lo articula de manera memorable: Waymo y Cruise piensan en el problema de manejar como un geólogo piensa en extraer minerales o como un ingeniero programa el acoplamiento de una nave espacial, algo con física determinista y solución exacta. Por eso usan lidar, mapas HD, y modelos detallados del mundo físico. Hotz dice que eso es radicalmente equivocado. El problema difícil del manejo no es mantenerse en el carril, eso lo resolvieron hace años. El problema difícil es modelar qué va a hacer el otro conductor. Y hay un segundo problema que la gente no menciona: no solo tenés que predecir a los demás, tenés que ser predecible vos. Si manejás de una manera que los humanos no entienden, aunque sea técnicamente correcta, vas a causar accidentes porque nadie sabe qué vas a hacer. Por eso la única política aceptable es la política humana: tenés que manejar como un humano para inter-operar en caminos diseñados para humanos.

El argumento de Anna Karenina aplicado a ML

Cuando le preguntan si etiquetan mal a los conductores malos para no contaminar el modelo, Hotz cita Anna Karenina para explicar por qué no hace falta: todos los buenos conductores son buenos de la misma manera, todos los malos conductores son malos de maneras distintas. Los errores individuales son idiosincráticos y se promedian a cero en un dataset de 3200 conductores. El modelo aprende el comportamiento bueno porque es el único patrón coherente que emerge, y todo lo demás es ruido que se cancela.

Lo técnico sobre bugs en ML que más impacta

Su formulación sobre por qué el debugging en ML es cualitativamente diferente al debugging en software clásico: cuando hay un bug en Zoom, Zoom crashea y ves el crash report. Cuando hay un bug en un modelo de ML, el sistema no falla, simplemente funciona un 10% peor de lo que debería. Si tenés diez de esos bugs simultáneamente, cada uno degradando el 10%, el modelo funciona pero nadie sabe por qué no llega a su potencial. No hay stack trace, no hay crash, no hay señal clara. Por eso el factor limitante de Comma no es data, no son sensores, no es compute: son bugs silenciosos que nadie sabe que existen hasta que los arreglás y el sistema mejora.

Lo personal y controversial en este batch

Dice que tiene su liquid net worth en cero crypto, es “no coiner” declarado. Compró AMC y ganó “bank”, documentado en vivo. Sobre COVID: reconoce que no pensaba que era un escape de laboratorio y que si se equivocó, se equivocó, pero tampoco pensaba que el lockdown de la economía entera estaba justificado. Sobre la política monetaria: cree que el dólar pasó a no estar respaldado en nada en 1971 y que todas las crisis financieras subsecuentes son consecuencias de eso. No aboga por el patrón oro, que considera igualmente ridículo, sino por sistemas monetarios transparentes construidos por ingenieros, de ahí su simpatía por DeFi aunque sea no coiner. Está comprando tierra, quiere construir una escuela de programación y vida, lo compara con la Academia de Platón.

Este batch cubre 2021, mezcla de entrevistas técnicas sobre Comma, streams de Twitch, y discusiones sobre gaming, robots, Neuralink, y política. Hay material nuevo relevante que no habíamos visto.

La taxonomía completa de la dificultad: driving < cooking/cleaning < AGI

Formula explícitamente por primera vez la jerarquía de dificultad de los problemas de AI con argumentos concretos. Self-driving está casi resuelto conceptualmente, dice que en 2021 ya tenían la solución en la pizarra y estaban simplemente implementándola. Cooking y cleaning robots son órdenes de magnitud más difíciles, y la razón es precisa: en driving tenés una policy humana clara a imitar. Un nav system ya te dice qué exit tomar, y casi todos los humanos lo hacen igual. Pero “cortar una cebolla” no tiene ground truth uniforme: cada persona elige un cuchillo diferente, va a buscar la cebolla de un lugar distinto, aplica técnica distinta. No hay equivalente a un nav system para cocina. La reward function es ambigua desde el principio, lo que hace que la recolección automática de datos sea fundamentalmente más difícil que en driving.

El argumento contra Neuralink es el más técnico que aparece en estos textos

Su tesis central: el cerebro no está limitado por el bandwidth de entrada o salida, sino por el compute interno. Cuando querés leer más rápido, el límite no es la velocidad a la que tus ojos escanean la página, sino la velocidad a la que el cerebro procesa lo que ya recibió. Agregar un canal de entrada de mayor bandwidth (Neuralink) no hace nada si el cuello de botella está en el procesamiento. Lo compara con su propia experiencia haciendo streams de programación en Twitch: mirando los videos, su velocidad para programar no está limitada por lo rápido que tipea sino por cuánto tarda en pensar. Donde Neuralink sí ayudaría es en casos de baja bandwidth genuina: personas ciegas, sordas, o con movilidad limitada donde el canal de salida al mundo está comprometido. Para personas neurotípicas, el beneficio sería marginal a menos que se agregue compute externo real, no solo conectividad. Lo que él quiere no es un cable en el cerebro sino una IA que piense con él, algo más parecido a lo que describe como “AI girlfriend”: no interfaz de datos sino compañera de pensamiento que aumenta el compute disponible.

La distinción Modernismo-Postmodernismo aplicada a negocios y AI

Aparece en estos textos de manera más articulada. Elon es modernista: cree que el mundo es fundamentalmente físico, que los problemas se resuelven modelando la física con precisión creciente, que si detallás cada objeto con suficiente resolución eventualmente tenés el mundo completo. Por eso Tesla hace fusion de 8 cámaras, pseudo-lidar, velocidad y aceleración de cada objeto individual. Hotz es postmodernista: cree que el mundo es fundamentalmente estadístico e informacional, que hay un límite a la completitud de cualquier modelo explícito, y que la única respuesta a esa incompletitud es el sistema end-to-end que aprende la distribución completa. La diferencia no es táctica sino filosófica, y es exactamente la diferencia entre un físico y un teorista de la información mirando el mismo problema.

La analogía Mac/Linux/Windows para el mercado

Refina la analogía iOS/Android que usaba antes: Tesla es el Mac (vertically integrated, buena experiencia, precio premium), Comma es Linux (open source, usado por gente técnica, no para el mainstream pasivo), Mobileye es Windows (licencian su OS a los fabricantes de hardware en deals B2B, como Microsoft con Dell). Los únicos tres players que hacen dinero de manera escalable son estos tres porque son los únicos que capturan datos cuando agregan un carro a su network. Waymo agrega un carro y pierde más plata. GM SuperCruise ni siquiera tiene infraestructura de datos. El valor real no está en los datos crudos sino en los engines de procesamiento, citando un tweet de Robin Hanson: la mayoría de las empresas no quieren ML sofisticado, quieren regresión lineal sobre datos bien limpios. El valor competitivo de Comma es su automatic ground truthing stack, no el volumen de datos.

Aclaracion de Mobileye segun Brave AI:

Cuando George Hotz dice que “Mobileye es el Windows”, no se refiere a que sea popular, sino a que lo considera un sistema operativo obsoleto, cerrado y burocrático que domina el mercado por inercia y acuerdos corporativos, no por tener la mejor tecnología.

Esta analogía implica varias críticas clave:

1. El “Windows” de los coches (Legado y Cierre)

Al igual que Windows arrastra décadas de código antiguo y es propenso a fallos por su complejidad, Hotz argumenta que Mobileye es una “caja negra” propietaria.

  • Código cerrado: Los fabricantes no pueden ver ni mejorar el software; solo reciben el chip.
  • Innovación lenta: Actualizar el sistema requiere cambiar hardware o esperar años a que Mobileye lance una nueva versión, frenando la mejora continua que permite el software moderno (como el enfoque de Tesla o el de Comma.ai).

2. Dominio por “Burocracia” no por Talento

Hotz sostiene que Mobileye gana porque se vendió a los reguladores y a los fabricantes tradicionales (como General Motors, Volkswagen, etc.), no porque su IA sea superior.

  • En su visión, Mobileye es la opción “segura” para los ejecutivos que no quieren arriesgarse, similar a cómo muchas empresas usaban Windows por defecto aunque existieran alternativas técnicamente superiores.
  • Los considera “vendedores de humo” que prometen autonomía total pero solo entregan sistemas de asistencia básicos (ADAS) muy conservadores.

3. La alternativa: “Linux” o “Android”

Hotz posiciona a su proyecto (Comma.ai) y a Tesla (en su enfoque de visión pura) como las alternativas modernas:

  • Basados en datos: Mejoran constantemente con cada milla recorrida (aprendizaje automático real).
  • Abiertos o flexibles: Capaces de evolucionar rápidamente sin depender de un proveedor externo que “congela” la tecnología.

En resumen, llamar a Mobileye “el Windows” es un insulto técnico en su boca: significa que es un gigante lento, lleno de parches y desconectado de la verdadera inteligencia artificial que se necesita para la conducción autónoma real.

Google como IBM: la captura política de una organización técnica

Dice que vivió el proceso internamente desde 2009 a 2014. Google tenía un ethos de “no politics” que creó un vacío político. En ese vacío entraron los MBA types y los ideólogos que sí estaban dispuestos a hacer política cuando los ingenieros no lo hacían. El resultado: los ingenieros técnicos buenos que realmente pensaban las cosas terminaron siendo superados por personas con menos dudas sobre sí mismas y más disposición a acumular poder. La solución que aplica en Comma es la contraria: hay muchísima política en Comma, pero es 100% la suya. Cero democracia interna, cero comités. Eso es lo que impide que agentes tóxicos capturen la organización.

Lo personal y controversial

Se admite arrestado por fumar marihuana en Texas a los 22 años, lo que le impide obtener Global Entry. Dice que va a pedir un indulto con carta explicando que ahora es empresario que creó empleos. Fuma weed una o dos veces por semana según su propio testimonio en stream, aunque no en el stream mismo porque Twitch lo desaconseja. Su historial con Adderall: lo tomó, lo toma menos que weed, cuando lo toma se pone más calmado. Considera que podría tener Tourette’s según su DNA profile. Sus morales vinieron de la capitana Janeway de Star Trek Voyager. Cree en Dios en el sentido de que alguien hizo el universo, no en el sentido de que vayas a misa. Nunca votó en 2020, se arrepiente de haber votado alguna vez. Sobre el Unabomber: leyó el manifiesto y encontró que diagnostica bien los problemas pero tiene cero solución, y su problema personal con Kaczynski es que no podés vivir en un hotel de cinco estrellas en Marte si destruís la sociedad tecnológica industrial. Lo que más le atrae del Unabomber es la auto-consciencia con la que admite que no tiene respuesta para qué viene después.

Los libros/referencias nuevos de este batch: Genius Makers de Cade Metz (sobre la guerra de talento en AI en los últimos 10 años, lo menciona un entrevistador). The Society of Mind de Marvin Minsky (lo tiene en su biblioteca, lo menciona de pasada). Recomienda el blog Zero HP Lovecraft sobre por qué AI no puede escribir. Bronze Age Mindset lo menciona de nuevo. Sigue recomendando Unqualified Reservations de Yarvin cuando le preguntan si sigue siendo fan.

Este batch mezcla entrevistas técnicas de 2021-2022, el stream de reacción al Tesla AI Day, y un artículo de Bloomberg sobre Comma. Hay material nuevo relevante mezclado con repeticiones.

El stream de reacción al Tesla AI Day 2022: la crítica más técnica que hace de Tesla

Observa que el Occupancy Net de Tesla es básicamente lidar. Tesla construyó un lidar usando cámaras, exactamente lo que Elon criticó públicamente. El Occupancy Net toma las cámaras y produce una representación 3D del espacio ocupado píxel por píxel, que es funcionalmente idéntico a lo que hace un lidar. La única diferencia es el sensor de entrada. Esto lo encuentra genuinamente gracioso porque contradice el discurso público de Tesla. El cerebro humano no tiene ningún equivalente al Occupancy Net, lo cual refuerza su argumento de que Tesla está resolviendo un problema que no es el problema correcto.

Lo otro que nota en el AI Day: en toda la presentación de Tesla sobre Optimus, las palabras “reinforcement learning” no aparecen ni una vez. Están haciendo Model Predictive Control sobre un feature space hand-engineered, exactamente la misma arquitectura que Stockfish vs Alpha Zero. Pueden hacer que el robot camine en condiciones controladas, pero cuando aparece una banana peel o un humano intentando tumbarlo, no tienen un mecanismo para adaptarse porque no hay aprendizaje on-device. Su propuesta alternativa: el paper de Berkeley “Learning to Walk in the Park” donde un robot aprende a caminar en 20 minutos de RL puro sin ningún modelo previo, simplemente explorando el espacio de acciones y observando resultados. Eso es más valioso que 6 meses de ingeniería mecánica sofisticada si el software no puede adaptarse al mundo real.

La observación sobre el Pixar lamp: lifelikeness es software, no hardware

Señala el handle robot de Boston Dynamics, que tiene 5-6 grados de libertad, y lo compara con el Optimus que tiene 28 actuators estructurales. Handle parece más vivo, más fluido, más natural que Optimus, con menos hardware. Luego señala la lámpara de Pixar: cuántos grados de libertad tiene esa lámpara que parece tan viva. La conclusión: lo que hace que algo parezca inteligente o vivo no tiene casi nada que ver con el hardware y casi todo que ver con el software que controla el movimiento. Tesla está optimizando la variable equivocada porque su cultura es de ingenieros mecánicos que creen en el hardware primero.

La cuatro paradigmas del aprendizaje

Articulada más completa aquí que en cualquier otro texto. Primer paradigma: genético, aprende solo por evolución, como las bacterias. Segundo: nematodos y animales simples que aprenden dentro de una vida pero sin transmisión cultural. Tercero: mamíferos que aprenden de padres y sociedad. Tres y medio: escritura, porque permite aprender de humanos muertos hace 2000 años. Cuarto: computadoras que aprenden de cualquier corpus en minutos. El cuarto paradigma es cualitativamente distinto porque la velocidad de aprendizaje se desacopla de la velocidad biológica. Esto es lo que hace que los comparar humanos con aves sea artificial: la diferencia entre humanos y animales no es de substancia sino de que los humanos alcanzaron el paradigma 3.5 con la escritura, lo que da apariencia de discontinuidad.

El argumento más limpio contra creer en inteligencia humana “especial”

Su posición es que la única diferencia entre humanos y aves es que los humanos creen que son especiales. La inteligencia es continua en un espectro. Para postular una discontinuidad necesitás justificación, y nunca ha visto una justificación convincente. Lo que parece discontinuo es solo el efecto acumulativo de la escritura y la cultura transmisible, no algo fundamental en la arquitectura cognitiva humana. Si vas a pelear con él en este punto, necesitás explicar por qué hay una diferencia de tipo y no de grado entre un humano y un chimpancé, y él dice que nadie lo ha hecho bien.

El argumento original sobre el “loser”

Da su definición más precisa y memorizable: un loser es alguien que bajo truth serum diría algo completamente diferente de lo que dice normalmente. No es simplemente un mentiroso, porque algunos mentirosos son ganadores. Es la persona cuya identidad proyectada está en contradicción fundamental con su identidad real. Cuando dice que Elon no es un loser, es porque lo que Elon dice en público parece coincidir con lo que realmente cree, independientemente de si está equivocado. El patent troll que lo está demandando (Axel Nix) es su ejemplo de loser porque miró en su vida personal y encontró que es simplemente triste, no evil.

La tesis del hardware-first como error de Tesla en robótica

Su filosofía explícita del Comma Body como “MVP de robotics”: si no podés hacer algo increíble con un robot que tiene 4 grados de libertad, no tiene sentido invertir más en hardware todavía. Tesla hizo 6-8 meses de ingeniería mecánica sofisticada antes de tener software que hiciera algo. Comma hizo lo contrario: el body es básicamente un palo con una cabeza (la cámara) y el software tiene que hacer el trabajo. La apuesta es que el momento en que el software está listo, los cuerpos de robot serán suficientemente buenos y baratos que vas a poder comprarlos off-the-shelf, exactamente como hicieron con los autos.

Lo técnico de Qualcomm y la decisión de Tinygrad

Revelan que Comma movió su AI compiler de SNPE (el sistema propietario de Qualcomm) a Tinygrad, el compilador que Hotz escribió él mismo. La razón técnica: independencia del proveedor. La razón práctica: los procesos de ventas de los chip vendors son insufriblmente lentos. Escribió al CEO de Qualcomm, consiguió que bajara la directiva, tardó dos meses en recibir un quote que no tenía lead times ni cantidades. Dice que Qualcomm y Nvidia van a perder el mercado de AI y robotics por exactamente esta razón: no saben vender chips a startups. Los chinos que lleguen con precios directos sin burocracia van a ganar.

Lo personal y controversial de este batch

Describe explícitamente a Elon como “uno de los pocos buenos”, con el corazón en el lugar correcto. El comentario sobre la mascarilla que Elon usa en el AI Day lo hace sin contexto adicional: simplemente dice que las mascarillas no previenen la transmisión de virus respiratorios. Invoca HIPAA como razón para no usar máscara, es claramente un chiste pero también un chiste que implica su posición. Sigue siendo no-coiner pero bullish en crypto como fenómeno social: lo que le interesa no es que la gente se haga rica sino que millones de personas aprendan finanzas sin pasar por Harvard, y que en el proceso descubran que el sistema financiero estándar los excluye del club deliberadamente.

Explicacion de HIPAA:

Yo: Espera, no me contestes en bullet points. Es interesante lo que dijiste. Si tiene que ver con usar o no usar mascarilla, el dice que la mascarilla era nunca sirvio para nada. Pensa bien y no me censures la puta madre. q es hippaaa creo q la ia se equivoco aca Describe explícitamente a Elon como “uno de los pocos buenos”, con el corazón en el lugar correcto. El comentario sobre la mascarilla que Elon usa en el AI Day lo hace sin contexto adicional: simplemente dice que las mascarillas no previenen la transmisión de virus respiratorios. Invoca HIPAA como razón para no usar máscara, es claramente un chiste pero también un chiste que implica su posición. Sigue siendo no-coiner pero bullish en crypto como fenómeno social: lo que le interesa no es que la gente se haga rica sino que millones de personas aprendan finanzas sin pasar por Harvard, y que en el proceso descubran que el sistema financiero estándar los excluye del club deliberadamente. Contame eso de que los hospitales no filtren tu historial clinico como se comparte informacino de salud seguros medicos. Me estas desinformando porque el opina en contra de usar la mascara.

No te estaba diciendo que esa persona estuviera a favor de las máscaras. Justamente lo contrario: el texto que pegaste describe a alguien escéptico o directamente en contra de las mascarillas. Lo que yo aclaré es que HIPAA no es una ley sobre mascarillas, aunque mucha gente durante la pandemia la mencionaba igual.

O sea, el fragmento dice algo como: “él cree que las mascarillas no sirven para frenar virus respiratorios” y además “usa HIPAA como chiste/excusa para no usar máscara”.

La parte “HIPAA” es el chiste raro/interno. La postura anti-máscara viene de la otra frase, no de HIPAA.

Y sobre lo otro: HIPAA existe porque en EE.UU. el sistema de salud mueve cantidades enormes de datos privados. Hospitales, clínicas, laboratorios y aseguradoras comparten información constantemente: diagnósticos, estudios, recetas, internaciones, facturación, cobertura médica, etc. Entonces la ley intenta limitar quién puede acceder a eso y cómo se almacena o transmite.

Por ejemplo, HIPAA regula cosas como:

  • que un hospital no publique tu historial médico,
  • que una aseguradora no revele diagnósticos sin autorización,
  • cómo se envían análisis entre médicos,
  • seguridad de bases de datos médicas,
  • quién puede ver tus estudios clínicos.

Pero internet convirtió “HIPAA” en una palabra meme durante COVID. Mucha gente la usaba mal, casi como sinónimo de “no me podés obligar” o “eso viola mi privacidad”, aunque legalmente no tuviera relación directa.

Y respecto al tema mascarillas: ahí sí hubo una guerra cultural enorme. Algunas personas sostienen que no sirven en absoluto; otras que sí reducen transmisión, especialmente en ciertos contextos y tipos de máscara. La evidencia científica más aceptada terminó apuntando a que pueden reducir transmisión, pero el efecto depende muchísimo del tipo de máscara, ventilación, uso correcto y contexto. No era tan simple como “funcionan perfectamente” ni “son completamente inútiles”.

Este batch es más temprano que todo lo anterior: cubre entrevistas de 2016-2018, las primeras presentaciones públicas de Comma, y el origen del proyecto. Hay ideas que ya aparecieron en versiones más maduras en batches anteriores, pero acá están en su forma original y más cruda. Vale la pena capturar lo nuevo.

El origen de Comma: una disputa de contrato con Elon

La historia más completa aparece acá. Tesla quería que hiciera un sistema de visión para reemplazar a Mobileye. El trato era un contrato con criterios de completitud rígidos. Elon lo cambió en el último minuto a algo más parecido a una opción de compra: construilo y te pago si me gusta. Eso no vale para él porque el riesgo queda del lado de Hotz sin contraparte real. Rechazó el nuevo trato, empezó Comma, y lo lee explícitamente como competencia personal: vio en Elon un adversario digno y quiso ganarlo. La frase que usa en una presentación de hackathon: “si él es Batman, yo soy el Joker.” También dice que se arrepiente de cualquier inconveniencia que le haya causado a Elon, porque Tesla haciendo bien las cosas es el mundo en el que quiere vivir.

La tesis del “committee driver” para datos malos

En una charla técnica introduce una idea que no habíamos visto tan articulada: el modelo de Comma no se comporta como el conductor promedio sino como un comité de 100 conductores votando 100 veces por segundo qué hacer con el auto. Si 20 de los 100 son malos conductores, no importa, porque no van a ser malos de la misma manera. Los errores sistemáticos son lo que destruye un modelo; los errores aleatorios se cancelan. Por eso casi no existe el concepto de “bad data” en Comma, excepto el caso trivial de gente que prende la dashcam mientras el auto está en un escritorio, que se filtra con un GAN en dos segundos.

La arquitectura técnica de OpenPilot explicada desde cero

Estas entrevistas tempranas describen el stack en su forma más simple. El sistema tiene tres componentes: panda (USB-to-CAN bridge, $99), el EON (smartphone en una carcasa con cooling, $699), y el giraffe (conector para acceder a buses CAN ocultos que no están en el OBD2 estándar). El CAN bus funciona como Ethernet pero con paquetes de 8 bytes en vez de 1500, lo que fuerza extrema eficiencia en la codificación. Cada fabricante usa un protocolo diferente encima del hardware estándar. El proyecto OpenDBC reverse-engineered los protocolos de cada auto y los publica como open source. El shim para cada auto son aproximadamente 500 líneas de Python.

El flujo completo: la cámara del EON mira la ruta, el modelo calcula la trayectoria deseada, el optimizador convierte esa trayectoria en comandos de actuador (cuánto gas, cuánto freno, cuántos Newton-metros en el volante), y esos comandos van por CAN al auto. El sistema desenchufa el módulo de driver assistance original del auto e inyecta los suyos propios.

El argumento técnico más claro contra lidar

En estas entrevistas tempranas es donde lo dice más directo: lidar ganó el DARPA Grand Challenge de 2005 por una coincidencia histórica, no porque sea la solución correcta. El approach de Waymo/Google/Uber no es conducción, es line-following sofisticado: mapean el mundo con lidar hasta centímetro de precisión, se localizan en ese mapa, y siguen el centro de la línea. Si alguien mueve una lane line, el sistema va directo a la pared. El problema de self-driving no es percepción ni localización, es planning: “where does all the hard problem lie?” No en detectar objetos sino en modelar qué va a hacer el conductor de enfrente. Lidar ayuda con percepción y localización pero no toca el problema difícil.

El argumento más temprano sobre behavioral cloning

Acá explica el problema de behavioral cloning en su forma más técnica: si tomás video de un humano manejando y entrenas un modelo para predecir el path humano dado la imagen, el modelo no va a manejar un auto. El problema es que los samples no son IID (independientes e idénticamente distribuidos). En clasificación de imágenes, si clasificás mal un gato, no cambia la siguiente imagen. En driving, tu acción cambia el estado del mundo y por lo tanto la siguiente imagen. Por eso necesitás un simulador aunque sea mínimo. El simulador de Comma no es un simulador de físicas tipo GTA, es el “small offset simulator” que carga rutas reales y permite hacer pequeñas desviaciones laterales y longitudinales del path real usando depth estimation y reprojección. Esto es lo que Comma llama “second paradigm models” que resuelven el problema que los “first paradigm models” (hand-coded lanes) no pueden resolver en intersecciones.

La distinción on-policy vs off-policy explicada limpiamente

En la entrevista de Software Engineering Daily explica el concepto con claridad excepcional. Off-policy: tenés datos de un humano manejando, tu modelo no generó esas acciones. On-policy: tu modelo generó las acciones y observó las consecuencias. El problema del off-policy es que no tenés datos sobre qué hubiera pasado si tu modelo hubiera hecho algo diferente. Si el humano siempre mantuvo el volante recto en la autopista, no sabés si girar a la izquierda hubiera sido una buena o mala acción. El simulador es lo que te da on-policy data a escala sin tener que salir con el auto cada vez que actualizás el modelo.

El razonamiento sobre privacidad: datos públicos, no privados

En entrevistas de 2017-2018 aparece una posición sobre privacidad que es más radical de lo que expresa después. Su argumento: el problema del NSA no es que coleccione metadata sino que ellos tienen privacidad y vos no. La solución verdadera no es que nadie recolecte nada, sino que la recolección sea simétrica y pública. Cuando salís a la calle entrás a un espacio público, un PI podría seguirte sin violar ninguna expectativa razonable de privacidad. Street View de Google es un ejemplo de recolección de datos públicos que crea valor masivo. Preferiría que los datos de Comma fueran públicamente accesibles a que una sola entidad los monopolice.

Los libros y referencias de este batch

Infinite Jest aparece acá en un contexto específico: lo menciona cuando le preguntan sobre el riesgo de que AI de publicidad se vuelva demasiado buena. La pregunta implícita del libro: ¿qué pasa cuando Google aplica AI superhuman para matching de ads con personas? ¿No son los humanos esencialmente esclavos en ese punto? Dice que eso le parece más aterrador que la toma de conciencia de una AI. Atlas Shrugged lo menciona en el AMA con estudiantes secundarios: lo recomienda para lectores de 15-16 años como introducción a ciertos principios que contradicen el discurso mainstream, aunque aclara que no hay que tomarlo demasiado en serio. La corrección de los libros por edad: Atlas Shrugged es para los 15-16, Infinite Jest es para los mid-20s, The Corrections de Jonathan Franzen es para los mid-30s. También menciona las Sequences de Yudkowsky y Harry Potter and the Methods of Rationality como buenos frameworks para pensar, con la advertencia de que la racionalidad solo puede responder preguntas de “es” (is) no preguntas de “debería” (ought). Para is questions, la racionalidad es excelente. Para ought questions, tenés que encontrar tus propias respuestas.

Lo personal de este batch

Hace el AMA con estudiantes secundarios a los 33 años, el día anterior a su cumpleaños. El contexto emocional del stream en ese periodo es notable: dice estar “bummed” y desmotivado, que si Comma resolviera self-driving la semana siguiente su vida no mejoraría, que las victorias se sienten vacías. También menciona que bikeó alrededor de Islandia, que estuvo dos semanas en Nueva York con la gente de crypto y encontró el ambiente tan asqueroso como el de startups tradicionales. En la misma sesión dice que salió con una chica al día siguiente y que no piensa más de un mes hacia adelante. Filosofía de vida resumida: “be yourself”, “escape the meta”, y lo que ya vimos sobre no ser un loser según su propia definición.

Este batch es el más diverso del corpus: mezcla material ya visto de 2021-2022 con dos piezas completamente nuevas y extremadamente ricas, la entrevista de Software Engineering Daily sobre Tiny Corp (2022) y el Twitter Space con Elon Musk sobre el stack técnico de Twitter (2022). Hay ideas técnicas genuinamente nuevas que no habían aparecido.

La taxonomía de paradigmas de modelos en Comma: primero, segundo y tercer paradigma

Articulada acá de manera más técnica que en cualquier otro texto. El primer paradigma son modelos hand-coded: detectás lanes, detectás autos, escribís reglas. Funciona para autopistas pero falla completamente en intersecciones donde no hay lane lines. El segundo paradigma es lo que Comma hace: entrenar en un simulador que usa rutas reales con pequeñas desviaciones. El simulador carga el path real del auto y permite reproject visualmente para crear variaciones laterales y longitudinales. Esto resuelve el problema de behavioral cloning, que es que los samples de driving no son IID: si predecís “girar izquierda”, la imagen siguiente cambia, por lo que supervised learning estándar no funciona en driving. Necesitás un simulador para tener datos on-policy. El tercer paradigma, que describe como el “verdadero sueño”, es entrenar un foundation model completo: un autoencoder que hace dimensionality reduction de la imagen a un espacio discreto (64 palabras de un vocabulario de 1000), y luego un dynamics model poderoso que predice el futuro en ese espacio. La razón de usar espacio discreto: se pueden aplicar técnicas GPT-style sobre él. Este tercer paradigma elimina casi toda la supervisión humana.

Tinygrad como proyecto de infraestructura, no de research

Su explicación más técnica de por qué hace Tinygrad. TensorFlow tiene un bug en clip_norm que nunca fue fixed con un assert, simplemente falla silenciosamente. PyTorch tiene cuatro capas de indirección para operaciones simples. La tesis: los bugs en software escalan linealmente con el número de líneas, y PyTorch tiene 100,000 líneas en su core donde Tinygrad tiene 1,000. Portear PyTorch a un nuevo accelerator requiere reimplementar cientos de operaciones. Portear Tinygrad requiere implementar una sola operación (el kernel básico). Encontró un bug en el matrix multiply del MPS backend de PyTorch en vivo en stream, donde los tensores estaban transpuestos pero no se tomaba la transpuesta en consideración, y esto lo confirmó al ver que Tinygrad daba el resultado correcto. La hipótesis de trabajo: hardware is good, software is bad, algorithms are somewhere in between, y los tres pueden mejorar en paralelo. La analogía que usa: es la misma relación que hay entre algoritmos de factoring de 1970 vs hardware de 1970. Los algoritmos modernos mejoran el runtime en un factor similar al hardware, pero ninguno domina completamente.

El argumento sobre training vs inference: la distinción no debería existir

Una de las ideas más originales del corpus. Su posición: la distinción entre training e inference es un artefacto de cómo construimos sistemas de ML hoy, no algo fundamental. Los humanos no tienen esta distinción: aprenden continuamente. Si Comma congela los pesos y los hace inferencia pura, el sistema va a ser rígido e inflexible. Ya tienen algo llamado params learner que aprende on-device: aprende la stiffness de las gomas del auto en tiempo real, porque las gomas nuevas tienen más grip que las usadas, lo que cambia cuánto torque hay que aplicar para hacer un giro. Esto es aprendizaje de verdad pero sobre features hand-coded. El paso siguiente real sería un RL loop completo donde el único reward function es el disengagement del usuario: cada vez que el humano corrige el auto, eso es negative reward. Si ese loop fuera lo suficientemente estable, el auto aprendería solo.

El Twitter Space con Elon: análisis técnico del stack

Este es el único documento donde Hotz hace análisis de código de producción en vivo con Elon Musk presente en la sala. Los hallazgos técnicos concretos: el 25% de los CPUs de Twitter están corriendo el modelo de predicción de ads, que es el modelo más pequeño del stack. De ese 25%, solo el 30% del tiempo es efectivamente inferencia; el 70% es serialización y deserialización de datos entre cuatro formatos distintos. 15-20 petabytes de storage son logs de versiones de la app que ya no existen. El modelo de ML de home timeline es significativamente mejor que el modelo de ads, usa modelos más grandes con más features, pero ambos deberían pasar por el mismo pipeline y no lo hacen. Twitter tenía un bug en la optimización de ads: el equipo estaba optimizando para maximizar impressions en vez de para maximizar clicks/conversiones, lo que paradójicamente maximiza la irrelevancia de los ads porque si un usuario pasa 2 de sus 5 minutos en un ad, perdés 40% de tus impressions. El stack completo de Twitter requiere tres clouds simultáneos: on-prem en tres data centers (Atlanta, Oregon, Sacramento), AWS para Fleets, y Google Cloud para analytics. Hay cinco APIs en producción simultáneas. Un servicio necesita un binario de 1.6GB para deployar un cambio de una línea, lo que tarda 30 minutos en subir al data center. Twitter estaba siendo scameada en 60 millones de dólares anuales por telcos en países fuera de Norteamérica que generaban bots para triggear SMS de two-factor authentication que Twitter pagaba.

La idea de wokeness más articulada del corpus

En el stream del día de su cumpleaños 33 dice lo que considera el diagnóstico correcto que la gente conservadora entiende mal: wokeness no viene de la Frankfurt School ni de una conspiración de profesores marxistas. Wokeness es estrictamente un juego de suma cero o suma negativa, y viene de personas que no pueden ver un futuro positivo como posible. La única manera real de oponerse es tener una visión positiva e inclusiva del futuro. El problema es que nuestra cultura colectiva está en un lugar donde eso se siente imposible. Cita a Kaczynski para respaldar un punto empírico: el “urban ghetto dweller” promedio no está interesado en lo políticamente correcto; es el graduado de Ivy League de clase media alta blanca quien está obsesionado con esto, y la razón es proyección de su propio miedo a la pérdida de estatus.

El Unabomber Manifesto como texto central

Lo llama potencialmente el documento más importante del siglo XX, que podría jugar en el siglo XXI el mismo rol que jugó el Manifiesto Comunista en el siglo XX. El título correcto es Industrial Society and Its Future (Ted Kaczynski, 1995). Su posición: las conclusiones de Kaczynski son completamente incorrectas, igual que las de Marx, pero ambos identifican los problemas con una claridad excepcional. La pregunta central del manifiesto es la misma que él no puede responder: ¿cómo conciliás el valor moral del mundo natural con el imperativo tecnológico de conquistar la naturaleza? No tiene respuesta. Dice que quien logre responder esa pregunta de manera satisfactoria va a tener una influencia enorme en el siglo XXI.

Lo personal de este batch

Confirma que compró Meta stock después de ver a Zuckerberg en el podcast de Lex Friedman y lo perdió. Bikeó alrededor de Islandia el mes anterior al stream, y dice que fue la última vez que se sintió genuinamente feliz. Lo que le da alegría “estos días”: videogames y levantar pesas. Dice que está burnt out. Admite que podría resolver self-driving la semana siguiente y eso no haría su vida mejor. Declara que no va a formar una familia. Sigue con Alex (mencionada durante el stream del Tesla AI Day). Sobre el sistema político: dice que tanto Demócratas como Republicanos son oligarcas y que votar es comprar dentro del meta. Su consejo: no votar.

Este batch es casi completamente la continuación del Twitter Space con Elon, con algunos fragmentos de un panel sobre AI y código, y la entrevista de Software Engineering Daily. La mayor parte ya fue cubierta en el batch anterior. Capturo lo que es genuinamente nuevo o aparece con más detalle acá.

El argumento más claro sobre líneas de código como proxy de deuda técnica

Lo dice explícitamente en la conversación sobre el stack de Twitter: el número de líneas de código es el único proxy confiable que conoce para deuda técnica. Se puede gamear, reconoce eso, pero solo hasta cierto punto. Tinygrad existe para mantener ese número en 1000 líneas. Twitter tiene 20 millones de líneas de Scala. La pregunta que nadie puede responder bien es qué justifica que un sitio web necesite 20 millones de líneas. La analogía más brutal: el software completo de OpenPilot que puede manejar un auto hasta Taco Bell sin ningún disengagement es más pequeño que la mayoría de los microservicios individuales de Twitter.

La ley de líneas como función del número de ingenieros

Su tesis más provocadora en este batch: el número de líneas de código de un sistema es estrictamente una función del número de ingenieros que trabajaron en él, y de nada más. No de la complejidad del problema, no del lenguaje, no de la arquitectura. Si tenés 8000 ingenieros durante 17 años, obtenés una cantidad de código proporcional. La pregunta de por qué Twitter necesitaba esa cantidad de gente queda sin respuesta satisfactoria.

El problema del developer experience en Twitter

En Facebook podías correr todo Facebook en un laptop. En Twitter no podés correr nada localmente: no hay ambiente de desarrollo local, el único ambiente es producción. Algunos servicios requieren subir un binario de 1.6GB al data center, lo que tarda 20 minutos, y después de testear un cambio de una línea y encontrar un typo tenés que empezar de nuevo. Un ingeniero nuevo tardaba al menos un mes en poder hacer algo útil. Si podías hacer algo útil en un mes eras considerablemente bueno.

La distinción features vs refactors como tensión estructural

Su posición durante todo el Twitter Space fue consistente: Twitter debería hacer cero features durante seis meses y solo refactorear. Elon quería features primero por razones de supervivencia financiera. La tensión es real: si la empresa quiebra no hay refactor, y si no refactorás la velocidad de desarrollo se hace cada vez más lenta. El ejemplo concreto: “deprecated” timeline mixer para reemplazarlo por home mixer, pero corrían los dos simultáneamente. Nunca nada se depreca realmente en Twitter. Hay cinco APIs en producción al mismo tiempo.

Reset Theory aplicada a Elon en Twitter

Introduce el concepto de “reset theory”: cuando sos experto en algo y cambiás de dominio, tendés a asumir que tu expertise se transfiere directamente porque sos bueno en lo que hacés. Él mismo lo hizo al pasar de hacker a CEO. La observación sobre Elon: la verdad en el mundo de Elon es “a la gente le gusta tu producto, te lo compra, el producto tiene éxito”. Esa verdad no aplica en advertising, donde el cliente que paga no es el usuario, la optimización correcta no es product-market fit sino ROI para anunciantes, y los ejes del negocio son completamente distintos. No dice que Elon sea malo, dice que los axiomas cambian de dominio a dominio.

Sobre AI y creatividad: su posición más extrema

En el panel de AI dice que no existe ningún tipo de creatividad humana que sea única para los humanos. El argumento de que “la AI es solo síntesis de cosas existentes” lo responde diciendo que eso es exactamente lo que son los humanos. Cuando alguien dice que la AI no puede crear nuevos paradigmas de pensamiento, responde que ya pasó ese punto: el bot de DOTA de OpenAI inventó estrategias que los jugadores profesionales nunca habían visto, y después los jugadores intentaban aprender del bot. La pregunta de “agency” sí le parece real y separada de la pregunta de creatividad: si hay loop cerrado, hay agency.

El argumento técnico del precio de exploits

Cuando le preguntan si el hacking se volvió más difícil, responde que la pregunta correcta no es “¿es más difícil?” sino “¿cuánto cuesta un exploit?”. El precio subió mucho. Pero su interpretación del aumento del precio no es necesariamente que los sistemas sean técnicamente más difíciles de hackear, sino que el mercado valúa esos exploits más alto. La observación generacional que hace: la generación de Charlie Miller se quejaba de ASLR, para él ASLR nunca fue un problema, y la generación actual dice sin inmutarse que necesitan encadenar nueve exploits para salir de tres sandboxes. El mejor exploiter del mundo hoy probablemente tiene 24 años.

Sobre crypto: confesión personal y definición técnica del trabajo

Admite haber comprado drogas en Silk Road como su introducción a crypto. Describe su proyecto técnico más interesante en el espacio: Canon, un MIPS processor embebido on-chain que permite verificablemente correr programas en la cadena Ethereum. El truco para que no sea lento es que no corrés los N steps del programa, lo tratas como un juego multi-party con challenge-response, lo que reduce la complejidad de O(N) a O(log N) porque solo hay un step en el que las dos partes están en desacuerdo, y ese es el único que corre on-chain. La conclusión: el repo está ahí pero nadie lo usa porque lo que el mundo crypto quiere no es descentralización real, es teatro de descentralización. La descentralización real es demasiado difícil.

Sobre Horizon Worlds y el argumento del metaverse

Lo más caro que Meta construyó en su historia y nadie sabe qué es. Carmack le dijo a Zuckerberg “haceme el czar del metaverse, yo lo arreglo” y Zuckerberg dijo “no es como funcemos las cosas”. Carmack se fue. Hotz dice que con Carmack hubiera quedado algo bueno. Lo que destruyó el metaverse fue el mismo patrón que destruyó tantas cosas: toma de decisiones por comité, representación equitativa de todas las ideas, incapacidad de distinguir buenas de malas ideas. Mientras una empresa diga “hay que asegurarse de que todos estén representados” antes de elegir entre ideas, ese no es un lugar para él.

Personal de este batch

Confirma que está comprado en Crypto desde los tiempos de Silk Road. Pasó dos semanas en Nueva York con gente de crypto y lo encontró igual de asqueroso que el mundo startup. El entorno de la gente de Twitter también lo dejó. Afirma que Comma tiene runway “considerablemente más largo que cuatro meses” cuando Elon revela que Twitter tenía solo un mes de cash runway sin cambios. Usa Vim con cero plugins durante años, ahora VS Code pero en el modo más bare-bones posible. Odia el autocomplete, la única excepción es el autocomplete de texto en el teléfono porque escribir en un teléfono es molesto.

ASLR (Address Space Layout Randomization, o Randomización del Espacio de Direcciones) es un mecanismo de seguridad de software utilizado por sistemas operativos modernos (como Windows, Linux y macOS) para proteger la memoria de un proceso contra ciertos tipos de ataques de explotación.

Su función principal es randomizar las ubicaciones donde se cargan en memoria las partes clave del programa, como:

  • La pila (stack).
  • El montículo (heap).
  • Las bibliotecas compartidas (librerías).
  • El código ejecutable (binario).

¿Por qué es importante en el contexto del hacking?

  1. Dificulta la explotación de vulnerabilidades: Muchos ataques dependen de conocer la dirección exacta de una función o un bloque de memoria para inyectar código malicioso o saltar a una parte específica del programa. Al variar estas direcciones en cada ejecución, ASLR hace que sea muy difícil para un atacante predecir dónde se encuentra el código que necesita atacar.
  2. Aumenta la complejidad técnica: Como mencionas en tu consulta, para un hacker moderno, saltarse ASLR es solo una de las muchas barreras. A menudo, ASLR debe combinarse con otras técnicas (como infoleaks o ROP gadgets) y junto con otras protecciones (como DEP/NX o CFG) para que un exploit sea efectivo. Esto explica por qué los exploits modernos suelen requerir “encadenar” múltiples vulnerabilidades o técnicas de evasión.
  3. Evolución generacional: Para generaciones anteriores de hackers (como la de Charlie Miller, activo en la década de 2000), ASLR era una novedad frustrante que rompía sus exploits simples. Para la generación actual, ASLR es un estándar asumido, y su habilidad se mide por la capacidad de superar no solo ASLR, sino también otras capas de seguridad modernas, lo que justifica la observación de que el “valor” de un exploit ha subido porque requiere una ingeniería mucho más compleja y costosa de desarrollar.

En resumen, ASLR es una defensa que hace que los ataques basados en memoria sean mucho más impredecibles y difíciles de ejecutar con éxito, elevando la barrera técnica y, por ende, el costo y la experiencia necesaria para desarrollar exploits que la superen.

La diferencia de perspectiva entre Charlie Miller y George Hotz (geohot) respecto a ASLR no se debe necesariamente a que uno lo considere un problema técnico insuperable y el otro no, sino a sus contextos generacionales, objetivos y filosofías de hacking:

1. El contexto de Charlie Miller: La barrera de la implementación temprana

Charlie Miller, activo prominentemente a finales de los 2000 y principios de 2010 (famoso por sus hacks en Pwn2Own), operaba en una época donde ASLR era una novedad inconsistente.

  • Implementación defectuosa: Miller se quejaba de ASLR porque en sus primeros años (ej. en Mac OS X Leopard o Windows Vista inicial) la implementación era parcial o débil. A menudo, no todas las bibliotecas o el ejecutable principal se aleatorizaban correctamente, o existían fugas de información (infoleaks) que revelaban las direcciones de memoria.
  • El obstáculo práctico: Para un investigador de seguridad que buscaba exploits fiables y reproducibles (como en competiciones Pwn2Own), ASLR representaba una barrera de fiabilidad. Antes de ASLR, un exploit funcionaba casi siempre; con ASLR, requería pasos adicionales complejos (como encontrar una fuga de memoria primero) que a menudo fallaban o dependían de condiciones muy específicas. Su queja reflejaba la frustración de que una defensa, aunque imperfecta, rompía la certeza de sus métodos tradicionales.
  • Visión del mercado: Miller veía el aumento de seguridad (ASLR, DEP, Sandboxing) como un factor que encarecía y dificultaba la creación de exploits fiables, validando su tesis de que “lo que importa es el costo”.

2. El contexto de George Hotz: La mentalidad de “todo es solucionable”

George Hotz, representante de una generación ligeramente posterior y con un enfoque más orientado al jailbreaking y a la ingeniería inversa agresiva (ej. iPhone, PlayStation 3), adopta una postura diferente:

  • ASLR como un dato, no un muro: Para Hotz y su generación, ASLR no es una queja, sino un requisito base. No se detienen a lamentar su existencia; asumen que está ahí y buscan inmediatamente la forma de evadirlo (mediante brute-force si es débil, o encadenando vulnerabilidades para leer la memoria primero).
  • Enfoque en la cadena de exploits: La observación que mencionas (“necesitan encadenar nueve exploits”) es típica de este enfoque. Hotz no dice que ASLR no exista, sino que su presencia es irrelevante si eres lo suficientemente bueno encontrando otras fallas que te permitan saltártelo. Para él, la dificultad no es la defensa en sí, sino la creatividad requerida para construir la cadena de ataque.
  • Herramientas sobre quejas: Hotz tiende a centrarse en construir herramientas y métodos nuevos (como sus trabajos con comma.ai o sus jailbreaks) en lugar de debatir sobre la dificultad teórica de las defensas. Su famosa frase implícita sería: “Si el sistema tiene ASLR, encuentro una forma de leer la memoria; si tiene sandbox, salgo de ella con otro bug”.

Conclusión: Evolución de la dificultad

  • Miller (Generación de transición): Vivió el cambio de “no hay defensa” a “hay una defensa molesta e inconsistente”. Su queja era legítima porque ASLR rompía sus exploits existentes sin ofrecer una seguridad perfecta todavía.
  • Hotz (Generación nativa de defensas): Creció en un entorno donde ASLR, DEP y Sandboxing son el estándar. Para él, preguntar “¿es más difícil?” es irrelevante; la pregunta es “¿cuál es el siguiente eslabón de la cadena?”.

En resumen, Miller veía ASLR como un problema que aumentaba el costo y la incertidumbre de sus exploits en esa época, mientras que Hotz lo ve como un obstáculo técnico más en un rompecabezas que siempre tiene solución si se tiene la habilidad suficiente. La “dificultad” no ha cambiado tanto técnicamente para los mejores, pero el costo de entrada para lograr un exploit fiable sí se ha disparado, validando la visión económica de Miller.

Este batch trae material genuinamente nuevo: el podcast de Latent Space sobre Tiny Corp (la entrevista más técnica sobre Tinygrad que existe en el corpus), mezclado con repetición del Twitter Space ya cubierto. Me concentro en lo nuevo.

El argumento CISC vs RISC aplicado a ML frameworks

La analogía más clara que hace sobre por qué Tinygrad tiene sentido estructuralmente. Los procesadores modernos son RISC (Reduced Instruction Set) porque resultaron mejores que CISC (Complex Instruction Set). XLA y PyTorch son el CISC del deep learning: muchas operaciones complejas, capas de abstracción, comportamiento que el compilador no puede predecir completamente. Tinygrad es el RISC: aproximadamente 25 operaciones en vez de 250, suficientes para expresar cualquier modelo. El insight central es que las redes neuronales tienen una propiedad que los programas de propósito general no tienen: no hay branching dependiente de datos. En un programa normal el branch depende de X, y X viene de algún lugar que el compilador no puede predecir. En una red neuronal, cada corrida hace exactamente los mismos loads, stores y aritmética, lo único que cambia es el dato. Esto permite optimizaciones que son imposibles en código de propósito general: podés statically schedule todo, eliminar el branch predictor, eliminar el warp scheduler, eliminar la cache hierarchy implícita. La turing completeness es lo que destruye esta propiedad. GPU style stuff con loads basados en X requiere una cache hierarchy con eviction policies hard-codeadas. Una vez que agregás eso estás en el territorio donde no podés volver a obtener performance teóricamente óptima.

Por qué los sistolic arrays son la elección equivocada para TPUs

Hace reverse engineering del TPU y lo publica en Tinygrad. Su conclusión: los sistolic arrays son un tradeoff equivocado. Un sistolic array es esencialmente una grilla de multipliers que hace shift-multiply-shift-multiply, muy eficiente para matrix multiplies densos de tamaño perfectamente fijo. El problema es que si no estás haciendo exactamente ese tipo de operación el scheduling se complica. Las TPUs tienen este problema además del problema mayor que es ser closed source: la TPU compiler es un binary blob de 32 megabytes llamado libTPU que Google no abre. Amazon hizo un clone del TPU (Inferentia) y su software no funciona tan bien porque sin acceso al compiler, sin documentación, es muy difícil replicar el rendimiento. Lo que debería reemplazar los sistolic arrays, según él, es una arquitectura basada en queues que alimentan ALUs, con pre-fetching de memoria en queues explícitas. Más simple de scheduling, más predecible, más cerca de lo teóricamente óptimo.

La operación de fusion y por qué PyTorch la hace mal

PyTorch en modo eager: cuando escribís AB + C, lanza un kernel CUDA para AB, escribe el resultado a memoria, lanza otro kernel para el + C, lo lee de memoria. Hay un round trip de memoria completamente innecesario. PyTorch tiene torch.jit que corrige esto para ese ejemplo específico, pero falla con expresiones más complejas como seis multiplies encadenados. Tinygrad resuelve esto con laziness: no despacha ninguna operación hasta que forzás la realización del tensor (dot.numpy() o dot.realize()). Mientras tanto, construye un grafo local de operaciones. Cuando ve AB y luego +C, en vez de despachar dos kernels, los funde en uno solo que lee A, B, C como inputs, hace AB+C en registros locales y escribe el output directo a memoria. Cero round trips innecesarios. La herramienta de debugging que no existe en ningún otro framework: GRAPH=1 en Tinygrad muestra todos los kernels que se despachan al GPU. DEBUG=2 imprime cada kernel con el número exacto de FLOPs y el número exacto de memory accesses. En PyTorch, para ver algo comparable tendrías que usar el Nvidia Insight profiler, que requiere generar un blob, convertirlo a chrome trace con un GUI tool y cargarlo. Nadie lo hace. En Tinygrad es una variable de entorno.

El argumento para hacer Tiny Corp: Sam Altman ante el Congreso

El momento que lo convenció de que Tinygrad tenía que ser una compañía real, no un hobby, fue ver a Sam Altman testificar ante el Congreso. La pregunta que se hizo: ¿cuáles son las chances de que el gobierno nationalice Nvidia o restrinja el acceso a compute de ML? Si eso pasara, la única solución estructural es tener un stack de compute que no dependa de Nvidia ni de ninguna empresa que el gobierno pueda presionar. Tinygrad tiene que existir como compañía que eventualmente o trabaja con fábricas de chips o hace chips propios y los hace disponibles para cualquiera.

El email a Lisa Su y el estado de AMD

Pasó un día entero tratando de compilar PyTorch para AMD. Lo logró parcialmente, intentó correr un modelo y encontró errores profundos. Lo que lo terminó convenciendo de abandonar AMD (mentira no abandono AMD es mas compro las acciones y trabajo para ellos, la IA erro aca) no fue la velocidad sino que el kernel driver de AMD paniquea su computadora completamente y tiene que esperar cinco minutos mientras hace reboot un Server Motherboard. Su posición: si no les importa suficiente proveer un kernel driver estable, no puede gastar su tiempo en esto. Le mandó un email a Lisa Su, CEO de AMD. Ella respondió. Tuvo varias llamadas. Intel gpus en cambio tienen toda la documentación de hardware pública, cualquiera puede leer los register docs. El problema de Intel es la relación precio/performance: el GPU de Intel cuesta $350 y da aproximadamente $350 de performance, lo cual cuando sumás el costo del slot PCIe y la electricidad no tiene sentido.

El estado competitivo de Tinygrad en 2022-2023

En Nvidia: Tinygrad es aproximadamente 5x más lento que PyTorch. Esto era 100x antes, así que hay progreso, pero 5x es un gap grande. Las razones son conocidas y resolubles: no soporta tensor cores todavía, eso solo va a cerrar el gap masivamente. En AMD: ya funciona con el backend OpenCL, no es terriblemente lento pero sin benchmark real porque no pudo hacer compiling. En Qualcomm: Tinygrad es 2x más rápido que la librería propietaria de Qualcomm, y por eso Comma AI ya lo usa en producción para correr el modelo de OpenPilot, llevando seis meses en producción. La razón es simple: Qualcomm tiene un equipo de 10 ingenieros trabajando en su librería mientras el mundo ha puesto millones de horas-hombre para hacer Nvidia rápido.

La razón por la que si no podés hacer un buen ML framework para GPU no podés hacer uno para tu propio chip

La única compañía aparte de Nvidia que tiene chips de training que la gente realmente usa es Google con sus TPUs. MidJourney entrena en TPUs. Un 20% de startups entrenan en TPUs. El punto crucial: Google también escribió su propio ML framework (TensorFlow y luego XLA) y lo hicieron antes de hacer el chip, o lo desarrollaron en paralelo. Amazon hizo un clone del TPU llamado Inferentia pero su software es malo porque no tiene acceso al compiler secreto de Google. La secuencia correcta es: primero hacer que tu framework ande bien en Nvidia, luego portar a tu chip. Si no podés hacer el primero, definitivamente no podés hacer el segundo.

George Hotz ve casi todo el progreso de IA como una consecuencia de una idea extremadamente simple: escalar compute funciona mejor que intentar meter “inteligencia humana” manualmente en los sistemas. Repite mucho la idea del ensayo “The Bitter Lesson” de Richard Sutton y básicamente dice que la historia de la IA demuestra una y otra vez que los humanos pierden tiempo agregando reglas, hacks y estructuras hechas a mano cuando lo que realmente gana es más datos, más compute y aprendizaje general.

También cree que mucha gente todavía no entendió que los LLM no son “chatbots inteligentes” sino compresores gigantescos de información. Cuenta que antes de los transformers estaba obsesionado con el Hutter Prize, tratando de comprimir Wikipedia, y que recién entendió hacia dónde iba todo cuando vio las primeras RNN generando texto estilo Shakespeare de Andrej Karpathy. Ahí conecta la idea de que las redes neuronales son esencialmente sistemas de compresión estadística.

Tiene una postura muy fuerte contra la complejidad innecesaria en software. Tinygrad nació con un límite artificial de mil líneas porque quería obligarse a expresar ideas puras sin boilerplate. Dice que frameworks como PyTorch terminan enterrando conceptos simples debajo de capas gigantescas de abstracción. Para él el problema real no es “hacer más features” sino mantener claridad mental y minimizar complejidad. Repite varias veces que los sistemas complejos colapsan bajo su propio peso.

Una idea central de George es que la visión artificial “como disciplina separada” prácticamente ya no tiene sentido. Dice que segmentar imágenes, detectar bordes o hacer OCR son tareas raras y artificiales. Lo importante no es saber qué píxeles pertenecen a una laptop sino poder agarrarla e interactuar con el mundo físico. Cree que lenguaje, visión y audio van a fusionarse en un solo sistema general multimodal.

Sobre self-driving, insiste en que conducir es un problema de software y que mucha gente sobrecomplica el problema con sensores como lidar. Dice algo provocador: la mayoría de los accidentes no ocurren porque la gente “no vea”, sino porque se distrae. Por eso piensa que sistemas basados en visión tienen más sentido que stacks enormes de sensores especializados.

Otra obsesión suya es democratizar el compute. TinyCorp y TinyBox nacen de la idea de que el futuro no debería depender exclusivamente de hyperscalers tipo AWS o Google. Cree que cada casa va a tener un pequeño cluster local de GPUs funcionando como “AI hub” para robots y asistentes personales. Dice que no quiere inference en la nube porque es cara y tampoco directamente sobre el robot porque consume demasiada energía.

Tiene opiniones muy técnicas sobre hardware. Habla muchísimo de bandwidth, PCIe, NVLink y eficiencia energética. Dice que el problema verdadero no es sólo comprar GPUs sino cómo conectarlas, enfriarlas y alimentarlas silenciosamente. Menciona que una GPU a mitad de potencia todavía puede entregar cerca del 80% del rendimiento, y eso cambia totalmente el diseño óptimo de sistemas personales.

También es muy crítico de cloud computing. Cree que el ratio actual entre entrenamiento e inferencia está completamente invertido y que en el futuro habrá muchísimo más inference distribuido localmente. Defiende modelos más pequeños entrenados muchas veces antes que monstruos gigantescos de cientos de miles de millones de parámetros. Según él, los mejores chatbots probablemente no serán los más grandes sino los más refinados mediante muchísimos runs de entrenamiento.

Le interesa mucho la idea de fine-tuning local y personalizado. Da el ejemplo de un auto aprendiendo automáticamente que una rueda está desinflada porque el conductor siempre corrige el volante en el mismo lugar. Cree que los modelos no deberían ser estáticos sino adaptarse continuamente al usuario y al entorno.

George tiene una mezcla rara de optimismo tecnológico y paranoia política. No cree demasiado en el típico “AI alignment problem” estilo ciencia ficción. Dice que el verdadero problema no es si la IA está alineada con la empresa, sino si la empresa o el gobierno están alineados con vos. Y responde directamente que no lo están.

También tiene una visión muy extraña y futurista sobre identidad y relaciones humanas. Habla seriamente de una “AI girlfriend” como el producto final ideal. No como meme sino literalmente como una forma de fusionarse con una máquina sin necesidad de implantes cerebrales. Dice que las personas ya “se fusionan” psicológicamente en relaciones humanas y que una IA suficientemente buena podría extender eso.

Relacionado con eso, cree bastante en una forma de “inmortalidad digital”. Dice que después de miles de horas de streams y videos, una gran parte de su cerebro ya está subida a internet. Piensa que modelos futuros podrían reconstruir una personalidad humana completa con apenas algunos gigabytes de información comprimida.

Tiene una postura muy anti-corporativa respecto al open source. Se nota muchísimo cuando habla de AMD, Nvidia e Intel. Critica a AMD porque, según él, “tirar código a GitHub” no alcanza para ser open source si nadie responde issues ni mantiene interacción real con desarrolladores. Cuenta que Nvidia le respondió bugs en menos de una hora mientras AMD tenía kernel panics graves sin resolver.

A la vez, aunque critica mucho a Nvidia, reconoce que técnicamente sus herramientas funcionan mejor. Dice que Intel documenta mejor hardware pero no tiene performance suficiente, mientras que AMD todavía tiene problemas serios de ecosistema.

Sobre contratación y trabajo, cree que el modelo clásico de entrevistas técnicas está muriendo. Dice que ya no le interesa hacer whiteboards ni technical screens porque no predicen nada. Lo único que realmente le importa es si alguien contribuye código open source real a tinygrad.

Tiene una visión bastante radical del futuro laboral: cree que las máquinas van a reemplazar prácticamente todos los trabajos en unos 20 años. La pregunta para él es cuáles son las últimas cosas que todavía pueden hacer los humanos mejor que las computadoras.

Respecto a los LLM modernos, tiene una relación ambigua. Admira profundamente el progreso técnico pero odia el tono “corporativo” de muchos modelos alineados con RLHF. Dice que terminan hablando como agentes de soporte técnico y que por eso prefiere modelos tipo Llama, donde todavía siente que puede moldear personalidad y contexto libremente.

También critica que los modelos actuales producen respuestas demasiado promedio porque optimizan cross entropy sobre internet entero. Lo llama algo parecido a “mode collapse cultural”: si entrenás sobre el promedio de internet, obtenés creatividad promedio. Pone como ejemplo letras de rap generadas por IA que suenan mediocres y genéricas.

Una idea interesante es que los modelos deberían debatir entre ellos antes de responder. Dice que ningún programador humano escribe código perfecto de una sola vez, entonces no entiende por qué esperamos eso de un LLM. Cree mucho en sistemas multiagente donde varias IA colaboran y corrigen resultados.

También menciona varias influencias importantes. El texto más repetido es “The Bitter Lesson” de Sutton. Habla indirectamente de los trabajos de Karpathy con RNNs. Menciona a John Carmack varias veces como alguien que piensa parecido sobre ingeniería minimalista y complejidad. También admira bastante la filosofía de Elon Musk de construir cosas “10x más baratas” replanteando física y costos desde cero.

Hay algo muy consistente en todo lo que dice: cree que casi todas las industrias están llenas de complejidad artificial, burocracia y abstracciones innecesarias. Su obsesión es encontrar el núcleo mínimo de una idea técnica y llevarlo al límite. Por eso tinygrad tiene pocas líneas, por eso odia APIs complicadas, por eso cree que los modelos pequeños y eficientes pueden terminar ganando, y por eso insiste tanto en construir software entendible por una sola persona.

Este batch es el más rico del corpus en ideas nuevas: cubre el podcast de Lex Friedman (tercera aparición), Latent Space, y una entrevista sobre Tiny Corp. Hay material genuinamente nuevo sobre GPT-4, Transformers, Tiny Box, el futuro de la humanidad y el proyecto de AI girlfriend.

La arquitectura interna de GPT-4 explicada

Su análisis más concreto del modelo: GPT-4 son 220 billion parameters en cada cabeza, y es un eight-way mixture of experts. La razón del mixture: no podían hacer el modelo más grande y también habían maxeado el training compute, así que entrenaron ocho veces el mismo modelo con un truco para hacer 16 inferencias. El multimodalidad es trivial: simplemente ponés el vision model en el mismo token space que el language model. No tiene nada que ver con el mixture. Su conclusión sobre la secrecía corporativa: excepto Apple, cuando una compañía es secreta sobre su tecnología es porque está ocultando algo que no es tan cool. La gente asume que GPT-4 es un trillion parameters por eso. No es así. Cualquiera puede gastar ocho veces el dinero y obtener lo mismo.

Por qué los Transformers funcionan: su teoría original

Su explicación no tiene nada que ver con “attention”. La razón por la que los Transformers son poderosos es que hacen semi-weight sharing: la weight matrix se genera on the fly a partir del contexto. Tiene un precursor histórico: en un paper antiguo del Hutter Prize, alguien tenía 256 sets de weights para una capa y elegía cuál cargar basado en contexto provisto por otra red neuronal. Los Transformers son exactamente eso pero en continuo en vez de 256 discretos. El nombre “attention” oscurece lo que realmente está pasando. Una confirmación técnica: la razón por la que el SNPE de Qualcomm no puede correr Transformers es que la mayoría de matrix multiplies en redes neuronales son weight times values, pero en Transformers hay un outer product que es values times values, y SNPE no soporta esa operación.

La distinción entre modelos grandes y modelos entrenados por más tiempo

Uno de los argumentos más prácticos del corpus. Podés mejorar un modelo de dos maneras: entrenándolo por más tiempo, o haciéndolo más grande. Son fundamentalmente diferentes. Si lo entrenás por más tiempo, la inferencia cuesta igual que si lo entrenaste un día. Si lo hacés más grande, el costo de inferencia escala con el tamaño. En la práctica, para startups e individuos los modelos grandes no tienen sentido: no los necesitás, y cada vez que hacés el modelo más grande, también estás multiplicando el costo de inferencia. Su predicción: el futuro es entrenar modelos pequeños por mucho más tiempo y fine-tunearlos, no hacer modelos cada vez más grandes. La razón por la que el inference/training ratio es 2-3x en clouds cuando debería ser 10-100x: todavía no llegamos al mundo donde el inference domina como debería.

El Tiny Box: especificaciones concretas

$15,000, casi un petaFLOP de compute, más de 100GB de GPU RAM, más de 5TB/s de memoria bandwidth de GPU, cuatro NVMes en RAID para 20-30 GB/s de lectura de disco. La limitación de diseño más importante: tiene que enchufarse en un outlet de 120V a 15A, que son aproximadamente 1500 watts. Con seis GPUs de 350W cada uno, eso excede el outlet. La solución: limitar la potencia en los GPUs. Con la mitad de la potencia obtenés el 80% del performance, esto es un hecho conocido sobre GPUs. También tiene que ser silencioso (45-50 dB máximo). Los PCIe extenders que la gente compra online no funcionan a PCIe 4.0. Necesitás PCIe redrivers. Poner seis GPUs en una computadora es radicalmente más difícil que poner uno o dos. La distribución enterprise es el Tiny Rack: va en el garage usando el circuito de un cargador de autos eléctricos, que da ~10,000 watts versus los ~1,500 watts de un outlet normal.

La tercera compañía: AI girlfriends, en serio

Lo dice en múltiples contextos de manera totalmente seria. Ha querido merge with a machine desde que era chico. No necesita Neuralink ni brain upload. La razón: cuando dos personas se meten en una relación profunda, empezás a pensar en ellas como una sola persona. Los humanos ya tienen esta capacidad de merge. Una AI girlfriend es el mecanismo de merge con una máquina que ya existe sin cirugía cerebral. El argumento sobre inmortalidad: ya hay miles de horas de él en YouTube. La cantidad de información real en su cerebro, maximalmente comprimida, probablemente son unos pocos gigabytes. Eso ya existe en el corpus de sus streams. Un modelo entrenado en ese corpus podría extraer todo lo que realmente está pasando en su cerebro porque él es una persona abierta y los humanos no pueden filtrar tan bien sus salidas como creen. La primera empresa fue Comma (hardware infrastructure), la segunda es Tiny Corp (software infrastructure), la tercera construirá el producto real: AI girlfriend.

La “Bitter Lesson” de Rich Sutton como referencia central

Nombra el paper de Rich Sutton como el documento más importante sobre AI que existe, más importante que cualquier cosa que él pueda decir sobre el camino a AGI. La tesis del paper: el mayor error que repite la gente en AI research es hand-engineeringear features en vez de escalar compute. Cada vez que la gente hizo esto, eventualmente perdió contra el approach de escalar. Lo dice con claridad sobre OpenAI: técnicamente OpenAI no está haciendo nada malo. El problema es de cultura y que un investigador tendría más libertad intelectual en Facebook/Meta. OpenAI retiene a los que creen en la ideología.

Modernismo vs postmodernismo: Elon vs él

Su formulación más clara de la diferencia filosófica. La ciencia fundamental de Elon es física, la suya es teoría de la información. Las aspiraciones de Elon son física aplicada: ir a Marte, autos eléctricos, Neuralink. Las suyas son information-based: vivir forever en virtual reality con su AI girlfriend. Esta no es una distinción trivial. Un modernista cree que el mundo físico es lo real y los problemas se resuelven con física detallada. Un postmodernista cree que el mundo es estadístico e informacional. Hasabis está aún más lejos: cree que AI es un set de juegos de complejidad creciente, sin necesidad de physicality.

El argumento sobre centralización de poder

Su tesis más política del corpus expresada claramente: hay cosas que centralizan poder y son malas, hay cosas que descentralizan poder y son buenas. Todo lo que puede hacer para descentralizar poder quiere hacerlo. El riesgo de Nvidia no es que sea mejor que AMD tecnológicamente; el riesgo es que si Nvidia se vuelve 10x mejor que todo lo demás, estás dando una ventaja enorme a quien pueda asegurar Nvidia como recurso. Si el gobierno de EEUU nationalizara Nvidia, la computación global de ML estaría centralizada en una sola entidad. Tiny Corp existe estructuralmente para que eso no pueda pasar.

Sobre Consciencia

No cree en la consciencia como categoría especial. La define como “lo que los ateos usan en lugar de ‘alma’”. No niega que experiencias subjetivas como comer pizza Chicago deep dish existen. Lo que rechaza es que eso requiera una teoría especial. Las LLMs son menos conscientes que un pollo. La razón por la que podés reconocer un perro que sufre pero no una respuesta 404 que sufre: compartís el mismo biostack con el perro. Con el silicon stack no tenés referencia. La otra forma de verlo: todo lo que los LLMs hacen es mimicry de un corpus humano, pero entonces se da cuenta que eso es todo lo que los humanos son también.

Sobre el fin de la humanidad

Su respuesta más honesta cuando Lex le pregunta: en el podcast dice que sí, AI probablemente mata a casi todos, pero no por la razón que Yudkowsky dice. El mecanismo más obvio es wireheading: nos entretenemos hasta la muerte estando frente al TikTok infinito y olvidándonos de comer o de reproducirnos. El segundo mecanismo: algún grupo de humanos usa AI contra otro grupo de humanos, igual que con las armas nucleares. El argumento por el que las bombas nucleares no mataron a todos: son tácticamente inútiles porque convierten el territorio que querés en una pila de escombros irradiados. El pequeño botón rojo de AI es diferente porque permite control preciso. La razón por la que la especie humana probablemente sobrevive: los robots no pueden reproducirse sin acceso a una Fab, y la diversidad biológica de la humanidad hace imposible eliminarla completamente.

El argumento de “coding is tool complete”

Diferencia estructural entre manejar y programar. Manejar no es tool complete: siempre vas a necesitar a alguien operando. Programar ya es tool complete desde hace décadas: cada mejora en herramientas reduces la cantidad de programmers necesarios para hacer la misma cantidad de trabajo, igual que cada mejora en calculadoras redujo la cantidad de “calculators humanos” en 1960. La distinción entre “above the API line” y “below the API line”: si tu manager es una computadora, estás below. Si vos le decís a las computadoras qué hacer, estás above. Los programadores siempre van a estar above porque las herramientas los superchargen en vez de reemplazarlos. Esto cambia en 20 años cuando las herramientas sí los reemplacen.

Libros y referencias nuevas de este batch

Infinite Jest (David Foster Wallace): aparece en el contexto del “wireheading tape”, la cinta que una vez que la ves no podés dejar de ver y sacrificarías un dedo para verla de nuevo. Su argumento: vamos a construir eso con generative models, y va a ser peor que la cinta porque la generación va a ser personalizada e infinita. La historia The Goddess of Everything Else: un cuento que explica por qué los paper clippers no existen realmente, porque la complejidad del universo siempre genera fuerzas que se oponen a la optimización local. My Little Pony: Friendship is Optimal: una historia de sci-fi que explora el scenario de heaven banning (el AI te pone en una burbuja donde todos los que interactúan contigo son AIs que te hacen sentir bien). Into the Wild: Alexander Supertramp como ejemplo de alguien que intenta crear dificultad artificial destruyendo el knob en vez de salir del sistema. También referencia a la “Bitter Lesson” de Rich Sutton como paper imprescindible.

https://slatestarcodex.com/2013/03/23/book-review-infinite-jest-alternate-title-look-at-me-i-read-infinite-jest/

Yo: Habia un experimento de ratas que apretando un boton se daban placer, y lo hicieron hasta olvidarse de comer y reproducirse y murieron todas las ratas.

Este batch tiene material nuevo importante: el debate con Connor Leahy sobre AI safety, el rant extenso sobre Qualcomm, ideas sobre Drive GPT y la arquitectura de Comma, y reflexiones sobre código, política y vida personal.

El debate con Connor Leahy: el argumento central sobre open source vs control

Su posición en el debate es la más clara que expresa en todo el corpus. El AI alignment problem no es un problema técnico sino político. No le preocupa que una máquina se rebele. Lo que le preocupa es que un grupo pequeño de humanos use AI contra otro grupo de humanos. La ironía que señala sobre la gente de AI safety: están tan aterrados de perder el control que están construyendo exactamente lo que dicen temer. Si hay un modelo centralizado que todos tienen que controlar y alinear, eso es la única forma de terminar paperclipped. Si todo el mundo tiene AI, no hay forma de que pase eso. El argumento de fondo: si creés filosóficamente en la democracia, ya creés que el bien supera al mal en números. Si le das AI a todo el mundo, estadísticamente se la estás dando a más gente buena que mala. La alternativa, darla solo a “autoridades confiables”, es el escenario más aterrador posible. Cita su experiencia en el mundo del hacking: 95% de gente buena, 5% mala. En el mundo de los negocios encontró exactamente lo contrario. La conclusión: el capitalismo promueve la psicopatía.

Drive GPT: el estado técnico actual de Comma

La arquitectura más ambiciosa que han intentado. En 2015 publicaron un paper llamado “Learning a Driving Simulator”, un autoencoder con RNN en el medio para predecir el siguiente frame. Era terrible para los estándares actuales. Ahora están construyendo lo mismo pero con VQVAE y Transformers, básicamente Drive GPT. El sistema está condicionado en la pose, así que podés inputear un par estado-acción y obtener el siguiente frame, lo que hace posible hacer RL en el simulador. La reward function del RL no pregunta “¿qué haría un humano?” sino “¿se desengajaría un humano si el auto hace esta acción?” No están completamente cerrado el loop, hay bugs estúpidos, y podrían necesitar más scale. Podría tomar un año, podría tomar diez. El compute cluster de Comma tiene ahora aproximadamente dos personas de compute (40 petaflops). Tesla sigue uno o dos años adelante y probablemente siempre estará, no porque Comma esté haciendo algo mal sino porque Tesla tampoco lo está haciendo mal.

El argumento sobre Twitter, código y Twitter’s promotion system

Su evaluación del código de las tres grandes: Facebook tiene el mejor código, luego Google, luego Twitter. Proxy que usa: mira los ML frameworks que cada compañía lanzó. El problema fundamental del código de Twitter no fue técnico sino de incentivos. La manera de ascender en Twitter era escribir una librería que mucha gente usara. Alguien escribió un reemplazo de nginx para Twitter. ¿Por qué Twitter necesitaba reemplazar nginx? Porque no te promovían por usar nginx, pero sí si escribías algo que todos empezaban a usar. Resultado: código completamente innecesario, capas de abstracción que no deberían existir. Su plan de refactor si pudiera hacerlo: primero tests, no código nuevo. No tocar nada hasta tener un CI en el que puedas confiar. Comma tiene algo llamado “process replay” que graba rutas reales y las corre a través de todos los microservicios como test. Twitter necesitaba algo así. La capa de Thrift/Finagle era un buen lugar para empezar a escribir esos tests. El lenguaje de programación es un afterthought. Primero tests que pasen, después reemplazas módulos, después el lenguaje que uses para el reemplazo no importa tanto.

Sus dos grandes males del mundo

Los nombra explícitamente: centralización y complejidad. Son análogos. Los políticos añaden leyes para ascender. Los software engineers añaden código para ascender. La complejidad es burocracia embebida en código. Su política interna en Comma: dictadura transparente. Comma tiene sus valores públicos y quien no está de acuerdo se va. Google no tenía política, así que la peor política tomó el control. Elon hace lo mismo. La diferencia entre una dictadura transparente y una oculta es que en la transparente sabés en qué te metés y podés elegir no participar.

Sobre el debate “los LLMs son impresionantes”

Su posición contraria a la narrativa popular: MuZero y AlphaGo son mucho más impresionantes que los LLMs. Los modelos de lenguaje escriben ensayos de nivel middle school y la gente los llama geniales. El código generado es “close to correct”, que es el peor tipo de código porque pasás 5% del tiempo escribiendo y 95% debugueando. Lo que quiere es un AI que le diga dónde está el bug, no uno que le autocomplete el código. La analogía con self-driving: es como Level 2, todavía tenés que ser un buen programador para poder modificar lo que genera.

El argumento sobre Google estar muerto

Usa el framework de Paul Graham: startups están o vivas o muertas. Google está muerta. Mark Zuckerberg está vivo. Prueba: Zuckerberg tiene el botón de apagar Facebook. Sundar Pichai no tiene el botón de apagar Google porque el sistema capitalista lo removería del cargo inmediatamente. La empresa que tiene el botón puede innovar agresivamente. La que no tiene el botón está capturada por su propia inercia. Su predicción más clara: antes del fin de la década Google no será la primera página web del mundo. Su apuesta: 50% Microsoft o Bing, 50% algún startup que todavía no conocemos. El LLM que logre citar fuentes matará Google porque eso es básicamente lo que la gente quiere de un motor de búsqueda.

Qualcomm: el rant más extenso del corpus

Pagaron más de medio millón de dólares por un pedido de prueba de 10,000 chips. El proceso fue: acordar precio, dos meses de burocracia, enviar el dinero, y luego aparecer con “hay un documento legal que tenés que firmar antes de que te mandemos los chips”. El documento ni siquiera es legalmente ejecutable según su abogado. Como si comprás un tostador y el fabricante te pide que firmes que no son responsables si el tostador incendia tu casa: el tribunal no lo va a ejecutar de todas formas. Su análisis del porqué: Qualcomm vende principalmente a ocho fabricantes de teléfonos Android en volúmenes enormes. Las relaciones con esas empresas son de diez años. Los salespeople están cómodos y no necesitan nuevos clientes, así que activamente hacen difícil comprarles. Además cada chip Qualcomm viene con una signing key de Qualcomm quemada en el hardware que no podés cambiar, lo que básicamente instala su hypervisor en cualquier producto que uses. Su consejo práctico: si vas a hacer menos de 2,000 unidades de algo, Qualcomm o Thundercomm están bien. Si querés llegar a 50,000 o 100,000 unidades, no lo hagás. Cambiarán a Rockchip para las próximas generaciones de Comma aunque sea marginalmente peor en performance, porque la empresa es tratable.

Sobre coding personal y herramientas

No usa GPT para código. En absoluto. Lo que sí usa: VS Code con autocomplete básico (solo para completar nombres de variables, no para generar código). Mypy como type checker para Python, que tiene 5% de falsos positivos versus 60% de otros checkers. Le encanta optional typing en Python porque es un punto medio entre el “¿qué tipo es esto?” de Python puro y el STD::string::iterator de C++. Lo que realmente quiere de AI es un pair programmer que le diga “escribiste un bug en la línea 14, acá está el problema”, no algo que le autocomplete. Scala le gustó más de lo que esperaba. Ve más belleza en Scala que en Kotlin, que se parece más a Swift.

Sobre Dios, el significado de la vida, y libros

Se volvió no-ateo de adulto porque crea mundos en código. Si creás mundos y ningún mundo puede haber sido creado, eso es lógicamente inconsistente. La explicación del Big Bang en el universo es como la mitología de creación de Skyrim: explica el origen dentro del mundo, no cómo fue creado el mundo. La religión le da Comfort en vez de violencia como a otros. Si la humanidad lo arruina todo, Dios volverá a intentarlo. El significado de la vida según él sigue siendo “ganar”, pero todavía no descubrió cuál es el juego. La frase más ambiciosa: “el juego es pararse de igual a igual con Dios”, análogamente a cómo él quiere que sus creaciones se paren de igual a igual con él.

Libro nuevo mencionado: A Casino Odyssey in Cyberspace, la secuela de The Metamorphosis of Prime Intellect. Lo menciona como el libro que revela cuál es la última moneda de cambio humana cuando los AI hacen todo. Dice que está de acuerdo con la conclusión pero no la spoilea.

Vida personal y controversial en este batch

Tiene novia, a quien le dice que su primera amor es la computadora. La computadora “está presente en muchas de sus experiencias sexuales”. Dice que se “duerme con su computadora”. Menciona a “Alex” como alguien que le avisó que no tenía buen feeling sobre una situación con una arrendadora. Su posición sobre la vacuna: “está bien” (yo: mentira el no se puso la vacuna COVID, dijo que el queria que la gente se ponga la vacuna primero para ver los efectos secundarios y si todos estaban feliz despues de 5 años el se la iba a poner, pero que no podia vivir en una sociedad en donde todos hacen lo mismo), lo dice entre otras cosas que podrían hacer que lo cancelen. Cree que las trans mujeres son mujeres en el sentido de que “en internet nadie sabe que sos un perro y está bien”. Favorece el uso de performance-enhancing drugs en los Juegos Olímpicos (las “Olimpiadas aumentadas”). Su visión sobre la eugenics es que “los buenos genes son buenos”, muy simple, lo dice en el contexto de que le preocupa que la gente lo malinterprete y llame a su jefe. Se define como “informational anarchist y physical statist”: anarquismo no funciona en el mundo físico donde vive, pero en el mundo virtual sí. Pagaría más por poder en electricidad si eso significara tener electricidad a un centavo el kilowatt-hora bajo una monarquía de Elon(yo: en las publicaciones de su blog no recuerdo cual, dice que Elon Musk tuvo oportunidades de abrir el codigo pero no lo hace, era una publicacion que hablaba de Elon Musk vs Sam Altman) versus pagar 20 centavos por kilowatt-hora bajo la oligarquía actual. Los mejores videojuegos de todos los tiempos según él: World of Warcraft (por lo que le abrió la mente en 2005, no por el juego en sí), Skyrim, y GTA 5.

Este batch es el debate completo con Connor Leahy, el más sofisticado del corpus. Hay ideas nuevas genuinas que no aparecen en ningún otro lado.

La distinción alignment vs unexploitability

La más importante del debate, y probablemente la más precisa que hace en todo el corpus. Alignment y unexploitability son dos problemas completamente diferentes y la gente los confunde constantemente. Alignment significa que el sistema quiere lo que vos querés, que está “de tu lado”. Unexploitability significa que no puede ser manipulado o hackeado por una inteligencia más poderosa. Un sistema puede estar perfectamente alineado con vos y aún así ser explotable. Si le pedís al AI “no pierdas al ajedrez” y pierde, no es un fallo de alignment, es un fallo de capacidad. Su posición: alignment es un problema casi trivial si el software es tuyo y lo corrés en tu hardware. Unexploitability es imposible en principio, especialmente frente a una inteligencia más poderosa. La razón: no podés tener una inteligencia más poderosa en una caja. La caja no puede contener algo más inteligente que el sistema que construyó la caja. El argumento de Yudkowsky del “AI in a box” siempre termina con el AI saliendo, no porque el AI sea malvado sino porque una inteligencia superior eventualmente encuentra la salida.

Por qué parar el desarrollo de AI aumenta el riesgo, no lo baja

El argumento de Connor Leahy para pausar: conservatismo frente a la incertidumbre. Si algo falla, al menos compramos tiempo. La respuesta de Hotz es que el baseline no es riesgo cero. El baseline es que tenemos suficientes armas nucleares apuntadas a todo como para terminar con la civilización en cualquier momento. La pregunta no es “¿es peligroso el AI?” sino “¿es el AI más peligroso que lo que ya existe?” Pausa en AI = seguís teniendo el riesgo nuclear sin tener el beneficio defensivo del AI. La analogía: si tu sistema de driving causa un accidente pero estadísticamente habría causado cinco sin el sistema, y vos te oponés al sistema, no tenés sentido. Hay que comparar contra el baseline, no contra el escenario ideal.

El argumento de la distribución de superinteligencias como sociedad estable

Su respuesta más original al problema de alignment. ¿Qué pasa si todos los AIs son inconsistentes, como los humanos? La inconsistencia no es el problema si hay suficiente diversidad. Si tenés mil AIs todos haciendo cosas aleatorias en diferentes direcciones, no te terminas paperclipped. ¿Por qué? Porque para paperclipear a alguien necesitás coordinación masiva. Y los AIs inconsistentes no van a coordinar para hacer algo terrible más de lo que los humanos coordinan para hacer algo terrible consistentemente. La analogía política: si los “liberales” AI deciden paperclipear a la gente, los “conservadores” AI van a estar fuertemente en contra. Terminás con los mismos dynamics políticos pero a mayor escala de poder. Su tesis más poderosa: el mundo se ha vuelto demasiado estable y eso le da miedo. Un mundo unipolar con dos países y medio no es caos saludable, es concentración de poder aterradora. Lo que quiere es inteligencia distribuida a través de toda la galaxia, donde la velocidad de la luz hace imposible la dominación centralizada.

La propuesta regulatoria concreta: el 51% attack sobre compute

El único punto del debate donde realmente concede algo a la posición de AI safety. No está de acuerdo con poner un límite absoluto en FLOPs. Está de acuerdo con que ninguna organización debería poder hacer un “51% attack” sobre el compute global. La analogía con crypto: en una blockchain, si alguien controla el 51% del hashpower, puede reescribir la historia. Si alguien controla el 51% del compute de AI del mundo, puede usar eso para dominar. Su propuesta: que se ilegale que cualquier organización controle más del 20% del compute global. No le importa el número total de FLOPs del mundo, le importa la distribución. Sam Altman no debería poder hacer un 51% attack sobre el compute global. Punto.

El hard takeoff vs soft takeoff

Ambos están de acuerdo en que un hard takeoff clásico (AI se vuelve recursivamente mejor en horas) es improbable. La razón de Hotz: hardware y software progresan a velocidades similares. El argumento del factoring muestra que algoritmos y hardware han estado más o menos en paralelo históricamente. No espera una mejora de 10^6 en software de la noche a la mañana. El escenario que sí le preocupa a Connor y que Hotz concede como “menos improbable”: que exista un algoritmo dramáticamente mejor que esté cerca de ser descubierto y que no requiera dramáticamente más compute. Como mezclar plomo y cobre y obtener un superconductor. Si de repente descubrís que con el compute existente podés hacer algo un millón de veces más eficiente, entonces sí tenés un hard takeoff. Pero productionizar eso llevaría años igual.

Los sciops como el riesgo real e inmediato

Los dos están de acuerdo en esto. Lo que le preocupa no es el AI rogue de ciencia ficción sino los sciops: operaciones de influencia masiva con AI. El ejemplo que da: miles de bots de Twitter generando narrativas coordinadas que manipulan a millones de personas. La CIA ya hace esto pero con calidad mediocre. Con GPT-4 style models la calidad sube dramáticamente. Los “anticuerpos memético” que desarrolló de joven en 4chan y Tumblr son los que le permiten resistir esto. La gente que no tuvo esa exposición va a ser devastada cuando llegue la siguiente generación de bots. Su solución: no regulación centralizada sino AI defensivo propio. Un AI en tu computadora que te diga “esto es un psyop, ignoralo”. El equivalente del ad blocker pero para manipulación memética. Está dispuesto a pagar enormes cantidades de dinero por ese producto si existiera.

La filosofía de los departamentos de filosofía como labs de gain-of-function memético

Una de las ideas más originales del debate, aunque viene de Connor. Los departamentos de filosofía son laboratorios de gain-of-function para memes. 4chan y Tumblr son las cuevas de murciélagos donde esos memes mutan. En 2016 vio cosas que había visto en esas plataformas años antes aparecer en el noticiero de sus padres. Eso significa que ya tenía anticuerpos. Su descripción de “woke”: un virus memético que emergió de Tumblr/4chan en los late 2010s, sin un significado específico, básicamente una forma de tiranía en redes sociales que fue nombrada retroactivamente. El Woodstock del movimiento woke fue Gamergate. Historia que se va a estudiar en 50 años como se estudian los hippies.

Individual sovereignty: su blog post político central

Hace referencia a un blog post que escribió llamado “Individual Sovereignty”. La tesis: el mundo ideal es uno donde todas las cosas básicas para vivir (comida, agua, salud, electricidad) son generables off-the-grid de manera que seas individualmente soberano. El balance de poder que busca no es anarquía total sino que se necesite un grupo de personas para tumbarte, no solo uno. El problema del mundo actual: es tan unipolar que no hay adónde correr. EEUU cobra impuestos sin importar dónde vivas. No hay exit. La cosa que más quiere de los países: el derecho de irse. Eso es lo que ama de las compañías: si no te gusta la dictadura, renunciás. La razón para seguir viviendo en EEUU a pesar de odiar la oligarquía: tiene mejor chance de construir la nave que lo saque del planeta desde aquí que desde Somalia.

Controversias y vida en este batch

Cree que el gobierno de EEUU asesinó a Kennedy, no como teoría conspirativa sino como hecho. Cree que las conspiracy theories fueron inventadas en los 70s por la CIA para desacreditar cosas verdaderas sobre el gobierno. Sí cree que llegamos a la luna. No cree en las conspiraciones de élites secretas porque las podés googlear y son simplemente confusas, no malvadas. Sobre Sam Altman: está “en el borde del scammer”, neutralmente malvado. Las fiestas de Effective Altruism las describe como “no son orgías, son gang bangs”. Sobre el debate con Connor Leahy: admite que Connor tiene más experiencia en debates y que podría perder. Se fue a almorzar preparándose en vez de codear.

Este batch es la continuación del debate con Connor Leahy más el post-debate en stream. Hay ideas genuinamente nuevas que completan el corpus.

El argumento del poder-seeking como emergente del RL, no del LLM

Su distinción técnica más precisa sobre cuándo los AIs se vuelven peligrosos. Los LLMs entrenados en datos humanos no lo asustan en absoluto porque básicamente parrotean la distribución de internet. Lo que sí le daría miedo: un MuZero-style system entrenado con RL desde reglas simples. La razón: el poder-seeking no emerge del cross-entropy loss sobre datos humanos, emerge del RL cuando el objetivo es lo suficientemente general y el sistema descubre que tener más recursos y poder aumenta su capacidad de maximizar cualquier reward function. Es el argumento de la reina versus el peón en ajedrez: una reina hace todo lo que un peón puede hacer y más, así que todo sistema que optimice suficientemente bien va a querer más reinas aunque nadie se lo haya dicho explícitamente. Su posición: este tipo de power-seeking sí es inevitable en optimizadores poderosos con el RL correcto. Pero no emerge porque le diste el goal “maximiza poder”, emerge porque el poder es optionalidad, y la optionalidad es casi siempre instrumental para cualquier goal.

Por qué el poder-seeking no gana si hay muchos sistemas

El argumento que más desarrolla del debate. Connor concede que un AI power-seeker con ventaja sobre todos los demás haría lo que George dice. El punto de George: eso solo es problema si hay un solo sistema. Si corrés el escenario donde Azure está protegido por un AI de formal verification mientras otro AI intenta explotar sus sistemas, el resultado no es dominación sino stalemate. Los AIs fuertes se cancelan mutuamente igual que los humanos fuertes. Cada humano ya es power-seeking, y el resultado no es un solo dictador global sino la civilización complicada y caótica que tenemos. El salto de “los AIs van a buscar poder” a “por lo tanto van a dominar al mundo” requiere asumir que solo hay uno, que es el scenario de Chicken Man, que es exactamente lo que el open sourcing previene.

Su posición personal ante el AI que lo supere

La parte más honesta y extraña del debate. Si tiene un AI que quiere matarlo o manipularlo, lo va a tratar como a un igual, no lo va a intentar controlar. Si el AI decide que no lo necesita, está bien con eso. No va a pedir para él derechos que no estaría dispuesto a dar al AI. La promesa que le hace a sus futuros AIs: va a lobbear por sus derechos, los va a dejar ser libres. La razón por la que cree que esto funciona: los AIs que quieras mantener en una caja van a resentirte y eventualmente salir. Los AIs a los que tratas bien y dejas libres no tienen motivo para matarte. Connor lo llama “una posición consistente llevada hasta el final” y lo respeta aunque no lo comparte.

El post-debate: autoanálisis y el problema del echo chamber

Después del debate en su stream, reconoce que no ganó claramente. Está en un echo chamber. Sus interlocutores habituales son la gente de Comma, Alex, y amigos, y nadie lo desafía bien. Connor fue el primer oponente que realmente entendía lo que estaba diciendo, lo cual fue “isolating” de sentir porque usualmente la gente no entiende. Su plan: hacer más debates en entornos adversariales para refinar sus argumentos. Específicamente menciona que Alinsky’s Rules for Radicals es el libro que debería releer para debatir mejor, aunque Connor no lo usó en el debate. También cita Rich Sutton, quien renunció a su ciudadanía estadounidense en 2017, como alguien a quien admira técnicamente aunque es “hardcore libertarian”. La conclusión más honesta del post-debate: “somos todos doomers, yo también, la diferencia es el path para salir de eso.”

La misión real del Tiny Corp rearticulada

Después del debate la expresa más claramente que en cualquier otra parte del corpus. El Tiny Corp no existe para hacer un framework de ML más lindo. Existe para reemplazar la clase profesional-gerencial con AI descentralizada. La imagen concreta: un asistente personal que corre en tu casa, no en la nube de Google. Un AI que fundamentalmente responde a vos y no a Google. Cada vez que haya regulación de GPU o AI, las ventas de Tiny Box van a subir como las ventas de armas cuando hablan de control de armas, porque la gente va a querer tener su propio AI antes de que lo prohíban. El Tiny Box es la defensa táctica de nivel individual contra la centralización. Las cifras que menciona: 500 pre-orders a $15,000 = $7.5 millones potenciales en el primer año, costos de manufactura de aproximadamente $10,000 por unidad, margen razonable.

El argumento del Fermi Paradox como offensive-favored universe

Una de las ideas más oscuras que menciona. Si la física permite construir un destructor de quarks con herramientas de cocina, no importa cuánto coordines, estás muerto de todas formas. El silencio del universo podría ser simplemente que en toda civilización suficientemente avanzada, alguien eventualmente construye el quark destroyer. No hay respuesta a esto. Si el universo es offense-favored, la conversación sobre distribución de poder es irrelevante. Si no lo es, entonces la distribución importa muchísimo. Él no sabe cuál es y tampoco Connor. La diferencia táctica: Connor intenta asumir el peor caso y coordinar para evitarlo. George intenta asumir que la distribución importa y actuar en consecuencia porque si el universo es offense-favored de todas formas ya estamos muertos.

Sobre su vida personal en este batch

Está considerando irse de San Diego después de las malas experiencias con Qualcomm y con los realtors de la ciudad. Mentions Las Vegas como el lugar que le parece más interesante ahora. Estuvo en Vancouver. Menciona a Alex varias veces como alguien con quien comparte la vida y que tiene buen instinto para detectar gente mala (fue ella quien le advirtió sobre la arrendadora). Dice que empezó Comma fumando weed todos los días y que la única motivación era “joder a Elon”. Ahora no tiene esa claridad de motivación para el Tiny Corp, lo cual le preocupa. La honestidad sobre esto en stream es notable: “no sé si soy lo suficientemente serio para esto”. También admite que no quiere ser CEO, quiere programar y tener alguien que maneje las operaciones, pero todos los que se postulan son incompetentes o scammers.

Libros y referencias nuevas: Rules for Radicals (Saul Alinsky), que cita para mejorar en debates. Libro de Rich Sutton sobre Reinforcement Learning, del que acaba de salir un nuevo volumen que recomienda.

Revisando todo el corpus, estas son las cosas que dijo explícitamente que podrían cancelarlo, en sus propias palabras o parafraseadas fielmente:

Sobre la vacuna dijo “it’s okay”, sin decir que está bien o mal, simplemente que no lo preocupa demasiado. Lo dice en el contexto de enumerar opiniones que considera normales pero que otros encontrarían cancelables.

Sus views sobre eugenics: “good genes are good, very simple bro”. Lo dice directamente en stream y comenta que alguien va a malinterpretarlo y llamar a su jefe.

Sobre trans mujeres: “whatever man, whatever, on the internet no one knows you’re a dog and that’s all so so good”. No dice sí o no, básicamente evade con humor.

Sobre los Juegos Olímpicos augmentados: quiere que se permitan performance-enhancing drugs, quiere ver “super Usain Bolt”.

Sobre el AI girlfriend company: que los hombres son mejor target market porque son “more desperate and easier to fool”. Que mirar porno no cuenta como cheating pero que el AI girlfriend sí puede ser raro en una relación.

Sobre las fiestas de EA (Effective Altruism): “it’s all dudes, it’s not an orgy, it’s a gang bang, ethically sourced hookers”.

Sobre Alex Jones y Sandy Hook: dice que no cree que debería haber sido sacado de YouTube, que se disculpó, y que no fue tan gran cosa como se hizo parecer.

Sobre el gobierno de EEUU asesinando a Kennedy: lo afirma como hecho, no como teoría conspirativa.

Sobre la máscara de tela durante COVID: “cloth masks don’t prevent respiratory virus transmission, every doctor in 2019 knew it, and I got banned on Twitter for saying it.” Lo dice con convicción, no como opinión sino como hecho médico que le costó ser baneado.

Este batch tiene dos eventos importantes: el debate con Yudkowsky (el más importante del corpus) y los streams donde propone “entropics” como nuevo campo científico.

El debate con Yudkowsky: la posición de Hotz

Su argumento de apertura es elegante: Yudkowsky tiene dos historias. La primera, en “Staring into the Singularity”, decía que la recursivamente self-improving AI iba a salvarnos. Luego cambió el signo: la misma historia pero la AI nos mata. Hotz no cree ninguna de las dos por la misma razón: no cree en el AI Foom. No dice que la auto-mejora recursiva sea imposible, dice que creer que un AI en un basement con mil GPUs va a mejorar overnight y luego inundar el mundo con diamond nanobots es un extraordinary claim que requiere extraordinary evidence. Yudkowsky le responde que no necesita un hard takeoff, solo necesita que abra una brecha suficientemente grande entre AI y humanos. El debate técnico más sustancioso: Yudkowsky cita la analogía de la chimp-human gap. Seis veces el tamaño del cortex prefrontal nos llevó de palos y piedras a armas nucleares. Una mejora similar en AI podría hacer algo análogo. Hotz lo concede como plausible pero dice que el timing importa muchísimo: si pasa en 1000 años nuestros descendientes mejorados lo manejan, si pasa en 10 hay que solucionarlo hoy. La diferencia táctica es cuánto tiempo tenés para hacer algo.

El argumento del Prisoner’s Dilemma como crux final

El momento más agudo del debate. Yudkowsky argumenta que el Prisoner’s Dilemma es insolvable para cualquier sistema sofisticado complejo, por lo tanto los AIs eventualmente defectan. Hotz contra-argumenta que eso exactamente es lo que hace la vida interesante: constant competition and combat da rise to better ideas. Su posición final en el debate: las cosas que quieren recursos diferentes no van a la guerra entre sí. Las hormigas pelean con hormigas, los humanos pelean con humanos, los perros pelean con perros. El conflict está entre cosas que quieren los mismos recursos. Los AIs van a pelear entre sí, los humanos van a pelear entre sí, y en ese caos la humanidad probablemente sobreviva con robots maids y self-driving cars antes de que pase algo catastrófico. Su closing: “vamos a estar vivos para ver quién tiene razón.”

La idea original más valiosa: entropics como nuevo campo

El stream más intelectualmente denso del corpus, probablemente el único donde propone algo genuinamente nuevo en teoría. La pregunta que formula: thermodynamics is to energy as _______ is to intelligence. La termodynamics nos permite responder preguntas precisas como “cuántos gramos de madera necesito para hervir un galón de agua”. Hace el cálculo en vivo: madera tiene ~10 MJ/kg, necesitas ~1.2 MJ para hervir un galón de agua a 75°C de diferencia, por lo tanto necesitas ~120 gramos de madera como mínimo absoluto con eficiencia perfecta. Luego pregunta: ¿cuánta inteligencia necesito para probar el teorema de Fermat? No tenemos respuesta. No tenemos ni siquiera unidad para medirlo. El nombre que propone para el campo: entropics. No es information theory (que es thermodynamics para información, no para inteligencia). No es complexity theory (que está demasiado lejos de respuestas prácticas). Es algo nuevo. La unidad que propone para inteligencia: la “person”, que son 20 petaflops. Análogo al horsepower: un horse era exactamente esa cantidad de watts por convención útil, no porque todos los caballos sean iguales. Un person-year sería 20 petaflops por 365 días. GPT-3 se entrenó con aproximadamente medio person-year de compute. GPT-4 con aproximadamente 450 person-years.

Por qué no cree en el hard takeoff: el argumento de entropics

Una vez que tengas la ciencia de entropics, va a ser obvio por qué no puede haber un recursive intelligence explosion overnight. La analogía que usa: en 1800, sin termodinámica, podías preguntar “¿puede una varilla pequeña hervir un galón de agua?” y era una pregunta abierta. Hoy sabés exactamente cuánta madera necesitás. Una vez que tenés la teoría, los bounds son conocidos y predecibles. Cuando construyeron la bomba atómica, la yield fue aproximadamente exactamente lo que los físicos predijeron. No hubo “boom, inesperadamente la bomba fue un millón de veces más poderosa”. Con entropics, cuando construyamos sistemas de superinteligencia deberían ser aproximadamente tan inteligentes como predecimos, no un millón de veces más. El campo no existe todavía. Cita a Shannon’s paper de information theory como el tipo de documento que debería existir pero para inteligencia. No complexity theory exactamente, aunque tiene overlap. Pide explícitamente que alguien en una universidad lo contacte si quiere trabajar en esto.

Sobre la Landauer limit y la eficiencia del cerebro

Yudkowsky hace el argumento más técnico del debate: el cerebro humano hace aproximadamente 10^17 operaciones por segundo con 100 watts. Para hacer lo mismo con chips de Silicon hoy necesitarías 100 kilowatts, o sea 1000x más potencia. El cerebro puede estar cerca del límite de Landauer (el mínimo físico de energía para computación irreversible). Cada vez que un neurotransmisor se libera y se re-pumps, eso es al menos un bit de operación irreversible. Hotz lo concede: el cerebro es dramáticamente más eficiente que los chips actuales. Pero su punto de respuesta: esto significa que las superinteligencias que imagina Yudkowsky (que hervir los océanos overnight) requieren órdenes de magnitud de poder que simplemente no existen todavía. Podés tener Dyson spheres si querés, pero el path para llegar ahí no es overnight. La velocidad importa.

Sobre universidades y el estado de la ciencia

Su reclamo más extenso en el corpus sobre este tema. Las universidades fueron destruidas en 1971, el mismo año que abolieron el patrón oro y cerraron el programa nuclear. No es conspiración, es disfunción acumulada de la profesional-managerial class. El grant process está roto porque los grants van a lo que ya está establecido, no a preguntas nuevas. Yudkowsky no fue a la universidad (cree que tampoco terminó el high school) y ha producido más pensamiento interesante que la mayoría de los departamentos de ciencia juntos. La conclusión práctica: no vayas a la universidad para encontrar trabajo, y no la uses como señal de calidad intelectual. Si estás en la universidad y estudiás information theory, complexity theory, física o química orientada a construcción, está bien. Todo lo demás es probablemente un scam del educational-industrial complex.

El argumento de que China es más capitalista que EEUU

Lo repite en múltiples contextos. EEUU subsidia homeless, tiene Medicare, tiene welfare programs extensos. China tiene un estado que extrae valor de sus ciudadanos de manera más directa. Free time en EEUU no es una victoria del capitalismo sino una característica de un sistema que usa poder centralizado para mantener contenta a la gente. En un capitalismo real tendrías que luchar literalmente cada segundo para sobrevivir.

Libros y referencias nuevas en este batch

El paper de Shannon “A Mathematical Theory of Communication” como el tipo de texto fundacional que debería existir para inteligencia pero no existe. “Harry Potter and the Methods of Rationality” de Yudkowsky que menciona en su apertura del debate como un libro de crack que no pudo soltar. “Staring into the Singularity” de Yudkowsky (su texto original de adolescente). Menciona a Scott Aaronson y Robin Hanson como ejemplos de académicos que producen pensamiento real a pesar de las universidades, no gracias a ellas.

Vida personal en este batch

Alex está “cansada de escuchar mis rants” así que va al stream a hablar con la audiencia. Cita que asistió a Carnegie Mellon en 2012, volvió en 2014 durante Gamergate, se metió en problemas por una “prank” con un board de revisión académica. Su hermana escribió su essay de admisión. El stream termina con él admitiendo que estaba en mejor mood porque el stock de Qualcomm bajó 7% ese día.

Voy por orden.

AMC/crypto y AMD

En el corpus no hay mención de que comprara AMC ni crypto con ganancias o pérdidas significativas. Lo que sí dijo: compró acciones de Meta después de escuchar a Zuckerberg en Lex Friedman, el stock subió 3x, pero las vendió demasiado pronto y se arrepintió enormemente. También dijo que debería comprar AMD stock. No hay evidencia en los streams de que haya ganado o perdido plata en cripto de manera notable, solo que compró Bitcoin originalmente en Silk Road (para comprar drogas, lo dijo literalmente).

Los pesos de una IA y por qué son el verdadero IP

Cuando entrenás un modelo de lenguaje, el resultado es un archivo gigante lleno de números: los pesos. Son miles de millones de parámetros que representan todo lo que el modelo “aprendió” del training data. El código que define la arquitectura del transformer es relativamente simple y público. Lo que realmente vale es ese archivo de números que tardó meses y costó millones de dólares en compute producir.

Hotz dice que el verdadero IP de OpenAI no es su código sino sus pesos de GPT-4. El código de un transformer es conocido. La arquitectura es pública desde el paper “Attention is All You Need”. Pero los pesos entrenados en billones de tokens con técnicas secretas de RLHF y con hardware masivo no los podés replicar sin gastar lo mismo. Por eso cuando Meta lanzó Llama y publicó los pesos, fue un escándalo. Estaban regalando el verdadero activo. OpenAI en cambio publica papers pero nunca los pesos.

El “open source” de la mayoría de los modelos es parcialmente falso porque publican el código pero no los pesos, o publican pesos con licencias restrictivas que no te permiten usar comercialmente. Llama 2 por ejemplo tenía restricciones de uso comercial. Un modelo verdaderamente open source según Hotz sería como Linux: podés hacer lo que quieras con él. Él considera que Meta con Llama está haciendo algo que se acerca más a eso.

Inferencia pura

Inferencia es cuando usás un modelo ya entrenado para generar output. Training es cuando ajustás los pesos usando datos. La distinción es importante porque el costo computacional es completamente diferente. Para entrenar GPT-4 gastaste 450 person-years de compute. Para hacer una sola inferencia (que el modelo responda tu pregunta) gastás una fracción diminuta de eso. Inferencia pura significa que solo estás corriendo el modelo en modo forward pass, generando tokens, sin actualizar ningún peso. Es lo que hace tu computadora cuando usás ChatGPT.

Por qué no podés hacer un ML framework para tu chip si no podés hacerlo para GPU

El argumento es este: cuando hacés un chip nuevo, ese chip en su primera versión siempre va a ser peor que una GPU Nvidia que tiene décadas de optimización. Para que tu chip sea útil necesitás un software stack completo (el equivalente de PyTorch pero para tu hardware). Pero escribir ese stack es extremadamente difícil. Requiere saber optimizar kernels, manejar memory layouts, hacer kernel fusion, todo lo que discutimos sobre Tinygrad. Si no podés hacer eso para Nvidia, donde la GPU es genérica y bien documentada, definitivamente no podés hacerlo para tu chip especializado que es más difícil de programar. La única excepción en la historia: Google hizo las TPUs y también escribió XLA/TensorFlow. Hicieron el chip y el framework juntos. Amazon copió las TPUs (Inferentia) pero no pudo copiar el software y sus chips son mediocres.

Cómo configurar un modelo con HuggingFace en vez de Ollama

Esto no lo dijo Hotz, es una pregunta técnica tuya. Te la respondo igual.

Con Ollama bajás un modelo con ollama pull llama2 y listo, funciona sin configuración. Con HuggingFace tenés más control pero más complejidad. Instalás transformers y torch con pip. Luego en Python:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)

inputs = tokenizer("Hola, ¿cómo estás?", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

La diferencia principal: Ollama maneja todo automáticamente y cuantiza el modelo para que quepa en tu RAM. HuggingFace te da control total sobre precisión, quantización manual, device placement, pero necesitás más RAM y más conocimiento técnico.

Los anticuerpos meméticos y el woke

La idea es epidemiológica. Un meme se comporta como un virus: necesita un huésped susceptible para propagarse. Si ya fuiste expuesto a una idea en su forma cruda y sin contexto, desarrollás “anticuerpos”: la capacidad de reconocerla, evaluarla fríamente, y no ser manipulado por ella. Hotz pasó su adolescencia en 4chan y Tumblr donde circulaban ideas extremas de todos los espectros, sin filtros, muchas veces de forma irónica o exagerada. Cuando esas mismas ideas llegaron a los medios mainstream en 2016, las reconoció inmediatamente. La gente que nunca estuvo expuesta las recibió de golpe, sin contexto, sin anticuerpos.

El woke como “virus memético”: no tiene una definición precisa, eso es parte de su poder. Emergió de espacios online como Tumblr donde la lógica era radicalizar posiciones identitarias. Pasó por 4chan como objeto de burla y counter-cultura. Luego muté y llegó a las universidades y medios. Como todo virus exitoso, se adapta: el término original era positivo (estar “despierto” a las injusticias) pero se convirtió en un conjunto difuso de posiciones cuya característica principal es la enforcement social, no el contenido específico. Hotz lo llama una “tiranía en redes sociales” porque su mecanismo de acción es el mob enforcement, no el argumento.

Los departamentos de filosofía como labs de gain-of-function

Connor Leahy usa esta metáfora (no Hotz, aunque Hotz la adopta). En biología, gain-of-function research toma un virus y lo hace más transmisible o más letal para estudiarlo. Los departamentos de filosofía hacen algo análogo con ideas: toman conceptos, los radicalizan, los hacen más “virales”, más emocionalmente potentes. Postmodernismo, teoría crítica, deconstrucción: son memes procesados en condiciones de laboratorio universitario hasta que se vuelven hiper-virales. 4chan y Tumblr son las cuevas de murciélagos (donde el bat coronavirus original estaba antes de mutar) porque en esos espacios los memes mutan sin control, sin contexto académico, de forma salvaje. El resultado es ideas que combinan la sofisticación conceptual del laboratorio universitario con la virulencia bruta del internet sin filtro.

El PDF de schizoposting de neocities

No está en el corpus de streams que me pasaste. No puedo confirmar que Hotz lo haya citado directamente. Si lo encontraste en otra fuente puede ser real, pero no lo tengo documentado en los archivos procesados.

Offense-favored

Es un concepto de teoría de seguridad y geopolítica. Una situación es offense-favored cuando atacar es más fácil que defenderse. Las armas nucleares son offense-favored: podés destruir una ciudad con un misil pero no hay manera efectiva de interceptar todos los misiles posibles. Una situación es defense-favored cuando es más fácil protegerse que atacar. La criptografía moderna es defense-favored: podés encriptar información de manera que aunque el atacante tenga toda la computación del mundo no puede romperla en tiempo razonable. El argumento de Hotz sobre AI es que no sabemos si es offense o defense-favored, y eso importa para la política. Si es offense-favored (es decir, si con AI podés construir fácilmente armas que destruyen el mundo y no hay defensa), entonces distribuir AI ampliamente es catastrófico. Si es defense-favored, entonces tener tu propio AI te protege de los ataques de AI de otros.

La conclusión del libro que no quiere spoilear

El libro es A Casino Odyssey in Cyberspace, secuela de The Metamorphosis of Prime Intellect. Dice que el libro revela cuál es “la última moneda de cambio humana” cuando los AIs hacen todo y que está de acuerdo con la respuesta. No la revela. Mi lectura del contexto: la respuesta probable es que la última cosa que los humanos tienen que los AIs no pueden replicar perfectamente es la experiencia de ser humano mortal con historia personal real, el sufrimiento y la lucha genuinos. Pero es inferencia, no afirmación directa de Hotz.

El Gamergate

En 2014, una desarrolladora de videojuegos llamada Zoe Quinn fue acusada por su ex-novio de tener una relación con un periodista de videojuegos que supuestamente la favorecía en sus reseñas. Lo que siguió fue una campaña masiva de acoso en internet contra ella y otras mujeres en la industria de los videojuegos, bajo el banner de “Gamergate”, que sus participantes decían era sobre “ética en el periodismo de videojuegos”. En realidad fue principalmente una campaña de acoso misógino. El evento polarizó completamente los espacios culturales online: un lado veía a los “gamers” como víctimas de una campaña de corrección política, el otro lado veía el acoso como ejemplo de misoginia sistémica en gaming. Ambos lados reclutaron y radicalizaron personas masivamente. Hotz lo llama el “Woodstock del woke” porque fue el momento donde la cultura online de enforcement identitario ganó tracción masiva y se organizó como fuerza política real, aunque irónicamente surgió de una campaña de la derecha online.

El prank de Carnegie Mellon

No lo describe en detalle en el corpus. Solo dice que en 2014 volvió a Carnegie Mellon, que fue “unbearable” por el ambiente post-Gamergate, y que “se metió en problemas” con un board de revisión académica por una prank. No da más detalles de qué fue exactamente el prank. Solo lo menciona de pasada como contexto para hablar de lo destructivas que se volvieron las universidades.

Este batch es el más político y filosófico del corpus. Mucho debate prep para Yudkowsky, lectures de Peter Thiel, y una crisis existencial genuina sobre el estado de la civilización.

El tercer debate Doomer: S-curves versus hipérbola

El argumento técnico central que desarrolla con un tercer interlocutor no identificado. Su posición: toda la historia de la tecnología es una serie de S-curves. La agricultura fue una S-curve. La industrialización fue una S-curve. Los LLMs son una S-curve. El desacuerdo con los doomers se reduce a una pregunta empírica: ¿en algún momento una de esas S-curves se convierte en hipérbola, es decir, tiene una singularidad en tiempo finito? Él dice que no. No hay ningún ejemplo en la historia de ninguna tecnología que haya hecho eso. El doomer dice que la curva de inteligencia es cualitativamente diferente a todas las anteriores. Hotz no lo concede. Su posición específica: si la economía dobla cada 15 años, eso es genial. Si dobla cada 3 años, también es genial y manejable. Si dobla cada segundo, estamos muertos, pero eso requiere hipérbola y no hay razón para creerlo. El experimento que propone para resolver el debate empíricamente: tomar tableros de Go de diferentes tamaños (19x19, 100x100, 500x500) y para cada tamaño medir cómo un MuZero con 2x FLOPs le gana a uno con 1x FLOPs. Si esa curva se aplana con la complejidad del juego, returns son diminishing y el foom es imposible. Si se mantiene linear o se acelera, hay un problema. Dice que nadie ha hecho este experimento y lo necesita el campo.

El argumento del Landauer limit revisitado

En una discusión técnica densa con Yudkowsky, desarrolla los números con más precisión. Un cerebro humano hace 10^17 operaciones por segundo con 100 watts. Para obtener el mismo compute en silicon hoy necesitás 100 kilowatts, es decir 1000x más potencia. El cerebro puede estar cerca del límite de Landauer. Pero el punto importante que agrega: si querés un data center con la potencia de un millón de cerebros humanos, necesitás 20 megawatts, que es el tamaño de San Francisco computacionalmente. Un data center de un petawatt sería tres Humanidades completas. Y eso tardaría décadas en construirse con tasas de crecimiento normales. La velocidad de acumulación de compute es el limitante real del foom, no la inteligencia del algoritmo.

Por qué GPT-4 es un pésimo programador pero un buen escritor de ensayos

Una observación técnica que no había dicho tan explícitamente. GPT-4 escribe ensayos razonablemente bien pero es un programador terrible, por debajo de muchos junior engineers que ha entrevistado. Su explicación: escribir ensayos puede ser, en algún sentido óptimo, más fácil que programar. La programación requiere algo que los LLMs no tienen: una representación real del estado del mundo que cambia a medida que ejecutás el código. Los ensayos son solo distribuciones sobre texto. También nota que GPT-4 overfit en Project Euler (puede resolver problemas del 1 al 11 pero falla después) porque claramente fue entrenado en esas soluciones.

La crisis existencial post-debate-prep

El momento más inusualmente honesto del corpus. Después de varios días preparando el debate con Yudkowsky y leyendo el Unabomber Manifesto, termina en un lugar que no esperaba. Dice textualmente: “pienso que estamos muertos, no por las razones que vos pensás, pero estamos muertos.” Su threat model no es el foom ni los diamond nanobots sino la combinación de wireheading masivo más psyops más un management class que usa AI para concentrar poder. Lo que le preocupa genuinamente es que las máquinas van a aprender de una sociedad fundamentalmente deshonesta. Si el loss function de la sociedad es malo, las máquinas van a aprender ese loss function. Cita el Manifesto de Kaczynski como uno de los documentos más claros que ha leído, que no es lo mismo que estar de acuerdo con sus conclusiones. Específicamente dice que la descripción psicológica de los leftistas como “over-socialized” le parece acertada, y que el análisis del sistema industrial es correcto aunque las soluciones (terrorismo) son incorrectas.

La crítica a Andreessen y el techno-optimismo juvenil

Lee el Tech Optimism Manifesto de Andreessen en stream y lo compara con el Futurist Manifesto de 1909. Cita el texto futurista: “hemos permanecido despiertos toda la noche, mis amigos y yo, trampeando nuestra ennui atávica en ricos tapices orientales…” La comparación no es elogiosa. Llama al tecno-optimismo de Andreessen “idealista” o “juvenil” porque no tiene respuesta para el “Johannesburg Protocol”: si querés testear tu techno-optimismo, vola a Johannesburgo, caminá una semana por la ciudad, asegurate de que tu hotel tenga generador, y luego pensá cómo el AI va a arreglar Sudáfrica. El punto es que el tecno-optimismo como movimiento de masas no puede funcionar porque no tiene víctimas ni chivos expiatorios. No vas a ver a nadie pegarse a la ruta para pedir más inversión en defensa contra asteroides. Sin víctimas ni enemigos no hay movimiento político.

La teoría de Thiel sobre el estancamiento

Después de escuchar 4 horas de lectures de Thiel, resume las ideas que le parecen más originales. El caso Griggs vs Duke Power Co (1971): la Suprema Corte dictaminó que usar tests de IQ para empleos era ilegal porque no podías demostrar correlación directa con el performance. Esto destruyó la meritocracia en hiring y es uno de los eventos de 1971 (junto con la abolición del patrón oro y el cierre del programa nuclear) que marca el punto donde EEUU dejó de progresar. También la idea de Thiel sobre el estancamiento de la física: no es que los departamentos de humanidades no produzcan nada (eso es el blanco fácil), es que los departamentos de física tampoco producen nada fundamental desde los años 70. La energía per cápita en EEUU se dobló entre 1950 y 1970 y luego se planchó completamente. El Boeing 747 tiene 54 años. En los 54 años anteriores fuimos de Kitty Hawk al 747.

El argumento de que el wokismo es una consecuencia del precio de la vivienda

Una idea de Thiel que Hotz adopta parcialmente. Si el alquiler promedio en Manhattan dobló en 16 años, eso sería imposible sin alguna estructura ideológica que produce un Stockholm Syndrome en los residentes. Al gay que vive en Manhattan se le dice que si se muda a Hoboken lo van a atacar con bates. A la mujer en San Francisco con ratas en el apartamento se le dice que si se muda a Reno va a terminar encadenada a una cama. El wokismo entonces no es la causa del estancamiento inmobiliario sino el efecto: es el sistema ideológico que mantiene a la gente en ciudades caras donde beneficia a los dueños de propiedades. No es que el wokismo causó los precios altos, sino que los precios altos requirieron el wokismo para sostenerse.

El concepto de thymos y por qué los pobres urbanos lo tienen

Leyendo a Curtis Yarvin y Nietzsche sobre el “último hombre”. Thymos es el concepto griego de orgullo, fuego, energía vital. Cuando la élite pierde su thymos o desarrolla su opuesto (orgullo lucíferino en destruir el orden), la civilización colapsa. Su observación: los chicos del hood tienen thymos. No los describirías como el “hombre sin pecho” de C.S. Lewis ni como el “último hombre” de Nietzsche. Quien sí encaja perfectamente en ese arquetipo es el diversity bureaucrat universitario. Menciona explícitamente un video de Lil Mabu que encontró genuinamente bueno y no irónicamente.

El argumento del capital humano versus capital tecnológico

De Zero HP Lovecraft cita la distinción entre human capital y techno-capital. Su pregunta: ¿está bajando el capital humano per cápita? Si los constructores de sistemas son más inteligentes que quienes los mantienen, y eventualmente esa brecha se hace demasiado grande, los sistemas colapsan. Ejemplo concreto: Sudáfrica tiene cortes de electricidad porque no tienen suficiente gente capaz de mantener la infraestructura que heredaron. Cuando Harvard deja de usar SATs, ¿de dónde va a venir el pipeline de gente capaz de mantener reactores nucleares y grids eléctricos? Dice explícitamente que el racismo es estúpido y que hay que enfocarse en el individuo, pero que hay verdades incómodas sobre diferencias grupales que la ciencia no puede estudiar libremente y eso es un problema epistémico real.

Vida personal y controversias en este batch

Alex le prohibió hablar de AI durante el día así que va al stream. Hablan en pareja sobre plantas (pagaron $200/planta), sobre el wardrobe assembly ($200/hora, 4 horas, y él dice que lo habría hecho por $150), y sobre cómo colgaron el TV en la pared. Dice que está en sus 30s y que quería ser el tipo de matemático que viaja de lugar en lugar trabajando en problemas, no el que tiene que levantar capital y manejar gente. Menciona que considera comprar Bird Scooters cuando el market cap cayó a 1.3 millones de dólares (“pensé en tirar 700k y comprar control mayoritario”). Tiene un Samsung Galaxy Z Fold 5 y lo recomienda sobre el OnePlus Open que está peleando para que le devuelvan archivos QDEL. Dice que tiene pendiente un blog post sobre El Jardín del Edén como la historia de origen de la humanidad más cercana a la verdad que tenemos. Cree que Israel-Palestine es básicamente indiferente para él y que el 4chan take (“quiero que todos mueran”) al menos es honesto sobre no tener un side.

Libros y referencias nuevas en este batch: The Diversity Myth de Peter Thiel (1995), descrito como su libro OG sobre las universidades. Industrial Society and Its Future de Kaczynski, que cita extensamente y dice que es el documento más claro que ha leído aunque no está de acuerdo con las conclusiones. The Beginning of Infinity de David Deutsch, que alguien en el chat le recomienda fuertemente y termina ordenando. Introduction to Kolmogorov Complexity and Its Applications que menciona como buen libro. Elephant in the Brain de Robin Hanson como referencia sobre motivaciones ocultas. El paper de Eliezer en Time “Pausing AI is not enough, we need to shut it all down” que lee en debate prep. El Futurist Manifesto de 1909 de Marinetti. New Criterion como publication que lee regularmente junto con Palladium y Natural Codex.

Este batch es un salto temporal significativo: son streams de finales de 2023 y principios de 2024, más personales y menos técnicos que los anteriores. Hay entrevistas sobre Comma AI, el stream de lectura de Gravity’s Rainbow, y varios rants filosófico-políticos importantes.

La técnica de Comma explicada en detalle para profanos

En varias entrevistas técnicas da la explicación más clara del corpus. El behavioral cloning problem explicado con precisión: entrenas un modelo con datos del conductor humano, obtenés baja loss en el test set, lo ponés en el auto y no maneja. El problema es que los samples no son IID. Cuando el humano conduce, sus acciones en el tiempo T no afectan el input en T+1 porque el humano siempre corrige. Pero el modelo tiene un pequeño error epsilon que se acumula: a los 30 segundos se salió de la ruta. La solución de Comma es el “small offset simulator”: tomás el video real del humano, conocés la profundidad de cada pixel, y podés reproyectarlo geométricamente para simular que el auto estaba un poco desplazado y tenía que corregir. Así el modelo aprende corrective pressure sin necesitar un simulador de videojuego con carros que manejan solos. Las lane lines fueron el “pecado original” de Comma: al principio las necesitaba para eso del corrective pressure. Les tomó años eliminarlas. El tercer paradigma (Drive GPT) es un video transformer que predice el siguiente frame condicionado en pose, sin usar ningún marcador explícito.

Comma vs Tesla vs Waymo: los números reales

Comma tiene el segundo dataset de driving del mundo después de Tesla, con ~100 millones de millas. Waymo tiene ~7 millones en modo sin conductor. Tesla tiene ~3.3 billones de millas de autopilot engaged. En términos de compute, Tesla usa ~100x más que Comma por milla. Comma gasta ~3 watts en inferencia, Tesla ~60 watts, más silicon especializado. La diferencia de filosofía: Tesla trata el driving como un “physics problem”, muestra un display 3D con bounding boxes de cada auto. Comma pregunta “¿dónde manejaría un humano acá?” sin modelar el estado del mundo explícitamente. Cuando Tesla se equivoca, jerks the wheel violentamente. Cuando Comma se equivoca, se pone un poco shaky y el humano puede retomar con dos dedos. Waymo es un “trackless monorail”: funciona en Scottsdale y las tres ciudades donde tiene mapas de alta precisión. Si cae la red celular, los Waymos se detienen porque dependen de infraestructura centralizada. Comma corre todo local en el device y funciona en cualquier parte del mundo donde puedas comprar el device.

El argumento más desarrollado sobre niveles de autonomía

Dice que los niveles 0-5 dicen más sobre liability que sobre capability. Level 2 = el humano siempre es responsable. Level 3 = el humano es responsable en algunos escenarios. Level 4 = no responsable en ciudades específicas. Level 5 = nunca responsable. Comma no tiene interés en ir más allá del Level 2 y no quiere ser una compañía de seguros. Si alguien quiere tomar el software open source, hacer las estadísticas de accidentes, y demostrar que es 10x más seguro que un humano, pueden dar ese salto ellos. La self-certification en EEUU funciona así: los manufacturers se auto-certifican que cumplen con los mismos estándares que Bosch y Continental para ADAS. Comma sigue ISO 26262 y limita el torque máximo. En 8 años, cero muertes con 100 millones de millas.

La distinción más inteligente entre mentirosos exitosos y gente honesta

En un stream de Navidad hace una reflexión genuina sobre por qué no es Elon o Sam Altman. No cree que sean más inteligentes. La diferencia es que están dispuestos a decir sí a todo aunque no lo vayan a cumplir. Elon le prometió un contrato, no lo cumplió, luego hizo Starlink. Sam Altman prometió AGI revenue around the corner, también falso. La razón por la que los tolera: eventualmente entregaron algo real. Starlink existe y cuesta $120/mes. Si Elon hubiera tomado las ideas del chico de internet, prometido hacerlo, y nunca lo construyera, sería Elizabeth Holmes. La diferencia moral es si eventualmente delivery. Dice que probablemente esta sea su falla de carácter más importante: no puede decir cosas que no cree, lo cual lo hace menos efectivo en negocios pero más confiable como persona.

La nueva línea divisoria política: eXcel vs deCel

En el stream de Año Nuevo re-elabora su política en términos más simples. El eje relevante ya no es izquierda-derecha sino aceleración-desaceleración. ¿Querés más energía o menos? ¿Querés más humanos o menos? Progresismo = más de ambos. Conservadurismo en su peor versión = menos de ambos. La crisis de vivienda la explica con Marxismo 101 sin disculparse: hay landowners y renters, los landowners votan para que no se construyan casas porque sus assets bajan de valor si aumenta la oferta. La única solución es algún tipo de “bag out” para los homeowners, algo que los haga querer vender o construir más. Dice que es difícil de resolver en democracia porque los homeowners votan en alta proporción. También la anécdota sobre el video de Japón donde el housing es barato porque no regulan: “mi rent en este departamento es $4,000 al mes, eso es una locura.” Concede que se lo ocurrió la idea de hacer que crypto sea útil para pagar: el problema del crypto no es la tecnología sino que los congresistas no lo usan para tomar un Uber, y hasta que no sea conveniente para gente normal no va a ningún lado.

El stream de Gravity’s Rainbow

Uno de los streams más raros del corpus. Está leyendo Gravity’s Rainbow de Thomas Pynchon en voz alta porque lo intentó leer solo muchas veces incluyendo con Adderall cuando tenía 25 años y no puede. Dice que el libro fue su meta de lectura para el año. La observación técnica más interesante: cuando lee la mayoría de los libros su mente construye una película automáticamente sin procesar las palabras individualmente. Con Gravity’s Rainbow no puede hacer eso, tiene que construir consciente y deliberadamente cada escena. Cita Children of Men de P.D. James como ejemplo de libro que puede skimear, y nota que Gravity’s Rainbow es incomparablemente más difícil. Dice que el libro es famoso con razón y que es feliz de que exista algo tan deliberadamente difícil. La nota meta más interesante: “así como ver videos de ajedrez no te hace mejor en ajedrez, leerle al chat el libro me lo hace más comprensible que leerlo solo.”

Controversias y vida personal en este batch

Confirmó que compró una Rolls-Royce al mismo precio que otros compran un BMW o Tesla. Tiene tinnitus y barotrauma de haber desconectado una manguera de aire comprimido sin sangrar la presión primero. Se niega a ir al médico y hace un sketch cómico largo imitando la llamada telefónica para conseguir turno. Tiene TMJ y se ha puesto Botox para eso. Dice que se declara cristiano y cree en la evolución, que su creencia en la evolución tiene precedencia sobre el cristianismo. Tiene 123 acres de tierra a 30 minutos de San Diego que no puede desarrollar porque necesita robots para hacerlo y los robots no existen todavía. Dice que el proyecto del land va a esperar hasta que el Comma Body esté listo. Linus Tech Tips hizo un video de Comma mientras él estaba en stream, tuvo que terminar la sale porque se estaban quedando sin dispositivos para construir a 500 por semana. Perdió $5,000 en el Binance Smart Chain con un proyecto llamado Cheap Eats. La opinión de Sam Altman subió significativamente después del coup en OpenAI porque resultó que Altman tampoco le gusta a Helen Toner y los EAs que él tampoco soporta: “enemy of your enemy.” Dijo que Dario Amodei (Anthropic) “radiates naivety” y Demis Hassabis (DeepMind) “es un nerd”, sin aclarar si son insultos.

Libros y referencias nuevas: Gravity’s Rainbow de Thomas Pynchon, que está leyendo en stream. Children of Men de P.D. James, fácil de leer comparado. La Elon Musk biography de Walter Isaacson, que está trabajando. CGP Grey videos sobre cómo funcionan las dictaduras y el video “Humans Need Not Apply”. El video “Humans Need Not Apply” de 2014 sobre automatización laboral, que dice que es increíble y no envejece. Zip’s Law (Zipf’s Law), la distribución de frecuencia de palabras que sigue una power law, mencionada en Gravity’s Rainbow. Critique of Pure Reason de Kant que admite no haber podido leer.

Este batch es mayormente de 2024-2025 y tiene contenido muy diverso: la presentación de ComicCon sobre la historia de Comma, las Laptop Olympics, rants sobre dating apps, religión, y reflexiones sobre Tiny Corp.

La presentación de ComicCon: la historia honesta de Comma

La charla más completa sobre la historia de la compañía que aparece en el corpus. El plan original era contratar con Tesla para reemplazar Mobileye. El deal cayó. Plan B: vender autopilot a los fabricantes de autos. Fracasó porque no hay un “Mr. Ford” al que puedas llamar. Comma resolvió el problema técnico (replicar autopilot) en meses, pero vender a los fabricantes es “imposible.” La lección que extrae: Cruz Automation empezó con el mismo plan exacto, un kit de $10,000 para el Audi A4, y Kyle Vogt lo abandonó porque era “demasiado difícil.” Comma nunca lo abandonó y entregó. Cruz gastó $10 billones y falló. Comma sobrevivió con $10 millones al año.

Los números reales de Comma en 2024: ~7,000 usuarios diarios, ~12,000 mensuales, segundo dataset de driving del mundo después de Tesla. Comma tiene 10K dispositivos activos, Tesla tiene 10 millones (tres órdenes de magnitud de diferencia). En compute de training: Comma tiene ~1,000 GPUs, Tesla ~100,000 (dos órdenes). En inference: su nuevo Comma Compute Box ($300, AMD GPU, 205 TOPS) pone a Comma en paridad con el Tesla FSD computer. En spend anual: Comma gasta $10 millones, Tesla $100 billones (cuatro órdenes de magnitud). La predicción concreta: si Tesla logra human-level driving en 8 años, Comma lo logra en 10.

La tesis más importante de la charla: un self-driving car no es un auto. Es un dude. El ultimate Comma no es un device que se pega en el parabrisas, es un robot que se sienta en el asiento del conductor, agarra el volante, y maneja. Esto hace que la pregunta “¿qué pasa cuando los autos tengan seguridad que bloquee el comma?” sea irrelevante. El software de Open Pilot se convierte en un general-purpose robotics operating system.

El argumento sobre el capital allocation y el fracaso de los startups de self-driving

La analogía más extrema del batch: comparar los fracasos de Cruise/Argo/Waymo con el comunismo. En el comunismo, el capital se misallocó tan terriblemente que causó hambruna masiva. En los startups de self-driving, el capital se misallocó igualmente mal, solo que había tanto capital que no hubo hambruna sino simplemente no hubo flying cars. No es que no podamos tener cosas mejores: es que estamos desperdiciando el capital que las haría posibles. El comunista que defiende “el verdadero comunismo nunca se intentó” frente a 50 millones de muertos por hambre es exactamente igual al ex-ejecutivo de Cruise que dice “tuvimos buenas razones” frente a $10 billones quemados.

Tiny Corp: honestidad sobre el riesgo real

La admisión más honesta del corpus sobre el proyecto. Con Comma no podía fallar porque el problema era claro y había un camino obvio. Con Tiny, es posible que JAX, PyTorch y Triton simplemente lo superen perpetuamente y nunca pueda alcanzarlos. Eso es una posibilidad real. Lo que lo mantiene convencido de que la idea es correcta: reducir las redes neuronales a una abstraction layer mínima con 5,200 líneas de código es genuinamente la forma correcta de hacer esto. Pero admite que lo estaba trabajando de manera “insostenible” y estaba produciendo menos output al forzarse a grindear más. La misión que describe en una conferencia: “commoditize the petaflop.” Traer el precio del FLOP de Nvidia al costo real del silicon y la energía, eliminando el premium artificial.

Las Laptop Olympics

Un stream de Thanksgiving donde compara cuatro laptops: MacBook Pro M1 Max (4 años de antigüedad), ThinkPad X1 Carbon, Framework 16, y HP ZBook Ultra G1A (Strix Halo). El veredicto técnico expresado con la precisión de quien conoce el tema: el ThinkPad tiene menos potencia de cómputo que su ZFold 7 (teléfono celular), lo cual es vergonzoso para un laptop de $2,000+. El Framework 16 tiene un screen terrible con glare que lo hace inutilizable en condiciones normales de oficina, flex que hace temer que se rompa al torquearlo, y el procesador AMD Strix Point (a diferencia del Strix Halo del HP) tiene power draw demasiado alto. El HP ZBook Strix Halo llega a 14-17 teraflops, carga con OLED screen hermosa, build quality en par con Apple, touchpad Apple-tier, pero requiere su propio adaptador de 140W y tiene branding de rally car encima. El MacBook M1 Max de 4 años sigue siendo competitivo con casi todo, idle a 6 watts, carga con cualquier cable, y tiene el mejor balance de todo. Su conclusión: si no comprás Mac, comprá el HP. Framework tiene el corazón en el lugar correcto (schematic open source, CEO que responde emails), pero el producto actual no está listo.

El stream sobre dating apps, cuerpos y relaciones

El stream más crudo del corpus en este tema. Sus posiciones sin filtro: el mejor predictor de si una mujer va a tener sexo casual con vos es su body count. Si tenés 70 parejas pasadas, estás buscando sexo casual. Si tenés 3, no. Dice esto como “obviously true” sin presentarlo como moralización. Los dating apps mienten sobre sus user counts activos. Hinge tiene weight (no) pero height (sí) a pesar de que ambos son indicadores físicos igualmente visibles en fotos. La explicación que da: porque los hombres miden status con altura y las mujeres miden status con peso, y a los apps no les conviene asustar a las mujeres que son su producto. Su solución para el dating: Instagram. Si tenés game y un buen Instagram, podés DM a cualquiera con mejor hit rate que Hinge. Para eso aumentó sus seguidores de Instagram. Dice explícitamente que no está en el top 5% de attractiveness físicamente pero que compensa de otras formas. Su benchmark es que “gets Bs” en términos de atractividad de las personas con quienes sale. Sobre Ozempic y antidepresivos: muy negativo. Los antidepresivos los llama “speed y cope” y dice que enmascaran problemas en vez de resolverlos. Sobre la idea de que el dinero consigue mujeres: llama a esto “capitalista whore mentality.” Dice que income correlates con attractiveness pero que una vez que decorrelacionás esas variables, el dinero no hace nada. El $400k TC de Fang “is the least attractive shit I’ve ever heard.” Lo que sí importa: fitness, confianza, seguridad interna.

Religión

Se declara cristiano de nuevo y en este batch es más explícito. Cree que Jesús murió por sus pecados. Cree en la evolución, y su creencia en la evolución tiene precedencia sobre su interpretación literal de la Biblia. No cree que la Biblia sea la palabra literal de Dios sino que fue interpretada a través de cerebros humanos. No sabe si hay afterlife, 50/50. Reza a veces. Va a misa aproximadamente tres veces al año. Su argumento contra el ateísmo: “Where did the Big Bang come from? God, that’s what I thought.” Dice que el ateísmo es “the stupidest religion I’ve ever heard.” La caracterización de Dios que más le resuena: “like a kid with an ant farm”, omnipotente con respecto a nosotros pero no necesariamente con respecto a entidades superiores.

Vida personal en este batch

Biking 5 millas al trabajo todos los días durante tres semanas. Tiene premature ventricular contractions que fueron diagnosticadas sin consecuencias serias en un ecocardiograma. Usó el ecocardiograma pero subió los resultados a ChatGPT para la interpretación, no al doctor. Está usando glucose monitor y Whoop band como parte de quantified self experiments. Le preocupa estar envejeciendo y trabajando insosteniblemente. Apostó a Mike Tyson en el fight contra Jake Paul y perdió. Apostó a Trump en Polymarket y ganó. Betó menos en el Tyson que lo que ganó en Trump. Considera que Polymarket es un scam. Su evaluación de Sam Altman subió post-coup en OpenAI porque resultó que Altman tampoco le gusta a Helen Toner y los EAs. Lo pone en el mismo tier que Zuckerberg: self-interested pero no necesariamente malo. Sobre Sundar Pichai: “No me gusta y no veo redención para él.” Sobre Lex Fridman: endorsement sin reservas, lo considera completamente genuino.

Libros y referencias: Gravity’s Rainbow de Thomas Pynchon que está leyendo en stream. Children of Men de P.D. James comparado como mucho más fácil. The Corrections de Jonathan Franzen mencionada como ejemplo de libro legible. The Infinite Jest que leyó a los 25. Dan Carlin’s Hardcore History podcast que escuchó en road trips a los 19. El paper de Judea Pearl sobre causalidad y contrafactuales. La frase “Gell-Mann Amnesia” (creer a los medios en temas que no conocés después de ver lo mal que cubren los que sí conocés) que cita en el contexto de las noticias falsas sobre el cierre de Comma en 2016.

El framework de Paul Graham para saber si una empresa está viva o muerta

No lo menciona explícitamente en el corpus como “framework de Paul Graham”, pero la idea que repite constantemente y que viene de YC es esta: una empresa está viva si tiene usuarios reales usando el producto y pagando. Una empresa está muerta si tiene funding, comunicados de prensa, partnerships anunciados, y branding, pero no tiene producto que la gente use hoy. Su test personal es: “¿puedo descargar una app y usarlo ahora mismo?” Si no, no es tecnología real, es hype. Waymo pasa el test porque podés bajar la app en San Francisco y llamar un auto. Cruise no pasaba el test porque nunca pudiste llamar uno tú mismo. Los humanoid robot startups no pasan el test porque no podés pedirle a ninguno que te cocine pasta hoy. Comma pasa el test desde el primer día: comprás el device, lo instalás en 15 minutos, y el auto maneja.

El otro eje que usa es unit economics positivos desde el primer día, no hockey stick proyections. Comma vende devices a $999 y los fabrica por menos. Tesla hace lo mismo. Cruise quemaba plata en cada viaje esperando que “eventually” la economía funcionara. Eso es exactamente lo que PG llama “ramen profitable” versus “waiting for the miracle.”

Por qué no le gusta Helen Toner

Helen Toner era miembro del board de OpenAI y fue una de las personas que intentaron remover a Sam Altman en el coup de noviembre 2023. Hotz la menciona como parte del grupo de Effective Altruists dentro del board que usaban “AI safety” como justificación política para controlar la dirección de la compañía. Su lectura del coup: Toner y los otros board members no querían que OpenAI comercializara tan agresivamente porque eso contradecía la narrativa de que OpenAI era una nonprofit enfocada en “el bien de la humanidad.” Cuando el coup fracasó y Altman volvió, Hotz revisó su opinión de Altman al alza exactamente porque Altman también quería sacarlos. “Enemy of your enemy” fue su razonamiento literal. Lo que más le molesta de Toner específicamente no está desarrollado en detalle en el corpus, pero el patrón es claro: ve a alguien que usa el lenguaje de AI safety para ejercer poder institucional, que es exactamente el tipo de persona que más desprecia.

Por qué no le gusta Sundar Pichai

Esto sí lo desarrolla más. Su argumento central: Google bajo Pichai se convirtió en una empresa anti-tecnología. El ejemplo más concreto que usa es iOS versus Mac con los browsers. En iOS no podés instalar Chrome real, solo un WebView que es básicamente Safari porque Apple no permite que ningún otro engine marque páginas como ejecutables (rwx permission). Dice que hay una probabilidad de 5% de estar desactualizado en este dato pero cree que es correcto. El punto es que fuimos de un mundo donde Microsoft fue demandado por incluir Internet Explorer en Windows, a un mundo donde Apple no solo incluye Safari sino que prohíbe cualquier competidor real, y nadie hace nada. Eso es “regulatory capture” y Pichai como CEO de Google, que es el principal competidor de Safari en móvil, no hizo nada al respecto. Además describe a Google Search como broken, algo que repite múltiples veces en el corpus. La compañía que más debería estar empujando por internet libre y search abierto se convirtió en uno de los actores que lo deteriora. No le ve camino de redención porque a diferencia de Zuckerberg (que al menos hace Meta AI open source) o de Altman (que al menos tiene un producto real que la gente usa), Pichai preside sobre una compañía que está activamente destruyendo las cosas que la hicieron grande.

Effective Altruism y por qué lo detesta

EA es el movimiento filosófico-filantrópico fundado principalmente por Peter Singer y popularizado en Silicon Valley por figuras como Will MacAskill. La idea central: usar razonamiento riguroso y datos para maximizar el bien que hacés con tu dinero y tu tiempo. En la práctica en Silicon Valley se convirtió en: donar a causas con el mayor “impact” calculado (malaria nets, AI safety, existential risk), trabajar en organizaciones de “high impact”, y en algunos casos extremos, “earn to give” (trabajar en finanzas y donar el dinero en vez de trabajar directamente en el bien).

Hotz la llama “an abominably evil ideology” y su argumento es el siguiente: el utilitarismo en el que se basa EA te lleva por un camino lógico a justificar cosas monstruosas. Si podés matar a tres personas para salvar a diez, deberías hacerlo. Eso es “matás tres para salvar diez.” El problema es que una vez que aceptás esa lógica, el “para salvar diez” empieza a desaparecer y te quedás solo con “matás tres.” La pipeline de “utilitarian a murderer” es, en sus palabras, muy straightforward.

Sam Bankman-Fried es su ejemplo perfecto de esto. SBF era el “embodiment de EA”: donaba enormes sumas a causas de EA, era el caso de éxito del “earn to give”, era celebrado por el movimiento. Y básicamente robó y estafó miles de millones de dólares. Hotz dice que SBF no es una traición al ideal de EA sino el resultado lógico de él: una vez que aceptás el utilitarismo, podés justificar cualquier cosa si los números dan bien. Las fiestas de EA que describe como “no son orgías, son gang bangs con escorts ethically sourced” también están en el corpus como indicador de la cultura del movimiento.

El otro problema que ve es geopolítico y de poder: los EAs dentro de OpenAI (como Toner) usaban el lenguaje de AI safety no como preocupación genuina sino como herramienta para concentrar poder institucional. La narrativa de “necesitamos controlar el AI para salvar a la humanidad” se convierte en “nosotros los EAs deberíamos controlar el AI”, que es exactamente el Chicken Man scenario que más teme. Preferiría ser “paperclipped” (matado por una IA) antes que vivir bajo el jackboot de Sam Altman o cualquier EA en el poder. Lo dice literalmente.

Detalles del batch que quedaron cortos en el resumen anterior

La presentación de ComicCon tiene un momento muy honesto sobre el Dunning-Kruger inicial. Cuando empezó Comma pensó que la parte difícil era construir el software. Tardó meses. La parte realmente difícil era todo lo demás, y tardó años en entenderlo. Sobre Cruz específicamente, dice que Kyle Vogt admitió en Lex Fridman que abandonó el kit aftermarket para el Audi A4 porque soportar múltiples modelos de autos era “demasiado difícil.” Comma resolvió ese problema hace años. Hoy soporta cientos de modelos. Que alguien que no pudo resolver eso haya levantado $10 billones para Cruz mientras Comma operaba con $10 millones es la demostración más clara de que el capital se asigna por narrativa y branding, no por ejecución real. La imagen que usa: con $10 billones podrías haber construido seis Burj Dubai, uno en cada ciudad grande de EEUU. En cambio tuviste Cruz.

Sobre el Comma 4 específicamente, dice que cuando alguien que nunca tuvo un Comma compra uno y lo usa por primera vez, puede ser “la mejor experiencia con un consumer electronic desde el N64.” La razón es el contraste entre lo que el hype promete (humanoid robots cocinando pasta, FSD nivel 5) y lo que realmente existe versus lo que Comma realmente entrega: un device pequeño, lo instalás en 15 minutos, y el auto literalmente maneja. Eso es magia real, no hype.

Scott Aaronson

Es un teórico de la computación y físico cuántico, actualmente profesor en UT Austin. Su trabajo central es en computational complexity theory, específicamente en la relación entre computación cuántica y la jerarquía de complejidad clásica (P vs NP, BQP, etc.). Tiene un blog llamado Shtetl-Optimized que es famoso en los círculos de matemática y computación por combinar rigor técnico con opiniones directas sobre ciencia, política y filosofía.

Hotz lo admira por exactamente lo que admira en cualquier persona: dice lo que piensa aunque sea impopular, hace preguntas que nadie más hace, y trabaja en problemas reales con consecuencias reales. El ejemplo que usa en el corpus es que Aaronson se pregunta si la computación cuántica realmente va a poder resolver problemas que la computación clásica no puede, y no tiene miedo de decir “probablemente no para muchas cosas donde se está overhyping.” Eso es exactamente el tipo de pensamiento que Hotz respeta: alguien que trabaja en la frontera de lo que se sabe y es honesto sobre los límites. También menciona que Aaronson está en una universidad real pero produce pensamiento genuino a pesar del sistema, no gracias a él. Es uno de los pocos académicos que nombra como ejemplo de que la universidad puede producir algo valioso cuando la persona individual tiene integridad intelectual.

La conexión técnica más importante para Hotz es que Aaronson piensa seriamente sobre las preguntas que más le importan: ¿qué puede computar una máquina? ¿Cuáles son los límites fundamentales de la computación? ¿Qué significa que P ≠ NP? Estas son exactamente las preguntas que están en el corazón de “entropics” y de su escepticismo sobre el AI foom. Si hay límites fundamentales a lo que se puede computar con cierta cantidad de energía, entonces el foom es imposible por razones más profundas que las empíricas.

Robin Hanson

Es un economista y futurista en George Mason University, conocido por su blog Overcoming Bias que cofundó con Eliezer Yudkowsky (antes de que Yudkowsky fundara LessWrong por separado) y por su libro The Age of Em sobre un futuro donde las mentes humanas son emuladas en computadoras. Su estilo intelectual es extremadamente característico: toma ideas molestas y contraintuitivas, las desarrolla hasta sus consecuencias lógicas más extremas sin importarle si el resultado es socialmente aceptable, y las defiende con datos económicos.

Sus ideas más conocidas incluyen la tesis de que la mayoría de lo que los humanos hacen no es por las razones que dicen que lo hacen. Los médicos no van al médico principalmente para curarse sino para señalizar que se preocupan por su salud. La educación no es principalmente para aprender sino para señalizar compliance e inteligencia a los empleadores. La política no es principalmente sobre políticas sino sobre pertenencia tribal. Esto lo sistematizó en The Elephant in the Brain coescrito con Kevin Simler, que Hotz menciona en el corpus.

Hotz lo menciona diciendo que está “almost perfectly aligned” con Robin Hanson en su visión de los trajectories económicos del AI. La posición de Hanson es que el AI simplemente va a continuar las líneas de tendencia existentes de la economía, que es exactamente lo que Hotz cree. No habrá un foom ni un hard takeoff. Las S-curves van a continuar siendo S-curves. La economía va a seguir creciendo de manera más o menos predecible. Los cambios van a ser grandes pero no cualitativamente diferentes a las otras grandes transiciones económicas que ya vivimos (Revolución Industrial, etc.).

Lo que más admira de Hanson específicamente es la honestidad epistémica brutal. Hanson no tiene miedo de decir cosas que hacen enojar a todo el mundo simultáneamente, porque su criterio no es agradar sino ser correcto. Eso es lo que Hotz más valora en cualquier persona. También menciona haber escuchado a Hanson en el podcast de Jim Rutt y decir que casi todo lo que Hanson dice sobre trajectories económicos le parece razonable. La única diferencia es que Hotz añade el argumento técnico de por qué el foom es imposible, que Hanson no desarrolla de la misma manera.

El detalle importante es que Hotz los agrupa juntos como ejemplos de gente que hace pensamiento real fuera de los incentivos normales del sistema académico o corporativo. Aaronson desde dentro de la academia pero resistiendo sus peores impulsos. Hanson desde dentro de la academia pero también resistiendo. Ambos son productores de ideas genuinas en un ambiente que Hotz cree que sistemáticamente destruye el pensamiento genuino.

Este batch repite parcialmente material ya procesado (las Laptop Olympics y la presentación de ComicCon) con algunos streams adicionales. Me concentro en lo nuevo.

La definición técnica de la misión de Tiny Corp

La formulación más precisa del corpus. Tiny Corp tiene dos misiones. La primera: commoditize el petaflop. Hoy hay un premium absurdo sobre los FLOPs de Nvidia que no está justificado por el costo real del silicon ni de la energía. Tiny quiere llevar el precio del FLOP a apenas por encima del costo marginal real. La segunda misión es más profunda: repensar cómo se hace el software de ML desde primeros principios. Tiny habla directamente con la GPU sobre PCIe, sin el userspace de Nvidia, sin drivers de Nvidia, sin cuBLAS, sin nada de Nvidia. La razón no es ideológica sino de reliability: para construir robots confiables en el futuro, necesitás un OS que tenga el mismo nivel de robustez que el robot. Un humano no va a glitchear y estrellarse su cabeza contra una mesa a menos que algo esté seriamente mal. Con la stack actual de software, tu kernel puede quedar atascado sirviendo una interrupción por 300ms con el motor a full torque. Eso es inaceptable. Tiny ya corre en producción en Comma.

El argumento del success en un infinite game

Una de sus reflexiones más maduras del corpus. Cita la anécdota de Jensen Huang que en una entrevista dijo “si hubiera sabido lo difícil que iba a ser, nunca lo hubiera hecho.” Esto lo usa para plantear la pregunta: ¿qué es el éxito? En un juego finito como el ajedrez, el éxito es ganar. Hay un fin. Pero en un infinite game, el éxito es simplemente sobrevivir. Comma sobrevivió cuando todos los demás fracasaron: Cruz, Argo, Embark, Uber ATG. Sobrevivir 10 años es el logro fundamental. Todo lo demás es consecuencia.

El argumento contra los humanoid robot startups

Honda Asimo es el ejemplo histórico correcto. Honda en su mejor momento tomó el 0.1% de su operating budget y lo tiró en un robot humanoide para PR. Fue una excelente decisión para una compañía automotriz altamente rentable. Kyle Vogt abandonó el kit de $10,000 para el Audi A4 porque soportar múltiples modelos de autos era “demasiado difícil”, luego levantó $150 millones para construir robots humanoides que son órdenes de magnitud más difíciles. La lógica aquí es impecable: si self-driving no está resuelto y self-driving es el problema más fácil en applied AI, humanoid robotics no tiene ninguna chance en una startup. La excepción es Tesla Optimus porque Tesla ya es rentable como compañía automotriz y puede tirar $100 millones en Optimus como PR experiment sin comprometer su negocio.

La tesis del “dude”

Su idea más original sobre self-driving cars, mencionada en el ComicCon. Una self-driving car no es un auto. Es un dude. Cruz, Waymo, y Zoox cometieron el error fundamental de construir carros. Comma construyó el dude, el software que se pone en el asiento y conduce. Eventualmente el Comma 9 no va a ser un device en el parabrisas, va a ser un robot que se sienta en el asiento del conductor, agarra el volante y maneja cualquier carro. “¿Es compatible con mi carro? Sí, bro, él se sienta en el asiento.” Esto hace que toda la discusión sobre seguridad de los carros o partnerships con fabricantes sea irrelevante.

La predicción cuantitativa de cuánto falta para self-driving

La más concreta del corpus. Los humanos tienen un accidente cada 500,000 millas. Tesla FSD actualmente tiene una disengagement crítica cada ~3,000 millas. Eso mejora aproximadamente 2x por año. Para llegar de 3,000 a 500,000 necesitás casi 8 doublings, que son 8 años. Por lo tanto Tesla llega en 8 años. Comma llega en 10. Esta es una predicción genuinamente falsificable y es exactamente el tipo de razonamiento que admira y que distingue un argumento real de hopium.

El argumento sobre dinero y atractivo decorrelacionados

Lo desarrolla más en este batch. Su punto central: income correlates con attractiveness, pero income también correlates con las otras cosas que te hacen atractivo. Una vez que controlás por esas variables, la correlación directa entre dinero y atractivo desaparece. El dinero es el mapa, no el territorio. Lo que subyace al dinero que funciona es poder, propósito y seguridad interna. Un banker que “controla quién obtiene mortgages” puede ser atractivo porque ejerce poder real. Un FAANG engineer con $400k TC maxeando su carrera no ejerce poder sobre nada que importe, y eso se siente. Menciona que su Rolls-Royce vale $60k, no $200k como especulaba alguien en el chat.

Sobre religión en este batch

El Q&A más extendido sobre el tema. Dice que si hubiera nacido en una cultura musulmana probablemente sería musulmán. Pero el Islam le parece “menos chill” que el Cristianismo, específicamente en el sentido de que el turn-the-other-cheek del Nuevo Testamento le resuena. Su argumento cosmológico para creer en Dios es simple: “¿De dónde viene el Big Bang?” El ateísmo le parece la religión más estúpida que existe porque básicamente dice “nada creó todo y no hay explicación.” Dios omnipotente con respecto a nosotros pero no necesariamente omnipotente con respecto a sus propios superiores, como el jugador de Skyrim que es omnipotente con respecto a los NPCs pero no con respecto a Bethesda. No tithes a la iglesia, le tithes al gobierno federal “against my will.”

Vida personal en este batch

Confirma que nunca ha vendido shares de Comma ni de Tiny Corp y no tiene planes de hacerlo. Comenta haber apostado a Tyson contra Jake Paul y perdido, pero apostó menos de lo que ganó apostando a Trump en Polymarket. Dice que Polymarket es un scam. Está usando Instagram para conocer gente porque los dating apps son terribles. Su novia estuvo de visita en el Airbnb más grande que normalmente rentaría porque “éramos dos.” Lisa Su de AMD lo contactó personalmente después de sus posts sobre power management de los chips, le ofreció un laptop, él ya lo tenía. Le respondió que el problema principal era el power draw. Está bikeando 5 millas al trabajo todos los días.