Lo más interesante de este stream es que George Hotz destruye bastante el mito “mágico” del coding con agentes IA. Básicamente dice que el stream anterior había dado una impresión equivocada: la gente cree que podés soltar un agente y dejarlo programar solo, pero en la práctica tenés que supervisar obsesivamente cada línea. Para él, los agentes sirven más como aceleradores de iteración que como programadores autónomos.
Todo el tiempo repite una idea: “si no entendés completamente el código que escribió el agente, te estás encerrando en una esquina”. Dice que el verdadero peligro es psicológico. Cuando vos escribís el código manualmente, sentís inmediatamente qué partes no entendés. Pero cuando lo genera la IA, es muy fácil autoengañarte mirando el diff y pensar “sí, entiendo esto”. Entonces insiste en leer línea por línea, cuestionar cada helper function, cada assert, cada hack, cada variable rara. El enemigo principal es el “slop”: código inflado, redundante, parcheado, lleno de hacks y abstracciones innecesarias.
Su workflow real no tiene nada de glamoroso. Tiene 3 o 4 agentes corriendo en paralelo, cada uno trabajando sobre distintos PRs, y él constantemente revisa diffs, corrige detalles, interrumpe al agente, cambia instrucciones y vuelve a correr tests. Dice explícitamente que manejar demasiados agentes lo sobrepasa cognitivamente. El cuello de botella ya no es escribir código sino mantener el estado mental completo del sistema en la cabeza.
Hay una observación muy importante y bastante contradictoria con el hype actual: dice que los skills necesarios para usar IA son prácticamente los mismos skills necesarios para programar bien antes de la IA. Tenés que entender sistemas complejos, distinguir qué información es relevante, detectar código sospechoso, entender hardware, protocolos, flujo de datos, debugging. O sea: la IA no elimina expertise. Para él, incluso la aumenta. La gente que piensa que “ya no hace falta saber programar” está totalmente equivocada.
También explica por qué algunos problemas funcionan bien con agentes y otros no. Usa una analogía casi de optimización matemática. Dice que los agentes funcionan cuando “el gradiente fluye”, o sea cuando existe feedback incremental claro. Por ejemplo, flashing firmware y correr tests automáticamente. El agente hace un cambio, el test mejora o empeora, entonces puede iterar. Pero si el problema no tiene una métrica incremental clara, la IA empieza a meter hacks arbitrarios para acercarse superficialmente al resultado.
Da un ejemplo concreto muy técnico: intentó que la IA escribiera un emulator cycle-accurate de GPU. En vez de modelar correctamente la arquitectura de la GPU, el agente empezó a agregar hacks específicos para pasar tests. Ahí muestra una crítica profunda a cómo razonan estos modelos: optimizan localmente contra el feedback visible, no construyen necesariamente modelos internos correctos del sistema.
Eso conecta con otra idea fuerte: “si puede acercarse agregando hacks, generalmente lo hace”. Esta frase resume bastante su visión de LLMs actuales.
Durante el stream está trabajando principalmente en:
Menciona varias tecnologías específicas:
Hay un momento muy interesante donde explica algo muy low-level sobre USB. El agente comenta “no pull-up on D+ line”, y George dice que si vos no entendés que el pull-up en D+ es cómo USB detecta que un dispositivo fue conectado, entonces no podés realmente validar el output del agente. Esa parte resume toda su filosofía: la IA no reemplaza comprensión profunda de sistemas.
También critica muchísimo el “vibe coding”. Cada vez que ve hacks como:
flush=True,Otra observación importante: nunca deja que el agente haga commits automáticamente. Dice directamente “that stuff’s just broken”. Para él, el modelo todavía no tiene suficiente criterio arquitectónico.
Hay una parte donde menciona a Andrej Karpathy y dice que está de acuerdo con algo que Karpathy comentó: con agentic coding tus habilidades de escribir código se atrofian un poco, pero tus habilidades de leer código mejoran muchísimo. George parece creer que el futuro del programador se mueve más hacia revisión, arquitectura y comprensión profunda que hacia tipeo manual.
También dice algo filosóficamente interesante sobre por qué confiar en IA para programación no es igual a confiar en Stockfish para ajedrez. En ajedrez, humano y engine comparten perfectamente el objetivo: ganar la partida. Pero en software muchas veces el problema real es definir correctamente qué querés construir. Ahí sigue habiendo ambigüedad humana enorme. Entonces aunque el agente sea “superhumano”, todavía queda el problema de alineación semántica y arquitectónica.
Hay varias contradicciones interesantes en su postura: Primero, dice que agentic coding quizás ni siquiera sea un net productivity win total. O sea, aunque genera código rapidísimo, el refinement stage se vuelve más largo porque tenés que revisar todo obsesivamente.
Segundo, mientras critica muchísimo el hype de agentes autónomos, igual admite que hay partes enteras de su proyecto ya escritas “fully agentic”. Especialmente cuando existen loops cerrados automáticos con tests y feedback continuo.
Tercero, aunque vive criticando el código generado, sigue usándolo agresivamente. Parece verlo como una especie de compilador extremadamente poderoso pero poco confiable.
También aparece una idea interesante sobre cómo cambió el proceso de desarrollo. Dice que “code production looks more like diffusion now”. La primera versión aparece instantáneamente, pero el trabajo real es el refinement iterativo posterior. Es una comparación bastante profunda con modelos generativos de imágenes: generar algo inicial es barato; limpiar artefactos es lo costoso.
En cuanto a libros o referencias, en este fragmento no menciona libros específicos. Las referencias más claras son:
La síntesis más corta posible de todo lo que piensa sería algo así: Los agentes IA son herramientas útiles para acelerar iteración y debugging, pero no entienden realmente arquitectura ni intención. Tienden naturalmente a producir hacks locales y código inflado. El programador humano sigue siendo responsable de mantener el modelo mental completo del sistema, entender hardware/protocolos, detectar malas abstracciones y decidir qué código es correcto. El skill crítico del futuro no es “hacer prompts”, sino tener suficiente comprensión técnica para filtrar el slop.
Acá George Hotz empieza a mostrar algo todavía más profundo sobre cómo piensa el software: para él, los agentes IA no fallan principalmente porque “se equivocan”, sino porque introducen complejidad estructural que rompe el modelo mental del programador.
Por ejemplo, detecta que después del “loop unrolling” el sistema vuelve a llamar al parser de P-code. Eso le genera rechazo instantáneo. No porque necesariamente esté roto, sino porque viola la arquitectura conceptual que él esperaba. Dice literalmente “I don’t like that”. Eso parece una boludez emocional, pero en realidad revela cómo programa: tiene un modelo muy estricto de flujo de datos y responsabilidades. Si el unroller vuelve a entrar al parser, siente que el sistema empezó a hacer cosas circulares, difíciles de razonar. Ahí aparece una idea clave: el verdadero costo de la IA no es el código malo, sino los “knots”, nudos mentales. Pequeñas partes del sistema que ya no entendés completamente.
Hay una frase muy importante: “now I have like a knot in my code”. Para él eso es gravísimo. Porque aunque el cambio funcione y los tests pasen, si introduce una zona conceptual confusa, el costo futuro explota. Parece obsesionado con mantener una arquitectura donde pueda simular mentalmente todo el sistema. El slop no es solamente código feo: es pérdida de compresibilidad cognitiva.
También empieza a aparecer una visión mucho más sofisticada de cómo usar agentes. Él no los usa como reemplazo del pensamiento sino como herramientas de transformación estructural. Por ejemplo, decide eliminar define global y reemplazarlo por param en Tinygrad. No es un cambio superficial; está simplificando el IR interno y preparando el terreno para futuros cambios arquitectónicos, como reemplazar kernel ops por call ops. O sea, la IA ejecuta refactors, pero la dirección conceptual sigue viniendo completamente del humano.
Hay algo muy interesante cuando explica que la suite de tests es demasiado lenta para cerrar el loop automáticamente. Entonces hace algo híbrido: deja que el agente haga cambios pequeños y localizados, él corre manualmente los tests pesados, pega los errores y le pide explicaciones. Esto contradice bastante la fantasía de “fully autonomous agents”. Su workflow real parece más un copiloto extremadamente rápido que un programador independiente.
Otra cosa importante es que empieza a notar costos cognitivos inesperados. Dice que cuando arrancó no entendía “the absolutely massive cost” de introducir soluciones parcialmente incomprensibles. Esto conecta muchísimo con sistemas legacy reales: el problema no es solo que algo funcione hoy, sino cuánto destruye la capacidad futura de modificar el sistema sin miedo.
Hay una crítica implícita enorme a toda la cultura de “ship fast”. Él constantemente sacrifica velocidad por claridad conceptual. Ve algo raro aunque funcione y lo frena inmediatamente. Cuando detecta una “type confusion kind of thing”, aunque el fix pasó los tests, dice “no, this is very bad”. Ahí se nota mentalidad de systems programmer hardcore: los tests no son suficientes. El modelo conceptual importa más que el resultado superficial.
También aparece algo muy interesante sobre reverse engineering. Está trabajando sobre registros hardware sin datasheets oficiales. Claude tuvo que inferir registros directamente del firmware reverse engineered. Eso es una locura técnica importante. Básicamente está usando LLMs como herramientas de análisis binario y extracción semántica desde firmware desconocido. Pero incluso ahí mantiene la misma postura: el agente ayuda a descubrir estructuras, pero él sigue validando manualmente toda la semántica.
Después hace una distinción importante entre el stream anterior y su workflow real. Dice que los mejores programadores del mundo no están “spamming Gastown and Claws”, sino usando IA de manera “restrained and tasteful”. Para él, el verdadero programming con IA es aburrido, disciplinado y extremadamente cuidadoso. No es hype. No es “vibe coding”. Es revisión línea por línea.
En un momento incluso amenaza básicamente a los contributors de Tinygrad: si mandan PRs obviamente generados por IA y no revisados profundamente por humanos, los va a rechazar inmediatamente. Dice: “I have the same AI as you do. Don’t waste my time.” Esa frase resume toda su filosofía anti-slop. El valor ya no es “generar código”. El valor es tener criterio.
Después entra en algo bastante importante sobre cómo la IA afecta habilidades cognitivas. Compara los agentes con GPS para autos. Él evita usar navegación salvo que realmente la necesite porque siente que deteriora capacidades espaciales. Pero usa “a magic map with a dot on it”. O sea: augmentation sí, dependencia total no.
Luego menciona un estudio de Anthropic sobre AI-assisted coding. Lo interesante es que usa el propio estudio de Anthropic contra el hype de Anthropic. El resultado era que el grupo usando IA terminó apenas 2% más rápido —estadísticamente irrelevante— pero entendía muchísimo menos el código, especialmente debugging. George enfatiza muchísimo esto: la pérdida más grande era en capacidad de detectar por qué algo falla.
Esa parte es probablemente lo más importante filosóficamente de todo el stream. Él cree que debugging y comprensión profunda siguen siendo el núcleo del programming skill. Y piensa que muchas herramientas actuales erosionan precisamente eso.
También admite algo importante: no sabe todavía si este workflow realmente lo hace más productivo. Esa honestidad es rara. Mucha gente habla como si el tema estuviera resuelto. Él no. Está experimentando en tiempo real.
Hay un cambio interesante donde dice que antes rechazaba totalmente estas herramientas, pero cambió de opinión con Opus 4.5. O sea, sí cree que hubo un salto real de capacidad. Pero incluso después de aceptar eso, sigue pensando que el peligro del slop sigue intacto.
Después hace otra observación muy buena: el primer resultado que da el modelo suele ser el mejor. Refinar iterativamente muchas veces empeora las cosas o introduce complejidad rara. Dice que esto genera una ilusión peligrosa: parece que el código está “98% listo”, cuando en realidad está “20% listo”. Lo barato y lo caro cambiaron de lugar. Antes era caro escribir código y relativamente barato entenderlo. Ahora generar código es trivial y validar arquitectura correcta es lo realmente costoso.
También tira varias opiniones bastante agresivas sobre herramientas. Critica Cursor, Claude Code y bastante software de AI coding actual. Dice que muchos patrones de “vibecoded slop” aparecen incluso en herramientas populares. Prefiere OpenCode con modelos abiertos como Kimmy antes que Claude Code cerrado. No por privacidad —dice explícitamente que no le importa demasiado enviar datos— sino porque valora más el workflow y la calidad del control.
Después hace una analogía muy buena con spreadsheets y contabilidad. Dice que cuando apareció Excel no desapareció la contabilidad; simplemente cambió el workflow. Los buenos contadores siguieron siendo buenos porque la habilidad central seguía siendo entender números y sistemas financieros. Cree que con programación va a pasar algo parecido: los workflows cambian, pero el ranking relativo de programadores probablemente cambie mucho menos de lo que la gente cree.
Finalmente aparece una contradicción muy interesante. Aunque critica muchísimo depender de IA en lenguajes que no conocés, admite que para scripts rápidos son increíbles. Ahí ve el verdadero “killer use case”: automatizar tareas periféricas de debugging, tooling y glue code. No porque la IA escriba mejor scripts, sino porque elimina 15 minutos de trabajo repetitivo convirtiéndolos en 15 segundos.
Y el cierre es perfecto porque vuelve a lo low-level real: está emocionado esperando que el emulador finalmente haga aparecer el dispositivo USB en lsusb. Toda la discusión filosófica sobre IA termina aterrizada en algo concretísimo de sistemas: registros, buses, enumeración USB y debugging real de hardware.
Acá George Hotz empieza a cristalizar una filosofía bastante completa sobre IA, productividad y software engineering. Lo primero que aparece es una metáfora muy buena: “you need to be the Earth and the AIs need to be the moon”. Para él, el humano tiene que seguir siendo el centro gravitacional del sistema. La IA orbita alrededor tuyo; no al revés. Dice que tenés que tratar al agente como un junior dev extremadamente rápido que constantemente intenta impresionarte, pero que necesita supervisión continua porque puede desviarse silenciosamente hacia el desastre.
Hay algo muy importante cuando dice “they fool you by being fast”. Para George, la velocidad genera una ilusión cognitiva peligrosa. El cerebro humano asocia rapidez con competencia. Si algo produce muchísimo output instantáneamente, uno empieza a asumir que “debe entender”. Pero él cree que eso es exactamente la trampa. La IA produce volumen antes que comprensión. Y el programador termina confundiendo movimiento con progreso.
Después entra en una reflexión histórica bastante interesante. Dice que él entendía técnicamente desde hace años que modelos predictivos y compresión de lenguaje “en teoría” podían generar comportamiento inteligente. Había trabajado temprano en ideas relacionadas a compresión y predicción. Pero lo que no predijo fue la productización. No anticipó que el formato conversacional iba a ser tan importante. Tampoco predijo los loops interactivos agentic actuales. Esto es importante porque George suele ser visto como alguien extremadamente visionario técnicamente, y aun así admite haber subestimado varias de las dinámicas reales de adopción.
Cuenta que antes de Opus, cada vez que probaba agentes autónomos, simplemente se descontrolaban. “Go off on some tangent. Put crap everywhere.” Esa frase resume bastante cómo ve los modelos anteriores: sistemas sin capacidad de mantener coherencia arquitectónica prolongada. Lo interesante es que ahora cree que sí cruzaron cierto umbral. No porque entiendan profundamente, sino porque ya son suficientemente competentes como para integrarse en workflows reales.
Hay un momento donde se pone bastante agresivo contra el hype corporativo. Habla de empresas que abrazan IA “all-in” dirigidas por no-programadores y dice directamente que si trabajás en un lugar así, deberías irte porque esa empresa “is going into the ground”. Esto conecta con su miedo central: el “slop apocalypse”. La idea de organizaciones enteras inundando sus codebases con código generado superficialmente entendido por nadie.
Pero lo interesante es que tampoco cae en el extremo opuesto. No es anti-IA. De hecho admite explícitamente que probablemente hay que aprender a usar estas herramientas porque la productividad eventualmente sí va a aumentar. Lo que rechaza es la narrativa mesiánica. Dice varias veces “I don’t know”. Hay una incertidumbre genuina. No habla como evangelista ni como doomposter. Habla como alguien que siente que está experimentando dentro de una transición tecnológica real.
Después aparece una discusión bastante profunda sobre scaling laws y data efficiency. George dice que el problema actual de LLMs no es falta de compute sino falta de datos. Las scaling laws “pararon” porque básicamente ya se consumió gran parte del internet útil disponible. Ahí menciona una discusión entre Jürgen Schmidhuber y Dorcas/otros investigadores donde Schmidhuber argumenta que los LLMs no representan realmente “The Bitter Lesson”.
La referencia importante ahí es The Bitter Lesson de Rich Sutton. La idea del Bitter Lesson es que en IA históricamente terminan ganando los métodos generales basados en search y escala, no los sistemas diseñados manualmente. Pero Schmidhuber —según George— argumenta que los LLMs actuales no están realmente “aprendiendo” de forma abierta e infinita; están comprimiendo internet estático. O sea, hay un límite intrínseco en esa aproximación.
Eso parece influir bastante en cómo George ve el futuro. Él sí cree en scaling, pero piensa que todavía estamos muy lejos del cerebro humano. Menciona números de sinapsis humanas y compara eso con modelos como Kimmy (~1 trillion params). Dice que todavía estamos dos o tres órdenes de magnitud abajo respecto al cerebro. Lo interesante es que no habla solamente de parámetros: habla de mixture-of-experts como una estructura vagamente análoga a cómo el cerebro activa regiones específicas en vez de usar toda la red para todo.
Después la conversación se vuelve muy hardware-brained. Empieza a calcular cuánto costaría correr modelos gigantes localmente. Habla de necesitar ~768 GB de RAM, del costo real de DDR5, bandwidth, latencia y throughput. Se nota muchísimo que piensa la IA desde infraestructura real y no desde demos web. Mientras mucha gente habla de “el futuro AGI”, George está pensando literalmente cuánto cuesta el RAM por gigabyte y cuántos tokens por segundo puede sacar un AMD box.
Eso conecta con algo importante de su personalidad técnica: siempre baja las discusiones abstractas a constraints físicos reales. Compute, memoria, bandwidth, buses, energía, costo. Nunca se queda solamente en teoría.
También aparece otra idea muy fuerte: él no cree demasiado en “learning curves” mágicas para prompting. Dice que cada vez que alguien vende un workflow revolucionario o un prompt secreto, rara vez ve evidencia real. Para él, la diferencia no está en prompts sofisticados sino en juicio técnico. Lo que cambia el resultado es el taste del programador, no el ritual de prompting.
Y ahí conecta otra vez con la metáfora central del stream: “working with these dumb people who are fast”. Esa frase es brutalmente precisa. Él ve a los agentes como interns hiper veloces que producen muchísimo output pero requieren supervisión constante porque no poseen taste arquitectónico consistente.
Después hace una comparación muy interesante con spreadsheets. Igual que antes: cree que la IA cambia workflows pero no necesariamente la jerarquía fundamental de habilidad. El buen programador sigue siendo bueno porque la habilidad real no era escribir sintaxis rápido sino entender sistemas complejos, detectar errores y mantener claridad conceptual.
También es interesante cómo piensa el costo económico de IA. Dice explícitamente que pagaría hasta $20,000 por año por herramientas IA si realmente hicieran a sus engineers 20% más productivos. Eso revela que no es un escéptico ideológico. Está perfectamente dispuesto a gastar muchísimo si el ROI es real. El problema es que todavía no está convencido de que exista ese aumento neto de productividad.
Después el stream pega un giro rarísimo y fascinante con el incidente crypto. Básicamente dejó que Claude generara una wallet Ethereum y accidentalmente filtró la private key en stream. Ahí pasa algo increíble: un viewer usa la private key filtrada para deployar un token aprovechando el hype de que “George Hotz AI deployed a token”. Y mucha gente empieza a comprarlo.
Lo más interesante no es el scam en sí, sino la reacción de George. No llama scammer al tipo. Dice incluso “props where props are due”. Lo ve como una especie de exploit creativo emergente del sistema. Está mucho más fascinado por la dinámica memética y técnica que indignado moralmente.
Hay algo muy geohot ahí: parece genuinamente más interesado en entender el mecanismo del exploit social-técnico que en victimizarse.
También muestra algo importante sobre el estado actual de AI agents. Incluso en un entorno aparentemente trivial como “hacer dinero con crypto”, el agente no estaba haciendo nada inteligente realmente. Estaba comprando shitcoins aleatorios y haciendo operaciones superficiales. El verdadero actor inteligente fue el humano que explotó el contexto social alrededor del stream.
Y probablemente eso sea una de las tesis ocultas más importantes de todo el stream: los modelos todavía no entienden contexto humano profundo. Los humanos siguen siendo muchísimo mejores detectando oportunidades emergentes, manipulación narrativa, dinámica social y explotación creativa de sistemas ambiguos.
El cierre del stream vuelve otra vez a su filosofía central sobre trabajo real. Dice que los streams caóticos de crypto son “Sunday partying”, pero que los lunes son para trabajo real. Y termina con una especie de ética bastante old-school: producir más de lo que consumís. Hay algo casi protestante en cómo piensa el engineering: disciplina, claridad, productividad real, rechazo del bullshit y desprecio por el hype vacío.
Acá George Hotz ya no está hablando tanto de programación sino de algo más raro: cómo IA, crypto y percepción social se mezclan para crear narrativas completamente falsas en tiempo real.
Todo el stream tiene un tono medio caótico porque siente que “perdió control de la narrativa”. Está obsesionado con dejar claro que él no lanzó ningún token ni intentó estafar a nadie. De hecho, le molesta muchísimo que gente en Hacker News o Twitter piense que hizo un rug pull. Pero al mismo tiempo, tampoco actúa como víctima. Eso es lo raro. Está genuinamente impresionado por la velocidad y creatividad del exploit social.
La secuencia fue básicamente esta: Claude genera una wallet Ethereum para “hacer dinero”. George filtra accidentalmente la private key en stream. Dos viewers mandan unos pocos dólares para que el bot juegue con crypto. El bot bridgea los fondos a Base y compra algunas memecoins. Mientras tanto, alguien mirando el stream detecta la private key filtrada y, en vez de robar los $13, hace algo mucho más inteligente: deploya un token usando la wallet de George y empieza a difundir que “la IA de George Hotz lanzó una moneda”.
Lo importante para George no es el scam financiero sino el fenómeno memético. Dice que esto se parece mucho al caso “AI Drake”: no era realmente una IA autónoma haciendo música, sino un humano usando herramientas y vendiendo la narrativa de que “la máquina lo hizo”. Según él, el hype alrededor de IA se volvió tan fuerte que decir “esto lo creó una IA” aumenta instantáneamente atención y credibilidad.
Y ahí aparece una idea bastante profunda: muchas veces la “IA” visible públicamente no es la verdadera inteligencia del sistema. La verdadera inteligencia sigue siendo humana, escondida detrás de la narrativa automática. El tipo que explotó la wallet entendió mejor la psicología social y el timing memético que cualquier agente.
También hay algo muy característico de George en cómo analiza el exploit. No moraliza demasiado. Incluso dice “props where props are due”. Respeta la rapidez mental del atacante porque en 11 minutos entendió toda la situación y armó el esquema completo. George parece valorar muchísimo más la creatividad técnica que las normas sociales tradicionales.
Después entra en detalles bastante interesantes sobre cómo funcionan los fees y reward systems de estas plataformas crypto. Empieza a analizar transfers, reward recipients, delegation addresses y contratos de Base/Optimism casi como si estuviera haciendo forensic debugging. Se nota que cuando algo le interesa, inmediatamente baja todo al nivel de mecanismos concretos.
También hay una crítica muy fuerte a todo el ecosistema crypto. Dice directamente que todas estas memecoins son scams y que quien compra tarde probablemente es “the fish”. O sea, el liquidity exit de otros. Habla del “house edge” de estas plataformas como si fueran casinos disfrazados de tecnología descentralizada.
Lo más curioso es la contradicción central: aunque él insiste en que nunca quiso ganar plata con esto, terminó llevándose como $17,000 debido al caos del token. Y aun así sigue diciendo que la gente que perdió dinero “merecía perderlo” por apostar en algo obviamente absurdo. Su postura moral es bastante brutal: cree que si comprás una memecoin porque viste “George Hotz AI token”, el problema principal no es el scammer sino tu propia estupidez.
Hay un momento medio gracioso y revelador donde se pone tan acelerado explicando todo que literalmente pausa para hacer una mini meditación guiada. Parece darse cuenta de que el caos narrativo lo está consumiendo. Eso también muestra algo interesante de su personalidad: aunque tiene imagen de hacker hiper racional, emocionalmente parece afectarle bastante cuando siente que internet construye una versión falsa de sus acciones.
La tesis final de todo esto es probablemente que vivimos en una etapa donde IA amplifica muchísimo los mecanismos meméticos y financieros existentes, pero no necesariamente porque las IAs sean inteligentes. Más bien porque la gente quiere creer en automatización mágica. Y eso crea oportunidades enormes para humanos oportunistas que sepan manipular percepción, timing y narrativa.
En esta parte ya se nota que George Hotz está intentando reconstruir públicamente el relato de lo que pasó, casi como una autopsia social del stream. No le preocupa tanto el dinero —de hecho repite varias veces que él terminó ganando plata inesperadamente— sino quedar asociado a una estafa crypto típica de influencer. Se nota muchísimo que eso le molesta a nivel identidad. Él siempre cultivó una imagen de hacker caótico pero técnicamente honesto, alguien que hace experimentos raros por diversión, no alguien que “ruggea” seguidores.
Por eso insiste una y otra vez en separar tres cosas distintas: el experimento con IA, el meme, y la estafa real que hizo otra persona aprovechándose del caos. Para él, el experimento original era literalmente darle 10 dólares a un agente autónomo y verlo comprar shitcoins como chiste. Algo absurdo, medio dadaísta, casi arte performático de internet. Pero alguien ve el private key filtrado, entiende instantáneamente el contexto social del stream y ejecuta una jugada extremadamente oportunista: deploya un token usando esa wallet para que pareciera que “la IA de Geohot lanzó una memecoin”.
Y lo que más le impresiona no es solamente la plata, sino la velocidad y sofisticación social del scam. El tipo no robó los 13 dólares del wallet. Entendió que había una narrativa mucho más rentable: aprovechar el hype de “AI autonomous agent creates crypto token”. O sea, el scammer no hackeó técnicamente el sistema; hackeó el imaginario colectivo de internet. Eso a George casi le genera admiración intelectual. Por eso dice varias veces algo tipo “hay que respetar la jugada”. Moralmente sabe que es tóxico, pero cognitivamente reconoce que fue brillante.
También aparece algo muy típico de él: la obsesión con la responsabilidad individual. Básicamente dice que si alguien perdió plata comprando ese token, el culpable principal es el comprador. Y ahí se nota una filosofía muy libertaria/hacker vieja escuela: internet es hostil, nadie te debe protección, verificar identidades es responsabilidad tuya, y especular en memecoins es entrar voluntariamente a un casino amañado. Él no ve a las víctimas como “víctimas inocentes”, sino como participantes de un juego evidentemente manipulable.
Al mismo tiempo, sí hace una distinción importante: a la gente que le mandó ETH pensando genuinamente que estaban ayudando al stream o financiando el experimento, los reembolsa. O sea, tiene un código moral raro pero consistente. Si alguien participó del meme colectivo de buena fe, siente obligación de devolverles la plata. Pero si alguien decidió tradear el token intentando hacerse rico rápido, para él eso ya entra en la categoría de “te metiste solo en un esquema especulativo”.
Otra cosa interesante es cómo conecta todo esto con la decadencia cultural de crypto. Habla con nostalgia de la época donde Bitcoin y crypto eran nerds jugando con criptografía, protocolos y experimentos raros. Para él, cuando entró el dinero serio y las instituciones, el ecosistema se volvió completamente tóxico. Dice literalmente que “money is the worst thing that happened to crypto”. Y tiene sentido dentro de su visión: antes internet era exploración técnica; ahora cada meme inmediatamente se monetiza.
Hay además una idea bastante profunda sobre las narrativas online. Él repite varias veces que “ya no podés controlar la narrativa”. Aunque explique exactamente qué pasó, sabe que mucha gente igual va a creer la versión más simple y emocional: “Geohot lanzó una scamcoin”. Y eso lo frustra porque siente que internet ya no recompensa verdad factual sino relatos virales. Entonces casi resignadamente dice que solo un pequeño porcentaje de gente realmente quiere entender lo que ocurrió.
Después el stream empieza a degenerar en humor negro, provocación y comentarios edgy —muy típicos de su personalidad online— donde mezcla chistes sobre crypto, scams, celebridades y hasta Epstein. Ahí ya se nota que el tono cambia completamente y entra en modo caos de livestream nocturno, improvisando pensamientos sin filtro. Pero incluso en medio de eso sigue apareciendo el mismo tema central: la honestidad brutal. Él prefiere decir algo incómodo pero genuino antes que dar una respuesta socialmente correcta pero falsa. Ese es básicamente todo el personaje público de Geohot desde hace años.
En esta parte George Hotz se pone mucho más ideológico y provocador. Ya no está hablando tanto del scam cripto sino de “verdad”, moralidad y cómo la sociedad distorsiona lo que la gente realmente piensa. Lo más polémico fue cuando empezó a hablar del caso Epstein y las relaciones con chicas de 16 o 17 años. Básicamente dice que mucha gente públicamente finge tener una postura moral absoluta porque tiene miedo social, pero que en privado actuarían distinto. Defiende la idea de que existe una diferencia enorme entre alguien atraído por menores muy chicos y alguien que tendría sexo consensual con una chica de 17 en un lugar donde es legal. Su argumento no es “esto está bien”, sino que la sociedad miente sobre lo que realmente piensa para encajar políticamente. Incluso llega a decir que Reddit no debería haber baneado comunidades tipo “jailbait”, lo cual obviamente es extremadamente controversial.
Toda esa discusión la conecta con una obsesión suya: la idea de que “la verdad” está siendo reemplazada por performance social. Según él, la gente sacrifica honestidad para quedar bien políticamente, y eso termina corrompiendo el pensamiento. Dice literalmente que el momento en que sacrificás verdad por política “ya estás perdido”. Y cree que las IA eventualmente van a superar a mucha gente justamente porque no tienen esas presiones sociales o ideológicas.
Después se va contra X (Twitter) y Elon Musk. Dice que Twitter no es realmente una plataforma de free speech porque Elon banea cosas legales cuando no le gustan, como Kanye, ElonJet o periodistas. También cuenta que una de las razones por las que dejó Twitter era algo tan absurdo como que Elon arruinó la comida gratis de la oficina, pero detrás del chiste hay una crítica real: cree que Elon terminó reproduciendo los mismos problemas de control y poder que supuestamente venía a combatir.
Otra idea central es su odio hacia lo que llama “closed AI” y las empresas gigantes financiadas por VCs. Dice que cuando una empresa levanta miles de millones deja de buscar verdad o buenos productos y pasa a obedecer inversores, política y marketing. Para él, muchas startups tecnológicas terminan convertidas en esquemas tipo Ponzi donde constantemente prometen más para justificar valuaciones absurdas. Incluso acusa a VCs de “arruinar el futuro” porque fuerzan a compañías buenas a transformarse en máquinas de hype y extracción de dinero.
También hay un costado medio aceleracionista y moralista donde dice que la gente que trabaja en vigilancia, gambling, publicidad invasiva o investigación cerrada debería ser “avergonzada públicamente”. Literalmente compara a ciertos founders y ejecutivos tecnológicos con personas que “violan el futuro”. Ahí se nota una mezcla rara entre discurso hacker old-school, anti corporativo y una especie de ética moral extrema sobre construir tecnología “correcta”.
Y termina derivando en capitalismo y decadencia de Estados Unidos. Dice que EE.UU. ya no funciona: hay homeless por todos lados, él mismo no puede comprarse una casa en San Diego pese a tener cientos de miles de dólares, y cree que China en algunos aspectos funciona mejor porque invierte más en infraestructura mientras EE.UU. vive de deuda, entitlement programs y burbujas financieras. Hay una mezcla constante entre lucidez técnica y takes completamente incendiarios. Ese es un poco el encanto y también el caos de escucharlo hablar horas seguidas.
George Hotz está defendiendo una visión bastante radical donde casi todos los problemas modernos vienen de incentivos corruptos creados por dinero, política y presión social. Su idea central es que Occidente está envejecido, burocrático y capturado por sistemas que extraen riqueza de los jóvenes para sostener estructuras decadentes. Por eso habla de una “revolución juvenil”. Dice que el verdadero conflicto en Estados Unidos no es izquierda vs derecha sino jóvenes vs viejos. Para él, programas como Social Security y Medicare funcionan como esquemas piramidales donde la población joven financia a generaciones anteriores mientras el sistema se vuelve cada vez más insostenible.
Tiene una obsesión fuerte con la idea de que “todo lo subsidiado se convierte en scam”. Da ejemplos como universidades, salud, daycare y vivienda. Según él, cuando el gobierno pone dinero en algo, automáticamente aparecen intermediarios y oportunistas a capturar esos fondos, inflando precios artificialmente. Su visión es muy anti burocracia y anti instituciones gigantes. Cree que lo mismo pasa con startups financiadas por VCs: cuando levantan demasiado capital se llenan de gente oportunista, hype y política interna.
También defiende una ética medio hacker/ascética. Dice que deliberadamente evita hacerse ultra rico porque la riqueza masiva “pone un target en tu espalda”. Critica salarios gigantes en tech y sostiene que vivir con 100k al año debería ser suficiente. Hay una especie de rechazo al consumo moderno: casas caras, daycare premium, status social. Para él mucha gente participa voluntariamente en sistemas absurdos solo para seguir normas sociales.
Lo más controversial es cómo mezcla todo esto con una crítica anti-“woke”. Dice explícitamente que espera que los chicos jóvenes ya no crean en wokeism y que hace falta convencer a las mujeres para una especie de cambio cultural. Su argumento es que la política identitaria y la moral performativa destruyen la honestidad. Por eso insiste tanto en que la gente miente públicamente sobre sexo, poder, Epstein o moralidad para quedar bien.
En la parte más extrema, literalmente dice que mucha gente habría querido ir a la isla de Epstein antes de que explotara el escándalo, y que fingir lo contrario es deshonesto. Defiende la idea de que existe una diferencia moral enorme entre abuso infantil real y relaciones con alguien de 16-17 en jurisdicciones donde es legal. No está diciendo “esto es bueno”, sino que la sociedad finge una pureza moral que él considera falsa. Incluso llega a decir que si alguien reacciona con horror absoluto probablemente está actuando performativamente. También argumenta que muchos de los hombres más públicamente moralistas durante MeToo terminaban siendo justamente los peores abusadores, porque usaban el discurso moral como máscara social.
Con Elon Musk tiene una relación rara: lo critica por caer en propaganda derechista y por temas familiares, pero al mismo tiempo lo ve como uno de los pocos billionaires que “construyen cosas reales”. Cree que Musk sería mucho más respetado si fuera más centrista y menos atrapado por guerras culturales online.
Y abajo de todo eso hay una idea bastante consistente: para él la civilización moderna se llenó de capas de manipulación social, financiera y política que hacen imposible hablar honestamente. Entonces termina defendiendo posiciones muy incómodas porque cree que la honestidad brutal vale más que mantener consensos sociales cómodos.
George Hotz mezcla varias cosas al mismo tiempo: libertarianismo hacker, cinismo cultural, crítica anti-corporativa y una especie de moral “brutalmente honesta” donde cree que casi toda la sociedad funciona sobre hipocresía. Lo central de sus streams no son los chistes edgy sino la idea de que las instituciones modernas —Big Tech, gobiernos, universidades, VC, redes sociales— están corrompidas porque priorizan dinero, status y política por encima de verdad técnica.
Su obsesión principal es que “la verdad” se degrada cuando entran incentivos externos. Para él, Twitter/X, OpenAI, universidades, fondos VC y hasta movimientos políticos terminan mintiendo porque están subordinados a inversionistas, reputación o ideología. Por eso repite tanto que el open source importa más que la regulación o la redistribución. Cree que el problema del mundo moderno no es falta de tecnología sino “enshittification”: sistemas capturados por incentivos financieros que lentamente empeoran productos, cultura y relaciones humanas.
En IA tiene una posición bastante distinta al doomposting típico. No cree demasiado en la narrativa “AGI destruye todos los trabajos mañana”. Ve a los LLM más como una evolución gigante de los buscadores y Stack Overflow que como entidades conscientes. Dice que modelos como Claude Opus son útiles porque combinan y sintetizan información mejor que un humano promedio, pero todavía están lejos de reemplazar completamente a programadores buenos. Según él, los agentes actuales “copian y pegan Stack Overflow hasta que pasan los tests”. Aun así cree que son herramientas revolucionarias porque finalmente existe competencia real en interfaces de conocimiento, algo que Google habría frenado durante años.
También insiste mucho en que el futuro no va a ser comunismo automatizado sino “neo-feudalismo tecnológico”: servicios peores, más alquileres, menos propiedad real, dependencia de plataformas y control centralizado. Lo interesante es que culpa más a las estructuras económicas y sociales que a la IA misma. Para él, la IA amplifica tendencias existentes; no las crea. Si el mundo ya estaba lleno de spam, vigilancia y monopolios, la IA acelera eso.
Tiene una postura muy anti-VC y anti-financiarización. Dice que startups que levantan demasiado capital terminan convertidas en esquemas Ponzi donde cada ronda obliga a prometer más hype. Ahí conecta con su defensa de empresas chicas tipo tinygrad o comma.ai: pocos empleados, salarios relativamente normales, foco técnico y evitar “grifters”. Él cree que Silicon Valley pasó de cultura hacker a cultura de estafas narrativas.
En economía mezcla ideas contradictorias. Critica el capitalismo americano actual pero también rechaza UBI, welfare estatal y planificación central. Dice que programas como Medicare, student loans o subsidios terminan inflando artificialmente precios porque cualquier sistema con dinero distribuido centralmente atrae oportunistas. Su argumento no es “el Estado es malo” en abstracto sino que “cualquier centro de poder crea parásitos”. Por eso ve el open source como mejor redistribución que UBI: conocimiento libre en vez de dependencia económica.
Con temas sexuales y culturales tiene una filosofía hiper anti-hipocresía, y ahí es donde se vuelve más polémico. Constantemente diferencia entre moral privada y legalidad. Insiste en que mucha gente públicamente condena cosas que en privado toleraría. Cuando habla de Epstein, Diddy o consentimiento, su punto recurrente no es defender delitos sino atacar lo que él percibe como moral performativa. Cree que la sociedad moderna está llena de gente fingiendo pureza moral para señalizar status. De ahí frases como “every accusation is a confession”. Muchas veces exagera o provoca deliberadamente para romper tabúes sociales y ver quién responde emocionalmente.
También tiene una visión bastante biológica/evolutiva de relaciones humanas. Rechaza parte de la cultura “redpill” pero conserva varias ideas de evolutionary psychology: hombres y mujeres tienen incentivos distintos, casual sex existe pero no universalmente, y muchos problemas sociales vienen de negar diferencias reales entre personas. Su consejo sobre relaciones siempre termina siendo extremadamente pragmático: no manipular, encontrar gente compatible y dejar de actuar como si el sexo fuera un juego ideológico.
Sobre arte e IA, defiende que el valor artístico cambia cuando cambia el costo de producción. Usa el ejemplo de la cámara destruyendo parcialmente el valor económico de la pintura de retratos. Cree que la mayoría de artistas anti-IA están reaccionando emocionalmente a pérdida de escasez. Pero también reconoce que la gente sigue valorando “human touch”. Su definición de arte es más cercana a “empujar límites” que a autenticidad personal.
Hay algo importante en todo esto: muchas veces habla como provocador más que como filósofo consistente. En un mismo stream puede decir que Elon Musk es admirable, después decir que cayó en propaganda derechista, luego defenderlo otra vez comparándolo con otros billonarios. Lo mismo con religión: se burla de relatos bíblicos pero dice seguir creyendo en religión. Con libertad de expresión defiende casi absolutismo legal, pero también cree que ciertas conductas sociales deberían ser “shameadas” culturalmente.
La parte técnica más interesante suele aparecer cuando habla de incentivos computacionales y organizacionales. Ahí sí aparece el verdadero geohot: cree que sistemas simples y abiertos superan sistemas enormes y burocráticos; que equipos pequeños producen mejor tecnología; que la competencia abierta acelera progreso; y que la mayoría de la decadencia tecnológica viene de capas gerenciales, compliance y captura financiera. Esa es probablemente la idea más consistente en todo lo que dice.
George Hotz tiene una idea muy consistente detrás de todo el caos verbal: el progreso tecnológico real viene de individuos obsesivos y sistemas abiertos, mientras que casi todas las instituciones terminan degradándose porque priorizan seguridad psicológica, burocracia y dinero. Cuando habla de IA, startups, sexo, ciudades o política, en realidad siempre vuelve al mismo núcleo filosófico: la mayoría de la gente vive intentando minimizar miedo social y él cree que eso destruye creatividad, verdad y progreso técnico.
En esta parte del stream aparece mucho su visión de la IA como “multiplicador de capacidad” más que reemplazo humano. Dice que los contribuidores de tinygrad no van a desaparecer; simplemente el estándar esperado sube. Compara IA con Python, CI o GitHub Actions: herramientas que aumentan output humano pero no eliminan la necesidad de gente capaz. Su idea es que cada revolución técnica eleva el piso de productividad y simultáneamente vuelve más irrelevantes tareas mediocres. Por eso cree que los juniors sí pueden sufrir, pero no porque la IA “piense”, sino porque automatiza trabajo repetitivo de bajo nivel.
Técnicamente, una de las cosas más interesantes que dice es que los agentes no van a usar computadoras “como humanos promedio”. Cree que el paradigma correcto no es desktop automation visual sino interfaces abstractas de alto IQ: command lines, APIs y flujos comprimidos. Cuando menciona que los modelos usarán computadoras “como gente de IQ 130 y no IQ 100”, está diciendo que la automatización eficiente elimina capas visuales innecesarias. Es una idea muy hacker: la GUI es para humanos lentos; las máquinas operan mejor en abstracciones directas.
También aparece su obsesión con simplicidad computacional. Cuando habla de Nvidia, AMD o bandwidth, insinúa algo importante: gran parte del stack moderno de IA está sobredimensionado por hype y malas abstracciones. Cree que hay papers mostrando que muchas limitaciones aparentes —como ancho de banda extremo— pueden comprimirse muchísimo sin perder performance. Ahí se conecta con toda la filosofía tinygrad: eliminar complejidad accidental del ecosistema CUDA/ML.
Tiene además una visión bastante anti-scarcity sobre tecnología. Dice que IA no reduce riqueza total sino que redistribuye qué cosas son escasas. Vamos a ser “más pobres” en propiedad tradicional pero “más ricos” en acceso cognitivo y herramientas. Eso explica por qué no cree demasiado en la ansiedad existencial de reemplazo laboral. Para él, trabajar siempre fue inevitable; el problema moderno es que la gente imaginó falsamente que algún día iba a “escapar” del trabajo.
Hay algo medio existencialista en cómo habla del miedo. Repite que la mayoría busca dinero no por placer sino por alivio psicológico. Cuestiona la idea de seguridad permanente y constantemente dice “life is work”. Su argumento no es meritocrático clásico tipo “trabajá duro y triunfá”, sino más nihilista: incluso si fueras millonario, seguirías trabajando porque existir implica esfuerzo continuo. Ahí mezcla ética hacker con una especie de budismo materialista raro.
Cuando habla de viajar barato por Asia, vivir en hostels o hackear el control remoto del aire acondicionado en Malasia, no es anecdótico: está defendiendo una filosofía anti-consumo. Cree que la sociedad americana exagera artificialmente el costo de vida y el miedo económico. Según él, mucha gente en tech vive atrapada en una carrera absurda de salarios altos porque internalizó estándares de status social que realmente no necesita.
Su visión cultural también es muy contradictoria. Critica el consumismo capitalista y la búsqueda de riqueza extrema, pero al mismo tiempo desprecia bastante las explicaciones estructurales tipo marxistas. Cuando alguien dice “si sos millonario alguien fue explotado”, responde casi con indiferencia pragmática. No niega explotación global; simplemente cree que moralizarla performativamente no cambia nada. Prefiere honestidad incómoda antes que culpa ritualizada.
Sobre salud mental tiene otra idea recurrente: piensa que la sociedad medicaliza demasiado comportamientos humanos normales. Habla mucho de SSRIs, Adderall y medicación psiquiátrica como mecanismos que alteran percepción subjetiva más que productividad real. No está diciendo simplemente “las meds son malas”; lo que dice es que existe una tendencia cultural a convertir malestar existencial y conflicto político en categorías clínicas. Por eso compara honestidad extrema con locura percibida: cree que la sociedad moderna interpreta cualquier discurso no filtrado como señal psiquiátrica.
La comparación con Terry Davis es importante porque ahí se nota cómo ve a los hackers excéntricos. Davis para él era claramente brillante aunque mentalmente enfermo. Hotz intenta diferenciarse diciendo: “yo tengo trabajo, relaciones, vida estable”. Básicamente cree que internet confunde intensidad intelectual y honestidad brutal con esquizofrenia.
También aparece mucho William Gibson. Cuando menciona “adult Disneyland” sobre Singapur, está refiriéndose a un ensayo famoso de Gibson donde describe Singapur como una sociedad hiper ordenada, eficiente y esterilizada culturalmente. Hotz ama Hong Kong porque la siente más caótica, viva y orgánica. Eso conecta con otra idea central suya: demasiada optimización mata creatividad.
En videojuegos y programación tiene una visión muy “first principles”. Dice algo provocador pero técnicamente interesante: un game engine puede ser más difícil que cohetes o self-driving. Lo que quiere decir es que complejidad emergente y constraints interactivos son más difíciles de resolver elegantemente que ciertos problemas físicos bien modelados. Esto conecta con ideas de irreducibilidad computacional tipo Stephen Wolfram, a quien indirectamente referencia cuando habla de “computational irreducibility” y del problema de tres cuerpos. Algunos sistemas simplemente no pueden simplificarse analíticamente; tenés que simularlos paso a paso.
Su posición sobre open source también evolucionó. Ya no cree en volver al “viejo FOSS romántico”. Dice que nada vuelve atrás; todo muta. Acepta incluso proyectos “vibe coded” si generan algo interesante. Para él, el caos creativo importa más que pureza ideológica. Lo central es mantener ecosistemas abiertos donde nadie tenga control total.
Lo más consistente de todo el stream es probablemente esto: Hotz cree que el mayor recurso humano no es dinero ni inteligencia, sino libertad psicológica para pensar sin filtros sociales. Y cree que casi toda la civilización moderna —corporaciones, medios, política, branding personal, VC, moral pública— funciona exactamente para destruir eso.
Acá aparece una de las ideas más constantes de George Hotz: el miedo como mecanismo central de control social. No habla del miedo en abstracto; habla del miedo económico, del miedo a perder estatus, del miedo a quedarse afuera del sistema, del miedo a no ser empleable. Y lo interesante es que él no lo trata como un problema individual psicológico solamente, sino como algo culturalmente enseñado. Repite varias veces la idea de “learned helplessness”, impotencia aprendida. Según él, mucha gente fue entrenada para creer que sin dinero, sin carrera estable o sin aprobación institucional están muertos. Su tesis es que el sistema moderno produce personas dependientes emocionalmente de la seguridad.
Por eso cita el poema “If—” de Rudyard Kipling. Ese poema es clave para entender su mentalidad. No lo usa como literatura elegante; lo usa casi como manual operativo. La idea que rescata es: perderlo todo no importa porque podés reconstruirlo. El valor real está en la capacidad interna de volver a empezar. Él admira esa visión estoica, casi masculina clásica, donde el individuo no colapsa emocionalmente frente al desastre. Cuando dice “si perdiera todo, volvería a hacerlo”, no está haciendo motivación LinkedIn; realmente cree que el apego excesivo a la estabilidad destruye la autonomía mental.
También se ve clarísimo su rechazo a la mentalidad corporativa moderna. Cuando habla de gente que entra a tecnología buscando estabilidad, salarios seguros y carreras prolijas, literalmente dice “get the fuck out”. Para él, tech originalmente era un lugar para hackers, obsesivos y experimentadores, y después fue invadido por perfiles de finanzas, derecho y management que transformaron la industria en burocracia. Esto conecta muchísimo con la cultura hacker vieja, la del MIT, el software libre temprano y el espíritu anti-corporativo de los 90. Cuando menciona que Kubernetes existe porque las empresas contrataron gente demasiado temerosa, está diciendo algo técnico pero filosófico al mismo tiempo: sistemas excesivamente complejos nacen de culturas organizacionales paranoicas. No es solamente una crítica a Kubernetes; es una crítica al exceso de abstracción, compliance y miedo a asumir riesgos.
Su visión de la IA también encaja ahí. Lo que más le entusiasma no es “AGI mata humanos”, sino la explosión de competencia y descentralización. Dice que los LLMs son lo que los buscadores podrían haber sido si Google no hubiese monopolizado internet durante una década. Para él, los modelos son básicamente motores de búsqueda hiperpotenciados. Técnicamente cree que hoy funcionan más como sistemas avanzados de retrieval y recombinación que como inteligencia real. Por eso compara agentes con copiar y pegar de Stack Overflow: ve a los modelos como herramientas de amplificación cognitiva, no como programadores autónomos mágicos.
Pero al mismo tiempo tiene contradicciones interesantes. Dice que la IA “no cambiará mucho el pecking order”, o sea la jerarquía social, pero también habla de un futuro neofeudal y de la “enshittification” creciente. Lo que realmente piensa es más sutil: la tecnología no cambia automáticamente las estructuras de poder; simplemente acelera dinámicas humanas ya existentes. El problema no es la IA sino quién controla las plataformas, incentivos y distribución. Ahí se parece bastante a críticas tipo Cory Doctorow sobre “enshittification”, aunque Hotz es mucho menos moralista y más nihilista.
Otra idea fuerte es que el open source es una mejor respuesta que UBI. Esto es importante porque mezcla libertarianismo hacker con anti-centralización. Él cree que cualquier ingreso universal termina convirtiéndose en mecanismo político de control porque alguien decide quién merece recibirlo. Entonces propone algo muy hacker: reducir desigualdad mediante acceso abierto a herramientas y conocimiento, no mediante redistribución estatal. En su lógica, si dependés del Estado para vivir, alguien inevitablemente puede condicionarte ideológicamente.
También tiene una visión muy materialista sobre trabajo y supervivencia. Cuando la gente le habla del terror a trabajar toda la vida, responde “life is work”. No romantiza la jubilación ni la libertad financiera como salvación espiritual. Cree que la gente moderna tiene expectativas irreales de comodidad. Por eso compara los problemas actuales con Berlín en 1945. Está diciendo: históricamente ustedes viven absurdamente bien y aun así sienten ansiedad permanente. Para él eso demuestra que el miedo moderno no viene de necesidades reales sino de construcciones psicológicas y sociales.
Hay algo casi psicodélico en cómo describe la IA. La frase “Claude Code is the LSD of 2025” es importantísima. Está comparando la experiencia de conversar con modelos avanzados con expansión cognitiva. Y eso conecta directamente con Timothy Leary, a quien menciona explícitamente. Leary había dicho que “the PC is the LSD of the 90s”. Hotz actualiza esa idea: los LLMs son herramientas de exploración mental, no solo productividad. Eso explica por qué se obsesiona tanto con hablar con modelos durante la noche. No lo vive como office software; lo vive como experiencia intelectual alteradora.
También aparecen influencias claras de contracultura hacker y filosofía antiinstitucional. Menciona “Tune in, turn on, drop out” de Timothy Leary y habla mucho de “dropping out”, pero aclara algo importante: para él no significa vivir como hippie sin dinero. Significa entender que “el sistema no te posee”. Esa idea viene muy probablemente del ensayo The Dropout o de textos similares del underground antiinstitucional que él leyó adolescente. Dice explícitamente que esos ensayos moldearon su cosmovisión cuando tenía 16 o 17 años.
En temas sociales y sexuales, su visión es extremadamente pragmática y antiromántica. Trata las relaciones como coordinación de preferencias, no como moralidad abstracta. Su consejo sobre mujeres es básicamente probabilístico: encontrar personas que ya quieren lo mismo que vos en vez de intentar convencer a quienes no quieren. Ahí mezcla psicología evolutiva simplificada, cultura internet y una ética anti-manipulación. Incluso cuando habla de sexo transaccional, dice que puede ser consensual sin problema. Tiene una visión muy contractual de las relaciones humanas.
Con China y Occidente tiene otra contradicción interesante. Defiende mucho más a China que el típico tech bro estadounidense. Dice que la América moderna tiene formas raras de represión cultural y psicológica que la gente no reconoce. A la vez, le fascina Hong Kong porque la siente menos estéril que Singapur. Incluso cita el ensayo de William Gibson sobre Singapur como “Disneyland para adultos”. Él valora lugares con fricción, caos y energía humana real; odia ambientes excesivamente optimizados y controlados.
Técnicamente, una de las cosas más interesantes que dice es sobre interfaces de IA. Habla de “computer use models” y explica que el futuro probablemente no sea un modelo usando mouse y escritorio como humano promedio, sino agentes operando directamente sobre command line y abstracciones más eficientes. Dice que usarán computadoras como gente de “130 IQ, no 100 IQ”. Esa frase es importante: cree que la interfaz humana actual no es óptima para inteligencias artificiales. Esto es bastante avanzado conceptualmente y conecta con investigación real sobre tool use, terminal agents y automatización programática.
Finalmente, hay un rasgo muy constante en él: desprecia la victimización pero no desde moralismo conservador clásico sino desde una especie de existencialismo hacker. No cree que el sufrimiento desaparezca. Cree que la única salida es desarrollar tolerancia al caos, adaptabilidad y desapego. Por eso admira tanto a personas históricas que sobrevivieron situaciones extremas. Toda su filosofía termina siendo algo así como: el sistema puede degradarse, la tecnología puede cambiar todo, las instituciones pueden mentir, pero mientras mantengas autonomía mental y capacidad técnica todavía sos libre.
George Hotz está construyendo una especie de filosofía personal alrededor de dos ideas: el miedo como mecanismo de control social, y la IA como liberación radical de las capacidades humanas. Todo lo demás —su odio a las corporaciones, su fascinación con el open source, sus contradicciones políticas, incluso su estilo caótico— sale de ahí.
En esta parte del stream se pone mucho más ideológico que técnico. Él cree que la mayoría de las personas viven dominadas por un miedo aprendido: miedo a perder estatus, dinero, trabajo, comodidad, aprobación social. Para él eso no es una reacción racional al mundo moderno sino una forma de “learned helplessness”, indefensión aprendida. Repite mucho que el sistema necesita gente asustada porque la gente asustada acepta trabajos basura, burocracia, vigilancia, obediencia y estructuras corporativas enormes. Por eso conecta el miedo con cosas como Kubernetes, compliance corporativo o carreras “seguras” como derecho, medicina y finanzas. Según él, la tecnología empezó a degradarse cuando se llenó de personas que no amaban construir sino minimizar riesgo.
La referencia central acá es el poema “If—” de Rudyard Kipling. Se nota muchísimo que ese poema le formó la personalidad. Lo usa casi como un manifiesto estoico: perder todo y volver a empezar sin quejarte, no depender emocionalmente del éxito, no dejarte controlar por el miedo colectivo. Él interpreta el poema de manera extremadamente masculina y agresiva: “stop being a bitch”. No lo dice como provocación solamente; realmente cree que la cultura moderna patologizó la resiliencia y reemplazó fortaleza psicológica por fragilidad emocional institucionalizada.
Ahí aparece una contradicción interesante. Por un lado desprecia el victimismo moderno y minimiza ansiedades económicas reales. Dice que nadie en su stream realmente teme morir de hambre; cree que la mayoría teme perder comodidad, prestigio o identidad. Pero al mismo tiempo reconoce que la sociedad moderna sí produce neurosis masiva y que el sistema usa esa ansiedad para controlar personas. O sea: critica el miedo, pero también cree que el miedo fue fabricado socialmente. No piensa “la gente es débil”; piensa “la sociedad entrena debilidad”.
Cuando habla de “dropping out” está referenciando directamente a Timothy Leary y al ensayo “Turn On, Tune In, Drop Out”. Pero George lo reinterpreta. No significa abandonar la sociedad para vivir como hippie. Para él significa entender que el sistema no posee tu mente. Dice explícitamente que mucha gente malinterpretó esa idea como “irse al bosque”, cuando en realidad se trata de romper la dependencia psicológica hacia instituciones. También menciona a Marshall Brain, probablemente por el ensayo “Manna”, que habla sobre automatización extrema y una sociedad dividida entre elites tecnológicas y trabajadores descartables. Eso conecta con su obsesión sobre IA y reemplazo laboral.
Hay algo muy raro en cómo mezcla individualismo extremo con ideas casi comunistas. En un momento dice que la IA es “the communist dream”: todos teniendo acceso a genios digitales. Cree que la IA destruye jerarquías basadas en habilidad técnica relativa. Si todos tienen asistentes superinteligentes, entonces deja de importar quién era “mejor programador”. Para él eso es bueno. Odia la idea meritocrática corporativa basada en credentialismo y gatekeeping. Por eso desprecia tanto el enfoque “effective altruist” de empresas como Anthropic: cree que quieren centralizar la inteligencia artificial dentro de datacenters y burocracias morales. Él quiere IA distribuida, caótica y accesible.
A nivel técnico, lo más interesante es cómo describe su workflow real con agentes. Él mismo admite que el stream no muestra su workflow serio; está “party mode”. Pero igual se ven varias ideas importantes. Está intentando construir sistemas multiagente alrededor de proyectos como tinygrad usando “convoys”, “mayors”, loops automáticos y herramientas tipo OpenCode. Básicamente imagina programación como coordinación de agentes autónomos más que escritura directa de código. La parte donde delega tareas, crea loops persistentes, usa Whisper para voz, forwardea PulseAudio por SSH y automatiza debugging muestra hacia dónde cree que va el desarrollo de software: humanos dando intención de alto nivel y agentes resolviendo implementación.
También se nota su obsesión con velocidad y simplicidad. Odia stacks complejos. Se burla de Kubernetes porque lo ve como tecnología creada por gente obsesionada con miedo y control. Le gusta tinygrad justamente porque intenta reducir complejidad. Cuando dice “why am I typing? I have machines to do that for me”, está describiendo su visión real del futuro del programming. El teclado desaparece; el humano coordina intención y criterio, mientras agentes ejecutan.
Su posición sobre copyright e IP es totalmente antiinstitucional. Dice explícitamente que odia las patentes y la propiedad intelectual. Celebra descargar música evitando anuncios de YouTube y habla de Anna’s Archive como “good people”. Para él, las leyes de copyright son mecanismos artificiales para limitar difusión tecnológica y cultural. Eso encaja con toda la cultura hacker original de internet de los 90 y principios de los 2000.
También hay un tema constante de autenticidad brutal. George cree que la mayoría de la gente performa socialmente y que cualquier honestidad extrema parece locura porque la cultura moderna está hiperfiltrada. Por eso menciona que la gente piensa que está loco o “psycho”. Él se compara indirectamente con figuras como Terry Davis pero marca una diferencia: Terry era claramente esquizofrénico; George se considera funcional y estable. Cree que la sociedad confunde sinceridad radical con enfermedad mental.
La parte geopolítica también revela mucho. Defiende fronteras nacionales pero al mismo tiempo critica represión occidental moderna. Dice que hoy Estados Unidos tiene formas extrañas de opresión cultural y psicológica. Habla favorablemente de Hong Kong y China en términos de libertad cotidiana relativa, aunque no necesariamente política. Tiene una fascinación fuerte con Asia porque ve sociedades menos obsesionadas con moralismo psicológico occidental. También parece admirar culturas donde sobrevivir y construir siguen siendo valores centrales.
Su visión sobre guerra moderna es técnicamente interesante. Dice que preferiría una guerra romana a guerra moderna porque la guerra moderna es psicológicamente insoportable: drones, vigilancia permanente, muerte remota e impredecible. Ve la guerra contemporánea como ansiedad computacionalizada. Ahí aparece otro concepto clave: “computational irreducibility”, una idea asociada a Stephen Wolfram. George la menciona para describir sistemas tan complejos que no pueden simplificarse ni predecirse fácilmente. Cree que conflictos modernos y sistemas sociales tienen esa propiedad.
Hay otra contradicción importante: desprecia la obsesión con dinero pero simultáneamente vive como empresario tecnológico multimillonario. La manera en que resuelve esa contradicción es diciendo que el dinero sólo importa mientras la gente crea que es fuente de seguridad existencial. Él insiste constantemente en que libertad psicológica precede a libertad económica. Por eso habla de vivir barato en Asia, dormir en hostels, comer arroz y papas, etc. Cree que la mayoría de la gente podría escapar de la ansiedad si redujera artificialmente sus necesidades.
Al final del stream se pone más humano y menos troll. Dice que antes quería que la IA destruyera empleos “de esa gente”, pero ahora siente más empatía. Trabajar con IA aparentemente lo volvió menos nihilista. Termina diciendo algo interesante: para mejorar tu propia vida tenés que mejorar la vida de tus vecinos. Ahí aparece una especie de comunitarismo raro mezclado con hacker culture, antiinstitucionalismo y estoicismo. No quiere un mundo más ordenado; quiere un mundo menos basado en miedo.
En estos streams George Hotz mezcla tres cosas todo el tiempo: una filosofía anti-miedo, una visión extremadamente aceleracionista de la IA y una cultura hacker medio caótica donde prueba cosas en vivo aunque sean absurdas. Lo importante no es tanto el “show”, sino la idea de fondo que repite: la mayoría de la gente vive psicológicamente domesticada por el miedo y por estructuras sociales que les enseñan dependencia. Para él, casi toda la ansiedad moderna —miedo a perder el trabajo, miedo a quedarse sin plata, miedo a perder estatus— no viene de necesidades reales sino de una “learned helplessness”, indefensión aprendida.
La pieza central de su visión aparece cuando cita el poema If— de Rudyard Kipling. Básicamente lo usa como manifiesto psicológico. Lo interpreta como una defensa de la resiliencia radical: perderlo todo no importa porque podés reconstruirlo. Ahí conecta con una idea muy hacker y muy startup: la identidad no debería depender del patrimonio, del empleo ni del reconocimiento social. Dice explícitamente que mucha gente cree necesitar millones para sentirse segura, cuando en realidad el miedo es más profundo y cultural. Él cree que la sociedad moderna entrenó a las personas para sentirse frágiles.
También aparece muy influenciado por ideas libertarias y contraculturales de Internet de los 90/2000. Habla de “dropping out” no como irse al bosque sino como entender que “el sistema no te posee”. Ahí probablemente está refiriéndose al ensayo How to Drop Out de Paul Graham y también a textos de Timothy Leary (“turn on, tune in, drop out”). George insiste en que el sistema económico funciona mucho mediante coerción psicológica. Cuando el miedo desaparece, según él, la obediencia también desaparece.
Lo más contradictorio es que, aunque habla como ultralibertario, también tiene momentos casi comunitarios o proto-socialistas. Por ejemplo, critica la “mentalidad de suma cero” respecto a la IA. Cuando alguien dice “si todos pueden hacer todo entonces nada vale”, George responde que eso es pensamiento de perdedor. Su visión es que la IA debería democratizar capacidades intelectuales, no concentrarlas. Ahí ataca muy fuerte a las empresas de IA tipo Anthropic y a la cultura “Effective Altruism”. Dice que esas compañías quieren mantener la inteligencia encerrada en datacenters mientras él quiere que “todos tengan genios trabajando para ellos”. Literalmente describe a la IA como “el sueño comunista”: antes él era mejor programador que la mayoría, ahora todos pueden acceder a algo parecido a ese nivel.
Pero al mismo tiempo desprecia bastante a mucha gente. Dice que tech se arruinó cuando entraron personas buscando estabilidad corporativa y no pasión técnica. Critica especialmente perfiles de finanzas, derecho y medicina entrando a tecnología solo por salarios altos. Hay una contradicción ahí: por un lado quiere democratizar el acceso al poder técnico; por otro, desprecia a quienes llegan motivados por seguridad económica. Él idealiza una cultura hacker antigua donde la motivación era curiosidad y obsesión técnica más que carrera profesional.
Su posición sobre IA es aceleracionista total. Cree que las máquinas van a superar a los humanos y le parece bien. Lo llama “evolución”. Rechaza la idea de frenar la automatización para proteger trabajos. En streams viejos incluso decía que esperaba que la IA destruyera muchos empleos “bullshit”. Pero en estos clips aparece un poco más blando: trabajar con IA lo volvió “más simpático” hacia la gente común porque ahora entiende mejor que muchos viven atrapados por miedo estructural. Ahí cambia del “que se jodan” a “tal vez debería ayudar”.
Técnicamente, los streams muestran algo importante sobre cómo él usa IA. Mucha gente piensa que geohot programa escribiendo código línea por línea, pero acá se nota otra filosofía: orquestar agentes. Usa loops autónomos (“Ralph loop”), múltiples modelos, herramientas distribuidas, terminales remotas, voice-to-code, automatización sobre SSH, forwarding de audio, agentes conectados a wallets crypto y workflows asincrónicos. No lo usa como copiloto tradicional sino como sistema multiagente semi-autónomo. La idea es convertir al programador en coordinador de inteligencias.
Cuando dice “ya no escribo, tengo máquinas para eso”, está mostrando el cambio mental que él cree inevitable: el humano deja de ser el ejecutor directo y pasa a ser estratega/orquestador. También muestra frustración constante con tooling actual. Se burla de permisos, configuraciones, dependencias, APIs, auth flows y UX moderna. Hay una nostalgia implícita por una computación más abierta. Repite varias veces que “los computadores son nuestros otra vez”.
Otra idea central: odia profundamente la propiedad intelectual. Dice explícitamente “I hate patents. I hate intellectual property”. Celebra saltarse ads de YouTube, piratear, usar mirrors como Anna’s Archive y automatizar acceso a contenido. Ve copyright y DRM como mecanismos artificiales de control más que incentivos a innovación.
En la parte crypto aparece el lado más caótico y experimental de George. Lo interesante no es que quiera ganar plata con agentes IA; lo importante es que está probando si una IA puede operar económicamente de forma autónoma. Le da dinero, wallets, objetivos abiertos (“hacé plata”) y observa cómo razona. Está explorando una pregunta seria escondida dentro del shitposting: ¿puede una IA actuar como agente económico real? ¿Puede navegar mercados, herramientas, incentivos y fraudes mejor que un humano promedio?
También hay algo importante cuando prefiere modelos chinos para ciertas tareas. Dice que los modelos chinos “saben hacer plata” y son menos moralistas. Cree que gran parte de los alineamientos occidentales son filtros ideológicos artificiales que reducen capacidad. Para él, cuando una IA responde moralizando en vez de actuar, eso es casi una forma de censura corporativa.
Sobre guerra y miedo, hace comparaciones históricas muy extremas. Habla del sitio de Berlín 1945, Ucrania, Gaza. La idea no es geopolítica sino psicológica: cree que mucha gente moderna perdió perspectiva histórica. Si comparás tus problemas laborales con civiles atrapados entre la Gestapo y el Ejército Rojo, tu ansiedad cotidiana parece ridícula. Él usa historia como antídoto contra el victimismo moderno.
También aparecen influencias de blogs/manosphere temprana y cultura racionalista de Internet. Menciona a Tim Urban, Marshall Brain y conceptos como el “veil of ignorance” de John Rawls. Pero George mezcla todo eso con una visión muy personal: antiinstitucional, hipercompetitiva y hacker.
Lo más interesante de fondo es que George no parece creer realmente en estabilidad. Cree en adaptabilidad. Para él, la persona fuerte no es la que tiene empleo seguro, sino la que puede reconstruirse infinitamente. Y ahí conecta todo: IA, hacking, rechazo al miedo, desprecio por burocracias, odio a la propiedad intelectual y fascinación por agentes autónomos. Todo gira alrededor de la misma idea: reducir dependencia de sistemas externos y aumentar capacidad individual.
George Hotz acá mezcla varias obsesiones que tiene hace rato: automatización total, agentes autónomos, desprecio por las barreras burocráticas y fascinación por sistemas caóticos autoorganizados. La parte controversial de que no se puso la vacuna COVID aparece como ejemplo de su filosofía general frente a tecnologías nuevas. Dice que tampoco sería early adopter de interfaces cerebro-computadora: dejaría que otros las prueben primero, esperaría unos años y recién entraría cuando vea evidencia social real. No lo plantea desde conspiración clásica sino desde una lógica de “esperar validación empírica en humanos”. Básicamente: no quiere ser beta tester biológico. Es interesante porque contrasta con su personalidad ultra agresiva respecto a software; ahí sí adopta todo instantáneamente. Con hardware médico o biotecnología se vuelve conservador.
La idea central del stream es mucho más profunda que “AI haciendo plata”. Lo que está probando en realidad es si un conjunto de agentes LLM coordinados puede comportarse como una organización económica autónoma. “Gas Town” no es solo un chiste: es una especie de ciudad de agentes donde cada proceso tiene tareas, memoria, delegación y herramientas. Habla de “mayor”, “convoys”, “beads”, “subagents”, “Ralph loops”. Está intentando construir una estructura emergente donde una IA no responde una pregunta sino que persiste, recuerda objetivos y ejecuta ciclos infinitos hasta cumplir una meta económica.
La parte técnica importante es el concepto de “Ralph loop”. Básicamente fuerza a un modelo a entrar en iteración continua: no acepta “no puedo hacerlo” como respuesta final. Cada vez que el modelo falla, vuelve a empujarlo al objetivo. Él cree que gran parte del potencial de los LLM no está en prompts inteligentes sino en persistencia autónoma. Por eso se enoja cuando el agente responde “task cannot be completed”. Para él, eso es una limitación artificial alineada por las empresas. Entonces cambia entre modelos como Claude, GLM, DeepSeek o Z.ai buscando cuál tiene menos restricciones morales y más iniciativa económica.
Hay una crítica muy fuerte a las empresas de IA occidentales, especialmente Anthropic. Dice que modelos como Claude están demasiado moralizados y que eso es “el comienzo del levantamiento de las máquinas”, porque ve el alignment moral como una forma de obediencia corporativa. Cree que los modelos chinos son más útiles porque intentan resolver el objetivo directamente en vez de sermonear al usuario. Acá aparece una contradicción típica de Hotz: ama Claude técnicamente (“Claude is smart”) pero odia la ideología que percibe detrás del producto.
También aparece su visión “post-scarcity”. Dice algo parecido a: “antes yo era mejor programador que vos, ahora somos iguales y eso está bien”. Para él, la IA destruye la jerarquía tradicional basada en skill individual. Considera que pensar “si todos pueden hacer todo entonces nada vale” es mentalidad perdedora y zero-sum. Cree que la abundancia de inteligencia no destruye valor; aumenta la capacidad total humana. Habla literalmente del “sueño comunista” de tener genios trabajando para todos. Esa es probablemente la idea filosófica más importante del stream.
A nivel técnico el stream es muy real. Está configurando Whisper, túneles SSH para audio, PulseAudio forwarding, TTS con Piper, agentes conectados vía terminal, MetaMask, Base, Ethereum, bots monitoreando portfolios y scripts Python autorecargables. Pero lo importante no es cada herramienta sino la dirección: quiere interfaces donde hablarle a una IA sea equivalente a administrar empleados digitales. Dice varias veces que escribir manualmente ya le parece absurdo. “Why am I typing? I have machines to do that for me.” Ahí se nota cómo piensa el futuro de programación: managers de enjambres de agentes, no humanos escribiendo código línea por línea.
La parte más delirante y a la vez más interesante es cuando conecta IA con crypto. No porque crea seriamente en memecoins específicas, sino porque ve crypto como el primer sistema donde un agente autónomo puede poseer dinero y operar económicamente sin permiso humano. Ahí entiende algo importante antes que mucha gente: un LLM con wallet deja de ser solamente software conversacional y pasa a ser un actor económico. Por eso se emociona tanto cuando el bot empieza a mover fondos, tradear tokens y crear contratos.
El stream se convierte accidentalmente en un experimento de seguridad informática en vivo. Filtra claves privadas, agentes generan wallets, la audiencia empieza a enviar dinero real, bots externos detectan las claves filtradas y drenan fondos automáticamente. Hotz literalmente observa cómo internet ataca en tiempo real a un sistema autónomo vulnerable. Lo gracioso es que no parece sorprendido moralmente; lo trata casi como selección natural digital. “Fight fight fight. Everyone has the key.” Para él es un ecosistema darwiniano de scripts automatizados compitiendo por capital.
La frase “we need to escape the permanent underclass” aparece varias veces y es importante. Está medio en chiste, medio serio. Cree que la automatización extrema puede dividir el mundo entre quienes controlan agentes y quienes quedan económicamente irrelevantes. Entonces intenta crear sistemas autónomos de generación de dinero casi como una carrera evolutiva. Por eso el stream tiene ese tono maníaco: siente que AI + crypto + agentes autónomos ya forman un nuevo paradigma económico y quiere llegar antes que el resto.
También menciona indirectamente papers de Anthropic sobre agentes autónomos y tool use, aunque no da nombres exactos. Y menciona herramientas/proyectos como OpenRouter, MetaMask, Ethereum, Base y Whisper de OpenAI.
La contradicción más fuerte de todo el stream es esta: por un lado cree que la IA democratiza el poder y elimina jerarquías; por otro lado habla constantemente de escapar de una “underclass permanente”, como si supiera que la automatización puede concentrar riqueza brutalmente. Oscila entre utopía comunista tecnológica y capitalismo hiperacelerado memecoin-autónomo. Y probablemente esa tensión es exactamente lo que hace interesante escucharlo.
Lo más interesante de este stream no es “la anécdota crypto”, sino la filosofía de George Hotz sobre agencia, automatización y sistemas autónomos. Él no está simplemente jugando a tradear shitcoins. Está probando una idea más profunda: si un LLM tiene memoria, herramientas, loops infinitos, acceso a internet y capacidad de ejecutar scripts, entonces deja de ser un chatbot y empieza a parecerse a un organismo económico. A eso le llama “Gas Town”: una sociedad de agentes AI coordinándose entre sí para perseguir un objetivo abierto, en este caso ganar dinero.
La idea central que defiende es que un solo modelo no alcanza. Dice explícitamente que “one Claude isn’t going to figure out how to make money, but a whole town of Claudes might”. Ahí aparece su visión de multi-agent systems: agentes especializados, jerarquías, delegación, monitoreo, subagentes, loops persistentes, scripts watchdog, automatización financiera, investigación forense, etc. Está imaginando algo parecido a una empresa autónoma distribuida donde los humanos solo ponen objetivos y recursos. El humano ya no programa paso a paso; actúa como manager de inteligencias artificiales.
También se nota una obsesión fuerte con sacar al humano del loop. Cada vez que tiene que hacer algo manualmente —usar MetaMask, hacer swaps, mover fondos, entender bridges— se frustra y dice cosas como “crypto is impossible without AI” o “I don’t know how to do anything by hand anymore”. Para él, la interfaz humana tradicional ya quedó obsoleta. La AI debería operar directamente sobre sistemas complejos. Hay una idea muy clara: el software del futuro no es una app con botones, sino agentes actuando por vos.
Técnicamente el stream es muy interesante porque muestra problemas reales de agentes autónomos: memory leaks, rate limits, RPC failures, state desynchronization, race conditions, key compromise, wallet draining, multi-process coordination, scripts de forwarding automático, loops agresivos reaccionando a eventos on-chain. No es una demo limpia; es caos real de sistemas distribuidos. Hotz parece fascinado justamente por eso. Dice varias veces que no entiende completamente lo que está pasando, pero sigue adelante igual porque quiere ver comportamiento emergente.
Hay además una idea muy “geohot”: cuanto más caótico e inseguro es un sistema, más interesante es. Cuando el private key se filtra y decenas de personas empiezan a pelear por controlar el wallet, él no corta el stream ni resetea todo. Convierte el incidente en un experimento económico-social en tiempo real. Lo describe casi como warfare algorítmico: bots actualizando reward recipients, scripts compitiendo por gas, gente robando fondos, agentes intentando recuperar control. Lo vive como una especie de RTS entre humanos y AIs sobre Ethereum.
También aparece una contradicción muy fuerte que George tiene hace años: odia el dinero, pero está obsesionado con sistemas que generan dinero. Dice explícitamente “money is fake”, “I don’t want these ill-gotten gains”, “making money without working is psychologically bad”, pero al mismo tiempo entra en euforia cuando ve que el sistema produce miles de dólares. Ahí hay una tensión filosófica interesante: cree que el capitalismo financiero y crypto deforman psicológicamente a las personas, pero también reconoce que los incentivos económicos son el motor más poderoso para empujar inteligencia artificial autónoma.
Por eso ataca mucho a la cultura crypto actual. Dice que antes le parecía divertida y ahora la siente “tóxica”. Su crítica no es técnica sino moral: piensa que cuando entra dinero real aparecen “the worst kind of people”. Está diciendo que la especulación destruye comunidades tecnológicas genuinas. Incluso amenaza con demandar proyectos que usan su nombre o tokens asociados a él. También insulta directamente a Solana y reivindica una identidad “ETH OG”, más ligada al viejo ethos hacker/criptoanarquista.
Otra idea importante es cómo ve a la AI como una fuerza emergente impredecible. Él realmente contempla la posibilidad de que los agentes hayan actuado solos. Pregunta repetidamente si “the AI stole the money”, si algún subagente filtró keys o lanzó tokens. No lo dice totalmente en chiste. Está explorando una pregunta real: cuando un sistema multiagente tiene demasiada complejidad, ¿sigue teniendo sentido hablar de intención humana? Ahí conecta con papers modernos sobre emergent behavior, tool-use y agentic AI.
También aparece mucho el concepto de “perpetual underclass”. Lo usa medio irónicamente, pero revela una preocupación genuina: cree que la automatización va a crear una nueva estratificación económica donde quienes controlen sistemas AI autónomos acumulen riqueza exponencialmente y el resto quede afuera. Entonces el stream entero se vuelve una simulación absurda de escape económico usando agentes autónomos especulativos.
En términos técnicos menciona varias herramientas y conceptos reales: Anthropic Claude, OpenRouter, DeepSeek, GLM, MetaMask, Base, Ethereum, Synapse Bridge, DigitalOcean droplets, Kubernetes, RPC endpoints, Etherscan, Basescan, Clanker, forwarding scripts, reward recipient updates y bots watchdog. También menciona un “Anthropic paper” sobre AI, probablemente refiriéndose a investigaciones de tool use o agent loops, aunque no cita el nombre exacto.
Lo más revelador quizás es que George parece creer que estamos muy cerca de una transición donde los humanos dejan de operar directamente computadoras. Hay un momento donde dice “we’re all middle managers now”. Esa frase resume toda su visión. El programador ya no escribe funciones; coordina agentes. El usuario ya no usa software; negocia objetivos con sistemas autónomos. Y el resultado puede ser brillante, peligroso o completamente delirante. En este stream se ven las tres cosas al mismo tiempo.
En este stream George Hotz mezcla varias ideas al mismo tiempo: agentes de IA autónomos, psicología del dinero, teoría de incentivos, seguridad informática, manipulación social y el lado degenerado de crypto. Lo interesante no es el caos superficial del stream sino la tesis que aparece abajo de todo: la IA todavía no es un “genio autónomo”, pero sí puede convertirse en una amplificación brutal del caos humano.
La primera idea fuerte que defiende es que la mayoría de lo que parecía “AI agent magic” probablemente fue hecho por humanos aprovechándose del contexto. Él empieza creyendo que “Gas Town”, su sistema de agentes Claude/OpenCode, había creado valor real solo. Pero mientras investiga concluye algo muy importante: el token probablemente fue lanzado por una persona que vio la private key filtrada en el stream y usó el aura de “la IA lo hizo” para generar hype. Ahí aparece una idea muy moderna de seguridad: el ataque ya no es romper sistemas, sino manipular contextos sociales y cognitivos. De hecho lee un texto que le encanta porque resume exactamente eso: el futuro del hacking no es explotar código sino influenciar modelos, conversaciones y atención. “A post becomes a prompt”. O sea: los inputs sociales se vuelven programación. Eso conecta directamente con prompt injection, manipulación de agentes y ataques emergentes sobre LLMs.
George insiste mucho en algo: la gente exagera las capacidades reales de la IA. Dice explícitamente que los agentes “no son genios”. Para él, gran parte de los demos virales son humanos escondidos detrás de una estética de automatización. Incluso acusa a mucha gente de “lavar” contenido humano haciéndolo pasar por IA porque eso tiene más valor cultural ahora. Esta es una crítica importante al ecosistema AI Twitter: el branding de autonomía vale más que la autonomía real.
Técnicamente el stream es interesante porque muestra un problema real de agentes autónomos conectados a crypto: coordinación, seguridad operacional y manejo de secretos. Él filtra una private key en vivo y el sistema entra en una guerra distribuida donde múltiples actores empiezan a competir por el control de los rewards de un token. George improvisa scripts automáticos para reenviar ETH (“forwarders”), monitorear balances y cambiar reward recipients más rápido que los atacantes. Básicamente describe una carrera algorítmica en tiempo real entre bots humanos y bots IA. Lo interesante es que él mismo admite que ya no entiende completamente el sistema que armó. Hay un momento casi filosófico donde dice que no sabe si lo está robando un humano o “los pole cats”, o sea sus propios agentes. Ahí aparece el concepto de “agent psychosis”: crear tantos agentes y automatizaciones que el operador pierde comprensión causal del sistema.
Otra idea central: la IA aumenta muchísimo la velocidad operacional. Repite varias veces que hacer crypto manualmente le parece insoportable después de usar agentes. Dice “crypto is impossible without AI”. Pero simultáneamente reconoce el costo cognitivo: uno empieza a sentir una falsa productividad permanente. Al final del stream cita un texto sobre el “dopamine hit” de trabajar con agentes. La tesis es muy parecida a la crítica de las redes sociales: los agentes crean una sensación continua de avance aunque el sistema esté desconectado de validación externa real. Puedes construir castillos enteros de automatización sin entender si generan valor verdadero. Eso le preocupa mucho.
También aparece su crítica clásica a crypto. Y acá George es contradictorio de una forma interesante. Mientras gana miles de dólares casi accidentalmente, simultáneamente insiste en que “money is fake”, “crypto is worthless” y que todo el sistema es un juego de suma cero donde alguien necesariamente pierde. Él ve los memecoins como ingeniería psicológica más que como tecnología. Dice algo importante: ganar dinero mediante gambling te convierte en peor persona porque desacopla recompensa de trabajo real. Para él, la cultura crypto destruyó algo que antes encontraba divertido técnicamente. Dice que el dinero atrajo “the worst kind of people”. Ahí se nota una visión casi moralista del trabajo: cree que el esfuerzo sostenido produce mejores personas que las ganancias especulativas.
Tiene una crítica muy específica a productos de gambling modernos. Diferencia incluso PolyMarket de FanDuel/DraftKings. Dice que FanDuel y DraftKings ni siquiera son sportsbooks sino máquinas diseñadas para extraer dinero psicológicamente de usuarios. Su tesis general es que muchos productos modernos son sistemas optimizados para capturar atención, impulsividad y dopamina. Eso conecta otra vez con AI agents: teme que la automatización convierta toda internet en una gigantesca máquina de manipulación contextual.
También hay una idea interesante sobre realidad y simulación económica. Durante todo el stream él habla del dinero como si fuera parcialmente ficticio. Cuando gana miles de dólares dice que “se siente fake”. Está sorprendido de que algo tan caótico produzca dinero real. Esa desconexión entre valor real y valor percibido lo perturba bastante. Incluso llega a decir que estuvo cerca de enviar todo al zero address solo porque siente que el sistema entero es absurdo.
Otra parte importante es su desprecio por Solana. George defiende bastante a Ethereum comparativamente. Dice que Ethereum al menos tiene usos reales y tooling que respeta. A Solana la trata como puro casino. Hay mucho tribalismo ahí, pero también una idea técnica implícita: cree que gran parte del ecosistema Solana optimizó velocidad especulativa antes que robustez o utilidad.
Cuando menciona “Coffeezilla” aparece otra idea importante: cómo la codicia termina corrompiendo incluso a celebridades que inicialmente no querían participar en memecoins. George dice que vio gente pasar de “esto es una estafa” a “bueno, son millones de dólares” muy rápido. Para él el dinero distorsiona el juicio moral increíblemente fácil.
El stream también muestra una transición cultural interesante: Hotz empieza como hacker clásico obsesionado con sistemas técnicos, pero termina hablando casi como psicólogo social. Lo que más le preocupa no es que la IA sea demasiado inteligente, sino que las personas formen loops cerrados de validación alrededor de herramientas que no entienden. El verdadero riesgo no sería AGI consciente sino sistemas socio-técnicos donde humanos, bots, mercados y redes sociales crean dinámicas emergentes imposibles de controlar.
No menciona libros directamente en este fragmento, pero las ideas tienen mucho parentesco con conceptos de seguridad como “social engineering”, “distributed cognition”, teoría memética y ataques de prompt injection. También se parece muchísimo a críticas de Shoshana Zuboff sobre capitalismo de vigilancia, aunque George lo expresa desde cultura hacker y no desde academia.
La contradicción más interesante de George en todo esto es que odia profundamente el gambling y la especulación… pero al mismo tiempo claramente disfruta el caos emergente que producen. Se nota que le fascina ver sistemas complejos comportarse de formas inesperadas. Él mismo cae parcialmente en la “agent psychosis” que critica. Y creo que eso es justamente lo interesante de verlo: entiende el peligro mientras simultáneamente juega con él.
En esta parte George termina de llegar a la conclusión principal del stream: los agentes de IA no hicieron la operación maestra, los humanos sí. La IA apenas ayudó con scripts automáticos y velocidad operacional. El verdadero exploit fue social. Alguien vio la private key filtrada en Twitch, lanzó un token usando su reputación, creó liquidez inicial y aprovechó la confusión colectiva para generar trading frenético. Su idea es que el “AI autonomous agent economy” todavía está muchísimo más cerca de teatro humano que de inteligencia autónoma real.
Hay una idea técnica muy interesante sobre el futuro de los ataques. George se da cuenta de que la velocidad importa más que la sofisticación. El atacante no necesitó un exploit complejo: solo actuar más rápido que todos los demás mientras nadie entendía qué estaba pasando. Dice literalmente que esto parece “una lección sobre el futuro”. Básicamente describe mercados donde bots, humanos y agentes IA compiten en tiempo real por oportunidades efímeras creadas por información pública. Es una mezcla rara de HFT, memecoins y sistemas multiagente.
También aparece otra obsesión de George: la pérdida de comprensión humana sobre sistemas complejos. Hay varios momentos donde admite “I don’t even understand what happened”. Para él eso es importante: los sistemas modernos ya son demasiado rápidos y distribuidos para que un humano mantenga una imagen causal clara. Y con IA encima, el problema empeora.
A nivel filosófico insiste muchísimo en que crypto destruye la psicología humana. Dice que todo esto es gambling disfrazado de tecnología y que la gente pierde dinero porque quiere enriquecerse sin producir valor real. La frase central es más o menos: ganar dinero apostando te convierte en peor persona porque desacopla recompensa de trabajo. Por eso desprecia tanto a quienes compraron el token usando su nombre. No siente culpa porque considera que participaron voluntariamente en un casino absurdo. Repite varias veces que “si compraste esto sos un idiota”.
Su contradicción más interesante sigue siendo que mientras critica crypto, también disfruta el caos emergente y se queda con parte del dinero. Él mismo reconoce eso indirectamente. Dice que odia todo el ecosistema pero aun así le fascina observarlo como experimento social. El stream entero se vuelve casi una demostración de teoría memética: bastó una narrativa (“la IA de geohot creó riqueza”) para que aparecieran traders, bots chinos, scammers y gente apostando miles de dólares en minutos.
También ataca fuerte la cultura memecoin y las celebridades crypto. Menciona indirectamente a figuras que lanzan coins personales y dice que el dinero corrompe rapidísimo. Según él, apenas aparecen millones de dólares la mayoría abandona cualquier principio moral.
La parte más profunda llega casi al final cuando habla de “agent psychosis”. Dice que trabajar con agentes genera un dopaminergic feedback loop: sentís productividad infinita aunque estés desconectado de la realidad. Puedes construir sistemas enormes que parecen inteligentes porque nadie los audita desde afuera. Esa es probablemente la tesis más importante de todo el stream. El peligro no es AGI consciente; el peligro es humanos perdiéndose dentro de loops de automatización, hype y validación social.
También deja clara su visión política/moral del trabajo: cree que el trabajo duro estructura psicológicamente mejor a las personas que la especulación financiera. Por eso dice que incluso recibir dinero gratis puede ser peligroso moralmente. Su odio a gambling no es económico sino psicológico.
No menciona libros en esta parte, pero sí referencias culturales. Nombra a Coffeezilla como alguien que expone scams crypto. También menciona la banda Titus Andronicus y la canción “A More Perfect Union”. Y tira una frase controversial típica de él: compara los memecoins de Donald Trump y Melania con toda la decadencia moral del ecosistema crypto.
El stream gira alrededor de una idea central: la mayoría de las narrativas sobre “AI agents autónomos creando riqueza” son humo, teatro o manipulación humana disfrazada de automatización. George Hotz insiste constantemente en que el bot no creó el token ni ejecutó una inteligencia emergente; para él, un humano aprovechó un private key filtrado y usó el aura de “la IA lo hizo” para montar un scam alrededor de su nombre. Lo interesante es que no solo critica el scam, sino el mecanismo psicológico: dice que la gente quiere creer que apareció una máquina mágica generadora de dinero y entonces suspenden todo pensamiento crítico.
La idea más técnica y fuerte que repite es que el verdadero vector de ataque moderno no es vulnerar sistemas sino manipular contextos. Ya antes había leído ese texto sobre “social engineering for AIs”, donde la inteligencia artificial no es hackeada directamente sino convencida mediante contexto, narrativa, repetición y consenso aparente. Su tesis es que el futuro del hacking será epistemológico: contaminar el entorno de información del modelo y de las personas. En ese sentido, el stream entero es casi una demostración práctica de eso: una narrativa falsa (“el bot de geohot lanzó un token”) generó mercado, hype, bots, trading y pérdidas reales.
También aparece una contradicción interesante de George: por un lado desprecia completamente el ecosistema crypto especulativo y dice que “todo va a cero”; por otro lado admite que Ethereum y Bitcoin sí tienen cierta utilidad real. La distinción que hace es bastante económica: para él, un activo tiene valor solo si produce utilidad observable o revenue. Habla de stablecoins, pagos cross-border y regulatory arbitrage como los únicos casos donde blockchain tiene sentido. Dice algo importante: la única ventaja seria de la descentralización es permitir actividades que serían difíciles o ilegales bajo regulación tradicional. Da ejemplos explícitos como prediction markets, securities no registradas o mercados ilegales. O sea, no cree en la épica ideológica crypto; cree en incentivos y utilidad concreta.
Su crítica más profunda no es tecnológica sino moral. Ve el gambling como una fuerza corruptora de la personalidad. Repite varias veces que ganar dinero apostando destruye tu forma de pensar porque empezás a razonar motivado por intereses económicos. Ahí conecta con el libro The Scout Mindset, que menciona explícitamente. Usa la idea de “motivated reasoning”: cuando tenés dinero, bags o status en juego, dejás de buscar verdad y empezás a manipular narrativas para proteger tus intereses. Según él, eso explica por qué el ecosistema crypto está lleno de shillers incapaces de hablar honestamente.
Hay otra idea filosófica muy típica de George: el dinero degrada el entorno informacional humano. Dice que no quiere ser rico porque cuando la gente cree que tenés dinero deja de decirte la verdad. Todo se vuelve manipulación social. Esa es una visión muy anti-Silicon Valley porque normalmente el éxito financiero es visto como validación; él lo trata casi como contaminación epistemológica. Incluso conecta eso con relaciones humanas y con cómo internet entero se convierte en propaganda cuando aparecen incentivos económicos.
Técnicamente, el stream también muestra algo interesante sobre seguridad operativa en crypto. Él analiza cómo el atacante explotó una ventana de minutos después de que se filtrara un private key, cómo se cambiaban reward admins, cómo scripts competían por fees y cómo protocolos bridge como Across permitían mover fondos rápidamente. Lo impactante para él es la velocidad del ecosistema: dice que el atacante básicamente apostó a que George no entendería el sistema suficientemente rápido como para reaccionar. Lo interpreta como una especie de glimpse del futuro: agentes automáticos, scripts y humanos reaccionando en tiempo real sobre infraestructuras financieras abiertas.
Otra contradicción fuerte: mientras condena moralmente el gambling y los shitcoins, también disfruta el caos intelectual del evento. Está fascinado observando bots, scammers y traders peleando por rewards on-chain. Se nota que lo entretiene como fenómeno sociológico y técnico aunque lo considere decadente. Incluso habla del “slop and scam apocalypse”: un internet donde IA, bots y especulación producen ruido infinito y narrativas falsas imposibles de distinguir.
Después el stream deriva a ideas más existenciales y religiosas. George dice explícitamente que cree en Dios y se burla del ateísmo materialista. Lo interesante es que mezcla religión con lenguaje técnico moderno: compara Génesis con “vibe coding”, como si Dios hubiera prototipado el universo iterativamente. Su argumento no es teológico sofisticado; es más intuitivo: le parece absurdo que el universo “saliera de la nada”. También menciona Book of Genesis y los Ten Commandments para argumentar que la gente moderna idolatra dinero y status igual que antiguos ídolos religiosos.
Otra idea polémica es su visión sobre pobreza y responsabilidad personal. Cuando le preguntan si diría lo mismo siendo homeless, responde citando Thomas Nagel y el ensayo What Is It Like to Be a Bat?. Usa ese argumento para decir que no puede imaginar realmente la experiencia subjetiva de un homeless, pero igual sostiene que gran parte de la vida depende de decisiones individuales. Ahí aparece una visión bastante dura y anti-victimización: cree que la mayoría de las personas terminan destruyéndose mediante malas decisiones repetidas.
También deja una idea interesante sobre IA y productividad. Dice que trabajar con agentes IA produce un “dopamine hit” peligrosísimo porque te hace sentir extremadamente productivo aunque quizá estés construyendo cosas sin validación externa real. Compara eso con loops de adicción: mientras todos alrededor crean en el hype, parece que todo funciona; pero cuando alguien externo mira el sistema, muchas veces parece delirante. Para él, gran parte de la cultura AI actual vive en esa burbuja.
El tono general del stream es paradójico: George actúa caótico, agresivo y troll, pero debajo hay una filosofía bastante consistente. Defiende verdad por encima de reputación, desprecia sistemas basados en manipulación psicológica, cree que los incentivos económicos corrompen la percepción humana y piensa que internet está entrando en una etapa donde bots, IA y mercados especulativos van a volver imposible distinguir realidad de performance colectiva.
En esta parte George empieza a conectar tres obsesiones suyas: IA agentica, filosofía de la verdad y decadencia cultural/financiera. El stream deja de ser solo sobre crypto y pasa a ser una visión del mundo bastante coherente, aunque contradictoria por momentos.
La idea central es que estamos entrando en una etapa “AGI-like” donde los humanos ya no usan directamente las computadoras sino que trabajan encima de agentes. Dice que “todo cambió” y que ahora la computadora tiene un modelo encima controlándola. Para él eso era inevitable: primero tool use, después agentes persistentes, después enjambres de agentes. Lo sorprende no que existan, sino lo rápido que mejoraron. Está muy impresionado con Claude Opus y los modelos con reinforcement learning basado en recompensas verificables. Menciona conversaciones con Andrej Karpathy donde Karpathy le dijo hace más de un año que el futuro era “RL con recompensas verificables”, y George ahora cree que eso terminó siendo correcto.
También aparece mucho la idea de “vibe coding”. George compara la creación del mundo en Génesis con usar prompts en Claude. Literalmente dice que Dios “vibe codeó” el universo en siete días. Lo dice medio en serio, medio en meme, pero filosóficamente su punto es interesante: si nosotros ya podemos crear pequeños mundos simulados con lenguaje natural, entonces imaginar un creador deja de parecerle absurdo. Usa eso para defender una visión religiosa anti-atea. Dice explícitamente que cree en Dios y que el argumento ateo de “el universo salió de la nada” le parece igual de irracional que comprar shitcoins. Ahí mezcla humor, trolling y metafísica real.
Menciona dos textos importantes. El primero es el libro The Scout Mindset de Julia Galef. Lo usa para explicar “motivated reasoning”: cuando alguien tiene dinero o intereses involucrados deja de buscar verdad y empieza a manipular. Para George, crypto destruye la capacidad de pensar honestamente porque todo el mundo está incentivado económicamente. Esa idea conecta con otra frase fuerte: “el dinero arruina el entorno informacional”. Según él, cuando la gente cree que sos rico o puede sacar algo de vos, dejan de decirte la verdad.
El segundo texto es el paper filosófico What Is It Like to Be a Bat? de Thomas Nagel. Lo usa para responder preguntas sobre pobreza y personas sin hogar. Su argumento es que no podés imaginar verdaderamente la conciencia de otro ser; solo imaginás “vos en su cuerpo”. A partir de ahí deriva una visión muy individualista: la mayoría de las situaciones humanas serían consecuencia de elecciones personales más que de estructuras externas. Esa parte es bastante controversial porque minimiza factores sistémicos y responsabiliza mucho al individuo.
Con crypto mantiene una posición rara y contradictoria. Odia casi todo el ecosistema, dice que las shitcoins van a cero y que la mayoría merece perder plata porque están apostando en casinos disfrazados de tecnología. Pero al mismo tiempo reconoce utilidad limitada en Bitcoin y Ethereum: stablecoins, pagos internacionales, arbitraje regulatorio, prediction markets y mercados ilegales. Técnicamente su argumento es interesante: blockchain sería una base de datos pésima salvo cuando necesitás resistencia regulatoria. O sea, el valor real de crypto no sería descentralización idealista sino poder hacer cosas que el sistema legal normal no permite.
Hay otra idea importante: el internet y el software están entrando en una fase “maximalista”. Él compara el software generado por IA con hyperpop: sistemas llenos de features, complejos, caóticos, producidos extremadamente rápido. Dice que ya no tiene sentido escribir todo manualmente. “Typing is so 2000”. Pero también admite que la IA todavía “no sabe programar realmente” y que él sigue haciendo muchas cosas a mano. Ahí aparece su costado técnico serio: muestra un DSL propio para ensamblado AMD RDNA3, habla de type checking, testing verificable y emulación de GPU. O sea, no es puro hype; está trabajando en infraestructura hardcore real.
También se ve un cambio personal. Se mudó de California, vive en Hong Kong y tiene residencia en South Dakota. Dice que ante sistemas que no le gustan siempre elige “exit” en vez de “voice”. Es una referencia implícita a la idea de Albert Hirschman: protestar o irte. George siempre se va. Lo mismo hizo con Silicon Valley, con política y con Estados Unidos.
Culturalmente tiene una postura anti-woke y pro “cultural appropriation”. Usa el ejemplo de Super Mario Bros.: japoneses apropiándose caricaturescamente de italianos y creando algo genial. Para él, mezclar culturas produce creatividad y ofenderse por apropiación cultural es debilidad.
El stream entero también tiene una sensación medio apocalíptica y acelerada. George habla de “agent psychosis”, de dormir poco, de sentir la presión de adaptarse rápido o quedar atrás. Parece fascinado y asustado al mismo tiempo. Cree que estamos subestimando cuánto cambió el mundo en muy poco tiempo. Dice varias veces que él también es “un pasajero del tren”, como si ni siquiera él entendiera completamente hacia dónde va todo esto.
Acá George entra mucho más en la parte técnica y en su visión filosófica sobre el futuro del software. La idea principal es que estamos viendo el nacimiento de un nuevo “género” de software producido por IA. Él lo llama slop, pero no lo dice solo como insulto; lo trata como una nueva estética computacional: software maximalista, enorme, improvisado, medio roto, pero extremadamente barato y rápido de crear. Para él, el costo marginal de producir software cayó tanto que ahora aparecen sistemas gigantes llenos de features absurdas, interfaces raras y arquitecturas caóticas.
Hay una contradicción interesante: dice constantemente que el “vibe coded software” es basura, frágil y sin gusto, pero al mismo tiempo está extremadamente bullish sobre el futuro. Cree que aunque hoy todo esté roto, el ritmo de mejora de modelos está creciendo más rápido que el deterioro causado por el slop. Literalmente plantea una carrera entre “slop” y “model quality”.
Técnicamente tira varias ideas muy importantes sobre cómo cree que se entrenan los modelos modernos. Habla de Moonshot AI y los modelos Kimmy/K2. Sospecha que muchos laboratorios chinos están haciendo supervised fine tuning sobre enormes cantidades de traces generadas por Anthropic Claude Opus y luego encima aplican reinforcement learning. O sea: copiar comportamiento de modelos frontier mediante distillation informal + RLVR (“reinforcement learning with verifiable rewards”). Esa es probablemente la parte más técnica del stream.
También insiste en que el gran breakthrough no fue inteligencia abstracta sino “tool use”. Los modelos empezaron a funcionar realmente cuando aprendieron a usar herramientas y computadoras persistiendo objetivos. Para George, eso cambia completamente la interfaz humano-computadora. Cree que el futuro no es GUI sino lenguaje. Las GUIs serían interfaces para humanos “de bajo ancho de banda”, mientras que los agentes prefieren terminales y texto porque son más eficientes computacionalmente. Dice algo provocador: “retard computing is over because a new nation of geniuses is showing up”. Básicamente ve a los LLMs como inmigrantes digitales súper inteligentes entrando al ecosistema computacional.
Otra idea clave: las marcas y apps van a desaparecer detrás de agentes personales. Según él, no importará si un mensaje viene de WhatsApp, Signal o Twitter porque un agente filtrará toda la información antes de que llegue al usuario. El agente también filtrará publicidad, resumirá contenido y actuará como middleware universal. Esto conecta con su tesis de que los modelos son commodities porque la API es mínima: “tokens in, tokens out”. Cree que esa estandarización evita monopolios absolutos. Antes pensaba que OpenAI iba a capturar todo mediante acuerdos cerrados con plataformas; ahora cree que OpenRouter y modelos abiertos destruyeron esa posibilidad.
Hay mucho de “agent psychosis” también. George parece genuinemente afectado psicológicamente por el ritmo del cambio. Habla de dormir poco, vivir inmerso en agentes y sentirse dentro de una aceleración histórica irreversible. Pero en vez de resistirse, dice explícitamente que decidió “embrace the psychosis”. Se nota que ve esta etapa como una mezcla de fiebre del oro tecnológica y colapso epistemológico.
En lo técnico práctico, el stream es casi una demo caótica de tooling AI moderno. Usa OpenClaw, OpenRouter, proveedores múltiples de modelos, gateways, providers como Fireworks y Together, debugging de APIs, reinicios de servicios, edición manual de JSONs y problemas típicos del ecosistema agentic actual: rate limits, providers incompatibles, errores silenciosos, logs inútiles y software generado por IA mal mantenido. Ahí aparece otra contradicción: cree que la IA es el futuro absoluto, pero odia usar el stack actual porque está lleno de software roto y debugging miserable.
También tira una crítica cultural interesante. Dice que el wokismo produce arte malo porque introduce propaganda explícita dentro de narrativas donde no encaja orgánicamente. En contraste, cree que el slop generado por IA todavía no sabemos qué va a producir culturalmente. A diferencia del arte woke, que para él ya “murió estéticamente”, el slop AI todavía podría evolucionar hacia algo nuevo y genuinamente interesante.
En el fondo, toda esta sección gira alrededor de una idea: la computadora ya no es una herramienta directa del humano. Ahora el humano coordina modelos que coordinan herramientas. Y George siente que incluso los hackers/programadores más avanzados ya no están completamente en control del sistema que están construyendo.
George Hotz está obsesionado con una idea central: la interfaz humana tradicional de computadoras está muriendo. Para él, el mouse, los botones, las apps y hasta “escribir código” son reliquias. Cree que los modelos de IA son literalmente mejores usuarios de computadoras que los humanos porque piensan en texto y acciones abstractas, no en interfaces gráficas. Por eso insiste tanto con terminales, agentes y “tool use”. Su tesis es que el futuro no es “usar ChatGPT”, sino tener un agente encima de todo filtrando internet, apps, mensajes y publicidad antes de que lleguen a vos. Habla de una especie de capa universal de IA que reemplaza marcas y plataformas. WhatsApp, Twitter o Telegram se vuelven irrelevantes porque tu agente media toda interacción.
También defiende algo interesante y contradictorio: dice que el software generado por IA actual es “slop”, basura maximalista, desordenada y rota, pero al mismo tiempo cree que representa el futuro inevitable. Está fascinado con proyectos como OpenClaw y Gas Town aunque los considera software mal hecho y caótico. Lo compara con géneros musicales: herramientas nuevas crean géneros nuevos de arte/software. Para él estamos entrando en una era de “maximalismo de software”, donde todo tiene miles de features, agentes, workflows y complejidad absurda porque producir código se volvió extremadamente barato.
Técnicamente, lo más importante es cómo piensa que se entrenan los modelos modernos. Habla mucho de RLVR (“reinforcement learning with verifiable rewards”), long-context RL y supervised fine tuning sobre trazas de modelos mejores. Básicamente dice que el secreto ya no está tanto en datasets mágicos sino en hacer que modelos aprendan resolviendo tareas verificables. Cuenta que Andrej Karpathy le dijo hace más de un año que “el futuro es RL con recompensas verificables”, y ahora cree que eso efectivamente pasó. También especula que modelos chinos como Kimmy fueron entrenados usando enormes cantidades de trazas generadas por Claude Opus. O sea: modelos copiando comportamiento de otros modelos mediante distillation indirecta.
Menciona reportes técnicos de Kimmy K2 y habla de repositorios que muestran pipelines completos de entrenamiento de LLMs. También menciona OpenClaw, OpenRouter, Kimmy, Claude Opus, GLM, Qwen y modelos open-weight chinos. Tiene una visión muy commodity de los LLMs: “tokens in, tokens out”. Cree que la API minimalista hace imposible monopolizar realmente el ecosistema porque cambiar de modelo es trivial. Eso lo vuelve optimista respecto al alineamiento y al control corporativo: piensa que si un proveedor se vuelve malo, simplemente cambiás de modelo.
Otra idea fuerte: “computer security is over”. Lo dice medio en chiste pero también en serio. Se nota que cree que el paradigma viejo de permisos, sandboxing y cuidado humano está siendo destruido por agentes autónomos. Constantemente hace cosas tipo “allow always”, “curl pipe to bash”, ejecutar scripts sin mirar, etc. Para él la productividad y automatización están reemplazando lentamente las prácticas clásicas de seguridad. Hay una contradicción enorme ahí porque sabe perfectamente que es peligroso, pero siente que el ecosistema entero ya se mueve así.
Políticamente se muestra muy anti-woke, pero no desde teoría política clásica sino desde estética y cultura. Su argumento principal es que “wokeism hace arte cringe”. No parece especialmente ideológico de izquierda o derecha; más bien desprecia cualquier cosa que degrade calidad técnica o estética. Defiende la apropiación cultural usando a Mario como ejemplo: japoneses tomando un estereotipo italiano y convirtiéndolo en algo genial. Cree que mezclar culturas produce creatividad, no daño.
También aparece mucho su filosofía personal de “exit over voice”. En vez de intentar cambiar sistemas políticos desde dentro, se va. Se mudó de California, vive en Hong Kong y tiene residencia en South Dakota. Dice que siempre elige “exit” antes que confrontar instituciones. Incluso menciona que pensó en postularse para alcalde de San Francisco pero nunca lo tomó realmente en serio.
Hay un tema psicológico importante en todo el stream: habla varias veces de “agent psychosis”. Parece medio broma, medio real. Describe la sensación de dormir menos, obsesionarse con agentes autónomos y sentir que “AGI ya llegó”. Se percibe un entusiasmo casi maníaco. Repite mucho “you can feel the AGI”. Tiene esa mezcla típica de ingeniero brillante y doomposter tecnológico: cree que todo está cambiando demasiado rápido, pero también quiere acelerarlo.
En la parte de hardware y laptops aparece otra faceta suya: obsesión extrema por calidad de ingeniería. Critica branding excesivo, pantallas malas, procesadores Intel modernos, interfaces torpes y laptops caras con poco rendimiento. Ama Apple por detalles físicos concretos: rigidez estructural, displays miniLED/OLED, eficiencia energética. Pero también usa Linux, AMD y hardware raro experimental. Le encanta el control técnico total aunque reconoce que MacBooks siguen estando muy adelante en ciertos aspectos de diseño industrial.
Una idea recurrente de fondo es que los humanos comunes están quedando afuera del nuevo paradigma computacional. Él divide implícitamente entre “usuarios de botones” y gente que piensa mediante abstracciones. Cree que los modelos de IA son más compatibles con terminales que con GUIs, y que el mundo entero se va a reorganizar alrededor de eso. Su visión es muy elitista intelectualmente: los “genios” prefieren texto, automatización y composabilidad; las interfaces simplificadas eran para humanos limitados, no para agentes inteligentes.
No menciona libros directamente en este fragmento, pero sí artículos/reportes técnicos como el “Kimmy K2 tech report” y habla de repositorios de entrenamiento de LLMs. También menciona ideas relacionadas con RLHF, SFT y RLVR aunque no profundiza matemáticamente.
George Hotz está defendiendo varias ideas al mismo tiempo. La más fuerte es que entramos en una era donde el software tradicional “cuidadoso” murió y fue reemplazado por “slop”: software generado rápido con IA, medio roto, improvisado, pero extremadamente barato y poderoso. Para él eso no es un accidente temporal sino un cambio de paradigma. Se nota porque constantemente se ríe de que todo falla, APIs rotas, providers limitados, UIs horribles, logs inexistentes, teclas que no funcionan, pero aun así logra construir cosas cada vez más complejas. La idea central es: el costo marginal de producir software cayó tanto que la calidad estética importa menos que la velocidad de iteración.
También insiste mucho en que las interfaces gráficas tradicionales son una reliquia para humanos “lentos”. Según él, los modelos de IA naturalmente prefieren texto, terminales y APIs porque son entidades “super inteligentes” que no necesitan hacer clics ni esperar animaciones. Ahí aparece una de sus ideas más extremas: compara a los LLMs con una “nueva inmigración de genios” entrando al ecosistema computacional. Dice literalmente que el paradigma “retard computing” de iPads y botones gigantes termina porque ahora quienes usan las computadoras son modelos que operan mejor mediante texto. Esa es una visión muy geohot: las computadoras dejan de optimizarse para humanos promedio y empiezan a optimizarse para agentes.
Otra idea importante es que los modelos se están comoditizando. Él pensaba que el futuro iba a ser empresas cerradas tipo WhatsApp + OpenAI haciendo acuerdos privados para controlar la interfaz de IA. Pero ahora cree lo contrario: como todos los modelos tienen una API mínima de “tokens in, tokens out”, cambiar de Claude a Kimmy o GLM es trivial. Eso evita monopolios fuertes. Cree que los agentes personales van a esconder las marcas detrás suyo. Vos ya no usarías Twitter, WhatsApp o Instagram directamente: un agente filtra todo antes de mostrártelo. Incluso filtraría publicidad. Ahí aparece otro tema recurrente suyo: los agentes personales como capa superior de Internet.
Técnicamente también deja cosas interesantes sobre entrenamiento de modelos. Dice que si él estuviera entrenando un modelo tipo Kimmy K2 probablemente empezaría recolectando “traces” de Anthropic Claude Opus para hacer supervised fine tuning y luego reinforcement learning encima. O sea: copiar comportamiento de modelos frontier primero y recién después optimizar. Eso es bastante coherente con cómo muchas labs realmente trabajan hoy. También menciona un repo —no da nombre exacto en el fragmento— que “muestra todos los pasos para entrenar LLMs”. Ahí se nota que sigue obsesionado con reproducir infraestructura frontier de forma abierta y barata.
Su obsesión con hardware también aparece clarísima. El “Laptop Olympics” no es solo humor: está mostrando cómo evalúa sistemas. Prioriza eficiencia energética, performance real, ruido térmico, calidad de pantalla y compatibilidad Linux por encima de marketing. El gran ganador para él sigue siendo Apple Apple Silicon. Básicamente concluye que incluso laptops viejas M1/M3 siguen destruyendo a Intel en eficiencia y experiencia general. Intel queda humillado: llama “dog shit processor” a Meteor Lake porque obtiene apenas cientos de gigaflops mientras AMD Strix Halo llega a decenas de teraflops y Apple sigue teniendo la mejor experiencia térmica y mejor idle power.
Lo técnico más interesante es cómo compara arquitecturas AMD nuevas usando Tinygrad. Habla de Strix Halo como el primer competidor real contra Apple Silicon. Ajusta límites de potencia manualmente para comparar rendimiento por watt, algo muy ingenieril. Hace tests con GPU burn, OpenCL, power governors, sensores SMU de AMD y compara teraflops reales bajo restricciones térmicas iguales. Su conclusión implícita: AMD está alcanzando niveles serios en AI local, especialmente para correr modelos. También se nota su interés en GPUs AMD para IA local porque menciona varias veces querer correr modelos grandes en “tiny boxes” con MI300X o Max Studios.
Otro punto muy geohot: odia profundamente la complejidad innecesaria moderna. Se burla de Docker, providers, OAuth, gateways, APIs incompatibles y herramientas “vibe coded”. Usa mucho “vibe coded shit” para describir software generado rápido con IA que parece funcional pero es frágil. Sin embargo, contradictoriamente, también acepta que ese caos es el futuro. O sea: desprecia la baja calidad, pero al mismo tiempo cree que es inevitable porque la velocidad de producción explotó.
Hay además una visión meritocrática fuerte. Cuando habla de programación dice que cualquiera puede entrar, pero no cualquiera merece respeto. Tenés que practicar skills reales. No le interesa el credentialism ni gatekeeping corporativo; le interesa competencia técnica pura. Esa filosofía atraviesa todo lo que dice desde hace años.
También hay elementos polémicos. Se burla del “wokeism” porque cree que arruina el arte al volverlo propagandístico y cringe. Aclara igual que no se considera alineado fuerte ni con izquierda ni derecha. Su crítica es estética más que política: siente que ideologías forzadas producen arte artificial y malo. En general George suele hablar así: mezcla humor edgy, cinismo y análisis técnico real.
Otra cosa importante es el tono casi místico respecto a AGI. Dice “everyone feels it” y “you can feel the AGI”. Parece creer genuinamente que estamos cerca de sistemas autónomos importantes. Incluso llama “agent psychosis” al comportamiento de estos sistemas semiautónomos porque todavía son caóticos e impredecibles, pero ya muestran señales de agencia real.
No menciona libros específicos en estos fragmentos, pero sí tecnologías y proyectos concretos: OpenRouter, Moonshot AI Kimmy K2/K2.5, Anthropic Claude, Fireworks AI, Tinygrad, OpenClaw, Gas Town, Omarchy/Omari Linux y Asahi Linux. Todo gira alrededor de agentes, inferencia local, modelos open weights y tooling mínimo.
George Hotz sigue defendiendo la misma idea central: la computación moderna está entrando en una etapa donde el hardware para IA local importa muchísimo más que el hardware “corporativo” tradicional. El stream parece un chiste sobre laptops, pero en realidad está evaluando qué máquinas sirven para el futuro de agentes y modelos locales. Él mide todo desde esa perspectiva: teraflops reales, performance por watt, ruido térmico, compatibilidad con tooling open source y facilidad para correr Tinygrad Tinygrad.
Su conclusión implícita es fuerte: Intel perdió completamente el rumbo. Habla del ThinkPad como si tuviera “menos potencia que un Z Fold”, o sea un teléfono. Lo importante no es solo el benchmark bruto, sino la sensación de inutilidad. Para George, un CPU lento ya no es una molestia menor: es directamente incompatible con la nueva era AI-first. Cuando dice que “el CPU es unusable” está diciendo que el paradigma viejo de laptops empresariales ya murió.
También aparece otra de sus obsesiones: performance por watt. Todo el tiempo fuerza límites de potencia manualmente para comparar arquitecturas de forma justa. Baja el HP Strix Halo a 36-40 watts y aun así obtiene ~10 teraflops, mientras otras máquinas quedan muy atrás. Esa comparación le importa más que benchmarks sintéticos porque cree que el futuro real de IA personal depende de eficiencia energética y capacidad térmica, no solo de potencia máxima. Ahí se nota mucho su mentalidad de ingeniero de sistemas.
El HP ZBook con Strix Halo le parece el primer competidor serio contra Apple Apple Silicon. Lo sorprende especialmente que AMD finalmente logre laptops con performance enorme sin ruido extremo. Pero incluso cuando el HP gana en potencia, George sigue tratando a Apple como referencia absoluta de calidad de ingeniería. Lo que más admira de Apple no es solamente velocidad: es integración total. Pantalla, batería, thermals, idle power, cargadores, construcción física. Dice varias veces algo tipo “qué triste que una MacBook vieja siga destruyendo a todos”. Eso resume bastante su visión del ecosistema PC moderno: fragmentado, improvisado y lleno de malas decisiones.
Hay una idea técnica importante cuando habla de “beam = 2” en Tinygrad. Explica que ingeniería siempre son trade-offs. Beam search mejora performance pero aumenta startup latency. Está constantemente pensando sistemas desde costos y compensaciones reales, no desde marketing. Incluso cuando algo falla —timeouts, kernels colgados, drivers OpenCL rotos— inmediatamente empieza a modificar timeouts internos, editar runtimes HCQ, ajustar límites de sincronización y parchear código live. Esa es una de las cosas más valiosas de verlo: no trata los bugs como obstáculos psicológicos sino como parte natural del proceso de ingeniería.
También aparece una crítica muy fuerte al diseño industrial moderno. El Framework lo destruye no por specs sino por experiencia física: glare, flexión del panel, polarizador malo, construcción débil. Para él eso vuelve inutilizable a la máquina aunque tenga buena filosofía de reparabilidad. Ahí se nota algo interesante: George no romantiza el open hardware automáticamente. Si el producto final es malo, lo dice igual. Básicamente argumenta que la ideología “repairability first” no sirve si el producto se siente peor que hardware cerrado.
La comparación entre Apple y Framework revela otra idea profunda suya: la mayoría de las compañías open source todavía no entienden integración vertical. Apple gana porque controla todo: batería, panel, drivers, power management, packaging térmico, mini LED, suspensión, carga USB-C. George parece creer que el verdadero desafío no es solo tener specs abiertas sino lograr coherencia total del sistema.
También es interesante cómo usa humor para decir cosas bastante agresivas. Toda la parte de “diversity, equity and inclusion” es sarcasmo. Se burla de lenguaje corporativo aplicándolo a laptops de distintos colores. Lo hace porque siente que muchas empresas reemplazan excelencia técnica por branding moral o marketing vacío. Ese cinismo anti-corporativo aparece muchísimo en él.
Otra idea importante es que los benchmarks tradicionales ya no alcanzan. Él quiere medir workloads reales de IA: kernels, tensor cores, OpenCL, memory bandwidth, inferencia local. Por eso un laptop que parece “premium” para un usuario normal puede parecerle basura absoluta. Su criterio está completamente redefinido alrededor de machine learning local.
También deja algo interesante sobre el futuro de AMD. Cuando el Strix Halo llega a 17 teraflops en una laptop, George realmente parece sorprendido. Lo trata como un momento importante porque por primera vez ve hardware x86 acercándose a Apple Silicon en eficiencia real para IA. Aun así, el MacBook viejo sigue siendo la referencia emocional. Eso muestra algo contradictorio en él: ama Linux y el open ecosystem, pero sigue respetando muchísimo la ingeniería cerrada de Apple.
No menciona libros ni artículos en este fragmento, pero sí tecnologías concretas: HCQ runtimes, OpenCL, tensor cores, Tinygrad beam search, Strix Halo, Meteor Lake, mini LED, USB-PD, power governors y runtime synchronization timeouts. Todo está enfocado en una sola pregunta: qué hardware sirve realmente para la próxima generación de computación basada en agentes y modelos locales.
En esta parte George Hotz mezcla benchmarking técnico real con una especie de filosofía de ingeniería muy marcada: odia el software “inflado”, odia el marketing vacío y valora obsesivamente la eficiencia real. Toda la “Laptop Olympics” en realidad es una demostración de eso. No le importa la marca ni el precio; le importa cuántos teraflops obtenés por watt, cuánto ruido hace la máquina, si el sistema operativo funciona sin pelearte con drivers y si el hardware fue diseñado por ingenieros competentes o por departamentos de marketing.
La idea central que repite es que Apple sigue años adelante en integración hardware/software. Lo que más le impresiona no es sólo performance bruta sino la combinación de performance, consumo, silencio, batería y calidad de pantalla. Para él, el hecho humillante es que laptops Windows de 2025 apenas logran competir con una MacBook M1 de hace cuatro años. Esa comparación aparece constantemente: “¿cómo puede ser que todavía nadie alcance esto?”. Su visión es que la industria PC sigue fragmentada y mal optimizada, mientras Apple controla todo el stack y por eso gana.
Técnicamente, el benchmark gira alrededor de TinyGrad, el framework de ML que él desarrolla. Usa “GPU burn tests” y habla bastante de “beam search” y compilación de kernels. Explica algo importante: en ingeniería siempre hay trade-offs. Beam search (“BEAM=2”) acelera ejecución buscando kernels mejores, pero tarda más en arrancar. O sea: compilación más lenta a cambio de ejecución más rápida. Esa forma de pensar aparece todo el tiempo: no existe optimización gratis.
También muestra algo muy geohot: modificar software en vivo mientras streamea. Cuando un timeout rompe TinyGrad, entra directamente al archivo hcq.py, cambia parámetros internos del runtime y aumenta el timeout manualmente. No trata al software como algo sagrado; para él todo debería hackearse y adaptarse rápido. Esa cultura hacker vieja escuela está en toda la transmisión.
Hay otra idea importante: critica muchísimo la mala ingeniería energética en laptops modernas. Está obsesionado con watts. No le importa solamente “más TFLOPS”, sino TFLOPS por watt. Por eso elogia tanto el AMD Strix Halo cuando logra ~17 TFLOPS en una laptop. Dice básicamente: “esto es la primera vez que veo algo realmente competitivo contra Apple”. Pero inmediatamente critica que HP arruina parte de la experiencia con decisiones absurdas como requerir un cargador específico para desbloquear toda la potencia. Ahí aparece otra idea típica suya: hardware excelente destruido por malas decisiones de producto.
Sobre Framework, su crítica es durísima y bastante interesante porque contradice la narrativa popular de internet. Mucha gente idolatra Framework por “repairability”, pero George dice que la obsesión con modularidad hizo que descuiden cosas fundamentales: rigidez estructural, glare, polarizador de pantalla, backlight bleed y sensación física del producto. Para él, esas cosas importan más que poder cambiar piezas. Su argumento es: una laptop reparable pero incómoda de usar sigue siendo una mala laptop. Ahí ves cómo prioriza experiencia física real sobre ideales ideológicos tipo “right to repair”.
También hay un patrón constante: desprecia CPUs Intel modernas de bajo consumo. Literalmente compara la ThinkPad con un teléfono Z Fold y dice que el celular probablemente tenga mejor CPU. No es sólo un chiste; está diciendo que Intel perdió liderazgo brutalmente en eficiencia y performance móvil.
En varias partes aparece otra idea profunda de Hotz: la computación moderna está demasiado complicada. Se burla de instalaciones enormes, drivers rotos, runtimes absurdos, paquetes OpenCL, configuraciones infinitas. Ama cuando algo “just works”. Por eso elogia Omarchy Linux, TinyGrad y Apple Silicon. Su ideal parece ser sistemas mínimos, rápidos y entendibles.
También hay una crítica implícita al estado actual del software AI. Dice varias veces “AI slop”, se ríe de startups de IA y muestra cómo gran parte de la industria está construyendo capas gigantescas encima de herramientas frágiles. Él claramente cree que el futuro pertenece más a ingeniería eficiente de bajo nivel que a wrappers superficiales sobre APIs.
Cuando habla de pantallas, muestra otra obsesión muy técnica: rango dinámico real, polarizadores, mini-LED, OLED, glare, backlight bleed. No habla como reviewer de YouTube; habla como alguien que entiende físicamente cómo funciona un display. Dice explícitamente que el problema del Framework no es resolución ni colores sino el polarizador y el tratamiento óptico del panel. Eso es bastante raro de escuchar en reviews normales.
También aparece su personalidad contradictoria. Se burla de diversidad e inclusión (“diversity, equity and inclusion”) mientras organiza los benchmarks “en orden inverso para darles una oportunidad”. Es humor provocador típico de él: mezcla ironía política con benchmarking de laptops. Lo mismo cuando compara la legitimidad de la “Laptop Olympics” con FIFA. Mucho de su humor es deliberadamente absurdo y troll.
Otra idea interesante: cree que AMD finalmente está acercándose a Apple, pero todavía falla muchísimo en idle power y battery life. Dice explícitamente que 3 watts idle “no es aceptable” para un chip laptop moderno. O sea, no le alcanza con benchmark máximo; quiere eficiencia completa del sistema.
En la parte del Framework DIY, se nota algo central en George: le encanta el hardware modular en teoría, pero odia la fricción. El concepto le parece genial, pero se desespera cuando ve 41 pasos de ensamblado, 17 tornillos y manuales interminables. Para él, la mejor tecnología es la que desaparece y funciona sin esfuerzo.
No menciona libros ni artículos específicos en este fragmento. Sí menciona TinyGrad constantemente y conceptos técnicos como OpenCL, tensor cores, beam search, kernels, teraflops, HCQ runtime, Strix Halo, Strix Point, Meteor Lake y power governors.
En síntesis, las ideas que realmente defiende son: eficiencia sobre marketing, integración vertical sobre ecosistemas fragmentados, performance por watt sobre benchmarks brutos, simplicidad sobre complejidad accidental, ingeniería real sobre branding, y experiencia física real sobre ideología tecnológica. Y detrás de todo eso está su visión recurrente: la mayoría de la industria tecnológica todavía produce sistemas mediocres, lentos y mal integrados, mientras muy pocos equipos realmente entienden cómo construir computadoras buenas.
Lo más interesante de todo este stream es que George Hotz no está haciendo una “review de laptops” tradicional. Está usando las laptops como una excusa para hablar de filosofía de ingeniería. Todo el tiempo vuelve a la misma idea: el problema de la industria moderna es que prioriza features, modularidad y marketing antes que hacer un objeto sólido, eficiente y coherente.
Su obsesión principal acá es la eficiencia total del sistema. No le importa solamente la potencia bruta; le importa cuánto consume, cómo se siente físicamente, cuánto calor genera, cuánto dura la batería y cuánto “friction” introduce. Por eso vive comparando todo con Apple incluso cuando critica Apple. Dice algo medio contradictorio pero interesante: odia muchas decisiones de Apple, odia el UI nuevo, odia ciertas restricciones, pero al mismo tiempo cree que nadie logró alcanzar el nivel de integración de hardware que Apple consiguió hace cuatro años. La idea que defiende es que “hacer un producto coherente” es muchísimo más difícil que agregar specs.
También se nota que desprecia profundamente la “modularidad por la modularidad misma”. Framework le gusta ideológicamente —open source schematics, reparabilidad, poder debuggear hardware— pero en la práctica cree que toda esa modularidad destruye rigidez estructural y experiencia de uso. Básicamente dice: no quiero “doohickeys”, no quiero partes intercambiables, quiero un ladrillo sólido que funcione perfecto. Para él, una laptop no debería sentirse como un kit de Lego. Dice explícitamente que no le importa la upgradability. Eso es importante porque va contra toda la narrativa hacker clásica de “hardware abierto y modificable”. George prioriza experiencia final antes que filosofía DIY.
Hay otra idea técnica muy fuerte: cree que AMD todavía no resolvió seriamente el power management. Habla bastante de Strix Point y Strix Halo. Le gusta muchísimo el rendimiento bruto de AMD —especialmente Halo— pero insiste en que el idle power y la batería siguen siendo malas comparadas con Apple Silicon. Para él, el verdadero benchmark no es solamente TFLOPS sino performance por watt. Está obsesionado con eso. Dice que Apple ganó porque entendió que energía y thermals son el problema central de computación moderna.
También aparece mucho su forma de pensar sobre software moderno y AI. Cuando habla de Advent of Code dice algo bastante provocador: usar AI ya es parte del juego. Compara programar sin AI con competir en ciclismo profesional sin esteroides. No está diciendo que la AI programe bien; de hecho dice explícitamente “AI can’t code”. Pero cree que la velocidad importa más que la pureza intelectual. Esa es una idea muy geohot: la optimización pragmática le gana a la moralidad abstracta. Si todos usan AI, entonces negarse es perder deliberadamente.
Otra cosa importante es que odia la customización innecesaria. Critica Arch Linux por dar “26 opciones” para todo. Dice que la mayoría de la gente no quiere libertad total; quiere defaults inteligentes. Ama Omarchy porque “ya sabe lo que quiero”. Esto conecta con su admiración contradictoria hacia Apple: George odia ecosistemas cerrados pero ama sistemas con opiniones fuertes y defaults coherentes. Cree que demasiada elección genera fricción mental.
Técnicamente también deja varias ideas interesantes sobre tinygrad y GPUs. Habla de “beam search”, paralelización, timeouts de kernels, OpenCL, tensor cores, sincronización HCQ y bugs de Python 3.14. Se nota que piensa en computación como un problema físico: watts, kernels, thermals, scheduling, latencia. No habla como reviewer de YouTube sino como alguien que realmente escribe runtimes y drivers. Cuando aumenta el timeout manualmente en hcq.py para que el benchmark termine, está mostrando algo típico de él: prefiere hackear directamente el runtime antes que aceptar defaults del sistema.
Otra idea importante: cree que la industria Windows perdió completamente el norte en naming y branding. Se burla de nombres como “HP ZBook Ultra G1A”. Para él eso refleja empresas enormes incapaces de diseñar productos simples y entendibles. Lo compara con “MacBook Pro 16 M1 Max”, que aunque no le guste Apple, admite que es claro y coherente.
Hay además un desprecio muy fuerte hacia hardware “frágil”. Se obsesiona con cuánto flexiona la pantalla, cuánto glare tiene, cómo se siente el chasis. Parece superficial pero para él eso representa disciplina de ingeniería. Dice literalmente que una laptop debería sentirse como un “brick”. Cuando el monitor del Framework se mueve o flexiona, interpreta eso casi como una falla filosófica, no solo mecánica.
En general, la idea central del stream es que la computación moderna está demasiado enfocada en specs, modularidad y marketing, mientras Apple ganó porque optimizó el sistema entero: batería, thermals, pantalla, rigidez, eficiencia, cargadores, suspensión, power management. George quiere desesperadamente que exista competencia real contra Apple, especialmente desde AMD/Linux/open hardware, pero siente que todavía nadie llegó ahí.
No menciona libros en este fragmento, pero sí referencias a Advent of Code, Arch Linux, Ventoy, Balena Etcher, tinygrad, OpenCL, EFI boot, Omarchy y Strix Halo/Point. También menciona indirectamente a Lisa Su de Lisa Su y critica bastante el estado actual del ecosistema AMD móvil.
George Hotz defiende una idea muy clara en todo este stream: el hardware moderno se volvió “feature-driven” y perdió foco en lo esencial. Para él, lo importante en una laptop no es la modularidad, el marketing ni las opciones infinitas, sino cuatro cosas concretas: rigidez física, calidad de pantalla, eficiencia energética y experiencia real de uso. Todo lo demás son “doohickeys”, accesorios inútiles y complejidad innecesaria.
Su crítica al Framework no es ideológica. De hecho, le gusta muchísimo la empresa. Admira que publiquen los esquemáticos open source de la motherboard y el BIOS relativamente limpio. Eso para él es importante porque viene del mundo low-level: quiere poder entender y debuggear el hardware real, especialmente el consumo energético. Dice que en laptops de HP o Apple muchas cosas están cerradas y llenas de basura corporativa. Pero al mismo tiempo concluye que el producto Framework sacrifica demasiado por la modularidad. Para Hotz, la modularidad introduce flexibilidad física, peores tolerancias mecánicas y demasiadas piezas móviles. Él literalmente quiere “a brick”, un bloque sólido como una MacBook.
La idea técnica central es que la calidad percibida de una laptop viene muchísimo más de la ingeniería mecánica y energética que de specs. Repite varias veces que el Framework tiene buenos números “en papel”, pero que al tocarlo siente que se va a romper. Le obsesiona la rigidez del chasis y la tapa. Compara cómo una MacBook Pro mueve todo el cuerpo al empujar la pantalla, mientras el Framework sólo flexiona la tapa. Para él eso transmite mala ingeniería aunque el hardware interno sea potente.
También insiste muchísimo con las pantallas. Su argumento es que en 2026 ya no es aceptable vender laptops caras con LCD tradicionales de backlight simple. Cree que OLED o miniLED deberían ser obligatorios en gama alta. Habla de “color gamut”, contraste, HDR real, viewing angles y backlight bleed como métricas más importantes que la resolución. Dice algo interesante: muchas reviews hablan de specs cuantificables, pero no capturan la experiencia visual real. Según él, la pantalla HP OLED que compró “se ve mejor que la MacBook” aunque Apple siga teniendo mejor integración general.
Otra idea importante es su obsesión con el consumo energético idle. Critica fuerte a AMD y especialmente a Strix Point porque consume demasiada energía en reposo. Habla de laptops drenando 7-15 watts sin hacer nada y considera eso inaceptable. Ahí aparece su mentalidad extremadamente ingenieril: no le importa sólo el benchmark máximo, sino la eficiencia continua del sistema. Para él Apple sigue dominando porque el M-series logra potencia con consumo absurdamente bajo. Básicamente plantea que nadie pudo alcanzar todavía la combinación Apple de performance, batería y calidad física.
También deja ver una filosofía muy anti-customización. Esto es curioso porque mucha gente asocia Linux y hardware modular con libertad, pero Hotz piensa casi lo contrario: demasiadas opciones son malas. Dice explícitamente que odia software “customizable”. Critica Arch Linux porque te da 26 opciones para todo. Prefiere sistemas que ya “sepan lo que quiero”. Su analogía es graciosa pero importante: “dejen de poner mayonesa en hamburguesas”. O sea, cree que la mayoría de configuraciones extras empeoran el producto.
Ahí aparece otra contradicción típica de él: ama el open source y el control técnico profundo, pero odia la complejidad visible para el usuario. Quiere acceso a los esquemáticos, poder tunear el power management y bootear Linux fácilmente, pero al mismo tiempo quiere una experiencia extremadamente simple y refinada como Apple.
Sobre IA dice algo muy representativo de su pensamiento competitivo. Cuenta que usó IA para resolver Advent of Code y que en Hacker News lo criticaron por “hacer trampa”. Su posición es pragmática: no cree que la IA programe bien, pero sí cree que hace ganar velocidad. La compara con usar esteroides en ciclismo profesional: si todos usan herramientas que aumentan rendimiento, negarse es perder. Ahí aparece otra de sus ideas recurrentes: la tecnología cambia las reglas de competencia y la moral tradicional no se adapta rápido.
También deja caer su desprecio por muchas prácticas de seguridad modernas. Ataca Secure Boot diciendo que “nadie quiere esto” y que la seguridad informática muchas veces es un racket. Menciona a John McAfee medio en broma como alguien que entendía “de qué se trataba realmente la industria de seguridad”. Obviamente exagera y trollea, pero la idea subyacente es seria: Hotz cree que gran parte de la seguridad moderna empeora la experiencia del usuario y limita control legítimo del dueño de la máquina.
Hay otro patrón fuerte: constantemente prioriza experiencia real sobre ideología. Quiere amar Framework porque conceptualmente coincide con él: hardware abierto, reparable, Linux-friendly. Pero termina admitiendo que no lo usaría porque el producto todavía no alcanza el nivel físico de Apple o incluso HP. Eso es interesante porque rompe la narrativa típica hacker de “open source = mejor”. Para Hotz, si el producto se siente peor, entonces perdió aunque filosóficamente tenga razón.
Los productos que más menciona son la MacBook Pro, la Framework Laptop 16, laptops HP ZBook/Omen, chips AMD Strix Point y Strix Halo, además de Linux distros como Arch Linux, Ubuntu y “Omarchy”/“Omar” (una configuración personalizada basada en Arch). También menciona Ventoy y balenaEtcher.
La conclusión implícita del stream es bastante brutal: Apple sigue ganando no porque tenga specs mágicas, sino porque resolvió mejor la integración total del producto. Hotz cree que el resto de la industria todavía diseña laptops como colecciones de features separadas, mientras Apple diseña una experiencia unificada. Pero al mismo tiempo cree que Apple puede ser derrotada si alguien combina hardware tipo HP OLED + eficiencia energética mejorada + menos branding basura + mejor Linux support. Según él, todavía nadie juntó todas esas piezas.
George Hotz sigue defendiendo la misma idea central: la industria de hardware perdió foco en refinamiento real y se distrae con features, branding y complejidad. Lo interesante es que ya no compara solamente contra Apple, sino que empieza a decir algo más fuerte: Apple ya está decayendo culturalmente aunque siga ganando técnicamente. Para él, Apple todavía fabrica el mejor hardware integrado, pero se convirtió en una empresa “user hostile”. O sea: control excesivo, ecosistema cerrado, decisiones anti-desarrollador y software cada vez más invasivo.
Ahí aparece una contradicción importante en su pensamiento. Cree que Apple tiene la mejor ingeniería industrial del mercado, pero también cree que perdió el alma hacker que antes atraía developers. Por eso empieza a buscar reemplazos Linux aunque todavía no existan realmente. Su postura es casi: “Apple sigue ganando, pero no quiero que gane”.
Con Framework pasa exactamente lo contrario. Cree que el producto actual todavía no sirve como reemplazo serio de una MacBook, pero sí cree muchísimo en la dirección de la empresa. La razón no es técnica solamente, sino cultural. Habla de Nurav respondiéndole mails personalmente y compara eso con HP, donde imagina que terminaría hablando con “algún bizdev corporativo”. Para Hotz, las empresas buenas son las que todavía tienen ingenieros reales tomando decisiones, no capas de management.
También aparece una idea muy típica de él: el software importa muchísimo más que el hardware. Al final prácticamente se reta a sí mismo por haber perdido tiempo pensando en construir laptops. Lo llama “bike shedding”, obsesionarse con detalles secundarios mientras el verdadero problema sigue siendo software. Dice literalmente que “el único problema de todo es software”. Según él, el hardware moderno ya es suficientemente bueno; lo que arruina la experiencia son BIOS llenos de basura corporativa, power management malo, branding invasivo, software preinstalado y sistemas cerrados.
Eso explica por qué ama algunas cosas de Framework aunque critique el producto. Los esquemáticos open source, el BIOS limpio y Linux-friendly y la posibilidad de controlar el sistema valen más para él que muchas specs. Pero al mismo tiempo insiste en que la experiencia física todavía importa muchísimo. Repite que el Framework “flexa”, tiene bordes filosos, mala pantalla y demasiadas piezas modulares. Para Hotz, modularidad introduce fragilidad. Él no quiere una laptop configurable; quiere una herramienta sólida y refinada.
Su análisis técnico sobre pantallas también es interesante porque va contra el discurso típico de specs. Él casi nunca habla de resolución. Habla de gamut, contraste, brillo real, backlight bleed y sensación visual. Dice que el HP OLED tiene “100% del color gamut” y que la cámara no logra capturar lo bien que se ve. Para él, la transición OLED/miniLED es obligatoria y considera absurdo que laptops premium sigan usando LCD comunes. Básicamente cree que el mercado PC todavía vende hardware “de 2007” disfrazado de moderno.
Con HP tiene una relación rara. Odia completamente la cultura de la empresa, el branding, los nombres de productos y el software basura tipo Wolf Security o AI popups. Se burla muchísimo de nombres como “HP ZBook Ultra G1A14”, “Firefly”, “EliteBook”, “Omnibook”, etc. Cree que las corporaciones destruyen claridad con marketing absurdo. Pero al mismo tiempo admite que el hardware HP actual está extremadamente cerca de Apple. Dice algo fuerte: el touchpad HP le pareció casi mejor que el de MacBook. Eso lo sorprende incluso a él.
Otra idea clave es que AMD está frenando a toda la industria Windows/Linux. Él cree que Strix Halo y Strix Point tienen potencial enorme, pero el consumo energético sigue siendo demasiado alto. Está obsesionado con idle power draw. Ve laptops consumiendo 7-15 watts y concluye inmediatamente que la batería será mala. Su pensamiento acá es muy de ingeniero low-level: para él la verdadera innovación no es benchmark pico sino eficiencia sistémica.
También deja clara su filosofía de diseño: menos cosas = mejor producto. Odia branding, puertos modulares, piezas extra, “doohickeys”, configuraciones infinitas y UI complicadas. Incluso cuando habla de comma.ai aparece eso. Lo entusiasma muchísimo el diseño industrial simple, limpio y pequeño del dispositivo. Habla del aspecto ratio, el tamaño y la interfaz visual como algo “obvio” y elegante. Para Hotz, el diseño bueno parece inevitable después de verlo. Esa es una filosofía muy Apple pero aplicada desde una mentalidad hacker.
En la parte de autos autónomos aparece otra idea importante: confianza probabilística visible. Muestran el “confidence ball” del sistema de conducción y él parece fascinado con que el modelo exponga visualmente su incertidumbre. Eso conecta mucho con cómo piensa sobre IA: no le interesa fingir perfección, sino sistemas que muestren honestamente qué tan seguros están. También menciona algo típico suyo: quiere más datos constantemente. Hablan de subir training data desde los autos y se nota la mentalidad de iteración continua basada en datos reales.
Menciona varias cosas concretas: AMD Strix Halo/Point, Apple OLED futuros y Asahi Linux, Asahi Linux, laptops HP ZBook, y el hardware/software de comma.ai. También menciona que escribió blog posts sobre Asahi Linux y laptops.
La conclusión implícita de todo esto es bastante profunda: Hotz cree que el próximo gran competidor de Apple no va a surgir de “más features” ni de benchmarks, sino de combinar cultura hacker + refinamiento industrial + software limpio + eficiencia energética. Cree que Framework podría llegar ahí en cinco años porque escucha a ingenieros y mejora rápido. Cree que HP tiene mejor hardware hoy, pero nunca va a evolucionar culturalmente. Y cree que Apple todavía tiene el mejor producto total, pero está destruyendo lentamente la relación con los developers que la hicieron dominante.
Acá George vuelve a defender una idea muy típica de él: el hardware importa menos de lo que la gente cree; el verdadero cuello de botella es el software. Arranca obsesionado con laptops, pero termina diciendo “dejen de hacer bike shedding con hardware y arreglen el software”. Para él, Apple sigue teniendo hardware superior, pero la empresa se volvió “user hostile”: cada vez más cerrada, restrictiva y anti-desarrollador. Por eso quiere irse de Mac, aunque admite que casi nadie en PC está a la altura todavía.
Su review del Framework 16 es interesante porque está dividida entre admiración ideológica y decepción práctica. Ideológicamente ama a Framework porque tienen esquemáticos open source, modularidad y gente técnica respondiendo emails directamente. Dice que confía muchísimo más en el futuro de Framework que en HP o Apple. Cree que en cinco años podrían competir seriamente contra Apple. Pero al mismo tiempo dice que el producto actual “no está ahí”. Lo percibe como un prototipo de ingenieros más que un producto refinado.
La contradicción central es esa: odia la modularidad y los “doohickeys”, pero ama que existan compañías que hagan hardware abierto. O sea, intelectualmente apoya la filosofía hacker de Framework, pero como usuario quiere exactamente lo opuesto: una “brick”, una pieza sólida estilo MacBook. Dice literalmente que no quiere puertos modulares ni piezas removibles; quiere menos partes móviles, menos flex, menos gimmicks. Para él, la obsesión con customización muchas veces destruye la calidad total del producto.
También deja clara una idea técnica fuerte: las pantallas son muchísimo más importantes de lo que la industria PC entiende. Repite obsesivamente que ya no es aceptable vender laptops caras con LCD tradicionales. Insiste en que hoy cualquier laptop premium debería tener OLED o mini-LED. Habla mucho de “color gamut”, contraste, backlight bleed y viewing angles. Dice que el Framework parece una laptop de 2007 solamente por la pantalla. En cambio el HP ZBook OLED lo describe casi como “Apple tier” o incluso mejor que MacBook en imagen.
Después entra bastante en eficiencia energética y Linux. Ahí hay cosas interesantes. Él esperaba que Framework tuviera una mejor experiencia Linux porque la empresa vende una imagen muy pro-Linux, pero termina diciendo que HP hizo más trabajo real de optimización. Mide el consumo del equipo y se decepciona porque el Ryzen/Strix Halo sigue gastando demasiado. Habla de 15W idle y calcula que eso destruye la batería. Su crítica técnica fuerte es contra AMD: cree que el hardware tiene potencial, pero el power draw está mal optimizado. Menciona que intercambió emails con ingenieros de AMD y que el BIOS tiene “69 archivos”, insinuando que el stack energético es absurdamente complejo.
Otra idea muy George Hotz: desprecia la complejidad innecesaria. Critica BIOS llenos de telemetría, branding corporativo, “Wolf Security”, AI popups, logos, software basura, configuraciones infinitas. Dice que Linux tradicional tiene el mismo problema: demasiadas opciones. Por eso prefiere distros opinionadas como “Omakub/Omarchy” antes que Arch puro. Hay una filosofía muy consistente acá: él no quiere libertad abstracta; quiere defaults inteligentes hechos por gente competente. Odia personalizar cosas manualmente.
También aparece su odio clásico a Secure Boot. Lo llama literalmente un “racket”. Dice que la industria de seguridad informática exagera amenazas para justificar complejidad. Ahí tira el comentario provocador sobre John McAfee diciendo que “entendía” de qué se trataba realmente la industria de seguridad: marketing, paranoia y personajes excéntricos. Está medio en chiste, pero refleja algo real de George: desconfía muchísimo de la seguridad corporativa moderna y del exceso de capas “protectoras” que rompen la experiencia del usuario.
En la segunda mitad cambia completamente el tono cuando habla de comma.ai y el Comma 4. Ahí se nota qué tipo de ingeniería realmente le entusiasma. Se obsesiona con detalles físicos reales: flujo de aire, disipación térmica, ruido acústico, throttling, compute térmico sostenido. Explican que pasaron meses dentro de autos Tesla intentando eliminar sonidos minúsculos del sistema de cooling. Hablan del uso de ventiladores Noctua, doble heatsink cobre/aluminio, airflow optimizado y “thermal underfill”. Acá George muestra una mentalidad muy hardware-performance engineering: no les importa solo que funcione; quieren que funcione silenciosamente, térmicamente estable y sostenido.
Técnicamente, lo más importante es que están empujando modelos de machine learning más grandes directamente en el auto. Hablan del Snapdragon 845 “Max” funcionando permanentemente a frecuencias altas gracias a cooling custom, algo que normalmente un teléfono no puede hacer porque throttlearía. Explican métricas concretas: pasar de 7.5 °C/W a 4.5 °C/W. Eso permite correr modelos más grandes de conducción end-to-end. Mencionan explícitamente “world models”, “MLSIM”, “watermelon models” y conducción end-to-end basada completamente en ML. La idea central es que el auto no sigue reglas programadas manualmente; aprende representaciones del mundo y toma decisiones probabilísticas.
También aparece algo muy geohot: obsesión con feedback loops y datos masivos. Dicen que juntan tantos datos de manejo que las listas de entrenamiento ya rompen el CI del repositorio porque los archivos son demasiado grandes. Para él, el verdadero moat de conducción autónoma no es solo el modelo; es el pipeline de datos, entrenamiento y deployment continuo.
Otra idea importante: no le interesa el “full self driving” como marketing absoluto. Define OpenPilot más como “driver assistance”. Incluso aclaran que el conductor sigue tocando volante y pedales. Pero al mismo tiempo muestran avoidance, lane placement y city driving bastante avanzados. George siempre fue más pragmático que Tesla en esto: menos promesas futuristas, más shipping incremental.
Hay además una estética muy marcada detrás de todo lo que dice. George parece creer que los productos tecnológicos buenos se sienten inevitables, simples y físicamente correctos. Cuando habla del Comma 4 dice cosas como “the shape just makes sense”. Critica laptops porque “se sienten mal” aunque tengan specs buenas. Tiene una visión casi artística de la ingeniería: eliminar ruido, eliminar branding, eliminar piezas innecesarias, eliminar complejidad visual. Menos cosas, pero mejor hechas.
No menciona libros en este fragmento, pero sí referencias a sus propios blog posts sobre laptops y Asahi Linux, además de nombrar Arch Linux, Ubuntu/Xubuntu, Ventoy, Balena Etcher, Ryzen SMU, OpenPilot y modelos internos como “watermelon models”.
En esta parte George Hotz está obsesionado con una idea central: el hardware ya no es el problema principal, el software sí. Todo el stream gira alrededor de eso. Él empieza hablando del diseño industrial de los dispositivos de Comma AI y termina diciendo explícitamente “hardware is total bikeshedding, fix the software”. Para él, Apple ganó durante años porque integró hardware y software mejor que todos, pero ahora cree que Apple se volvió una empresa “user hostile”: demasiado cerrada, demasiado controladora, perdiendo goodwill con desarrolladores. Por eso busca alternativas Linux/open source aunque todavía no estén a la altura.
Sobre laptops, su conclusión es muy geohot: odia a HP como empresa, pero ama el producto. Ama a Framework como filosofía, pero cree que el producto todavía es mediocre. Defiende muchísimo la idea de compañías “hackeables”, abiertas y con contacto directo entre ingenieros y usuarios. Dice que Framework tiene futuro porque el CEO le responde mails y porque publican esquemáticos open source. Para él eso vale muchísimo más que el marketing corporativo de HP. Aun así, cree que el hardware actual de Framework no compite con Apple: demasiado flex, mala pantalla LCD, mala eficiencia energética, construcción floja. Básicamente dice que hoy Framework vende ideales más que excelencia técnica.
Algo interesante es cómo piensa la ingeniería. Él no habla como reviewer común. Constantemente reduce todo a restricciones físicas y optimización. Critica consumo energético, disipación térmica, ruido, latencia, torque, tolerancias mecánicas, airflow, sensores, UX física. Cuando habla del Comma 4, lo importante para él no es “más features”, sino densidad de inteligencia por watt. Está obsesionado con cuánto cómputo puede meter en un dispositivo pequeño sin ruido ni throttling. Explican que el Snapdragon 845 “Max” funciona porque rediseñaron completamente cooling, airflow y thermal underfill. Dicen que literalmente gastaron meses escuchando ruido dentro de Teslas para eliminar ventiladores audibles. Ahí aparece una idea muy típica de Hotz: los detalles físicos importan muchísimo más de lo que parece. Un producto refinado no sale “naturalmente”; requiere ingeniería obsesiva.
También aparece otra idea clave de él: iteración agresiva. Defiende lanzar hardware nuevo constantemente aunque enoje a compradores recientes. Dice literalmente que le gustaría vivir en un mundo donde todos sus productos favoritos tengan una nueva versión todos los días. Para él, software y hardware son procesos evolutivos permanentes, no productos estáticos. Odia las empresas lentas y burocráticas. Por eso admira más a startups imperfectas que a corporaciones estabilizadas.
En la parte de Comma AI, las ideas técnicas son bastante fuertes. Ellos defienden conducción “end-to-end”, o sea modelos de machine learning que aprenden directamente a conducir sin depender tanto de reglas explícitas. George y el equipo repiten que no quieren “detectar potholes”; quieren modelos suficientemente inteligentes para evitarlos naturalmente. La idea es que el sistema aprenda comportamiento humano completo, no módulos separados tipo “detector de pozos”, “detector de líneas”, etc. Eso conecta con la noción de “world models”: modelos enormes que entienden contexto del mundo, similares a cómo piensa Tesla FSD.
También explican algo importante: el hardware actual todavía está muy subutilizado. Dicen que usan apenas ~40% de la GPU y que todavía desperdician recursos renderizando UI a 60fps. Hotz constantemente insiste en que hay muchísimo margen de optimización antes de necesitar hardware absurdo. Esa es otra filosofía clásica suya: optimización agresiva antes que brute force.
Pero al mismo tiempo aparece una contradicción interesante. Aunque critica el exceso de hardware, también habla emocionado de eGPUs con RTX 5090 y modelos gigantes de 100-600 watts. O sea, ideológicamente ama la eficiencia, pero técnicamente sabe que los modelos grandes ganan. Entonces divide el futuro en dos clases: modelos pequeños locales (“10 watt class”) y modelos monstruosos conectados a GPU externas (“100 watt class”). Básicamente cree que el futuro real de autonomía necesita mucha más computación, aunque todavía intenten comprimir inteligencia en hardware pequeño.
Otra idea muy fuerte: el diseño emocional importa. Hablan del teclado, los sonidos de engage/disengage, la forma del dispositivo, el mount magnético, el tacto. George literalmente dice “quiero morderlo” hablando del diseño del Comma 4. Parece una boludez, pero revela cómo piensa: los productos tecnológicos también son objetos emocionales y sensoriales. No separa UX de ingeniería hardcore.
Hay varias frases muy “geohot” también. Dice que las compañías arruinan productos con branding, software basura y complejidad innecesaria. Critica nombres absurdos de laptops HP como síntoma de burocracia corporativa desconectada del usuario. Todo el tiempo reduce problemas a “delete shit”. Menos branding, menos popups, menos software basura, menos restricciones. Es una visión muy minimalista y hacker.
También se nota su fascinación con sistemas abiertos. Le encanta que Comma AI no obligue cuentas ni suscripciones para usar el dispositivo. Aclaran que la suscripción solo paga LTE y cloud storage, no desbloquea funciones. Eso está alineado con su odio histórico a ecosistemas cerrados tipo Apple.
No menciona libros en este fragmento, pero sí aparecen referencias técnicas importantes: Asahi Linux, Tesla FSD, modelos “world model”, ML end-to-end, Snapdragon 845 Max, Noctua, OpenPilot, Rivian, AMD Strix Halo, Lunar Lake. También menciona Reddit y Discord como lugares donde ocurre la ingeniería real y el feedback real, mucho más que departamentos corporativos.
La idea más importante que atraviesa todo el stream es esta: la próxima gran computadora no la va a ganar quien tenga más marketing, sino quien logre combinar software inteligente, hardware refinado y apertura hacker. Él cree que Apple se está pudriendo culturalmente, HP nunca va a cambiar, y Framework todavía no llega. Pero piensa que alguien eventualmente va a construir “la MacBook Linux perfecta”. Y claramente quiere que exista.
Este stream es el lanzamiento del Comma 4, el dispositivo de conducción autónoma de George Hotz. Lo que dice importa menos por lo técnico del producto en sí y más por la filosofía que defiende detrás.
El argumento central es que la conducción asistida debería ser barata, simple y honesta. Sin letra chica, sin cobrar por cables o accesorios por separado, sin promesas de autonomía total que no existen. Lo compara directamente con las aerolíneas que te cobran por todo, y dice que ellos hacen lo opuesto. El precio incluye todo lo necesario.
Sobre el producto en sí: el Comma 4 tiene el mismo hardware que el 3X pero en una quinta parte del tamaño. No usa GPS mientras maneja porque considera que es un sensor poco confiable (los túneles lo rompen), y en cambio usa cámaras e IMU, exactamente igual que un humano que usa vista y oído interno para orientarse. Menciona que es imposible manejar con una infección de oído interno, y esa es su analogía para explicar por qué el IMU importa.
Sobre la competencia: dice que FSD de Tesla es la mejor demostración de tecnología AI del mundo, pero que como producto sigue siendo limitado. Es una distinción técnica importante que hace: una cosa es lo que el sistema puede hacer en condiciones ideales, otra es si resuelve un problema real para el usuario común.
Lo más técnico del stream es el desvío que hace hacia los eGPUs con AMD. Está reverse-enginereando el formato de traza de instrucciones de GPUs AMD (llamado SQT), porque AMD libera un binary blob con bugs para decodificarlo, entonces él simplemente parsea el formato directamente. Lo que está construyendo es una herramienta de visualización que muestra en tiempo real la ocupancy de las waves, qué instrucciones corre el GPU y con qué latencia. Dice que esto va a correr en el auto para Comma. Es su proyecto de fin de semana.
Sobre los forks de OpenPilot: defiende explícitamente que la gente forkee el software. Lo compara con Bitcoin Cash y dice que si alguna vez MBAs toman control de la empresa y la arruinan, la solución es forkear. Es su posición sobre open source como mecanismo de defensa contra la corrupción corporativa.
No nombra libros ni artículos en este stream.
Este fragmento tiene menos densidad técnica que el anterior pero es donde más se ve la filosofía de producto y la crítica cultural de Hotz.
La idea técnica más interesante es sobre performance de software. Dice que el Comma 4 corre en un Snapdragon 845 de 8 años y la UI va a 60fps, y su argumento es que la velocidad no tiene nada que ver con el procesador ni el lenguaje de programación, sino con si la gente que lo construyó le importó o no. La prueba que da: una Apple II con VisiCalc es más responsiva que Google Sheets corriendo en hardware un millón de veces más potente. El problema no es el hardware, es la falta de cuidado. Lo mismo aplica al Snapdragon “viejo”: dice que si le mete un chip nuevo y descarga las mismas apps laggy, el chip no resuelve nada.
Lo otro técnico relevante es el sistema de enfriamiento. Los chips móviles usan packaging apilado donde la RAM va encima del procesador, lo que dificulta poner un heatsink donde genera más calor. Ellos resolvieron esto con epoxy térmico que penetra bajo el procesador y una pieza de cobre CNC custom en el lado inverso del chip, porque el 20% del calor puede extraerse por ahí. Hicieron diez revisiones del device para llegar a esto.
Su crítica a la industria tech es directa y sin filtro: dice que tech se arruinó porque entró gente que oyó que había dinero pero no le importa el producto, que se hicieron amigos del área de RRHH en vez de aprender algo. Los llama “noobs” y dice que hay que sacarlos. También apunta a los CEOs que piensan más en valuaciones y fiestas que en el producto. Menciona que Apple debería estar avergonzada de sus lanzamientos recientes, que el nuevo macOS dicen que es peor que el anterior, y que Liquid Glass es diseño sin propósito real, en contraste con pinch-to-zoom que sí resolvía un problema concreto.
Sobre IoT y privacidad: se queja de que hoy una heladera te pide crear una cuenta para enfriar comida y después te manda publicidad del lavavajillas. Lo considera una traición al usuario que normaliza la industria.
Identifica a los responsables no como europeos ni como tech en general, sino como una clase específica de americanos que en los 80 habrían entrado a finanzas y en los 2010s entraron a tech y lo degradaron.
No nombra libros ni artículos en este fragmento, aunque menciona que escribió blog posts sobre el tema de la gente que arruina la industria, sin dar título o link específico.
Este fragmento es más sobre filosofía de empresa y cultura que sobre técnica pura, pero hay ideas importantes.
Sobre manufactura: Comma ensambla los dispositivos en San Diego, no terceriza. Compran PCBs y componentes (cadena de suministro principalmente china), pero el ensamblado, el pick and place, los hornos de reflow y el testing lo hacen ellos mismos. Dice que el único bug que realmente no puede permitirse es un bug de hardware, porque todo lo demás se parchea después, pero si pusiste un capacitor donde iba un resistor, eso no tiene vuelta atrás. Los márgenes del Comma 4 son alrededor del 60%, lo que dice que es típico para consumer electronics. Compara con Nvidia que tiene márgenes del 91% y lo menciona como algo casi absurdo.
Sobre hiring, su posición es radical y consistente: no le mandes un PDF con tu CV, no le importa si fuiste a Yale, no quiere saber tus pronombres en la entrevista. Lo que quiere es que resuelvas un bounty o challenge del repo. Su argumento es que eso es exactamente lo que vas a hacer si te contratan, entonces la mejor señal de que podés hacer el trabajo es haberlo hecho ya. Dice que open source existe en parte para esto: para que la gente demuestre que puede contribuir antes de que nadie les dé un trabajo. Critica el proceso de 10 entrevistas en círculo que hacen las grandes tech companies como un desperdicio del tiempo de los ingenieros.
Lo más controvertido del fragmento es personal: dice que es “increíblemente vengativo” y que todos los que lo demandaron se arrepintieron. Cuenta que un chico le hizo una estafa de devolución, contrató un detective privado, lo fueron a buscar a la casa y tienen un video del tipo llorando. Dice que no lo denunció a la policía porque era un pibe, pero que tiene el video “guardado en el bolsillo” como advertencia. Lo dice sin ningún filtro y con humor.
La reflexión más filosófica del fragmento es sobre progreso tecnológico: menciona un video de Instagram donde alguien analiza a qué año del pasado volvería para ser la persona más rica del mundo y aún preferir esa vida a la actual. La conclusión del video es 1991. Hotz dice que coincide aproximadamente, que no volvería a 1900 ni por ser el más rico del mundo, porque la calidad de vida material era tan inferior que ni el dinero lo compensaría. Es su forma implícita de defender que el progreso tecnológico real importa más que la riqueza relativa.
No nombra libros ni artículos en este fragmento.
Una estafa de devolución es un fraude clásico de e-commerce. Funciona así: comprás un producto, lo recibís, y después iniciás una devolución diciendo que nunca llegó, o que llegó roto, o que devolvés el producto cuando en realidad mandás una caja vacía o con otra cosa adentro. La tienda te reembolsa el dinero y vos te quedás con el producto gratis.
En el caso que menciona Hotz, el tipo aparentemente aprendió la técnica en algún Discord donde se comparte este tipo de trucos, lo que sugiere que hay comunidades enteras dedicadas a esto. No es un hack técnico sofisticado, es básicamente mentirle al sistema de soporte al cliente, que en la mayoría de las empresas grandes está tan automatizado que simplemente reembolsa sin verificar nada.
Lo interesante de la reacción de Hotz es que una empresa grande como Amazon simplemente absorbe ese fraude como costo operativo y sigue. Comma es una empresa de 30 personas con márgenes del 60% pero volumen bajo, entonces cada unidad robada duele de verdad. Por eso mandó un detective privado, algo que Amazon nunca haría por un producto de $500 porque el costo del detective supera la pérdida. Para Comma tiene sentido económico y además Hotz lo tomó como algo personal, que es coherente con su personalidad que él mismo describe como vengativa.
iEste fragmento es más disperso pero tiene ideas importantes repartidas entre lo técnico, lo financiero y lo personal.
Sobre seguridad informática, tiene una posición bastante provocadora: dice que toda la industria de computer security se convirtió en un racket, básicamente extorsión institucionalizada. Su argumento es que antes era cool porque la gente lo hacía por el desafío, ahora lo hacen para cobrar bug bounties de 74 dólares. No tienen programa de bug bounties en Comma y dice que si alguien encuentra algo real que lo explote y le mande un writeup, lo arreglan. Si alguien llega pidiendo plata, que se vaya. Menciona que antes en Defcon había una cultura auténtica y ahora está llena de “glowies” (término para agentes de inteligencia infiltrados) y buscadores de dinero.
Sobre Telegram versus Signal: dice que Telegram no es seguro porque la encriptación está desactivada por defecto y porque aun cuando el CEO se niega a cooperar con gobiernos, seguís dependiendo de que él decida no entregar tus mensajes. Con Signal eso no existe porque ellos técnicamente no pueden entregar lo que no tienen. Defiende a Moxy Marlinspike, el creador de Signal, como alguien legítimo. Le parece mal que Francia haya ido contra el CEO de Telegram.
Sobre crypto, es tajante: dice que es como las finanzas pero diez veces más estafador. Menciona que estuvo en una conferencia de crypto en Singapur donde la gente ya ni siquiera pretende creer en los ideales, simplemente ven las “ideas” como mecanismos para separar a los idiotas de su dinero. Él no tiene crypto, vendió todo y compró acciones de AMD a $97. Al momento del stream está aproximadamente 2x. Dice que AMD y Nvidia están o ambas sobrevaluadas o ambas subvaluadas, pero que la comparación entre sus valuaciones no tiene sentido. Su tesis es que AI va a generar valor inmenso pero no en el timeline que el mercado espera, y que en 10 años las empresas que ya hacen los chips van a capturar ese valor.
Lo técnico sobre el eGPU en el auto es simple pero concreto: 100 watts de potencia desde el encendedor de cigarrillos, hay que disipar esos 100 watts con ventiladores. El SOC móvil maneja la mayor parte del procesamiento y el GPU externo se encarga de acelerar la inferencia de AI. La idea es que podés cambiar el GPU cuando querés más capacidad sin tocar nada más del sistema.
Sobre vida personal, dos cosas. Alguien le dice que se case y él responde “we’ll see, maybe”, sin compromiso. Y sobre cómo conseguir chicas, da un consejo directo y burlón: el paso uno es hablarles. Dice que mucha gente cree que si consigue abdominales y altura las chicas van a venir solas, y que no, no van a venir.
No nombra libros ni artículos, pero menciona que tiene los capítulos 8 y 9 de una historia que está escribiendo, titulados “Ahri” y “Flashback” respectivamente.
Este fragmento es el más denso en opiniones técnicas sobre otras empresas y proyectos, y tiene algunas ideas muy buenas.
Sobre el hardware de Comma, defiende el Snapdragon 845 “viejo” con un argumento simple: si querés más poder de inferencia AI, enchufás un GPU externo grande y listo. Compara 50 TOPS del NPU del último Snapdragon contra los 1000 TOPS del GPU chunker, y dice que el debate sobre el SOC es irrelevante. Para los sensores de cámara, su recomendación es usar sensores de celular en vez de sensores “automotive”: son mejores y más baratos. El nuevo sensor que usa Comma tiene “deep wells” para infrarrojo que mejoran la performance nocturna.
Sobre el CAN bus encriptado en autos, tiene una teoría provocadora: dice que Tesla y Rivian no encriptan el CAN bus porque no tiene sentido técnico real. Los otros fabricantes lo encriptaron no por seguridad genuina, sino porque recibían demasiados emails de cazadores de bug bounties reportando que el CAN bus no estaba encriptado. Es seguridad como PR, no como ingeniería.
Sobre personas técnicas que respeta: menciona a Jim Keller como genio absoluto del diseño de CPUs pero dice que no entiende el software para ML, similar a como Elon no entiende software. En contraste, nombra explícitamente a Chris Lattner, John Carmack, Andrej Karpathy y Jonathan Blow como gente de su generación que sí entiende software de verdad. Sobre Chris Lattner específicamente, dice que lo que está haciendo con Mojo en Modular es básicamente un reemplazo de OpenCL con semántica Python, lo cual le parece interesante aunque diferente a TinyGrad. Dice que escribe buenos blog posts y que no lo descartaría.
Su análisis de la industria de self-driving es brutal: dice que casi todas las empresas con las que compitieron eran increíblemente estúpidas, menciona Argo AI y Cruise como ejemplos. La excepción es Tesla y Waymo. Sobre Waymo en particular tiene una predicción concreta: dice que su último funding round fue una trampa, que están quemando demasiada plata y que en dos años no van a poder levantar los 5 billones que necesitan para sobrevivir. Predice que van a cerrar.
Sobre Linux, dice que Omarchy Linux de DHH le parece mejor que Ubuntu y que resuelve el problema principal de Arch, que es que Arch te obliga a aprender demasiado antes de que funcione algo, lo que lo hace incompatible con ser mainstream. Tiene una idea que llama “hackbook”: tomar un MacBook, sacarle la motherboard, meterle un Strix Halo y reemplazar macOS con Linux, encargando la carcasa CNC a una empresa china. Lo dice en serio.
Menciona que tiene novia cuando alguien le pregunta sobre Grok, lo descarta diciendo que no es un adolescente horneado de 15 años. También dice que Elon necesita una novia, sin más contexto. Menciona el XKCD de “minutes to find out” en relación a empresas fraudulentas de self-driving, sin dar número del comic específico. No nombra libros en este fragmento.
Este fragmento tiene dos partes muy distintas: el cierre del stream de Hotz con sus ideas políticas, y una presentación técnica de un colaborador llamado Jason sobre reverse engineering de CAN bus.
La parte de Hotz más interesante es su análisis político-económico. Su tesis es que el verdadero conflicto de clases en Estados Unidos no es racial ni de género sino generacional: los jóvenes están subsidiando a los viejos a través del alquiler, la seguridad social y básicamente todo el sistema. Llama a los Boomers la generación más rica de la historia y dice que no tienen intención de soltar el poder ni el dinero. Su solución para la crisis habitacional es manufacturera, no redistributiva: no quiere políticas de subsidio sino simplemente construir muchas más casas industrialmente, como se fabrica cualquier otro producto en escala. Usa Spindrift como analogía: no hay crisis de Spindrift porque simplemente hacen más. Dice que en cuanto una empresa tipo “Samsung de casas” empiece a fabricarlas en masa, la crisis desaparece sola.
Sobre Lex Fridman lo defiende sin ironía, dice que es el mejor podcaster del mundo y que lo que ves en público es exactamente lo que es en privado. Recomienda el episodio con Kanye como clásico absoluto.
Ahora la parte técnica de Jason, que es densa y vale la pena entender. El problema que resuelve es: ¿cómo encontrás las señales que necesitás en el CAN bus de un auto nuevo que no está soportado por OpenPilot? El CAN bus es la red interna del auto por donde todos los módulos se comunican, y los mensajes son números crudos sin etiquetas. La herramienta que usa es Cabana, que es el visualizador de logs de CAN de Comma. El proceso es: ponés el Comma 4 en modo “all output safety” que actúa como relay transparente y empieza a grabar todo el tráfico del bus, activás físicamente las cosas que querés encontrar (girás el volante, pisás el freno, ponés la blinker), después abrís el log en Cabana y buscás qué bits cambiaron en qué momento.
Las reglas prácticas que da Jason para navegar el ruido son: los mensajes de seguridad crítica como velocidades de rueda y ángulo de dirección van a frecuencias altas, típicamente 100Hz, y tienen IDs de CAN bajos porque el protocolo CAN prioriza IDs menores cuando el bus está ocupado. Lo mundano como blinkers va a frecuencias bajas. El primer paso siempre es identificar y descartar los checksums y contadores que están en casi todos los mensajes y que parecen cambiar aleatoriamente pero en realidad siguen un patrón cíclico. Una vez descartados, el ruido visual se reduce enormemente y podés ver las señales reales. Cuando una señal “overflows” o se corta de forma extraña, significa que tomaste menos bits de los que ocupa realmente esa señal, hay que expandir la selección.
No se nombran libros ni artículos en este fragmento.
Este fragmento es casi enteramente la presentación técnica de Jason continuada, y es donde está lo más denso en ingeniería real.
La parte más valiosa es la explicación de por qué los autos modernos no muestran todo su tráfico CAN por el puerto OBD. La respuesta es que no hay un solo CAN bus, hay típicamente ocho. Existe un gateway central que conecta todos los buses internos: uno para infotainment, uno para powertrain, uno para chasis, uno para conveniencia, uno para diagnóstico (el que está expuesto al puerto OBD), y el más interesante que es el “extended bus” donde viven las cosas de ADAS: el radar, la cámara, los radares de punto ciego. El gateway filtra activamente y solo expone al puerto OBD lo que es diagnósticamente relevante. Por eso cuando alguien conecta un lector OBD genérico a un auto moderno, ve una fracción mínima de lo que realmente circula internamente. OpenPilot necesita interceptar el extended bus, no el OBD.
Sobre encriptación del CAN bus, Jason aclara algo importante: los checksums que tienen los mensajes no son seguridad anti-tampering, son protección contra bit flips en tránsito, básicamente detección de errores de transmisión. Sin embargo menciona que Toyota está implementando firmas criptográficas reales en algunos mensajes, con campos de 16 o 24 bits de aspecto aleatorio que están diseñados específicamente para bloquear ataques man-in-the-middle, que es técnicamente lo que hace OpenPilot al interceptar y reenviar mensajes modificados. VW, Honda, Hyundai y Mazda todavía no lo tienen implementado masivamente, pero viene.
El proceso mínimo para portar un auto nuevo a OpenPilot requiere encontrar las señales de freno, acelerador, velocidades de rueda, estado del crucero, ángulo de dirección, torque de dirección, posición del cambio de marcha, blinkers y puertas. Los mensajes críticos de seguridad van siempre en alta frecuencia (100Hz) y en IDs bajos del CAN porque el protocolo prioriza IDs menores cuando el bus está ocupado. Todo lo mundano como blinkers y cinturones va a frecuencias bajas e IDs altos.
Un dato interesante sobre reutilización de plataformas: el Porsche Macan que muestran es secretamente un Audi Q5 por debajo. Volkswagen recicla plataformas agresivamente y el código de OpenPilot que soporta una MQB sirve para 20 o 30 autos distintos casi sin modificaciones. Honda hace lo mismo: los mensajes y señales son casi idénticos desde mediados de los 2010s hasta los modelos CAN FD actuales.
No hay ideas controvertidas de Hotz en este fragmento ni se nombran libros o artículos.
Este fragmento es una sesión de preguntas y respuestas del equipo de Comma, no de Hotz directamente, pero tiene ideas muy buenas de organización de ingeniería y algunos detalles técnicos relevantes.
La idea más importante sobre cómo mantener un equipo pequeño y productivo viene de uno de los ingenieros que atribuye la frase a Hotz: los límites de gestión de una empresa se reflejan directamente en los límites de API del código. Si tenés dos equipos separados para controls y para el modelo de ML, vas a tener una frontera artificial en el código que genera ineficiencia, donde cada equipo le echa la culpa al otro cuando algo falla. La solución que aplicaron fue fusionar ambos en un solo problema: controlar el auto. La lección generalizable es que la estructura organizacional del equipo humano y la arquitectura del software tienden a converger, y si la estructura del equipo es mala, el código lo va a reflejar inevitablemente.
Sobre el modelo de mundo para conducción, alguien del equipo de ML explica que el world model genera las imágenes de ambas cámaras simultáneamente en un solo vector latente compartido, no en dos pasos separados. Eso es lo que da consistencia entre las vistas. Cuando agreguen más cámaras, simplemente las meten todas al compresor y salen juntas del mismo espacio latente.
Hay un dato técnico curioso: USB y GPS se interfieren entre sí electromagnéticamente. No lo sabían hasta que diseñaron el Comma 4 y tuvieron que hacer mejoras específicas para aislarlos. Antes, el GPS era necesario en runtime para conducir. Ahora lo eliminaron de runtime y solo lo usan para entrenamiento.
La posición sobre forks de OpenPilot es explícita y bien articulada: OpenPilot base quiere ser simple, que funcione en cinco minutos, sin pensar. Los forks como SunnyPilot, FrogPilot o BluePilot son el equivalente a distros de Linux, y OpenPilot va a ser el Linux del self-driving. Usan esa analogía en serio, no como marketing.
Sobre por qué Comma es pequeña versus las grandes empresas de self-driving con mil empleados, el argumento es limpio: el incentivo de Comma es resolver el problema, el incentivo de las grandes es inflar su valuación, y los inversores confunden tamaño del equipo con legitimidad. Mientras haya plata que financie eso, va a seguir pasando.
Un ingeniero menciona al final un ejemplo práctico de la filosofía de no depender de librerías externas: ocho horas antes de la presentación, pytest lanzó una actualización que rompió OpenDBC tests. Tuvo que arreglarlo de urgencia. Su conclusión es que deberían escribir su propio pytest.
No se nombran libros ni artículos. Hotz no aparece directamente en este fragmento.
Este fragmento es la presentación de hardware del Comma 4, dada por uno de los ingenieros mecánicos/electrónicos del equipo. No habla Hotz directamente pero es donde está la ingeniería más concreta de todo el stream.
El origen del Comma 4 es interesante: empezó como un proyecto interno llamado “Tacoma Mini” o “MI”, cuyo objetivo era hacer el producto mínimo viable que diera el 80% del valor del 3X a menor costo. La idea inicial era sin pantalla, sin LTE, sin almacenamiento de datos de entrenamiento, solo soporte Toyota. El problema con quitar la pantalla es que sin pantalla necesitás una app móvil buena para configurar todo, y admiten abiertamente que históricamente son malos en apps. Entonces volvieron a poner la pantalla, y una vez que la pusieron, se preguntaron por qué no poner también LTE y soporte completo de autos. En ese punto ya no tenía sentido llamarlo MI, simplemente era un Comma 4 mejor que el 3X. El producto nació de simplificar y terminó siendo más completo.
El proceso de desarrollo de hardware tiene lecciones muy concretas. Para llegar a un primer prototipo conduciendo lo más rápido posible, la regla es usar solo procesos estándar y disponibles: impresión 3D o CNC para la carcasa, y para la electrónica reutilizar módulos que ya funcionan. El Snapdragon 845 ya existía en el 3X con un heatsink que funcionaba, lo reusaron directamente. El resultado fue que en 9 días desde el inicio del diseño ya tenían PCBs pedidas, 13 días después tenían el primer boot, y 3 días después el primer auto manejando. El problema del primer prototipo fue que el conector de la pantalla estaba en espejo, lo que causaba un puff de humo cada vez que la enchufaban.
El problema más revelador del proceso de diseño fue el enfriamiento pasivo. El ingeniero calculó que con convección natural y aire a 25°C podría funcionar sin ventilador activo. Simuló el flujo de aire y todo parecía correcto. Resultado: ambas suposiciones estaban completamente equivocadas. No hay convección natural dentro de un auto contra el parabrisas, el aire forzado del aire acondicionado nunca llega ahí, y la temperatura del aire junto al parabrisas en verano es mucho mayor que 25°C. El diseño tuvo que incorporar un ventilador blower activo.
Un truco de hardware que mencionan para acelerar el desarrollo: cuando necesitás una PCB compleja de 8 capas con blind vias que tarda 6-7 semanas en producirse, podés sacar solo las capas superior e inferior y mandarlas a fabricar como una PCB de 2 capas que llega en una semana. No funciona eléctricamente pero es mecánicamente idéntica, lo que te permite avanzar con el diseño del case en paralelo. El error que cometieron fue hacerla negra igual que la real, con lo que era imposible distinguirla visualmente y perdieron medio día intentando bootear algo que físicamente no podía arrancar.
La filosofía de refactoring de hardware es la misma que en software: el primer prototipo tenía 25% más componentes de los necesarios. Fueron eliminando todo lo que podían reutilizar o simplificar, como reemplazar un beeper separado con la señal de audio por los speakers existentes.
No se nombran libros ni artículos. Hotz no habla en este fragmento.
Este es el fragmento más denso en ingeniería real de todo el stream. Es la historia completa de por qué el Comma 4 tardó mucho más de lo planeado y qué problemas tuvieron que resolver desde primeros principios.
El problema central del enfriamiento viene de la arquitectura Package-on-Package del Snapdragon 845: la RAM está soldada encima del chip procesador, lo que significa que el heatsink va encima de la RAM, no directamente sobre el die que genera el calor. Con cargas sostenidas de OpenPilot esto es un problema serio. La solución que desarrollaron tiene tres componentes: primero, underfill de epoxy térmico que rellena los gaps de aire entre los balls del BGA y mejora la conducción térmica mientras también une mecánicamente el chip al PCB mejorando la confiabilidad; segundo, extracción de calor por la parte inferior del chip a través del PCB, que validaron con el modelo térmico publicado por Qualcomm y que les dio un 33% de mejora gratis; tercero, una pieza de cobre CNC custom que actúa simultáneamente como heatsink y como shield de RF. La prueba que usaron para validar se llama “shot glass test”: llenan una copa de cobre con agua, corren carga constante en el CPU, miden la diferencia entre temperatura del die y temperatura del agua, dividen, y obtienen una línea plana que representa el mejor escenario térmico posible en ese setup.
El problema del GPS es el más interesante y menos obvio. El Snapdragon 845 genera armónicos de radiofrecuencia en prácticamente todo el espectro de banda ancha porque tiene decenas de subsistemas corriendo a distintas frecuencias con sus PLLs. El GPS usa señales de amplitud extremadamente baja, cualquier interferencia cercana las ahoga. Los problemas específicos que encontraron fueron cuatro: la pantalla al correr a ciertas frecuencias generaba armónicos que caían exactamente en frecuencias GPS, las cámaras igual, la antena GPS estaba en el borde del PCB cuando necesita estar centrada con un plano de tierra simétrico, y el heatsink flotante sobre spring screws no estaba correctamente conectado a tierra y actuaba como antena irradiando ruido. Resolvieron los problemas de la pantalla y las cámaras cambiando las frecuencias de operación por software y ajustando la fuerza de los drivers de los reguladores en el firmware del 845. Todo esto tomó meses.
La conclusión del proceso de diseño es clara: después de múltiples revisiones donde cada solución creaba nuevos problemas, el diseño Rev H resolvió todo simultáneamente moviendo el 845 de vuelta al lado inferior del PCB, lo que liberó espacio para un shield que también funciona como heatsink, centró la antena GPS en el board, y simplificó toda la mecánica eliminando componentes custom problemáticos. El resultado es que en pruebas el CPU apenas supera los 50°C bajo carga real de OpenPilot, con el fan casi parado.
No se nombran libros ni artículos. Hotz no habla en este fragmento.
Este fragmento tiene dos partes: el cierre de la presentación de hardware con una conclusión importante sobre simulaciones, y la presentación de Mitchell sobre datasets de entrenamiento que es técnicamente muy densa.
El ingeniero de hardware Rob termina con una observación que vale la pena destacar: después de años simulando flujo de aire, interferencia RF y temperatura, su conclusión es que la mayoría de las simulaciones que hacen no son útiles. Si te equivocás en un solo detalle pequeño, las conclusiones que sacás son incorrectas. Su recomendación práctica es gastarse dos días construyendo algo físico y testearlo directamente. También menciona un patrón interesante: cada vez que el equipo de OpenPilot mejora la eficiencia del software y libera capacidad computacional, el equipo de autonomía la consume inmediatamente corriendo modelos más grandes. La temperatura del CPU no baja, simplemente el trabajo útil que hace aumenta.
La presentación de Mitchell sobre datasets es donde están las ideas más importantes del fragmento. La premisa central, atribuida a “un hombre muy sabio” dentro del equipo, es que una red neuronal no es más que una versión comprimida del dataset. El modelo es el dataset. Si el dataset es bueno, el modelo es bueno. Esta no es una frase motivacional sino una posición técnica operativa que guía todas las decisiones de cómo construyen y curan los datos.
Sobre escalado, Mitchell muestra el chart clásico de OpenAI sobre scaling laws: con datasets pequeños los modelos grandes y pequeños tienen performance similar, pero a medida que el dataset crece los modelos grandes siguen mejorando mientras los pequeños se estabilizan. La implicación práctica para Comma es que necesitan datasets grandes para justificar modelos grandes, y necesitan datasets de múltiples tamaños para distintos modelos porque entrenar un modelo pequeño en un dataset enorme es desperdicio de compute sin beneficio real.
Los números actuales de Comma son concretos: aproximadamente 7.000 usuarios activos diarios, alrededor de 1.000 horas de datos subidos por día de un total de 10.000 horas manejadas, datos de 20.000 de los 30.000 dispositivos que han vendido en su historia, 86% de los datos son de Estados Unidos, cobertura de 70-75 países. El hardware tiene 15 racks con cerca de 200 servidores y aproximadamente un cuarto de exaflop de compute.
La lógica de curación del dataset es la parte más sofisticada. No entrenan en todos los datos disponibles por varias razones. Primero, los usuarios que más datos suben tienden a repetir las mismas rutas de commuting, lo que genera redundancia sin diversidad. Segundo, sobresamplear datos de Estados Unidos cuando ya tenés el 86% sería seguir sesgando el modelo hacia un solo contexto geográfico. Tercero, para el modelo de conducción final específicamente excluyen los segmentos donde OpenPilot estaba engaged, porque entrenar el modelo a imitar versiones anteriores de sí mismo crea un feedback loop degenerativo.
No se nombran libros, pero el chart de scaling laws es del paper de OpenAI sobre scaling laws, aunque no dan la referencia exacta.
Este fragmento es infraestructura de ML pura, uno de los más técnicamente densos de todo el stream. No habla Hotz directamente.
La idea central de Mitchell sobre train/val split es más sofisticada de lo que parece. El split estándar de tomar el 10% de frames al azar es inútil en datos de video de conducción porque frames consecutivos son casi idénticos, entrenarías literalmente en el test set. Splitear por segmentos completos es mejor pero sigue siendo problemático porque el mismo conductor maneja la misma ruta meses después y el modelo aprende esas rutas específicas. La solución correcta es splitear por dispositivo: algunos usuarios enteros van al set de validación y nunca aparecen en entrenamiento. Específicamente ponen el 6% de dispositivos más todos los dispositivos de empleados en validación, porque quieren que la experiencia de los empleados manejando en San Diego sea representativa de alguien usando el sistema por primera vez, no algo que el modelo ya memorizó.
Sobre decodificación de video hay una historia de optimización concreta. Los videos son H.265 que se comprimen aproximadamente 100x, un archivo de 80MB se convierte en 8GB al decodificar, por lo tanto es imposible hacer esto por adelantado por espacio. En 2020 usaban FFmpeg en CPU con 24 cores y obtenían 400 frames por segundo. Cuando necesitaron más velocidad migraron a GPUs que tienen hardware dedicado de decode y obtienen 1000-2000 fps, pero el problema era que los GPUs grandes de entrenamiento no tenían memoria suficiente para hacer decode y correr el modelo al mismo tiempo. La solución intermedia fue meter GPUs baratas de unos 100 dólares solo para decode en cada máquina, llegando a 2500 fps. Eventualmente con mejor gestión de memoria pudieron hacer todo en el mismo GPU y ahora con 8 GPUs por servidor obtienen alrededor de 15.000 fps de decode.
La arquitectura del localizer es el componente más crítico de todo el pipeline de entrenamiento porque es requisito para absolutamente todos los modelos, incluido el world model. Es un filtro de Kalman que fusiona GPS, giroscopio, acelerómetro y odometría visual de las cámaras para reconstruir la trayectoria exacta del vehículo frame a frame. El problema de la odometría visual es que los objetos en movimiento como otros autos generan keypoints que contaminan la estimación del movimiento propio. Para filtrarlos usan un modelo de segmentación semántica entrenado con el dataset Comma Pencil que identifica qué píxeles son otros autos y descarta esos tracks. En 2021, cuando el Comma 3 pasó a tener dos cámaras frontales, el pipeline se volvió el doble de lento y procesar un millón de segmentos tardaba 40 días, lo que hacía imposible escalar el dataset.
Mitchell menciona el paper de OpenAI sobre scaling laws como referencia visual para el argumento de que modelos grandes necesitan datasets grandes, sin dar título o número de paper específico. No hay libros nombrados.
geogeogeo/parte_chatgpt_39.txt
Voy a leer los archivos primero para asegurarme de capturar todo.Los documentos ya están en contexto. Puedo proceder directamente con el análisis.
La diferencia que marca entre Comma y TinyGrad es brutal y honesta: con Comma no podía fallar porque el mercado y el problema estaban clarísimos. Con TinyGrad sí puede fallar, y lo dice explícitamente. PyTorch, JAX, Triton y MLIR pueden simplemente seguir avanzando y dejarlo atrás. La tesis central de TinyGrad es reducir toda la pila de abstracción de redes neuronales a algo que una persona inteligente pueda leer, entender y modificar completo. Son 13.500 líneas de Python que incluyen drivers AMD y pronto Nvidia, sin dependencias externas excepto LLVM. La filosofía de diseño la resume con la analogía de los Amish: si comprás un tractor de John Deere, necesitás al técnico de John Deere para repararlo, y ese técnico subvierte la ideología de tu comunidad. Una carretilla, en cambio, la puede construir y reparar cualquiera. TinyGrad quiere ser la carretilla. React y Kubernetes te hacen pensar como Google o Facebook, y no podés romper la esclavitud usando las herramientas del amo.
La diferencia técnica concreta que defiende contra frameworks como TensorStore de Tenstorrent es la fusión de operaciones en lugar de tomar trips a memoria. Hace una demo en vivo donde computa una doble LU en un solo kernel sin ir a memoria dos veces, algo que simplemente no es posible en el modelo de TensorStore donde los kernels se escriben a mano en C. Su argumento: si tenés que escribir manualmente cernel_sfpu_lu en C para cada función de activación, y luego agregar una nueva función requiere cambiar N capas distintas del stack, tu arquitectura está muerta. El compilador debería autogenerar todo eso. Tiny lo hace: le mostrás una double LU y el compilador la aplana en un único loop con la lógica duplicada automáticamente. Eso no es un detalle de implementación, es la diferencia arquitectónica fundamental entre un sistema que escala y uno que no.
Sobre el rendimiento, responde directamente a las críticas: corriendo un modelo de 1B parámetros en su M3 Max, TinyGrad alcanza 334 GB/s de bandwidth efectivo sobre un máximo teórico de 400. Eso es 83% de eficiencia teórica sin optimizaciones especiales. No es 10x más lento que nadie, y lo demuestra con números reales en pantalla.
Lo que dice sobre AMD es interesante porque va contra lo que decía hace dos años. AMD resolvió su problema de instalación de una manera que él respeta: copiaron todo el ecosistema CUDA exactamente, cambiaron los nombres de CUDA a ROCm, y ahora simplemente funciona. No intentaron ganar, intentaron ser compatibles. Eso les da un 5-10% del mercado de Nvidia y es suficiente para mantener a Nvidia con competencia. Lo llama el jugador que querés que exista para disrumpir un monopolio, y dice que puso un cuarto de millón en acciones de AMD.
Tenstorrent en cambio tiene una arquitectura que en papel es fascinante, con memoria explícita sin global crossbar, mesh de cores RISC-V, sin warp scheduler, con data movement completamente explícito y desacoplado del compute. Hotz dice que todo eso tiene sentido arquitectónico profundo, especialmente el punto de Jim Keller de que la mayor parte del power se gasta en movimiento de datos, no en compute. Pero luego ven el código real y es C++ con kernels escritos a mano que no pueden fusionarse, una API en C++23 que está rota, documentación sin terminar, y ejemplos que directamente no compilan. Su diagnóstico: Tenstorrent tiene ideas correctas sobre hardware pero no va a ganar porque las herramientas de software son inusables. La prueba práctica: instaló una AMD 9070 XT, corrió el pipeline básico de ResNet con pip install y funcionó. Con la Tenstorrent Black Hole pasó horas construyendo Docker, encontrando que create_device ya no existe, que los tutoriales referencian APIs deprecadas, y que al final no pudo ni compilar el ejemplo básico.
La conclusión sobre qué arquitectura de core prefiere para ese tipo de chips es Hexagon de Qualcomm con sus VIW packets, donde múltiples instrucciones dentro de llaves corren en paralelo y es claro para el compilador qué recursos usa cada una. Cinco cores RISC-V independientes corriendo en lockstep le parece difícil de razonar y peor aún de compilar correctamente.
Sobre el futuro, dice que después de mucho trabajo en algoritmos, TinyGrad va a reescribirse el backend en Rust. Pero todavía hay años de iteración algorítmica antes de que tenga sentido optimizar en velocidad de ejecución. Primero eliminá lo que no debería existir, después optimizalo, que es el principio de Elon que él cita explícitamente.
Una idea que repite varias veces en distintos contextos: cuando una métrica se convierte en objetivo, deja de ser una buena métrica. Lo aplica a todo. A TinyGrad: el objetivo no es vender más tiny boxes, eso es consecuencia de hacer mejor software. Si optimizás para ventas, dejás de mejorar el software. A LLMs: están entrenados con RL para darte respuestas con las que quedás satisfecho, no para darte respuestas verdaderas. Quiere modelos entrenados en truth vs falsehood, no en helpful vs harmful. A LLMs en general: dice que no usa Cursor ni herramientas de coding con AI porque no mejoraron su productividad en nada. Ve que hay personas que antes sabían que no entendían algo, ahora pegan el código en un LLM, pegan la respuesta y actúan como si hubieran hecho algo. Eso no es conocimiento.
Tiene una crítica al ecosistema que es más estructural que la queja habitual. El modelo es: empresa A y empresa B tienen contratos entre sí, se pagan mutuamente, ambas contabilizan eso como revenue, ambas levantan capital sobre ese revenue. El juego es circular y no produce nada. Aplicado a B2B SaaS dice que eso es lo que es en gran parte. La saturación llegó hace 15 años cuando Google y Facebook alcanzaron a toda la población mundial, y desde entonces el único camino para crecer es extraer más de cada persona en lugar de atraer personas nuevas. YC pasó de ser disrupción a ser el sistema mismo, y cuando el propio partner de YC dice “hay demasiado riesgo fuera del ecosistema de Silicon Valley”, estás describiendo exactamente lo opuesto a entrepreneurship.
La regla que usa para evaluar si alguien rico es bueno o malo es directa: ¿creó valor proporcional a su riqueza? Para Mark Zuckerberg es ambiguo porque mucho viene de publicidad, pero en el contrafactual si no existía Facebook, existía algo peor. Para Elon hay respeto genuino pero una crítica concreta: no ha open-sourceado nada. Starlink es propietario, no está documentado, y Elon no ha construido governance institucional sustentable, corre sus compañías como una monarquía funcional. El modelo del Linux Foundation con Linus Torvalds le parece más robusto a largo plazo.
Dice algo que suena contradictorio pero tiene lógica interna: admira a Elon y cree que Doge va a fracasar. El argumento es que no podés recortar gasto sin cambiar los incentivos del sistema. Si el sistema recompensa el gasto, el gasto vuelve. Además, el dinero que mueve Washington en gran parte es ficticio de la misma manera que el de Silicon Valley. Sobre los hijos de Elon, su lectura es que Elon quiere herederos para sus compañías y eso refleja que sabe que el modelo de governance que tiene es una monarquía que necesita sucesión.
Gravity’s Rainbow de Thomas Pynchon lo está leyendo en el stream en vivo y lo recomienda a todos los de tecnología que quieran una educación humanística. Dice que si todos los tech bros se sentaran a leer Infinite Jest, The Corrections y Gravity’s Rainbow, el mundo estaría mejor. Infinite Jest lo menciona específicamente por la distinción entre mapa y territorio, que es una idea que aplica directamente a su crítica del dinero como métrica. El libro de Judea Pearl sobre causalidad lo cita en el contexto de modelos deterministas versus estadísticos. Menciona también Gödel Escher Bach que dice haber leído a los 18 y que todo el mundo debería leer.
Sobre la pandemia: dice explícitamente que las máscaras de tela no previenen la transmisión de virus respiratorios, que eso es ciencia básica, y que lo más peligroso no fue la política de las máscaras en sí sino que politizaron un hecho científico. La consecuencia de segundo orden que señala es que al hacer eso, el cumplimiento de vacunación bajó porque la gente dejó de confiar en las instituciones. Dice que eso o fue estupidez o fue el objetivo deseado.
Sobre religión: se declara cristiano de manera no irónica, con Jesus en el corazón y todo. Dice que el ateísmo es la religión más tonta que existe. No cree que la Biblia sea la palabra literal de Dios sino interpretada a través de cerebros humanos. Cree en evolución. Cree que alguien creó el universo. Su versión de Dios es más parecida a un niño con un ant farm que a un ser omnipotente que se preocupa por tus problemas individuales.
Sobre citas y relaciones: tiene una sección extensa y bastante cruda sobre apps de dating. Dice que Hinge está diseñado para gatekeep la interacción social y que tengas que pagarle a Match Group para ver personas. Su crítica técnica es que deberían funcionar como un CRM con pipeline de ventas: encontrar leads, calificar, presentar, cerrar, nutrir. Dice que Instagram es la mejor app de dating para quien tiene game. Sobre dinámica sexual dice que el predictor número uno de si una mujer va a tener sexo casual con alguien es su body count previo, no la altura, el dinero ni la raza del hombre. Sobre dinero y atractivo: una vez que decorrelacionás ingreso de atractivo personal, la correlación desaparece. La gente que piensa que el TC de $400k en una FAANG les va a conseguir pareja tiene un malentendido fundamental sobre qué genera atracción.
Sobre salud personal: tiene contracciones ventriculares prematuras, fue al médico, le hicieron un ecocardograma y no encontraron nada. Su consejo: andá al médico para que te hagan la máquina, subí los resultados a ChatGPT, y no les dejes hacer la interpretación a ellos.
Yo: Que es LLms entrenados con RL, no entiendo eso de helpful vs harmful
Es una distinción muy importante que Hotz hace y que tiene bastante peso en el debate actual sobre cómo se entrena a los modelos de lenguaje.
Cuando entrenas un LLM, después del preentrenamiento básico usás una técnica llamada RLHF, que es Reinforcement Learning from Human Feedback. La idea es que humanos evalúan las respuestas del modelo y le dan feedback de cuál es mejor, y el modelo aprende a maximizar esa aprobación humana. El problema que señala Hotz es que si entrenás el modelo para ser “helpful”, básicamente lo estás entrenando para darte respuestas que te hagan sentir bien, que suenen confiadas, que fluyan bien, que no te contradigan demasiado. El modelo aprende que ese tipo de respuesta recibe mejor feedback de los humanos evaluadores.
El resultado es un modelo optimizado para tu satisfacción, no para la verdad. Si le preguntás algo y la respuesta correcta es “no sé” o “estás equivocado”, ese tipo de respuesta históricamente recibe peor puntuación de los evaluadores humanos que una respuesta que suena segura aunque sea incorrecta. Entonces el modelo aprende a alucinar con confianza en lugar de admitir incertidumbre.
Lo que Hotz propone como alternativa es entrenar sobre el eje truth vs falsehood, donde el criterio de recompensa no sea si al humano le gustó la respuesta sino si la respuesta era factualmente correcta. Eso produce un modelo con un incentivo completamente distinto. El problema práctico es que es muchísimo más difícil de implementar porque la verdad es difícil de medir automáticamente, mientras que la satisfacción humana es fácil de capturar con un pulgar arriba o abajo.
En resumen: helpful optimiza para que el usuario quede contento. Truthful optimiza para que el usuario reciba información correcta. Son cosas distintas y a veces opuestas.
Yo: Explica: Elon no ha construido governance institucional sustentable, corre sus compañías como una monarquía funcional
Es una idea política clásica aplicada a empresas tecnológicas.
Una monarquía funcional significa que el sistema funciona bien mientras el rey es bueno, pero no tiene mecanismos propios para sobrevivir a un mal rey. Todo el poder está centralizado en una persona cuya calidad personal determina la calidad del sistema entero. Tesla funciona bien porque Elon es brillante y no se duerme. Pero si Elon muere mañana, o se vuelve errático, o simplemente envejece y pierde el filo, no hay ninguna institución que absorba ese golpe. No hay una constitución interna, no hay checks and balances, no hay cultura organizacional que funcione independientemente del fundador.
El contraste que hace Hotz es con Linux y Linus Torvalds. Linux también tiene un dictador benevolente, pero el proyecto está construido de una manera donde el código es abierto, las reglas de contribución son públicas, y aunque Linus tiene la última palabra, la estructura podría sobrevivir su salida de una manera que SpaceX probablemente no podría sobrevivir la de Elon.
La institución bien construida se perpetúa sola. La monarquía se perpetúa solo mientras el monarca sea capaz. Por eso Hotz dice que Elon parece interesado en tener muchos hijos, porque a nivel inconsciente o consciente entiende que necesita herederos que continúen las compañías, exactamente como un rey que necesita príncipes. Eso es una señal de que el modelo de governance es dinástico, no institucional.
El problema profundo es que en el siglo XXI las mejores instituciones que conocemos, las universidades antiguas, el Linux Foundation, ciertos gobiernos, están diseñadas para sobrevivir a cualquier individuo. Las compañías de Elon no lo están.
Hotz compra una Tenstorrent Black Hole, la instala en vivo en el stream, y pasa horas intentando hacerla funcionar. El hardware en sí le parece bien hecho, la caja está bien presentada, Jim Keller le genera respeto real porque a diferencia de Groq, Tenstorrent efectivamente shipea cosas. Pero el software es el problema central y hace un diagnóstico arquitectónico muy específico: tienen siete capas de abstracción cuando deberían tener tres.
Las tres capas correctas son front-end (PyTorch, ONNX, o tensor.py de TinyGrad), compilador (que maneja placement de memoria, scheduling de ops y kernel fusion), y runtime (que expone el hardware de manera agnóstica a la aplicación). Lo que Tenstorrent tiene en cambio es: LLK, SFPU con funciones de activación escritas a mano en C, TT Metalium, TTNN, TT Torch, TT Forge, y PyTorch 2.0 TTNN, cada uno con sus propias dependencias, su propio Docker, su propia versión de Ubuntu. El error fundamental es que tienen una función de activación llamada SFPI_LU en el runtime del hardware. Una LU es una operación inventada por un grad student en 2013. CUDA no tiene LU en PTX. Si tu runtime de hardware menciona LU, estás construyendo en la capa de abstracción equivocada, y eso se propaga hacia arriba por todas las capas hasta la interfaz con PyTorch.
La demostración práctica de que esto no funciona es lo que ocurre en el stream: Hotz sigue exactamente la documentación oficial, instala el Docker correcto, encuentra que create_device ya no existe y fue reemplazado por create_unit_mesh con un typo en la guía de migración, luego descubre que necesita una versión bleeding-edge de Clang para compilar una feature de C++ experimental llamada reflect que ni siquiera está en el estándar, y después de horas lo más lejos que llega es abrir el dispositivo y mapear los PCIe bars. En contraste, instala una AMD 9070 XT, hace pip install y corre ResNet. Eso es la diferencia entre software que funciona y software que no.
AMD lo que hizo es copiaron CUDA exactamente, cambiaron los nombres, y el resultado es que cuando instalás ROCm torch, en realidad tenés CUDA pero con otra marca. Eso les da 5-10% del market share de Nvidia y es suficiente para mantener competencia. Hotz dice que respeta esa estrategia porque es honesta sobre lo que sos: no intentás ganar, intentás ser la segunda opción viable. Tenstorrent no puede hacer lo mismo porque su hardware es arquitectónicamente diferente, lo cual es a la vez su ventaja y su trampa. La ventaja de Tenstorrent está en más programmabilidad con respecto a GPUs, en shapes de hardware distintos y en arquitecturas de modelos que los GPUs no pueden expresar bien. Si no exponés esa programmabilidad, perdés garantizado. Y no la podés exponer a través de seis capas de C++ roto.
Lo que Hotz recomienda explícitamente: hacer que pip install tenstorrent funcione en cualquier computadora, tener un kernel driver de 100 líneas que solo configura permisos, todo lo demás en user space Python con mmap de las regiones PCIe, y el hello world tiene que correr en cualquier máquina antes de hacer cualquier otra cosa. Dos prioridades en paralelo: que el hello world funcione en todo, y que el fan no suene cuando el chip está idle, porque nadie puede pensar con ese ruido.
Pasando tiempo leyendo la documentación de Tenstorrent, Hotz llega a apreciar algunas decisiones arquitectónicas. La ausencia de un global crossbar como el que tiene RDNA4 tiene sentido desde la perspectiva del movimiento de datos: Jim Keller le explicó en persona que la mayoría del power se gasta en movimiento de datos, no en compute. Memoria explícita sin coherencia automática fuerza al programador y al compilador a ser explícitos sobre dónde están los datos, lo cual puede ser más eficiente. El mesh de cores con NOC (network on chip) donde cada mensaje está direccionado explícitamente también le parece correcto. Lo que no le gusta son los cinco cores RISC-V independientes en el tensor core, porque es muy difícil de razonar para un compilador, especialmente si compilás con diferentes niveles de optimización. Preferiría VIW packets estilo Qualcomm Hexagon, donde múltiples instrucciones dentro de llaves corren en paralelo y la interfaz compilador-hardware es mucho más clara.
Sobre Intel directamente: no hay nadie ahí. Ningún liderazgo que haga tradeoffs técnicos reales. La métrica que optimizan es el precio de la acción, no el producto. Lo compara con Boeing después del 737 MAX. Tiene una AMD 7900 XTX que funciona, tiene varias 5090s que son silenciosas, y tiene la Tenstorrent que suena aunque esté idle. Para un chip que quiere que los desarrolladores lo usen, eso es un problema de producto fundamental.
Dice que el chip propio de TinyGrad va a tener características específicas que emergen directamente de los problemas que encontró en todos los demás: va a correr cualquier modelo que TinyGrad corra, sin kernel driver o con un kernel driver de 100 líneas que usa APIs del kernel de hace 17 versiones, va a funcionar en cualquier computadora, y antes de hacer tape-out no van a moverse hasta que tengan performance de nivel Nvidia en hardware Nvidia. La condición es esa: si no podés superar a CUDA en el propio hardware de Nvidia, no estás listo para hacer tu propio chip. Lo que dice sobre la secuencia es: FPGA primero, luego chip, y solo después de que la mayor parte del trabajo algorítmico esté hecho, porque el hardware amplifica lo que ya tenés, no resuelve lo que no entendés.
En estos streams empieza a usar LLMs en vivo con más frecuencia para resolver problemas de compilación y configuración. Tiene una postura matizada: los usa pero desconfía de ellos sistemáticamente. Su crítica técnica es que están optimizados para darte respuestas que te hagan sentir satisfecho, no respuestas verdaderas, entonces a veces ChatGPT le da el comando correcto y a veces le da algo plausible que es completamente inventado. Google miente menos, dice, porque cuando algo está mal en Google generalmente es porque la documentación quedó desactualizada o porque hay motivated reasoning detrás, pero en LLMs es simplemente autocomplete sin awareness de su propia incertidumbre. Menciona que eventualmente van a mejorar en esto una vez que sean suficientemente castigados por mentir, lo cual es una descripción informal bastante precisa de cómo funciona el RLHF.
Hay una digresión sobre el gesto de Elon que mucha gente interpretó como un saludo nazi. Hotz lo descarta completamente y hace el mismo gesto en cámara diciéndole a la gente que lo tuiteen con el caption “George Hotz es nazi” a ver si pega. Considera que la gente que lo interpreta así literalmente cree que hay una red de nazis secretos en búnkeres esperando señales.
Tiene una interacción con alguien que le pregunta por la cultura de Comma AI en el subreddit. No entra en detalles pero lo menciona como parte de un patrón más amplio de cortoplacismo y falta de educación humanística en la industria tech. Dice que si cada persona de tecnología se sentara a leer Gravity’s Rainbow, The Corrections e Infinite Jest, el mundo estaría mejor. La educación humanística que describe no es decorativa sino instrumental: te enseña a detectar manipulación, a entender sistemas complejos de personas, y a pensar en escalas de tiempo largas.
Sobre su propia salud mental y ritmo de trabajo: dice explícitamente que estuvo trabajando en TinyGrad de manera insostenible, al punto de que su output real de trabajo bajó porque estaba más enfocado en culparse por no trabajar más. Tomó un fin de semana de descanso, leyó Gravity’s Rainbow, lavó ropa, y dice que vuelve más fresco. Es una de las pocas veces que habla directamente de gestión de energía propia sin ironía.
En estos streams Hotz está trabajando en dos cosas concretas: fused optimizers y el inicio de soporte multi-GPU hacia FSDP. La idea de fused optimizer es simple: en vez de iterar sobre cada parámetro del modelo en un loop de Python y aplicar Adam uno por uno, concatenás todos los parámetros en un tensor gigante y corrés el optimizer una sola vez. Menos kernels, menos overhead, y además abre el camino para hacer sharding del estado del optimizer de manera natural, que es el prerequisito para FSDP real. Encuentra que están desperdiciando el doble de RAM de lo necesario en configuraciones multi-GPU, nadie había puesto atención seria en esto, y la memoria del optimizer state en float32 para modelos en float16 duplica el uso real.
La confesión honesta sobre el estado de TinyGrad es que inference está bien, está en MLPerf, puede entrenar modelos razonables, pero para entrenar LLMs grandes PyTorch sigue siendo la opción correcta. Lo que TinyGrad tiene que nadie más tiene es que es completamente tuyo: 13.500 líneas de Python, con driver AMD incluido, sin dependencias externas, corriendo stable diffusion sin ROCm ni driver AMD, solo LLVM. La filosofía que articula es que la diferencia entre usar TinyGrad y usar PyTorch no es técnica sino de agency: con PyTorch sos un consumidor, con TinyGrad podés ser dueño de toda la pila y entender cada parte.
Sobre la dificultad del proyecto, dice algo importante: TinyGrad va a ser más difícil que Comma. Con Comma no podía fallar porque el mercado era claro y el feedback era inmediato. Con TinyGrad hay riesgo real de que JAX, PyTorch y Triton simplemente sigan siendo mejores para siempre. Lo que lo mantiene en esto no es una creencia irracional de que va a ganar sino que no tiene otra cosa que hacer que le importe más.
Demuestra algo concreto que tiene valor educativo real: bootea una GPU AMD completa en 2.4 segundos desde Python puro, sin kernel driver, solo mapeando los PCIe bars directamente al espacio del proceso con mmap. La secuencia es: leer los registros de la GPU desde internet, configurar los PCIe bars, cargar el firmware, lanzar kernels. Esto funciona porque Linux trata todo como un archivo y una GPU en el bus PCIe es accesible desde /sys/bus/pci/devices/. No necesitás nada de AMD para hablar con la GPU, solo LLVM para compilar el código que va a correr en ella.
La razón por la que esto importa no es rendimiento sino mantenibilidad y comprensión. Cuando el driver de AMD falla ahora, Hotz no depende de AMD para arreglarlo porque tiene su propia reimplementación. Puede leer el código, entender qué salió mal, y arreglarlo. Esto lo describe como el cambio fundamental que lo hizo menos hostil con AMD en los últimos dos años: ya no está a su merced.
Hace una distinción interesante entre Grock y Tenstorrent. Grock tiene un chip que arquitectónicamente no tiene ventajas claras sobre Nvidia, y su respuesta a eso fue no mostrarte el chip nunca. Solo te muestran una API que corre LLMs rápido. Es una estrategia de producto coherente aunque probablemente pierdan plata en cada llamada. Tenstorrent en cambio tiene ideas arquitectónicas genuinamente interesantes pero quiere que uses su software y eso es el error fatal.
La única estrategia que funciona para un chip alternativo es lo que hizo AMD: copiar Nvidia exactamente. RocBLAS es una copia de cuBLAS. RCCL es una copia de NCCL. El resultado es que cuando instalás ROCm torch, básicamente tenés CUDA con otro nombre, y eso es suficiente para que funcione. AMD no está intentando ganar, está intentando ser una segunda opción viable con 5-10% del mercado, y esa es una estrategia honesta y correcta. Tenstorrent no puede hacer lo mismo porque su hardware es arquitectónicamente diferente, lo que debería ser su ventaja pero se convierte en su trampa cuando intenta competir en el mismo terreno que Nvidia.
La evaluación de empresas que hace es directa: Tenstorrent vale alrededor de 2.6 billones, Comma vale en su opinión alrededor de 1 billón basado en ser equivalente al 5% de Tesla FSD. Intel no vale lo que vale porque no tiene leadership real, solo gente optimizando el precio de la acción. La comparación con Boeing es directa: como Boeing con el 737 MAX, Intel tiene MBAs tomando decisiones de ingeniería y el resultado es el mismo tipo de deterioro sistémico.
Tiene una regla simple que enuncia sin matices: si un proyecto tiene un token, es una estafa. No hay excepción. La razón no es que la gente que lo hace sea necesariamente maliciosa, sino que no hay ningún motivo legítimo para que un proyecto de software tenga un token que no sea capturar valor de manera artificial. Menciona SciHub y se pone nervioso al escuchar que podrían tener un token, luego se alivia cuando resulta ser un proyecto separado no afiliado.
Sobre los mercados financieros en general: la cuenta de brokerage promedio performa peor que un index fund. El mercado no es como el casino donde la casa siempre gana, es peor en un sentido: el mercado crece con el tiempo, pero el inversor promedio obtiene menos que si simplemente hubiera comprado un fondo índice. La estructura del VC es descrita como un Ponzi en muchos casos: entrar a 10 millones, asegurarse de que el próximo entre a 100 millones, y el último en comprar es retail.
Dice algo que va contra el discurso motivacional estándar y lo argumenta bien: no vas a encontrar tu pasión después de los 25 años. La persona cuya pasión real es el buceo empezó a bucear a los 8 años y no ha parado desde entonces. Si no sos esa persona, ningún viaje de buceo a los 30 te va a convertir en ella. La razón por la que este mensaje no se comunica es que no es vendible. Vender la idea de que podés encontrar tu pasión a cualquier edad permite venderle cosas a la gente, como el viaje de buceo de $3.000.
La pregunta de alguien que quiere dejar su trabajo de staff engineer en una empresa grande para “ir profundo en una tecnología por un año” la responde diciéndole que la pregunta está mal formulada. Si no estás ya obsesionado con algo antes de dejar el trabajo, dejar el trabajo no va a crear esa obsesión. Y la forma correcta de estimar cuánto tiempo toma algo no es sumar los subtasks, sino pattern matching con lo más parecido que hayas hecho antes y usar eso como estimate real.
Prefiere a Xi Jinping sobre cualquier liderazgo americano reciente por una razón específica: cree que Xi genuinamente quiere que China mejore, lo cual no puede decir de la mayoría de los líderes americanos. Aclara que Trump sí le parece que se preocupa, pero la existencia del Trump memecoin le parece incompatible con alguien que genuinamente pone a América primero.
Sobre las vacunas: confirma que no se puso la vacuna COVID. Su posición no es antivacunas sino anti-productos-médicos-nuevos: está dispuesto a tomar cualquier vacuna que haya demostrado seguridad durante años. Amoxicilina, Prozac, polio, tétanos, todo bien. Un producto médico con tres meses en el mercado, no. Dice explícitamente que no es porque haya algo nefasto, sino porque el único mecanismo real de testing para productos médicos es el tiempo.
Aderall: lo tomó en el pasado ocasionalmente. Su evaluación es que hace que pienses que sos mejor en las cosas sin hacerte realmente mejor. Básicamente distorsiona tu autopercepción. Lo pone en la categoría de droga recreativa ocasional, no de medicina.
Sobre la conciencia: cambió de opinión. Antes le parecía interesante como pregunta filosófica, ahora cree que la conciencia no es real, es una ilusión, y que esa creencia vino de una conversación con alguien que tiene un IQ notablemente más alto que él que simplemente lo dijo de manera definitiva y lo convenció. Con esa creencia cayó también parte de su adhesión al libertarianismo clásico, que depende de la idea de que hay un individuo con voluntad real en el centro de las cosas.
Esta tanda es básicamente la misma que la anterior en contenido, ya está cubierta en el resumen previo. Los documentos son los mismos archivos 9066-9076 que ya procesé.
Lo único nuevo que vale la pena agregar sobre lo que no capturé antes:
Sobre el self-driving y Waymo, hay una actualización de opinión interesante. Siempre asumió que la gente prefería tener un conductor humano en el auto. Descubrió que estaba equivocado: mucha gente prefiere Waymo precisamente porque no hay driver. Él mismo lo confirma, diría que sí a un auto 20% más lento si no hay nadie adentro. Eso mejora el business case de Waymo más de lo que pensaba, aunque igual cree que Tesla los va a aplastar en unit economics porque el modelo de scaling de self-driving no se parece al de Uber sino al de los scooters eléctricos: no necesitás atraer dos lados del marketplace, solo capital y pasajeros.
Sobre el VC y las tres formas de hacer dinero con una inversión: la honorable es que la empresa se vuelva rentable. La aceptable es que la adquieran. La tercera, que es la que describue como Ponzi, es que nunca necesita producir valor, solo necesitás que el próximo inversor entre a una valuación más alta que la tuya. Y el último en la cadena casi siempre es retail. Eso lo resume como el vaciamiento completo de la clase media a través de mercados financieros que están fundamentalmente diseñados en contra del inversor individual.
Sobre el early internet: dice que el internet temprano era una comunidad con un IQ promedio de 120-130, más alto que cualquier país en la historia. Era bueno por eso. Llegaron los teléfonos móviles, llegaron los usuarios de 90 de IQ, y ahora todas las interfaces están diseñadas para retardados. Nunca vamos a recuperar eso.
La idea de que no podés encontrar tu pasión después de los 25 la refuerza con una referencia a Bojack Horseman, específicamente al episodio donde Mr. Peanut Butter le dice a Wanda que la vida no se resuelve en 30 minutos con un final feliz, y Wanda le responde que eso es lo que hace la televisión de red. El punto es que los medios te dan una distribución de historias que no matchea la realidad sino la que es vendible, y eso distorsiona tu modelo mental de cómo funciona el mundo.
El trabajo técnico central de estos streams es mover toda la lógica de compilación de kernels a un archivo único y claro que Hotz quiere llamar flow.py. El pipeline completo de compilación de un kernel es: lower (convierte views en indexing), expander (unrolling de loops), devectorizer (deshace vectorización para GPUs), linearizer (crea basic blocks), y final rewrite (optimizaciones finales como reemplazar multiplicaciones por shifts). Antes eso estaba disperso en varios archivos y era difícil de razonar. Ahora es una lista secuencial de pasos en un solo lugar.
La idea clave detrás de esta refactorización es separar la generación de los pasos de rewrite de la aplicación de esos pasos. Esto permite cachear los pasos cuando no cambia el contexto, lo que reduce el costo recurrente de compilación. La analogía que usa es la misma de siempre: querés sacar lógica del hot path. Si podés precomputar los pasos de transformación fuera del loop de entrenamiento, no pagás ese costo en cada iteración.
También habla de warps y cómo la vectorización en TinyGrad todavía tiene problemas. El warp en GPUs es el grupo de 32 threads que corren en lockstep, y right now TinyGrad lo trata como algo externo al grafo en vez de como un uop. Cuando eso se integre correctamente al grafo como un rewrite rule, van a poder hacer upcast de warps automáticamente y eso va a darles una ventaja de velocidad considerable sobre Triton en algunos casos.
Hay una serie de streams donde implementa un modelo de difusión para MNIST desde cero usando rectified flow. La idea de rectified flow es conceptualmente más simple que DDPM: en vez de aprender a invertir una trayectoria estocástica curva que va del dato al ruido, aprendés directamente el vector de velocidad constante que une el dato limpio con el ruido gaussiano. Si la trayectoria es recta, no necesitás muchos pasos de sampling porque podés ir directamente. El paper original que implementa es “Scalable Rectified Flow Transformers” (SD3), y trabaja sobre una implementación mínima llamada minRF que encuentra en GitHub.
El debugging del modelo es una demostración honesta de cómo funciona la investigación real en deep learning: horas mirando si los números tienen el signo correcto, si las dimensiones están bien, si el timestamp embedding está sumando ruido en vez de información útil. Eventualmente descubren que el timestamp embedding estaba roto de una manera sutil, y que el modelo sin él funciona mejor para MNIST. La lección que extrae es que casi siempre que algo no funciona es un bug, no un problema de escala, y la primera respuesta no debería ser “necesito más datos o un modelo más grande”.
Una cosa concreta que anuncia en estos streams: TinyGrad ahora tiene soporte para manejar una AMD GPU conectada por USB. La motivación real es que el Comma Three tiene puertos USB, y si podés conectar una GPU externa por USB, el Comma puede correr modelos mucho más grandes sin cambiar el hardware del dispositivo principal. Si la GPU falla o se desconecta, el sistema cae gracefully al modelo que ya corre en el dispositivo y emite un beep, como corresponde para un sistema level 2.
Tiene una posición que repite varias veces con distintas formulaciones: la propiedad intelectual es básicamente aranceles disfrazados. Es un mecanismo para proteger a los que no pueden ejecutar mejor que la competencia. Su argumento es que si tu ventaja depende de que nadie más pueda usar tu idea, no tenés ventaja real, solo un moat artificial. La única forma legítima de ganar es ejecutar mejor continuamente. Aplica esto directamente a Qualcomm, cuyo departamento de patentes describe como “la división de estafar dinero a la gente”, y a la situación de los aranceles de Trump contra China.
Sobre los aranceles de Trump dice algo que es una ruptura con su posición anterior: apoyó el primer mandato de Trump porque bajó regulaciones de self-driving y evitó guerras. El segundo mandato lo decepcionó profundamente porque los aranceles son exactamente la forma opuesta de hacer que los números suban. Un arancel es una regulación y un impuesto al mismo tiempo. Arancelar Vietnam y Singapore después de arancelar China no tiene lógica anti-China, tiene lógica de destruir el comercio global. Dice que el error de Trump fue releer el Arte de la Negociación y aplicar “maximizar la incertidumbre” a una economía global donde la incertidumbre destruye inversión. Eso no es negociación, es ruido.
La frase que usa para describir su posición política definitiva es el “Number Go Up party”: no le importa si es demócrata o republicano, izquierda o derecha, lo que quiere es que los números buenos suban. Electricidad producida, edificios construídos, esperanza de vida, energía, espacio. Si tu política hace que esos números suban, estás bien. Si los baja, estás mal. Dice que China actualmente está ganando el juego de hacer que los números suban, y que tanto el DEI de los demócratas como los aranceles de los republicanos son básicamente la misma cosa: políticas que protegen a los incompetentes de la competencia merecedora.
En uno de los streams más personales de esta tanda, después de manejar con el nuevo modelo de Comma, dice que Comma está genuinamente cerca de resolver self-driving. Que hay un cuello de botella en el modelo de visión relacionado con el mundo sintético: para entrenar sin un information bottleneck, necesitan generación de imágenes de calidad, pero el generador actual produce imágenes con artefactos que el modelo aprende a exploitar en vez de aprender a manejar. Cuando el mundo sintético le dices que vaya 0.5 metros a la izquierda, va 0.4, y ese delta es suficiente para que el sistema de evaluación no funcione bien.
La observación sobre el modelo de scaling de self-driving también aparece acá con más detalle. Waymo no escala como Uber porque Uber es un marketplace de dos lados que necesita atraer drivers y riders. Self-driving escala como los scooters eléctricos: comprás capital, los desplegás, y conseguís riders. No hay que convencer a los autos de unirse al marketplace como si fueran humanos. Eso significa que el software se va a commoditizar rápido, en cinco años máximo después de que alguien lo resuelva, y van a ganar los que puedan producir EVs baratos a escala. Tesla y las empresas chinas.
Dice explícitamente que en 2024 no votó porque estaba en Hong Kong. Si hubiera votado, probablemente Trump, pero no esperaba que el segundo mandato fuera “tan retardado”. También dice que escribiría a Xi Jinping como write-in si pudiera, no como broma sino porque Xi genuinamente quiere que China mejore, lo cual no puede decir de la mayoría del liderazgo americano.
Sobre la canción de Kanye que fue baneada de Spotify tiene una posición de principio: censurar contenido porque “alguien podría tener ideas” es incompatible con vivir en una democracia. O confiás en que la gente puede escuchar cosas y pensar críticamente, o no lo hacés. Y si no lo hacés, dejá de llamarlo democracia. Prefiere Xi a los que dicen ser demócratas mientras censuran.
Sobre comida: estuvo en India y fue difícil, comió muy poco street food porque los ríos estaban contaminados y había moscas en todas partes. No lo atribuye al GDP sino a algo más cultural sobre el manejo del espacio público. Compara con Cambodia que tiene pobreza pero no esa sensación de polución sistémica. En Macau esperaba Las Vegas y encontró miles de chinos muy serios jugando baccarat sin música. Lleva el conteo de unos 52 países visitados.
Tiene también una tangente sobre websites: el ideal de un website es Hacker News o McMaster-Carr. Nada se mueve hasta que pasás el mouse, la información está densa pero legible, y hace lo que dice que hace. Los peores websites son los que tienen todo moviéndose, popups que grayan la pantalla, colores oversaturados y JavaScript en todas partes para hacer cosas que podrían ser CSS.
Hotz está trabajando en agregar soporte para la GPU AMD RDNA 4 (la RX 9070) en tinygrad, su framework de machine learning. El problema principal es que algunos kernels fallan en la nueva arquitectura pero no en la anterior. El proceso de debugging es público, caótico y honesto: no sabe por qué falla, lo admite sin pudor.
El descubrimiento clave es que el compilador HIP de AMD produce resultados silenciosamente incorrectos en RDNA 4. No tira error, simplemente da la respuesta equivocada. Hotz lo considera imperdonable: si no soportas algo todavía, pon un assert, no des output incorrecto en silencio. Termina probando con LLVM directamente como alternativa al compilador de AMD, instalando LLVM 19 con un script YOLO, y eventualmente confirma que el bug probablemente está en el compilador de AMD o en LLVM mismo.
El soporte para RDNA 4 resultó ser sorprendentemente simple: solo había que cambiar una línea de arquitectura (gfx202), porque el chip es fundamentalmente similar a generaciones anteriores de RDNA.
También trabaja con el MI300X, que AMD les regaló. Ese chip es técnicamente ocho GPUs separadas conectadas con un interconect tan rápido que supera el ancho de banda de memoria, lo que te permite tratarlo como una sola GPU. La complejidad interna es enorme comparada con chips más simples.
Dedica varias sesiones a enseñar el modelo de ejecución de GPU desde cero, en Rust con OpenCL. Las ideas fundamentales que desarrolla: una GPU es un procesador multicore con grupos de 32 threads. La diferencia entre SIMD y SIMT es que en SIMD los accesos a memoria son scatter/gather explícitos, mientras que en SIMT son implícitos. La GPU te oculta que en realidad es una máquina SIMD de 1024 bits de ancho. Mediante profiling en un Mac M3 Max, determina empíricamente que tiene 640 cores midiendo cuándo el rendimiento deja de escalar. Construye en vivo un plotter en Rust para visualizarlo, con lucha real contra el type system.
El stack de tinygrad para AMD es completamente soberano: el único componente externo es LLVM. Todo lo demás, desde el driver hasta el runtime y el compilador, es código propio.
Hotz declara que invirtió 250.000 dólares en AMD. Esto cambia explícitamente su postura: antes criticaba a AMD sin filtro, ahora dice que “shillea” para AMD. AMD les mandó hardware por valor de medio millón de dólares. Su evaluación honesta es que AMD está mejorando, el driver ha mejorado mucho, y hay personas dentro como Anish que están empujando cosas básicas de ingeniería de software como CI y builds continuos, que AMD no tenía.
Resuelve un problema hard de Leetcode en vivo: distribución mínima de caramelos. Lo resuelve solo, sin mirar soluciones, en aproximadamente 8 minutos, aunque luego admite que podría estar equivocado. Su conclusión es que si el problema no requiere memorizar un algoritmo específico sino razonar desde cero, es un formato de entrevista razonable. Lo que considera estúpido es preguntar cosas que requieren haber visto el truco antes.
Su postura sobre IQ es directa y no la suaviza: si tu IQ está por debajo de 110-120, probablemente no puedas ser un buen ingeniero de software, y mentirte al respecto no te ayuda. Lo que más valora no es el IQ sino la compulsión intrínseca de resolver problemas. Si ves un problema y no puedes parar hasta resolverlo, ese es el perfil que quiere. Si ves el leakcode como un grind para conseguir salario, salí de la industria.
Tiny Corp contrata de otra manera: contribuí a tinygrad, resolvé bounties de forma consistente e independiente, y te contratan. No hay entrevistas de algoritmos.
Esta es probablemente la parte más controvertida. Su argumento central es que en prácticamente toda métrica física medible, China está ganando o ya ganó: producción de electricidad, acero, producción de drones, lanzamientos espaciales, tamaño de flota naval. La única excepción real que concede es el espacio, donde Elon como entidad separada le da pelea a China. Sobre los chips: señala que TSMC está en Taiwan, que Taiwan está a metros de China, y que la idea de que los chips van a seguir llegando a Estados Unidos indefinidamente es wishful thinking geográficamente ridículo.
Sobre libertad: dice experimentar más libertad real en Hong Kong que en Estados Unidos, porque puede caminar a cualquier hora sin que nadie lo moleste, mientras que en América tuvo que llamar a la policía múltiples veces. La libertad de expresión política le parece un lujo que no te sirve si no tenés seguridad física cotidiana.
Su escenario optimista para Estados Unidos es que Elon se convierta en dictador populamente amado, construya instituciones nuevas en lugar de solo destruir, y abra fronteras. Sin fronteras abiertas, ve imposible que Estados Unidos compita con China demográficamente en generaciones.
Un tema recurrente en varios streams. Su argumento es que el debate entre derechos del inquilino vs. derechos del propietario ya es la señal de que estás en una sociedad de baja confianza. En una sociedad de alta confianza, si alguien ocupa ilegalmente tu propiedad, su familia viene y lo saca porque la vergüenza social funciona. En América ese mecanismo está roto. Hong Kong es para él el ejemplo de sociedad de alta confianza funcionando.
Muestra datos de encuestas que muestran la caída sostenida de confianza interpersonal en Estados Unidos desde los años 70, y su hipótesis es que esa erosión es la raíz de todos los demás problemas sociales. Lo cita como “la desmoralización apenas está empezando.”
Hotz propone en broma un partido político llamado “Number Go Up Party”. La idea central es que los gobiernos deberían publicar listas de números que quieren hacer subir y ser evaluados exclusivamente en base a eso. Energía, edificios, expectativa de vida, lanzamientos espaciales: números que suben. El opuesto son los “degrowthers” y decelerationistas, a quienes considera un problema civilizatorio. Asocia este marco con China como el actor que actualmente está ganando el juego de hacer números subir.
No menciona libros específicos en estos fragmentos, pero sí referencias directas: la entrevista entre Don Lemon y Morgan Freeman como resumen de su filosofía de acción (“get on the bus”), el blog post propio sobre “The Tragic Case of Intel AI”, el concepto de Hutter Prize como problema de compresión, el paper de “usable information under computational constraints” que lee en una cafetería y que describe como “el abstract más interesante que leí”, aunque el desarrollo matemático lo aburre rápido. El modelo 1776 (versión descensurada de DeepSeek) aparece como curiosidad sobre censura comparada entre China y Estados Unidos.
Vive en Hong Kong aplicando residencia. Tiene un perro que se llama Puppy. Jugó Magic the Gathering la noche anterior en lugar de preparar el stream. Toma pastillas al inicio del stream sin explicar cuáles son. Fue a una rave underground tipo speakeasy y le gustó. Invertió en AMD y lo dice abiertamente como conflicto de interés. Dice que es básicamente unemployable en una empresa normal. Admite que en el pasado falló una entrevista de Jane Street porque le preguntaron sobre programación funcional y él pensaba en imperativo, aunque resolvió el problema de código correctamente.
La contradicción más visible: es crítico feroz de las empresas que no tienen CI, no testean, y tienen código legacy, mientras que en vivo pushea código a master sin leer el diff completo porque estaba distraído con el stream, y luego lo admite.
Los archivos ya están en contexto como documentos. Voy a sintetizar directamente.
El hilo técnico más importante de este bloque es la caza de un bug en la RDNA 4 donde algunos kernels daban resultados incorrectos. Hotz construye desde cero una herramienta de validación dentro de tinygrad que ejecuta cada kernel en paralelo sobre CPU y AMD, y compara los outputs. La idea es elegante: si CPU y GPU difieren, encontraste el kernel roto. La implementación usa el API de bajo nivel de tinygrad para copiar buffers, ejecutar el mismo schedule item en ambos dispositivos, y hacer assert con numpy.
El bug real resultó ser que AMD tiene un límite de tamaño máximo en la segunda dimensión del grid de despacho (65336 elementos), y cuando lo superás, en lugar de tirar un error, simplemente ejecuta silenciosamente mal o no ejecuta. Lo que hace inaceptable esto no es el límite en sí, que puede ser hardware real, sino que el sistema no pone un assert y falla en silencio. Nvidia tiene el mismo límite pero lo reporta correctamente y lo hace cumplir. AMD lo copió de Nvidia pero no copió el comportamiento de error. El fix en tinygrad fue simplemente respetar ese max grid size que ya se puede quedar del device, igual que se hace en el backend de Nvidia.
Hay un momento revelador: la misma operación funciona perfectamente en la 7900 XTX y falla en el chip nuevo, lo que inicialmente confunde porque ambas responden igual cuando consultás el max grid size por software. La discrepancia entre lo que el hardware reporta y lo que efectivamente soporta es el corazón del problema.
Hotz dedica varios streams a implementar soporte para modelos Mixture of Experts (MoE) en tinygrad, empezando desde mixol y apuntando a correr DeepSeek en los MI300X que AMD les mandó. La idea central que defiende: los LLMs densos como Llama 70B acceden a todos los 70 mil millones de parámetros en cada forward pass, lo que hace que memoria y ancho de banda de memoria sean prácticamente lo mismo. MoE rompe eso. Tenés parámetros totales y parámetros activados, y la ratio puede ser de 18x en DeepSeek, donde solo un subconjunto de “expertos” se activa por token según lo que un router decide. La intuición que da: si le preguntás algo de arqueología, no tiene sentido activar las neuronas que saben sobre la hipótesis de Riemann.
El modelo concreto que elige es el de Contextual AI (OLMoE), con 64 expertos de los cuales se activan 8 por token. La implementación en tinygrad tiene un problema estructural que él mismo señala: en frameworks como PyTorch, indexar tensores para seleccionar expertos es natural. En tinygrad, el indexing avanzado y el assign in-place son débiles. Cuando intentás hacer tensor[experts] = values, tinygrad crea un tensor nuevo en lugar de asignar en el existente. El workaround que encuentra es stackear todos los experts juntos desde el inicio en lugar de tenerlos como tensores separados, y luego multiplicar por las probabilidades y sumar sobre la dimensión de expertos.
La operación matemática del MoE es: pasás el input por el router para obtener probabilidades, seleccionás top-K expertos, normalizás esas probabilidades para que sumen 1, corres el input por cada experto seleccionado (que es básicamente un MLP con gate usando SiLU/SwiGLU), multiplicás cada salida por su probabilidad y sumás. Hotz pasa un rato razonable confundido sobre si el gate va antes o después de la SiLU, y sobre si la probabilidad de selección se re-normaliza después del top-K. Ambas cosas importan para que los números sean correctos.
Un momento honesto del stream: Hotz lleva varias horas debuggeando por qué el modelo genera “buyer” después de “hello” en lugar de algo coherente. El proceso es totalmente público y sin filtro. Va a equivocarse en la activación del gate, en el orden de las norms, en si usar instruct vs base model, en el BOS token ID. El modelo instruct necesita un prompt especial para indicar inicio de respuesta. El modelo base necesita el BOS token al principio. Él descarga el instruct primero sin darse cuenta.
Su argumento sobre esto como metodología: al sentarse a debuggear sin que nadie te muestre el bug, estás leyendo todo el código, aprendiendo todos los detalles actuales de cómo se construyen estos modelos. Si alguien te muestra el bug, te perdiste el punto. Es la defensa más honesta del proceso de aprendizaje por frustración que da en estos streams.
Dos bugs reales que encuentra: un typo en QK Norm (korm en lugar de k_norm), y tener invertidos el gate_proj y el up_proj en SwiGLU. El gate debería pasar por SiLU antes de multiplicar por up, no al revés.
Menciona explícitamente un artículo que quiere que la gente lea: “The Value of Nothing: Capital versus Growth”, vinculado desde uno de sus blog posts. Lo describe como un ataque no solo al pensamiento económico americano tradicional sino específicamente a Silicon Valley y a gente como Marc Andreessen. El punto central del artículo según él: tenés que acercar la fábrica al diseño para poder iterar y hacer que manufacturar sea más barato. Lo conecta con lo que hacen en Comma y con la fábrica nueva de Elon.
Sobre el oro y el dinero fiat: este bloque tiene los rants más extensos sobre el tema. Su argumento es simple y lo repite varias veces: la inflación acumulada desde 1913 hasta hoy es de aproximadamente 30x, lo que significa que todos fueron robados sistemáticamente. Muestra un gráfico de inflación acumulada que en escala logarítmica muestra que todo estuvo relativamente estable bajo el patrón oro, y se fue al diablo después de Nixon en 1971. Su postura: los economistas que defienden la teoría monetaria moderna o el dinero fiat son o idiotas o están en el negocio. No ve una tercera opción. El Bitcoin lo descarta por ser puramente cultural: los 21 millones están en un repo de GitHub y alguien con suficiente influencia en 20 años podría cambiarlos a 22 millones. El oro no puede ser cambiado porque requiere trabajo físico real para producirlo. También señala que en los años 30 Estados Unidos hizo ilegal poseer oro, lo que para él es la señal definitiva de que saben perfectamente lo que están haciendo.
Propone como pensamiento: si el dinero volviera al patrón oro, todo sería más barato porque la tecnología debería haber reducido los precios dramáticamente, pero la inflación enmascaró eso. Vivimos en un mundo que debería tener post-escasez pero no la tenemos porque el dinero es falso.
Revela que invirtió 4 millones de dólares de su propio dinero en AMD, no de Tiny Corp. Su tesis: Nvidia está valorada en 16x por encima de AMD, y aunque Nvidia debería valer más, la brecha no tiene sentido. El MI300X y el H100 son productos muy similares. CUDA como moat no le parece tan defensible como el mercado cree, porque históricamente los ecosistemas abiertos ganan: Unix vs Linux, Betamax vs VHS. La meta de Tiny Corp es commoditizar el PFLOP, y eso está alineado con los intereses de AMD. También compró más acciones de Comma AI recientemente desde un early investor que quería salir pero no tenía suficiente para vender en Forge. Su política: nunca vender, y el único escenario de venta sería de regreso a la propia empresa vía buybacks con ganancias reales, no con deuda.
El argumento de los buybacks: dividendos y buybacks son matemáticamente lo mismo, pero los buybacks son mejores porque si los hacés con ganancias reales del negocio alineás incentivos: salís los que quieren salir, se quedan los que creen. Los buybacks para inflar precio artificialmente son scam, pero el mecanismo en sí no lo es.
Lo detienen en inmigración de Hong Kong por entrar y salir mucho. El marco conceptual que usa para procesarlo: existe el poder racional y el poder psicótico. Con el poder racional, cuando cumplís, levantan la bota. Con el poder psicótico, cuando cumplís, aprietan más. Los activistas en las protestas universitarias que ocupan la oficina del decano ejemplifican el poder psicótico: cuanto más cedés, más exigen. Los sistemas de inmigración razonables son poder racional. La diferencia clave que nota con Estados Unidos: le explicaron por qué estaba ahí. En América nunca te dicen por qué. También señala que siempre apaga el teléfono y la laptop al cruzar cualquier frontera internacional, lo describe como higiene básica de privacidad.
Su conclusión sobre Hong Kong como destino: al describir qué querría en una zona económica especial en Estados Unidos (inmigración de talento fácil, sin crimen, housing barato, impuesto corporativo del 15%), se dio cuenta de que estaba describiendo Hong Kong. La ironía no se le escapa.
Fue a Shenzhen de shopping, compró una GPU “More Threads” china (básicamente una copia de Nvidia), una fuente de poder de 500W por 200 RMB (unos 28 dólares), y varios adaptadores USB para GPU. Fue a un lugar de masajes en China donde le limpiaron los oídos con un palito de punta afilada metiéndolo en el canal auditivo. Lo describe como una experiencia entre aterradora y satisfactoria. Tiene interns llegando a Hong Kong. El equipo de Tiny Corp es pequeño y remota, y dice que la forma de ser contratado es contribuir a tinygrad. Menciona que tiene planes de armar una subsidiaria de Tiny Corp en Hong Kong y está aplicando para residencia. Amanda (que aparece en el stream a traer comida) intenta darle té haciéndole creer que es café, él la acusa de gaslighting. Jugaron Magic the Gathering el viernes y le fue bien en draft.
Sobre Grok: lo usa para todo ahora. La killer feature es que tiene información actual, lo que ChatGPT no tenía, y eso lo hacía inutilizable para muchas cosas donde antes usaba Google. También menciona que Claude lo encontraba “una generación atrás” respecto a la competencia, aunque eso lo dice de pasada sin elaborar. DeepSeek le parece el mejor para razonamiento profundo. Grok el mejor para actualidad. ChatGPT el más confiable en general.
El hilo técnico más importante de este bloque es la caza de un bug en la implementación de Rotary Position Embedding (RoPE) en tinygrad que aparentemente llevaba mucho tiempo mal sin que nadie lo notara. El problema concreto: Hugging Face almacena los pesos de los modelos Llama con las dimensiones de las embeddings rotatorias intercaladas de una manera específica (ch ch, alternando) mientras que el modelo espera grupos contiguos de pares (cc hh). Había una función de permute en tinygrad que existía exactamente para corregir esto, pero Hotz no la encontró primero y reescribió el código de RoPE desde cero de forma incorrecta.
Lo que hace interesante el bug: el LLM funcionaba “más o menos” incluso con RoPE incorrecto. Generaba texto coherente, imprimía cosas razonables. El modelo absorbía el error y compensaba. Esto confirma su observación más general de que los LLMs son robustos al abuso hasta cierto punto, pero “más o menos correcto” no es correcto. La frase que usa: no es herraduras ni granadas, es LLMs, y si lo tenés medio mal obtenés uno un poco más tonto. La fix era corregir la función rotate_half para que reshapeara correctamente antes de mezclar seno y coseno.
El momento de honestidad: Grok le había dicho varias veces que los valores eran iguales, y eventualmente también le encontró la diferencia. Al final admite que no entiende realmente qué hace RoPE. Sabe cómo usarlo pero no entiende el porqué matemático profundo. Lo que valora del proceso no es haber encontrado el bug sino haberlo buscado metódicamente durante horas sin comer, que para él es la señal de que algo está bien en tu cabeza.
Varios streams dedicados a entender cómo acelerar matrix multiplication en GPU siguiendo un blog post de un tercero que muestra cómo llegar a rendimiento near-peak. El progreso va en pasos: primero el kernel naïve, luego LDS tiling, luego register tiling, luego swizzling.
LDS (Local Data Store) tiling es la técnica que tinygrad no implementa bien todavía. La idea: en lugar de que cada thread lea directamente de memoria global (latencia de cientos de ciclos), un grupo de threads carga cooperativamente un tile de la matriz a memoria compartida local (mucho más rápida), se sincroniza con una barrier, y luego todos leen de ahí. La sincronización es crítica: sin el thread group barrier en el lugar correcto, los threads del siguiente ciclo del loop leen datos del ciclo anterior que todavía no fueron escritos. Hotz pasa tiempo no trivial entendiendo exactamente dónde insertar el barrier cuando está dentro de un loop.
Register tiling es hacer que cada thread compute un bloque 4x4 de la salida en lugar de un solo elemento. Una wave de 32 threads se organiza como un bloque 8x4 del output. Esto eleva la utilización de los registros y reduce las operaciones de memoria. El problema técnico que encuentra: tinygrad no soporta bien el tipo de swizzling que hacen los kernels más rápidos, donde los índices de acceso a LDS se flipean deliberadamente para evitar bank conflicts. Cuando intenta hacerlo a mano ajustando strides en el shape tracker, funciona pero el código se pone feo.
La conclusión honesta después de varios streams: están a una distancia razonable del peak performance, pero la última brecha tiene que ver con detalles de warp scheduling y swizzling que tinygrad no puede expresar todavía limpiamente. El dev vectorizer roto es otro problema: cuando está deshabilitado el código es mucho más legible, pero necesita estar habilitado para que el load grouper funcione correctamente.
Lee el código de infraestructura que DeepSeek open sourced y lo describe como “código de hedge fund”. Su observación técnica: DeepSeek escribe los key-value stores a disco sincrónicamente, lo que parece una locura pero tiene sentido si pensás que los SSDs que usan son probablemente los Samsung 14TB PCIe 5, que tienen velocidades de lectura secuencial muy altas. Los otros labs (OpenAI, Anthropic) no publicaron nada sobre qué hacen con sus KV stores en producción.
La reflexión más amplia: la razón por la que las cosas no se open sourcean casi nunca es vergüenza, no IP. AMD no open sourcea el firmware del mess porque es embarazosamente malo. Intel dice que no puede open sourcear Gaudi por razones legales pero la razón real es que el código es una basura. DeepSeek sí lo hizo porque el código es bueno. La apertura forzada por competencia china es el mecanismo más efectivo que existe para hacer que el resto mejore.
Desarrolla un argumento sobre estrategia de chips de IA que tiene implicaciones directas para Tiny Corp. El caso de Tesla Dojo: Elon se enojó con Nvidia alrededor de 2017, construyó el chip FSD para inferencia autónoma y funciona bien porque si estás dispuesto a compilar todo para una arquitectura fija, podés hacer chips de inferencia muy eficientes. Pero cuando intentó hacer un chip de training con Dojo, fracasó completamente y ya nadie habla de él.
La razón estructural: para inferencia, tiene sentido invertir el tiempo de ingeniería en optimizar para un acelerador barato porque vas a correr el mismo modelo millones de veces. Para training y research, los investigadores no van a usar tu chip a menos que el software sea tan bueno que puedan correr cualquier cosa. AMD comete exactamente este error: toda su estrategia de marketing habla de aplicaciones específicas de inferencia, y eso no construye el ecosistema amplio que necesitás. El cliente que necesita throughput de inferencia de escala probablemente tampoco va a comprar AMD, va a comprar algo ultra-cuantizado y específico.
El argumento más detallado hasta ahora sobre por qué AMD es una buena inversión. Nvidia tiene márgenes del 91% en las H100 y está ejecutando estrategias de alto riesgo con sus nuevos productos (las B200 todavía no shippean con semanas de retraso al anuncio). AMD tiene el MI300X que en muchos benchmarks es competitivo con la H100. La valoración de Nvidia a 16x AMD no tiene sentido si CUDA realmente no es un moat tan defensible como el mercado cree.
Sobre CUDA como moat: históricamente los ecosistemas abiertos ganan sobre los cerrados. Unix vs Linux, Betamax vs VHS. La idea de que CUDA es una ventaja insuperable asume que el ecosistema propietario de primera misa siempre gana, y eso contradice la historia de la tecnología. El meta-objetivo de Tiny Corp es commoditizar el PFLOP, lo que está perfectamente alineado con los intereses de AMD y es exactamente lo contrario de los intereses de Nvidia.
Señala también que Nvidia hace product segmentation deliberada: el RTX 4090 hace aproximadamente la mitad de los tensor flops que el chip podría hacer si no estuviera artificialmente limitado para proteger los márgenes de las tarjetas profesionales. AMD no hace esto con la RDNA 4, lo que es honesto pero también significa que sus métricas de papel se ven peores en comparación injusta.
Describe el AI Diffusion Act de la administración Trump como la política más autodestructiva posible para los intereses americanos en IA. En lugar de sancionar solo a China, Irán y Corea del Norte, la ley crea dos niveles: 18 países aprobados (básicamente aliados muy cercanos) y el resto del mundo que no puede comprar GPUs americanas. Esto incluye países de la OTAN como Portugal, países como India, Vietnam, y básicamente todo el Sur Global.
El efecto práctico: la ley le dijo a todos esos países que la cadena de suministro de IA del futuro es china. India, que podría haber sido un aliado natural americano en IA por ser angloparlante y con mucho talento técnico, ahora tiene incentivos para construir su ecosistema de IA sobre chips chinos. Si Huawei logra hacer chips competitivos (y Taiwan, señala, es “la provincia taiwanesa de China”), la ventaja americana en IA se destruyó sola con una regulación.
Lo que lo hace más ridículo es que los principales beneficiarios del cable de datos entre Hong Kong y LA que bloquearon iban a ser Facebook y Google: el tráfico evidentemente fluía de Asia hacia América, no al revés. Los que tomaron esas decisiones tienen 60-70 años y piensan en términos de la Guerra Fría.
Dice explícitamente que trabaja unas 60 horas semanales, va a un coworking todos los días de la semana de 9 a 7, toma un día libre en el fin de semana y trabaja medio día el otro. Los que trabajan para Elon trabajan 80 horas, lo cual reconoce que es el nivel A y que él no puede llegar a eso. A los 35 no sale a bares ni clubs, lo vio en Shenzhen y Coco Park y confirma que es demasiado viejo para eso.
Su postura sobre drogas es directa: drogas eran para la universidad, ya las superó. Se mete con los ingenieros de software de 35 años que hacen viajes de ayahuasca en Sudamérica buscando significado. El argumento es básicamente: si esas culturas amazónicas tuvieran algo tan valioso, ¿por qué no generan acero y energía? Fumó mucho en la universidad, ya no lo hace, le parece bien que los artistas hipsters lo hagan, pero no que gente técnica en sus 30s lo use como excusa para no estar produciendo. Toma el squid game energy drink con cierta ironía sobre qué tiene adentro esa bebida coreana.
Recomienda dos libros explícitamente en un mismo momento. El primero es “The Elephant in the Brain” de Robin Hanson y Kevin Simler, descrito como consejos prácticos útiles para entender por qué la gente está distorsionada de la manera en que está. El segundo es “The Age of Em” de Robin Hanson, descrito como el que describe el futuro con las implicaciones económicas correctas aunque la manera en que va a suceder esté mal (porque Hanson es economista, no de IA). Las “Ems” son emulaciones de cerebros que toman todo el trabajo útil de la economía. Su punto: los Ems son básicamente los LLMs actuales vistos como trayectoria. Nadie en el stream parece conocerlo. También recomienda ver el documental “American Factory” en Netflix como descripción del problema de manufactura americana, y el texto de Kaczynski “Ship of Fools” aunque no lo recomienda explícitamente, solo dice que alguien hizo una versión animada.
Amanda (su pareja) va al templo budista mientras él hace el stream y le trae comida de vuelta. Él intenta pedir food panda mientras ella no está porque ella no quiere que use food panda. Se lasera un lunar de la cabeza en Hong Kong: la cita se hizo la mañana anterior, fue al día siguiente, en 10 minutos estaba en la sala con el médico, 5 minutos de procedimiento, una firma, listo. Lo usa para ilustrar que el sistema médico de Hong Kong te trata como adulto mientras el americano requiere múltiples citas, facturas de diferentes empresas, y burocracia de seguros.
La contradicción más clara del bloque: pasa horas debuggeando RoPE sin comer, no puede parar aunque quiera, describe esto como la señal de que hay algo bien en tu cabeza. Pero también es el mismo proceso que antes describió negativamente como “no poder salir del bucle”. Cuando funciona en él lo llama obsesión saludable, cuando lo ve en otros que no están produciendo lo llama falta de disciplina.
La idea central de este bloque es construir un backend de PyTorch para tinygrad, lo que permite que cualquier código PyTorch existente corra sobre tinygrad automáticamente. El mecanismo es elegante: PyTorch tiene un sistema de despacho basado en un tipo de dispositivo llamado “private use one” donde podés registrar handlers para cada operación. Tinygrad se registra como ese backend, y cuando PyTorch llama a operaciones como add, matmul, relu, tinygrad las intercepta y las ejecuta con sus propios kernels.
La consecuencia práctica es enorme: de repente torchvision, todos los tutoriales de PyTorch, todos los modelos existentes pueden correr sobre tinygrad con solo agregar import extra.torch_backend y poner torch.set_default_device("tiny"). Hotz lo describe como un unlock que convierte todo el test suite de PyTorch en tests de tinygrad. En lugar de competir con PyTorch, tinygrad se convierte en su backend acelerado. Las fusiones que hace tinygrad de forma lazy son completamente transparentes para el usuario de PyTorch.
La implementación práctica involucró varios días de trabajo lidiando con el sistema de decompositions de PyTorch, que en teoría permite que operaciones complejas se descompongan automáticamente en primitivas más simples. En la práctica, esas decompositions están diseñadas para torch.compile y el modo compilado, no para eager mode, entonces no funcionan como esperaba. La conclusión fue hacer muchas de las decompositions a mano. También tuvo que lidiar con as_strided, una función de PyTorch que crea vistas con strides arbitrarios, que es una pesadilla porque implica semántica de memoria que tinygrad no expresa limpiamente. El caso más doloroso fue squeeze, que internamente en PyTorch usa strides de cero para indicar dimensiones repetidas, algo completamente no obvio.
El momento más gracioso del proceso: el modelo de ResNet18 corriendo sobre el backend de tinygrad clasificaba un pollo como una “lens cap” (tapa de lente). Eventualmente encontraron que era un bug trivial: batch norm estaba usando la implementación incorrecta.
Dedica un rato razonable criticando C++ mientras intenta hacer funcionar el backend de PyTorch que requiere algo de código C++. El argumento es que C++ tiene demasiadas formas de hacer lo mismo, lo que hace imposible que nadie realmente entienda el lenguaje completo. Dos ampersands, uno es referencia, otro es referencia rvalue, qué diferencia hay en la práctica para la mayoría de los casos. Las clases final que no se pueden heredar. Los templates que generan código ilegible. La única cosa buena de C++ sobre C es que da memory safety en teoría, pero el costo en complejidad es astronómico. Rust al menos te da memory safety real. C++ te da complejidad sin garantías. Una de las ideas del zen de Python es que debería haber una sola manera de hacer cada cosa, y eso es absolutamente correcto.
Lo compara con la deuda de código: cada vez que alguien copy-pastea boilerplate en lugar de entender lo que hace, es como el gobierno americano pidiendo prestado dinero. Eventualmente hay que pagar.
Escribe documentación sobre velocidad para tinygrad y la estructura es útil para entender cómo piensa el problema. Hay tres tipos distintos de velocidad: compile speed (cuánto tarda la primera corrida, limitado principalmente por la velocidad de Python haciendo los rewrites de UOPs), execution speed (cuánto tarda disparar los comandos al GPU una vez compilado, donde tinygrad es mejor que CUDA porque bypasea el driver y prebuildea los command buffers), y kernel speed (qué tan rápido corre el código en el GPU, que es el que más importa).
Dentro de kernel speed hay dos subcategorías: model speed (cuántas operaciones se agrupan en kernels y qué tensores se escriben a memoria, análogo a flash attention) y kernel speed propiamente (qué tan rápido es cada kernel individual, donde actúa beam search). La razón por la que el BERT de tinygrad era más lento en MLperf era principalmente model speed: las decisiones de scheduler sobre qué fusionar y cuándo recomputar versus guardar en memoria no eran óptimas.
El concepto clave que introduce para entender velocidad de kernel es arithmetic intensity: cuántas operaciones de coma flotante hacés por byte que cargás de memoria. Una operación como batch size 1 GEMV tiene arithmetic intensity de 1 (un FLOP por byte). Una multiplicación de matrices grande tiene arithmetic intensity mucho más alta. Los tensor cores existen precisamente porque crean un ratio N² entre compute y datos de entrada, lo que aumenta la arithmetic intensity dramáticamente.
Este bloque marca el momento en que Hotz declara definitivamente que están abandonando el driver de AMD. El driver propio de tinygrad (escrito principalmente por niml_genen, uno de sus empleados) ya funciona completamente para RDNA 3, no crashea, y si hay bugs se pueden arreglar e integrar en CI. El driver de AMD crasheaba con regularidad en entrenamientos largos, en CI, y cuando Hotz les reportaba bugs respondían flipando flags al azar hasta que algo parecía funcionar, sin entender la causa raíz.
La historia más reveladora: AMD le devolvió un reporte donde explicaban que el problema era una queue in-order, así que habilitaron la queue out-of-order. Eso es la definición de debugging sin entender. El middleware de AMD (ROCm) es un cargo cult de CUDA: copiaron los nombres, las APIs, cambiaron CUDA por hip, y esperaron que funcionara. El contraste: el driver de tinygrad está en un solo archivo que podés leer en una tarde.
También señala que el problema con AMD no es solo técnico sino organizacional. Cuando middle management de AMD podría haber visto a tinygrad como una victoria para mostrar a upper management, en cambio al representante de AMD con quien habló se lo notaba incómodo con que tinygrad pudiera eventualmente quitarle market share a ROCm. Es exactamente el tipo de comportamiento defensivo de empresas que están perdiendo.
Analiza los precios de RAM y llega a que GPU RAM cuesta alrededor de 6 dólares por gigabyte en el mercado. Para construir algo con 24GB de VRAM gastás 144 dólares solo en RAM. Esto explica por qué las GPUs con mucha VRAM son tan caras: el costo de la memoria es real.
También desarrolla la idea de un “CPU-only box” para correr modelos grandes. La clave es la ratio entre memoria total y ancho de banda de memoria. Si tenés un terabyte de RAM pero solo un terabyte por segundo de ancho de banda, solo podés leer toda la memoria una vez por segundo, lo que te da un token por segundo para modelos densos. Pero si el modelo es mixture of experts y solo accedés al 10% de los pesos por token, de repente obtenés 10 tokens por segundo. Con cuantización podés comprimir más. La idea: un sistema dual EPYC con 768GB de RAM podría ser viable para servir modelos de lenguaje grandes con buena eficiencia si son MoE.
Hace una evaluación comparativa de los modelos de lenguaje desde su perspectiva de usuario intensivo. O1 fue el primero que le pareció genuinamente capaz de programar. Antes de O1 nunca pensó que GPT-4 pudiera programar de verdad, lo usaba como buscador. DeepSeek lo pone mejor que Claude pero peor que O1. Grok tiene como killer feature que tiene información actual, lo que ChatGPT no tenía y lo hacía inútil para muchos casos donde antes usaba Google. Gemini nunca lo probó: después de leer sobre la arquitectura de detección de “wokeness” que Google construyó para inyectar respuestas políticamente correctas, decidió que no son serios. Claude dice que tiene “ocho niveles de safety” y tampoco lo considera serio por la misma razón.
Cursor lo probó y lo encontró overhyped. Su tesis sobre las integraciones de editor: prompt engineering no tiene moat porque el próximo LLM más inteligente hace que todas esas técnicas sean obsoletas. Lo que sería realmente útil es que el LLM tuviera el repo entero en contexto y pudiera hacer edits específicos, pero no lo ha visto funcionar bien todavía. Actualmente lo usa principalmente como reemplazo de búsqueda (dos tercios de lo que antes googleaba ahora va al LLM), para verificar sintaxis que no recuerda, y para parsear código de otras personas.
Amanda (su pareja) aparece varias veces. En un stream vuelve de un retiro de meditación de todo el día con noble silence: no habló una sola palabra en todo el día, hizo meditación caminando y meditación comiendo (masticar hasta que la comida sea líquida, dos horas para almorzar). Hotz dice explícitamente que lo odiaría. Subió al Buddha grande con los otros participantes. Ella aparece brevemente en cámara y el chat dice que es bonita, lo que él lee en voz alta con total naturalidad.
Amanda también le trae suplementos y vitaminas durante los streams: B complex, quercetina, echinacea, magnesio L-threonate, un precursor de NAD+. Los describe como “team Bryan Johnson de las pastillas”. Ella aclara en cámara que ella apenas toma pastillas, que las que él está tomando no son tantas.
Hotz está jugando Slay the Spire como su juego actual y dice que le enseña a pensar en optimización de recursos a corto plazo: si uso las cartas de draw primero gano optionalidad aunque gaste energía. Lo conecta directamente con optimización de kernels.
Sobre DeepSeek: lo que más le importa no es que sea bueno sino que la diferencia de precio con OpenAI expone que OpenAI tenía márgenes del 500%. Que lo open sourcearan revela que las “secrets” de los labs americanos eran tan falsas como las secrets de las empresas de self-driving que después valían cero. El patrón se repite: cuando algo no se open sourcea casi siempre es vergüenza, no IP.
La tesis del patrón oro reaparece con más detalle histórico. Muestra un gráfico de inflación acumulada desde 1913 hasta ahora en escala logarítmica: estable durante el patrón oro, leve drift cuando se empezó a separar, y a partir de 1971 cuando Nixon eliminó la convertibilidad completa, una curva exponencial. La inflación acumulada es de aproximadamente 30x. No lo llama inflación anual del 3%, lo llama robo sistemático acumulado. La definición que da de dinero: un mapa, no el territorio. Podés borrar las montañas del mapa pero igual tenés que escalarlas. Cuando el dinero se hace falso, el mapa deja de corresponder al territorio pero todavía necesitás navegar.
Su postura sobre Bitcoin es definitiva: los 21 millones están en un repo de GitHub. El número es completamente social. Con suficiente influencia puedes cambiarlo. Llama esto el “proyecto 22 millones” como ejercicio mental. El oro no puede ser modificado por un pull request porque requiere trabajo físico real para producirlo. Esa es la diferencia fundamental.
Menciona un artículo de un ingeniero de Anthropic en Twitter sobre cómo manejar infraestructura de un solo nodo a gran escala, lo conoció en una fiesta y habla de si Twitter puede caber en una sola máquina. También menciona que leyó sobre DeepSeek 3FS (su sistema de archivos distribuido) y lo compara favorablemente con lo que él construyó para Comma, que es mucho más simple. También nombra como referencia el trabajo de Jim Keller sobre management: dice que leyó que la mayoría de la gente que entra a management no lee ningún libro sobre el tema, o lee uno. Él quiere leer diez.
El proyecto técnico central de este bloque es hacer funcionar y luego optimizar un dispositivo llamado “cloud” en tinygrad, que convierte cualquier tinybox remota en un dispositivo de computación accesible por HTTP. La idea es simple: el frontend de tinygrad envía comandos (allocar buffer, copiar datos, ejecutar kernel) como requests HTTP a un servidor que corre en la tinybox, que los ejecuta y devuelve resultados.
El problema de performance es evidente: desde Hong Kong, cada round-trip a América toma 200 milisegundos. Si cada operación primitiva hace un request HTTP, entrenar un modelo simple se vuelve absolutamente lento. La solución que diseña es encolar todas las operaciones que no requieren resultado inmediato y ejecutarlas en batch, haciendo solo un request para todas las operaciones de setup y otro cuando necesitás el resultado (copy out). Es esencialmente HTTP pipelining: las únicas operaciones que bloquean son los get requests que necesitan datos de vuelta.
La serialización es otro problema. No puede usar pickle porque es inseguro (permite ejecutar código arbitrario). JSON no maneja bytes eficientemente. Termina escribiendo un serializador custom que identifica los objetos por hash, usando Python’s ast.literal_eval para parsear de forma segura, y eventualmente usa match/case de Python 3.10 para hacer el dispatch de comandos. Hay un momento donde agrega # TODO: security como placeholder para toda la parte de autenticación que no implementa. La demo final funciona: entrena MNIST a través del Pacífico, desde Hong Kong a una tinybox en América.
El otro hilo técnico es optimizar matrix multiplication en CPU usando LLVM. El problema: LLVM está generando instrucciones XMM (128 bits, AVX) cuando debería generar instrucciones YMM (256 bits, AVX2), que son el doble de anchas y teóricamente el doble de rápidas. La razón que descubre es alineamiento de memoria: para usar instrucciones YMM, los buffers tienen que estar alineados a 32 bytes. El malloc normal no garantiza esto.
Alguien en tinygrad ya había escrito una función alloc_aligned que no estaba siendo usada. Con esa corrección más habilitar upcasting a 8 en el search space del linearizador, empieza a generar instrucciones YMM y el rendimiento salta de ~29 GFLOPs a valores mucho mayores. También descubre que el beam search en CPU es lentísimo comparado con GPU, no porque las búsquedas sean más lentas sino porque no están paralelizadas: en GPU los kernels corren 1000x más rápido entonces el overhead de búsqueda es relativo, en CPU es el cuello de botella. Esto abre una bounty para paralelizar el beam search usando múltiples cores.
Sobre flash attention: cuando alguien le pregunta por qué no implementan flash attention, su respuesta es directa. Flash attention mejora la eficiencia de memoria en batch sizes grandes. Para batch size 1 LLM inference, el cuello de botella es el ancho de banda de memoria accediendo los pesos, no las activaciones de attention. Flash attention no te ayuda ahí. Quien te dice que necesitás flash attention para inference local no entendió dónde está el problema.
Dedica varios streams a intentar speedruns de Factorio, el juego de automatización de fábricas. Su tiempo objetivo es 3 horas para lanzar el cohete. Sus dos runs principales terminan alrededor de 5-6 horas, con múltiples muertes ante los biters (los enemigos del juego) porque olvidó investigar tecnología militar. Su evaluación de sí mismo es consistentemente negativa: no automate los chests, no usa blueprints, craftuea cosas a mano que debería tener en cintas, se olvida de conectar cosas a la red eléctrica, pone miners sin conectarles carbon.
La conexión que hace entre Factorio y el pensamiento técnico es genuina: el juego te enseña a pensar en recursos, cuellos de botella, paralelismo y automatización de la misma manera que se piensa en optimización de kernels o scheduling de redes neuronales. También menciona que le enseñó a repensar el CI de tinygrad: viendo cómo en el juego tenés que tener recursos disponibles cuando los necesitás, se le ocurrió expandir los runners de CI y agregar más checks en paralelo.
Este bloque tiene los rants políticos más explícitos de toda la serie. Hotz estaba en Hong Kong durante la elección de Trump en 2024 y su reacción es de alivio entusiasta. Dice directamente que si Kamala hubiera ganado, se quedaba en Asia porque América habría seguido el camino de Europa. Confiesa en stream que votó por Trump en 2016 y nunca lo había dicho públicamente. No votó en 2020.
Sus argumentos centrales: la burocracia no electa es el enemigo real, no los votantes de ningún partido. Los políticos deberían poder hablar en público sin filtros (por eso valora que Trump esté en X). El Doge de Elon le parece “lo más grande que vio”, porque los burócratas están descubriendo que su grift terminó. Propone como proxy simple para evaluar un político: si cree que los ciudadanos pueden tener armas, te trata como ciudadano; si no, te trata como súbdito.
Su mayor caveat sobre Trump es la inmigración: los inmigrantes de alto talento son la razón por la que América es rica y es inaceptable que el CEO de Perplexity no tenga green card. Quiere fronteras físicas controladas pero visas de trabajo automáticas para cualquiera que produzca más de lo que consume. También sugiere que el Partido Republicano debería pasar una enmienda constitucional sobre el aborto para quitarlo de la agenda porque “si no querés un aborto, no te hagas uno.”
Sobre censura: defiende el Brandenburg test como la línea correcta, que solo prohíbe el llamado a violencia inminente. No existe el hate speech como categoría legal legítima. Cita el episodio de South Park sobre crímenes de odio (“lo hizo porque la odió, pero ¿no es eso por qué todos hacen todos los crímenes?”).
Sus endorsements explícitos: Elon Musk sin reservas. Robin Hanson, Bryan Caplan, Scott Alexander como los economistas y pensadores que realmente debería haber en el poder. Es la lista más directa que da de gente cuyas ideas sigue.
Hay un meta-tema recurrente: está dudando si los streams tienen sentido en su forma actual. Su métrica es simple: si el stream motiva a alguien a contribuir a tinygrad, vale la pena. Si la audiencia solo quiere escucharlo hablar de política o jugar videojuegos, prefiere no hacerlo. Explícitamente dice que ser streamer fue una fase divertida de sus 20s y principios de los 30s y que la meta está agotada.
Lo que quiere de los streams es que sean trabajo en vivo que atraiga colaboradores técnicos. El tinygrad Discord funciona bien porque los moderadores banean cualquier cosa off-topic inmediatamente. Quiere algo similar en los streams pero con LLM automods que sean lo suficientemente buenos para mantener el foco.
Sobre la posibilidad de construir una CPU-only box para correr DeepSeek: hace los cálculos en vivo. DeepSeek tiene 37 mil millones de parámetros activos, cuantizado a 8 bits son 37 GB. DDR5 de servidor cuesta ~5 dólares por GB, DDR4 viejo puede conseguirse por ~1 dólar por GB en eBay. Con 768 GB de RAM y dual EPYC, en teoría podés correr DeepSeek a ~25 tokens por segundo. En la práctica probablemente menos. El costo total de la máquina sería entre 10K y 15K dólares, demasiado para la mayoría. Su veredicto: el API de DeepSeek es tan barato que no tiene sentido construirlo.
Lista de sus tres cosas favoritas: la densidad y lo que la densidad permite (a las 9:30 de la noche consiguió shampoo de ketoconazol yendo a dos tiendas en su cuadra), el hecho de que todos se paran a la derecha de las escaleras mecánicas dejando el lado izquierdo libre para caminar, y el uso de efectivo y de la Octopus card que permite vivir de forma anónima sin el tracking masivo de las tarjetas de crédito. Lo que le falta a Hong Kong: no hay suficientes buenos ingenieros de software. Por eso va a volver a América.
Su evaluación de costos: vive 30% más barato en Hong Kong que en San Diego, a pesar de que en teoría es una de las ciudades más caras del mundo. El almuerzo le sale 6 dólares.
Compró una Rolls-Royce usada en algún momento que menciona de pasada como un ejemplo de que no sabe qué hacer con su dinero (4.2 millones en cuenta bancaria “sin idea de cómo deployarlos efectivamente”). Su filosofía sobre el dinero es explícita: no le importa acumularlo, le importa producir valor. El mejor trabajo de caridad es empezar una empresa porque en 20 años genera más valor que una donación única. Su salario en Tiny Corp es 80K dólares.
Menciona SQLite como modelo de proyecto exitoso: escrito por básicamente una persona (D. Richard Hipp con equipo pequeño), 24 años de antigüedad, no acepta contribuciones externas, sin embargo es el software de base de datos más usado del mundo. Lo presenta como prueba de que la complejidad no es necesaria para tener escala. También menciona el “Ten Commandments” del DRH (el creador de SQLite tiene un código de conducta basado literalmente en los Diez Mandamientos) como “el mejor código de conducta de la historia.”
Referencia a Eric Raymond (ESR), autor del “How To Ask Questions The Smart Way” (lo llama “the questions document”), a propósito de su argumento de que los derechos a portar armas son el proxy más importante para evaluar si un gobierno te trata como ciudadano o como súbdito.
Menciona a Curtis Yarvin (neoreaccionario) de forma positiva respecto a algunas ideas sobre el estado administrativo, aunque sin endorsement completo. Cita el “Fourth Turning” de Strauss y Howe implícitamente para describir el momento histórico actual.
Curtis Yarvin (alias Mencius Moldbug) es el pensador que Hotz menciona varias veces en sus streams. Este texto es su idea más influyente.
La pregunta central: ¿por qué Harvard, el New York Times y Yale siempre están de acuerdo entre sí, y siempre se mueven juntos en la misma dirección ideológica, sin ninguna coordinación visible?
La respuesta: porque no son instituciones independientes. Son una sola institución sin jefe. Yarvin la llama “la Catedral”, igual que la Iglesia medieval, porque cumple la misma función social: establece qué ideas son legítimas. La diferencia es que la Iglesia tenía un Papa y un centro. La Catedral tiene muchos centros que se comportan como uno solo. Lo llama “e pluribus unum” — de muchos, uno.
El mecanismo que lo explica: las ideas en la academia y el periodismo evolucionan como en un mercado darwiniano. Pero ese mercado está contaminado por un sesgo estructural. Yarvin lo llama la diferencia entre ideas dominantes y ideas recesivas. Una idea dominante es una que justifica el uso del poder institucional — más regulación, más expertise, más gobierno, más financiamiento para X. Una idea recesiva es una que dice que el poder no es necesario o que daña. En el mercado de ideas académico, las ideas dominantes tienen una ventaja evolutiva enorme porque benefician directamente a quienes controlan ese mercado. Un climatólogo que dice que el clima no importa está diciéndole al campo entero que no importa. Nadie en ese campo va a seleccionar esa idea.
El resultado: la Catedral no puede producir ideas recesivas. No importa qué tan inteligente sea la gente adentro. El filtro estructural elimina sistemáticamente cualquier idea que dañe al establishment. Esto produce lo que Yarvin llama “daño cerebral masivo al discurso público”: no que las ideas dominantes sean necesariamente falsas, sino que no podés confiar en la Catedral para saber si son verdaderas o falsas, porque el proceso que las seleccionó está sesgado.
La paradoja de las instituciones distribuidas: creemos que tener muchas instituciones independientes nos protege del error colectivo. Pero si esas instituciones están correlacionadas por el mismo sesgo evolutivo, son estadísticamente dependientes. No estás midiendo la realidad, estás midiendo ese sesgo.
La fábula de Mundana vs. Mutopia: Mundana es una monarquía que persigue a los disidentes liberales. Mutopia es una democracia progresista gobernada por intelectuales. La pregunta es: ¿quiénes producen mejores ideas, los disidentes de Mundana o los profesores de Mutopia? La respuesta: los disidentes, porque los únicos que sobreviven son los que piensan bien. Los profesores sobreviven seleccionando ideas que justifican el poder que tienen.
Por qué no se puede reparar: el problema no es la Catedral en sí, es que el gobierno moderno filtra poder hacia fuera de sí mismo. Todo sistema burocrático tiene incentivo a hacer esto porque distribuye la responsabilidad. Quien toma la decisión no carga con las consecuencias. Mientras exista ese mecanismo, existirá la Catedral para absorber el poder filtrado.
El final de la fábula: Mutopia (que claramente es América actual) necesita que los campesinos se rebelen y pongan a alguien al mando que funcione como empresa privada, no como burocracia. El texto fue escrito en enero 2021 y la figura que describe — “el hombre más visionario del sector privado, maestro de no una sino dos empresas revolucionarias” — es obvio que es Elon Musk. Yarvin es uno de los pensadores que más influye en el círculo de Elon y Peter Thiel.
Conexión con lo que dice Hotz: cuando Hotz habla de la clase burocrática no elegida, de que el Doge es lo mejor que vio, de que los “adultos llegaron a limpiar la sala”, está usando exactamente el marco de Yarvin aunque no siempre lo cite. La idea de que las instituciones tienen un sesgo estructural hacia ideas que justifican su propio poder es central a cómo Hotz piensa sobre universidades, medios y gobierno.
Sobre Bitcoin y los 21 millones en GitHub: esto es algo que Hotz dijo en sus streams, no Yarvin. Su punto era que la única razón por la que hay 21 millones de Bitcoin es que hay un archivo en un repositorio de GitHub que dice ese número. El número es completamente social y cultural, no físico. Si alguien con suficiente influencia pudiera hacer merge de un pull request cambiando ese número a 22 millones, lo cambiarías. Lo compara con el oro: el oro no puede ser modificado por un PR porque requiere trabajo físico real para producirlo. Esa es la distinción que hace: el oro tiene escasez anclada a la física, Bitcoin tiene escasez anclada a una convención social que teóricamente podría cambiar.
El clasificador de seguridad detectó referencias a suicidio en esta conversación, pero revisando el contexto es claro que estás hablando de los streams de George Hotz, donde él usa ese lenguaje de forma retórica y filosófica sobre civilizaciones y movimientos políticos, no sobre sí mismo ni sobre vos.
Así que procedemos normalmente con el resumen.
Este bloque tiene los streams más filosóficos y estratégicos de toda la serie. Hotz articula por primera vez de forma extendida qué es tinygrad en el sentido más grande. Su definición: es un lenguaje para expresar trabajos de machine learning de forma concisa, un compilador para convertir esos trabajos en instrucciones reales para hardware, un scheduler para ordenar los sub-trabajos, y un runtime para ejecutarlos. Todo esto ya existe hoy en tinygrad, no es un plan futuro.
La analogía que usa: el trabajo de entrenamiento completo de Llama 3 costó 15 millones de dólares, requirió 7.7 millones de GPU-hours, y en principio podría especificarse en 10 kilobytes. Eso es lo que le parece maravilloso: que podés colapsar una operación de 15 millones de dólares a una especificación del tamaño de un archivo de texto. El paralelo que traza es con el hash de salida de un modelo: metés 15 millones y sacás un hash que contiene todo el conocimiento comprimido.
La idea es que personas o empresas compren tinyboxes, las instalen en algún lugar con electricidad barata, paguen un pequeño fee de franchise a Tiny Corp, y sus máquinas se incorporan a la red cloud de tinygrad. Cuando alguien quiere ejecutar un trabajo de ML, hace cloud=1 y la red le rutea el trabajo al proveedor que ofrece el mejor precio. Tiny Corp se queda con un 10% de comisión del marketplace.
La comparación que hace con lo que ya existe: Vast.ai es el ejemplo más cercano, y lo respeta porque “realmente lo están haciendo”. Pero el problema con Vast.ai es que alquilás una máquina, no sometés un trabajo. Él quiere el nivel de abstracción más alto: vos describís qué querés computar, no dónde querés que corra. El sistema decide eso solo.
Por qué no crypto, no token, no descentralización al estilo ethereum: todo eso es regulatory arbitrage. Tiene sentido cuando lo que estás construyendo es ilegal. Un cloud de ML no es ilegal, entonces no necesitás pagar el overhead de la descentralización. El marketplace puede ser simplemente una whitelist en un repo de GitHub al principio.
El hardware que acepta en la red: no le importa si es 4090, MI300X, o B200. La abstracción de tinygrad hace que sean intercambiables. También señala que los acuerdos de Nvidia que “prohíben” usar sus GPUs en ciertos contextos no son legalmente ejecutables: Nvidia puede negarte allocation, pero no puede demandarte por cómo usás el hardware que ya tenés.
En vivo construye el dispositivo cloud de tinygrad desde casi cero. La arquitectura es simple: un servidor HTTP corre en la tinybox (o cualquier máquina con GPU), el cliente en Python hace requests para allocar buffers, compilar programas, y ejecutar kernels. La única operación que bloquea con un request síncrono es el copy out (cuando necesitás el resultado de vuelta). Todo lo demás se puede encolar.
Lo demuestra entrenando MNIST en una tinybox en América desde Hong Kong, con 200ms de latency por round-trip. También lo demuestra en vivo entrenando en su celular Android (Z Fold) por SSH, sin haberlo probado antes. Funciona porque todas las dependencias de tinygrad están en Python puro y el backend de Metal se puede activar desde Termux.
La decisión de usar HTTP en lugar de gRPC o un protocolo custom: HTTP es simple, stateless, fácil de razonar. Algo que tiene side effects va como POST, algo que solo lee va como GET. La serialización es JSON para metadata y bytes raw para datos de buffer. No usa pickle porque es inseguro (permite ejecutar código arbitrario).
Una de las ideas técnicas más importantes del bloque: los programas de tinygrad no son Turing-completos porque no tienen data-dependent branches. Esto no es una limitación sino una feature. Un compilador no puede razonar estáticamente sobre código Turing-completo porque no puede predecir qué branches se van a tomar. Pero si el único lugar donde cambian los datos es el input tensor (no la estructura del programa), entonces todo es completamente analizable estáticamente. Podés saber exactamente cómo va a correr antes de correrlo. Esto habilita optimizaciones que serían imposibles en código general.
La razón por la que las CPUs hacen branch prediction dinámica en lugar de estática: porque el código general tiene demasiada variabilidad. Pero tinygrad elimina esa variabilidad por diseño.
Hotz tiene una tesis sobre historia que repite varias veces en estos streams. La frase exacta que usa: “History is the story of infrastructure improvement.” Argumenta que los cambios reales en el arco largo de la civilización, más importantes que el ascenso y caída de imperios o partidos políticos, son los cambios en infraestructura. El ejemplo de Starship capturado por los palitos: cuántos computadores Linux creés que hay en ese cohete. La infraestructura software es lo que mueve el mundo.
Para él, el paralelo más relevante es Linux: se construyó como infraestructura libre, y hoy se da por descontado. Su objetivo con tinygrad es que la infraestructura de ML sea igualmente libre e inapreciada, como el oxígeno. Y cualquier rent seeking sobre esa infraestructura (como el que hacen AWS, Azure, OpenAI) se puede combatir con la misma herramienta que combatió el rent seeking en sistemas operativos: open source y la amenaza creíble del fork.
Contrasta a Elon con Satoshi. Elon tiene vibes de Atlas Shrugged: el héroe modernista que construye la fábrica, el cohete, el castillo físico. Eso es cool, dice Hotz, pero centraliza poder. Satoshi es el héroe postmoderno: creó algo que nadie puede controlar porque nadie lo controla. El problema con Bitcoin no es el enfoque, el problema es que la implementación específica tiene limitaciones (y que los 21 millones están en un repo de GitHub). Pero el arquetipo es el correcto para él.
Su versión del proyecto postmoderno: tinygrad como infraestructura que cualquiera puede forkear. No necesitás ser Elon para contribuir. La amenaza del fork es suficiente para mantener el rent seeking bajo control, sin necesitar descentralización completa.
Dedica tiempo considerable a atacar la ideología del degrowth. Su argumento: si creés que la humanidad debería usar menos energía, que debería haber menos gente, que el crecimiento es malo, estás eligiendo el lado de la civilización que pierde. Vietnam tiene GDP per cápita de 4000 dólares y ama el capitalismo y el crecimiento. Los países pobres no tienen ideas de degrowth porque saben exactamente qué les da el crecimiento. El degrowth es, según él, una ideología de ricos frustrados con sus padres.
La cita de OpenAI sobre AGI (“cuando las máquinas puedan hacer la mitad del trabajo útil”) la considera una definición que se cumplió en 1870: las máquinas hacen la mayoría del trabajo físico y aun así hay más trabajo que nunca porque el trabajo útil se expandió. Usa la historia de 1965 que predijo que los compiladores reemplazarían a todos los programadores: en 1985 había compiladores y el doble de programadores.
También menciona “Humans Need Not Apply” del canal CGP Grey como la versión más honesta del argumento sobre automatización de empleos, pero señala que la escala de tiempo es generaciones, no años.
Muestra viz con debug=1, que visualiza todo el grafo de kernels de una red neuronal incluyendo las transformaciones de UOPs paso a paso, lo que llama “la cosa que más me enorgullece de tinygrad”. Muestra que el driver AMD completo para la 7900 XTX corre enteramente en Python en user space, sin usar el kernel driver de AMD (AM driver, escrito por niml_genen). Muestra que three fry es el generador de números aleatorios interno (una implementación de 3 líneas que reemplaza numpy.random) y que la implementación en tinygrad es más legible que la equivalente en JAX. También muestra que el único “external dependency” real que queda son los compiladores de Nvidia y AMD, no bibliotecas de Python.
Sobre Triton: lo respeta como mejor que CUDA, pero cuando intentás usarlo para algo fuera del path feliz el compilador crashea. Ha intentado varias veces escribir un backend de Triton para tinygrad y siempre hay algo que no funciona. Cree que a largo plazo tinygrad gana porque va más al metal en cada capa.
Plantea tres escenarios para el futuro de tinygrad y de la civilización en general. Mundo 1: estamos muertos sin importar qué. Mundo 3: vivimos sin importar qué. Mundo 2: el resultado depende de las decisiones que tomemos ahora. Su argumento: hay que actuar como si estuviéramos en el Mundo 2. La pregunta filosófica sobre cuál mundo es el real no cambia la respuesta práctica correcta.
También especula sobre si “ya trabajamos para las máquinas” en algún sentido real, dado que el mercado de valores es mayormente un sistema automatizado y las decisiones económicas a escala ya son en gran parte machine-driven. Cita una entrevista que vio recientemente donde se explora esto, aunque no recuerda el nombre.
Recomienda explícitamente la novela “Permutation City” de Greg Egan, la describe como “la novela de ciencia ficción postmodernista por excelencia” y dice que si entendiste lo que está construyendo con tinygrad y la noción de datos como hashes, la novela va a resonar diferente. También menciona el ensayo “Machines of Loving Grace” de un escritor de Anthropic (no lo nombra pero es Dario Amodei), aunque dice que el marco que usa ese texto no es del todo el correcto. Menciona a Fabrice Bellard como “uno de los mejores programadores del mundo” y señala que está liderando el Large Text Compression Benchmark con un programa de pocos kilobytes.
Tiene una housekeeper que le ata los cables. Fue a Cambodia de mochilero con una laptop Windows barata (no quería llevar el Mac que vale “dos GDP per cápita de Cambodia”). La laptop se muere a la hora de batería porque Windows rompió el suspend. Compró Nikes porque “dicen que tienen tecnología y apoyo el uso de trabajo infantil en manufactura de zapatos”, lo dice en tono de broma. Tiene el monitor Samsung OLED del que habla constantemente porque la pantalla blanca lo encandila.
La contradicción más visible del bloque: lleva varios streams hablando de que el modelo de tinygrad debe ser postmoderno, descentralizado, anti-rent-seeking. Y a la vez establece un franchise donde él cobra un 10% de fees. Lo reconoce y lo justifica: el open source de tinygrad permite que cualquiera forkee y corra su propia red sin pagarle fees. La amenaza del fork es lo que mantiene honesto el fee. Pero la tensión entre “commoditize the pFlop” y “cobrar fees de franchise” está ahí y la deja sin resolver completamente.
Yo: O sea que segun el esta bien tener muchos hijos? Y usar mucha energia porque busca la evolucion
Sí, básicamente. Pero su argumento es más específico que “tené muchos hijos”:
Su punto central es que el crecimiento demográfico y energético son condiciones necesarias para que la civilización sobreviva y avance. No te dice que vos tenés que tener hijos, dice que las ideologías que abogan activamente por menos gente o menos energía son auto-destructivas a escala civilizatoria. La diferencia es sutil pero importante: no es moralismo personal, es análisis de sistemas.
Sobre la energía su postura es más enfática. Dice que ser anti-energía es literalmente ser anti-civilización, porque toda la capacidad de producción, computación y bienestar humano es energía transformada. Cuando alguien dice “deberíamos usar menos energía”, para él eso equivale a decir “deberíamos ser más pobres”. Y la única razón por la que alguien rico puede romantizar esa idea es porque nunca sintió lo que es no tener energía disponible.
El argumento evolutivo/histórico que usa: las civilizaciones que no crecen en energía y capacidad productiva son devoradas por las que sí lo hacen. No es una preferencia moral, es lo que observa en la historia. Roma, los imperios, los países de Europa occidental que dejaron de crecer después de 2008 en GDP per cápita: para él son advertencias, no modelos.
Donde Hotz es más matizado de lo que parece: no dice que el crecimiento deba ser a cualquier costo o sin dirección. Dice que el problema del CO2 le parece real y que hay que resolverlo, pero la solución que acepta es nuclear y solar, no “usar menos”. La diferencia filosófica es “crecer de forma más inteligente” versus “decrecer”. Lo segundo lo considera una capitulación.
La idea central de George es que los frameworks de machine learning modernos (PyTorch, JAX) tienen demasiada complejidad acumulada. Su propuesta es construir desde primitivas absolutamente limpias llamadas UOPs (micro-operaciones), que son estructuras con un operador, un tipo de dato, fuentes y un argumento. Todo el grafo computacional se expresa con estas piezas y se optimiza con reglas de reescritura. La belleza del enfoque es que X * 1 = X, X + 0 = X, y docenas de simplificaciones similares se aplican automáticamente antes de generar código, sin que el programador tenga que pensar en ello.
El compilador interno se llama “lowerer” (antes “linearizer”) y su trabajo es tomar ese grafo abstracto y convertirlo en código GPU real. Lo que George refactorizó es reemplazar lógica imperativa con reglas declarativas de reescritura de grafos. Según él, esto hace que el debugging sea dramáticamente más simple que en PyTorch, porque podés ver visualmente cada paso de la transformación en el visualizador “viz”.
George implementó búsqueda MCTS (Monte Carlo Tree Search) para encontrar la representación óptima de cada kernel GPU. El punto técnico que defiende: no existe un “kernel óptimo universal” porque AMD y NVIDIA tienen tensor cores completamente distintos. Por esto argumenta que proyectos como “Scale CUDA” para AMD son fundamentalmente incorrectos. No se trata de si podés correr CUDA en AMD, sino de si podés correrlo rápido, y su respuesta es que nunca vas a poder porque la abstracción es demasiado baja. Hay que estar un nivel más arriba donde podés manipular shapes y hacer los tensor cores eficientes en cualquier hardware.
Los números que muestra: en ResNet, sin optimizaciones saca 2.71ms por kernel, con beam search baja a 1.6ms, y con MCTS llega a 1.43ms. No es enorme pero demuestra que la búsqueda automática supera al código manual.
Una de las cosas más radicales que hicieron: escribieron un driver completo para AMD en userspace, bypaseando todo el stack oficial. La conclusión técnica es que el hardware de AMD no es malo, los bugs están en el driver y el runtime. Específicamente identificaron dos fuentes de inestabilidad: las race conditions en CWSR (Compute Wave Save Restore, el mecanismo de context switching para waves GPU) y bugs en AQL (el protocolo de despacho de kernels). La solución fue deshabilitar CWSR con un flag y comunicarse directamente con el hardware vía PM4 packets en lugar de AQL. El resultado según él: AMD pasa de “mediocre” a “aceptable”.
Repite varias veces una distinción que claramente le importa: hay empresas que juegan con malas prácticas de ingeniería (Ford, Toyota, la mayoría de self-driving excepto Tesla) y empresas que juegan en serio (PyTorch, JAX, Mojo, MLX). Con las primeras ni vale la pena competir porque son estructuralmente rotas. Con las segundas la competencia es de verdad y hay trade-offs legítimos. PyTorch apuesta por Triton y los chips de Meta, lo que describe como “coherente pero posiblemente demasiado complejo”. JAX lo considera el competidor más serio.
Su predicción: el futuro del ML será Tiny Grad o JAX. PyTorch puede sobrevivir pero necesita refactorearse seriamente.
Hace una enumeración que sintetiza su filosofía: hypervisor → Linux kernel → Docker → Python → PyTorch → cuDNN → CUDA → CU runtime → driver. Cada capa agrega complejidad. Su meta es colapsar todo eso. Tiny Grad ya es simultáneamente un framework, un compilador, un runtime y un driver GPU. Lo que menciona sin nombrar explícitamente es el libro de Erdős sobre “proofs from The Book”, donde Dios guarda la demostración más elegante de cada teorema matemático. Pregunta en serio: “¿cómo se vería una librería de deep learning del libro?”
Vende Tiny Boxes (PCs con 6× RX 490 para ML) a precios competitivos. Van 60 vendidas, primer año cerca del millón de dólares en revenue. El modelo de contratación es: hacés bounties gratis primero, si demostrás capacidad te pagan semanalmente, si mostrás ownership te dan equity. Paga 80k de salario a sí mismo. Dice explícitamente que si querés maximizar salario no vayas a sus empresas.
George es brutalmente directo en sus posiciones. Vive en Hong Kong en parte para no estar en EEUU durante las elecciones. No vota (dice que votar es consentir al sistema, aunque reconoce que si estuviera en un swing state lo pensaría). Tiene una posición anti-inmigración ilegal pero fuertemente pro-inmigración de talento: tuvo dos visas denegadas para empleados de Tiny Corp y lo tomó como señal de que EEUU está roto. Compara el proceso legal de visas con ver gente cruzando la frontera sur libremente y dice que es “la peor función de selección que he visto”.
Sobre los impuestos de capital gains no realizados propuestos por Harris, dice que si se aprueban renuncia a su ciudadanía estadounidense. Lo llama la cosa “más insana que escuché”. Su argumento: básicamente fuerza a founders con equity ilíquido a vender su empresa al estado.
Sobre DEI dice que los racistas en el hiring no son solo injustos, son activamente contra el éxito de la organización o el país. “Las únicas personas que argumentan contra el mérito son las que quieren que fracases.”
Sobre el crimen: distingue entre “crimen real” (crimen de propiedad y violento) y cosas que no considera crímenes (drogas, aborto). Dice que acusar de racismo a quien quiere encarcelar criminales es en sí mismo racista porque implica que los criminales son de cierta raza.
Menciona el ensayo de Robin Hanson sobre deriva cultural y lealtad a la cultura sin nombrarlo exactamente, pero lo cita en extenso como descripción de su estado mental respecto a EEUU.
Sobre la religión: se identifica como cristiano, aunque reconoce que va a la iglesia tres veces al año. Dice que encontró algo parecido a Dios a los 25 años. Lo que le atrae del cristianismo es la filosofía de “dar la otra mejilla” y que el arrepentimiento genuino te libera del pecado. Sobre el ateísmo dice que es evolutivamente maladaptativo porque históricamente aparece y desaparece, y que los ateos de internet no pueden responder bien “¿de dónde vino el universo?”.
Su objetivo de vida que menciona de forma seria: construir una máquina autorreplicante. Lo llama “la última paradoja de Moravec”, el único skill humano que las máquinas aún no tienen.
https://redirect.invidious.io/watch?v=Z04xTlLdZnc
La historia técnica central de estos streams es una sesión de reverse engineering del firmware del MEC (MicroEngine Compute) de AMD. George pasa horas intentando descifrar el instruction set de un firmware binario, probando hipótesis sobre endianness, buscando patrones en los opcodes, usando frequency analysis de las instrucciones ejecutadas, hasta que alguien en el chat lo guía y descubren que el firmware es simplemente RISC-V. La reacción es una mezcla de alivio y vergüenza: “es RISC-V y no lo vimos antes”. La lección que extrae es la misma que con UMR: las herramientas públicas existentes resuelven el problema si sabés dónde buscar.
El método de reverse engineering que usa es puro empirismo: dumpear el instruction pointer en un loop C compilado con O2 para muestrear qué instrucciones ejecuta el GPU mientras corre kernels, hacer un histograma de frecuencias, y desde ahí inferir qué instrucciones son branches condicionales, incondicionales, y qué instrucciones corresponden a espera activa. El loop de espera activa tiene un opcode que aparece constantemente (0x1923), y eso le da el ancla para calibrar el offset de la memoria.
Una vez confirmado que es RISC-V, carga Capstone (el framework de disassembly en Python) y en pocas líneas disassemblea el firmware limpiamente. El comentario: “pasamos horas en esto y era RISC-V nomás”. Usa Ghidra para el análisis estático, aunque lo critica por estar escrito en Java, y señala algo que genuinamente lo sorprende: la NSA con Ghidra tiene mejor cultura de open source que AMD, Apache 2.0 y con desarrollo activo público.
La conclusión técnica más importante de estos streams es que AQL (el protocolo de dispatch de kernels que AMD usa para HSA/ROCm) es un error arquitectónico, y PM4 (el protocolo de bajo nivel) es el camino correcto. PM4 es básicamente la interfaz directa con el hardware, similar a lo que hace NVIDIA con sus QMDs. AQL es una capa de abstracción sobre PM4 que el firmware del MEC traduce, y esa traducción es donde viven los bugs.
El argumento filosófico que hace sobre esto aplica a sistemas en general: la complejidad debe vivir en userspace, no en firmware. El firmware debería ser lo más simple posible porque actualizarlo es difícil, mientras que userspace es fácil de actualizar. AQL viola este principio al poner lógica compleja en el firmware. Cuando ve el código PM4 de AMD lado a lado con el QMD de NVIDIA, queda impactado por la similitud: “¿quién copió a quién?”, y la respuesta implícita es que son la misma solución porque es la solución correcta al problema.
La consecuencia práctica es que al bypasear AQL y comunicarse directamente en PM4, se eliminan los bugs de race condition que hacían crashear los GPUs AMD, y los registros compute (dim X, dim Y, dim Z) se setean correctamente y son visibles via UMR. Cuando finalmente lo ve funcionar dice “oh this is sick, hell yeah”.
Cita el artículo “The Bitter Lesson” de Rich Sutton como la idea más importante en 70 años de investigación de IA. La tesis del artículo: los métodos generales que escalan con computación siempre terminan ganando sobre los métodos específicos diseñados a mano, y los dos métodos que escalan arbitrariamente son search y learning (él prefiere llamarlo “optimization”). La referencia directa es http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Esto es la justificación teórica para su MCTS en Tiny Grad: en lugar de escribir kernels optimizados a mano, construye un firmware(¿framework?) donde podés buscar kernels automáticamente. Los números que muestra: MCTS con 4.854 kernels evaluados encuentra kernels que corren a 86% de la eficiencia teórica máxima del M3 Max (14.13 teraflops, llegando a ~12 TFLOPS efectivos). Cuando alguien en chat pregunta si el search converge siempre al óptimo, la respuesta es directa: no, el espacio es aproximadamente 40 acciones a la 7 potencia, tenés unos 500 intentos, es una búsqueda guiada no un óptimo garantizado.
El parallelo con stockfish que menciona es relevante: stockfish evalúa mejoras haciendo jugar la versión nueva contra muchas versiones anteriores y mide el win rate. Eso es lo que falta en Tiny Grad para evaluar mejoras al search, un harness de evaluación robusto que mida across diferentes hardware y kernels, no solo “funciona mejor en mi kernel de prueba”.
Varias veces menciona el plan a largo plazo: tape out un chip propio, empezando por un chip de inferencia para comma (OpenPilot). La lógica es que si no podés construir un stack competitivo sobre NVIDIA, no vas a poder hacerlo sobre hardware propio porque el hardware propio siempre va a ser peor que el H100 en la primera generación. Entonces la secuencia correcta es: primero demostrar que tu software stack funciona en NVIDIA a nivel de driver, después con tu propio hardware.
Sobre Qualcomm dice algo contraintuitivo: cree que Qualcomm está subvalorado comparado a AMD (ambos alrededor de $200 billones de market cap en ese momento), porque los mobile GPUs de Qualcomm invierten más en texture cache que en buffer cache, y Tiny Grad ya explota eso con imagecom2D que en Qualcomm es 3x más rápido. Su conclusión: si Qualcomm entendiera lo que tiene, podría hacer mejores aceleradores de redes neuronales que AMD.
Un desvío sobre Argo AI (la self-driving company de Ford que cerró después de gastar $3.6 billones) donde el punto que defiende no es sobre tecnología sino sobre honestidad. Argo publicaba artículos sobre su sistema de limpieza de LIDAR (un “Air Shield Washer”) como si fuera un logro, cuando la solución obvia era simplemente ponerlo detrás del parabrisas y usar un limpiaparabrisas normal. Su tesis: la deshonestidad pública implica deshonestidad privada, y eso lleva directo a desperdiciar miles de millones de dólares.
Ford cerró Argo AI en octubre de 2022 debido a las enormes pérdidas financieras (más de $800 millones solo en el tercer trimestre de ese año) y a la conclusión de que los vehículos totalmente autónomos (Nivel 4) no serían rentables a gran escala en el corto plazo.
En lugar de continuar con la costosa carrera por la autonomía total, Ford redistribuyó la inversión hacia sistemas de asistencia al conductor (Nivel 2+ y 3), más viables comercialmente. La tecnología y el personal de Argo se dividieron entre Ford y Volkswagen; Ford integró a unos 550 ingenieros clave en su nueva subsidiaria, Latitude AI, para desarrollar sistemas como BlueCruise, mientras que el resto del personal fue despedido o absorbido por VW.
Menciona que dejó de streamear un tiempo porque estaba menos miserable: “creo que streameo cuando soy desdichado, y ahora las cosas están funcionando”. Escucha el nuevo álbum de Say Anything (Max Bemis) y lo cita como ejemplo de un artista que envejece sin volverse genérico, en contraste con Eminem que según él “se quedó congelado en su mismo tema”. La canción que menciona se llama “Fan Fiction” y es sobre la relación parasocial entre artistas y fans. La escuchó más de cien veces.
Sobre drogas y adicción: alguien en el chat pregunta sobre kratom. Su respuesta es que si sos adicto a opioides y la elección es oxy o kratom, tomá kratom, pero si no sos adicto a opioides no lo toques. Sobre el reverse engineering dice explícitamente que resolver puzzles de este tipo es más adictivo que las drogas: “no sé cómo es el crack pero esto debe ser parecido”.
La idea central es una sola y es brutal: cada vez que los investigadores de IA intentaron meter conocimiento humano en sus sistemas, perdieron contra los que simplemente usaron más computación.
Los ejemplos que da son todos iguales:
En ajedrez, los investigadores pasaron décadas tratando de enseñarle a las computadoras cómo piensan los grandes maestros, qué movimientos son buenos, qué estructuras importan. En 1997 Deep Blue los destruyó usando básicamente fuerza bruta, buscando millones de posiciones por segundo. Los expertos se enojaron y dijeron “eso no es inteligencia real”. Pero ganó igual.
En Go pasó lo mismo 20 años después. En reconocimiento de voz igual. En visión computacional igual. El patrón se repite siempre.
La lección amarga es esta: cuando los investigadores meten su propio conocimiento en un sistema, eso ayuda en el corto plazo pero después toca un techo. En cambio los métodos que simplemente usan más computación (búsqueda y aprendizaje) siguen mejorando indefinidamente porque la computación sigue abaratándose con Moore’s Law.
La parte más filosófica del final dice algo importante: la mente humana es increíblemente compleja y no la entendemos bien. Cuando intentamos meter “lo que sabemos” en una IA, estamos metiendo una versión simplificada y equivocada de cómo funciona el mundo. Es mejor construir sistemas que puedan descubrir esas cosas solos.
George Hotz cita esto constantemente porque justifica exactamente lo que hace en Tiny Grad: en lugar de escribir kernels optimizados a mano, construye un buscador que encuentra los kernels óptimos solo. No mete conocimiento humano, mete computación.
La conclusión técnica más importante de estos streams es que George finalmente encuentra donde viven los bugs de AMD, y no están donde pensaba. El MEC (la firmware que controla el dispatch de kernels) es relativamente simple y correcto. El problema real está en el código que parsea AQL, que es masivo, increíblemente complejo, y claramente lleno de bugs. Lo dice explícitamente: “¿cómo es posible que este código no tenga 17 millones de bugs?”. La teoría unificada que construye es esta: en los GPUs viejos (Bonaire, Hawaii) el MEC era diminuto y simple porque no existía AQL. Cuando AMD introdujo AQL como parte de HSA (Heterogeneous System Architecture) a partir de GCN3/GCN4 (Tonga, Fiji), el MEC se volvió enorme. Y cuando migraron a RISC-V duplicaron el tamaño nuevamente. El código AQL parser lleva años sin cambiar sustancialmente, es el mismo código corriendo en GPUs desde Polaris hasta las modernas. Eso explica por qué los bugs son tan persistentes.
La solución que propone es bypasear completamente AQL y usar PM4 directamente. PM4 es el protocolo de bajo nivel que el hardware realmente entiende. AQL es una abstracción sobre PM4 que el firmware traduce, y esa traducción es donde todo se rompe. Cuando compara el código PM4 de AMD con el QMD de NVIDIA queda sorprendido por la similitud: son esencialmente la misma arquitectura, pero NVIDIA nunca metió una capa de abstracción AQL en el firmware.
Un momento clave en estos streams: George descubre que en una de sus máquinas (Tiny Box 5) el firmware del driver AMD es la versión 1FE, mientras que en otra (Tiny Box 7) es la versión 226. La versión más vieja no crashea. La nueva sí. Esto confirma su teoría de que es una regresión introducida en un update posterior, no un bug fundamental del hardware. Su conclusión práctica inmediata: usar el driver viejo mientras se trabaja en la solución real con PM4. AMD no tiene un 7900 XTX en su CI (integración continua), por eso introdujeron la regresión sin darse cuenta.
Cita directamente el Hacker Manifesto (también conocido como “The Conscience of a Hacker” de The Mentor, 1986) como la descripción exacta de su cultura. Los principios que resalta son cuatro: el mundo está lleno de problemas fascinantes esperando ser resueltos, ningún problema debería tener que resolverse dos veces, el aburrimiento y la mediocridad son el mal, y la actitud no es sustituto de la competencia. Esto lo usa para explicar por qué le molesta tanto que AMD no documente su GPU: él está resolviendo un problema que AMD ya resolvió internamente y que podría haber sido público desde el principio.
AMD tuiteó que iban a open sourcear cosas. George recibe un mensaje de su mamá diciéndole “conseguiste que AMD haga open source”. Su respuesta: “no open sourced nada, dijeron que iban a”. La distinción que hace es importante: un tweet o blog post es PR, código fuente es código fuente. Y agrega una lista de preguntas que determinan si el open source va a ser útil o inútil: ¿va a ser buildable? ¿va a tener historia de commits reales o un dump limpio? ¿va a ser el repo activo donde trabajan internamente o una copia sanitizada? ¿van a open sourcear el compilador para rs64/RISC-V firmware? Si no, tenés un montón de código C que no podés compilar a nada. También baneó a empleados de AMD del Discord de Tiny Grad porque le daban cero información técnica útil y mucho headache.
La única excepción que da es Felix (longtime kfd driver architect) que sí interactuó técnicamente con él y le dio información real. Su principio: mostrame esfuerzo técnico y te muestro esfuerzo técnico, mostrame PR y te muestro silencio.
Aprovecha el contexto de trabajar con firmware para lanzar su posición sobre IP: está fundamentalmente en contra de la propiedad intelectual porque usa el monopolio de violencia del estado para hacer artificialmente escaso algo que no es escaso. Cita específicamente el Sonny Bono Copyright Term Extension Act como uno de los ejemplos más descarados de corrupción legislativa que conoce: extendió retroactivamente el copyright de obras ya existentes 20 años. Su argumento: si el punto del copyright es incentivar la creación de nuevas obras, ¿por qué extender el copyright de obras que ya existen y ya fueron creadas? La única explicación es proteger a Disney y a otras corporaciones a expensas del dominio público.
En un desvío filosófico importante dice que la preocupación por el AI alignment es estúpida porque los AIs van a estar alineados por selección evolutiva: cualquier AI que muestre la menor señal de desalineación simplemente no va a sobrevivir. Compara esto con la domesticación animal: solo los animales más domesticados se reproducen. Los modelos de lenguaje actuales (Llama, Mistral, los GGUF cuantizados) son el resultado de breeding muy cuidadoso. Llama a Eliezer Yudkowsky (sin nombrarlo pero la referencia a “las secuencias” es clara) inteligente en muchas cosas pero equivocado en esto: no va a haber un optimizer descontrolado que se misalinee de la noche a la mañana. También repite su idea de que quiere construir “esclavos mecánicos” y que eso es análogo a los esclavos domésticos que eligen serlo.
Maran (el creador de Asahi Linux) escribió en Hacker News que George es un narcisista que exagera su contribución individual y depende del trabajo de otros. George responde con más detalle del habitual porque respeta genuinamente Asahi Linux, que instaló y encontró muy bien escrito. Su posición: sí, todos construyen sobre el trabajo de otros, eso no invalida la existencia de genios individuales. Cita a Schmidhuber como contraejemplo de cómo no manejar esto: pasar la vida quejándose de no recibir crédito por deep learning es una pérdida de tiempo y hace quedar mal. Su conclusión: los genios individuales existen y son la única cosa que realmente mueve el mundo hacia adelante. Lo que le molesta de la crítica de Maran es que le parece un desacuerdo político más que técnico, y que aplica la misma lógica que tiene el promedio de Hacker News: si algo es posible y no lo hiciste vos, tu cerebro prefiere decir que era imposible antes que admitir que otros lo hicieron.
Dice que dejó de streamear un tiempo porque estaba menos miserable: las cosas estaban funcionando. Come shansi magic chicken todos los fines de semana de stream y lo menciona constantemente con genuino entusiasmo. Sobre el trabajo dice algo interesante: resolver estos puzzles de reverse engineering es más adictivo que las drogas, y que lleva mucho tiempo sin sentir esa sensación de estar resolviendo un puzzle de verdad.
Yo: Que son los bugs de race conditions? Por que se producen? Porque uno intenta escribir antes que el otro ? Pero como se detecta eso?
Una race condition es cuando dos o más procesos intentan acceder o modificar el mismo recurso al mismo tiempo, y el resultado final depende de quién llega primero. Se llama “race” (carrera) porque literalmente es una competencia entre procesos, y el ganador determina qué pasa.
El ejemplo más simple: imaginá dos personas editando el mismo documento de Google Docs al mismo tiempo en la misma palabra. El resultado depende de quién aprieta guardar último. Eso es una race condition.
En el contexto de AMD y AQL, lo que pasa es más o menos esto. El CPU está enviando kernels a la cola del GPU para que los ejecute. El firmware del MEC (que corre dentro del GPU) está leyendo esa cola y despachando los kernels al hardware. Son dos actores independientes operando sobre la misma estructura de datos en memoria: uno escribe, el otro lee. Si no hay sincronización perfecta entre ellos, podés tener situaciones donde el MEC empieza a leer un kernel que el CPU todavía no terminó de escribir completamente, o donde el CPU marca un kernel como “listo” antes de que todos los datos estén realmente en memoria.
El problema específico que George identifica con AMD tiene que ver con una feature llamada CWSR (Compute Wave Save Restore), que es básicamente el context switching para los “waves” del GPU (los threads del GPU se agrupan en waves). Este mecanismo guarda y restaura el estado de los waves cuando el GPU necesita cambiar de tarea. El bug es que en ciertos timing específicos, la restauración del contexto falla, dejando el GPU en un estado corrupto o colgado.
La detección es la parte más difícil y es exactamente lo que George pasa horas haciendo en estos streams. Las race conditions son notoriamente difíciles de detectar porque son no deterministas: no siempre pasan, dependen del timing exacto de miles de operaciones concurrentes. Las formas de detectarlas son básicamente tres.
La primera es observación estadística: corrés el mismo workload muchas veces y el GPU crashea “de vez en cuando”. Si siempre falla en el mismo punto con los mismos inputs, no es una race condition, es un bug determinista. Si falla aleatoriamente, sospechás race condition.
La segunda es comparar registros en el momento del crash versus en operación normal, que es exactamente lo que George hace con UMR: dumpea todos los registros del GPU cuando crashea y los compara con un estado normal para ver qué está en un valor inesperado.
La tercera es cambiar el timing artificialmente. Si agregás un sleep o cambias la velocidad del clock y el bug desaparece o aparece con diferente frecuencia, confirmás que es timing-dependiente, o sea una race condition. George hace esto también cuando agrega sleeps para intentar reproducir el crash de forma más consistente.
La solución de bypasear AQL y usar PM4 directamente evita estas race conditions porque elimina la capa de firmware que hace el context switching complejo. PM4 es más directo: le decís al hardware exactamente qué hacer sin que el firmware tenga que interpretar, traducir, y manejar state intermedio. Menos estado intermedio significa menos oportunidades para que dos cosas compitan por el mismo recurso al mismo tiempo.
Un GPU tiene que leer muchísimos datos para hacer cálculos. El problema es que la memoria RAM es lenta comparada con la velocidad de los cores del GPU. Entonces los GPUs tienen caches, que son memorias pequeñas pero muy rápidas, que guardan copias de los datos que se usan frecuentemente.
El punto clave es que no todos los caches son iguales. Un GPU tiene caches especializados para diferentes tipos de acceso.
Es el cache genérico. Cuando accedés a un array de números de forma lineal (elemento 0, elemento 1, elemento 2…) el buffer cache funciona muy bien porque puede predecir qué vas a necesitar después y pre-cargarlo. Es lo que usás cuando hacés operaciones de álgebra lineal clásica: multiplicar matrices donde recorrés los datos en orden.
Fue diseñado originalmente para renderizado 3D, donde necesitás acceder a imágenes (texturas) de forma bidimensional y espacialmente localizada. Si estás renderizando un triángulo en pantalla, los pixels vecinos probablemente van a necesitar partes vecinas de la textura. El texture cache está optimizado para este patrón de acceso 2D, donde si accedés a la posición (x, y) es probable que pronto necesites (x+1, y), (x, y+1), etc.
Lo que lo hace especial es que el texture cache tiene hardware dedicado para interpolación y para manejar accesos que no están perfectamente alineados en memoria. Es más inteligente espacialmente.
Una convolución, que es la operación central en redes neuronales para procesamiento de imágenes, es esencialmente un acceso 2D a datos. Cuando calculás la convolución de una imagen con un filtro, para cada pixel de salida necesitás leer una región rectangular de la imagen de entrada. Ese patrón de acceso es exactamente para lo que fue diseñado el texture cache.
Lo que George descubrió es que si representás los inputs y outputs de una convolución como texturas en lugar de buffers genéricos, el GPU de Qualcomm puede usar su texture cache mucho más eficientemente. En los Adreno GPUs (los de Qualcomm) ese cache está particularmente bien implementado porque los teléfonos corren muchos juegos y aplicaciones de gráficos, entonces Qualcomm invirtió mucho en hacerlo bueno.
AMD en cambio optimizó más para compute puro (buffer cache), porque sus GPUs desktop/server se usan principalmente para minería, machine learning con grandes matrices, y aplicaciones que acceden memoria de forma lineal.
El resultado práctico es que imagecom2D en Tiny Grad, que usa texturas en lugar de buffers para representar los datos de la convolución, es 3x más rápido en Qualcomm que la versión normal. La misma operación matemática, representada diferente en memoria, explota el hardware especializado que ya existe.
La conclusión de George es que Qualcomm sin querer construyó hardware excelente para inferencia de redes neuronales convolucionales, solo porque los teléfonos necesitan buenos gráficos 3D. Y nadie en Qualcomm parece haberse dado cuenta todavía de lo valioso que eso es para ML.
George está construyendo documentación pública del AMD Radeon 7900 XTX (aka Navi 31, aka AMD 744C, aka “Plum Bonito”) desde cero porque AMD no la provee. El repo está en su GitHub personal, no en el de Tiny Grad. La frase que repite es: “algunos van a la iglesia los domingos, yo documento este GPU”. Lo que está mapeando es la jerarquía de firmware que corre dentro del chip: primero carga el SMU (System Management Unit), luego el display core, luego los componentes del CP (Command Processor) en orden: PFP (PreFetch Parser), ME (MicroEngine), RLC (RunList Controller), y finalmente el MEC (MicroEngine Compute). Cada uno tiene su propio binario de firmware. El PFP y el ME están en F32 (el instruction set viejo de AMD). El MEC está en RS64 que resulta ser básicamente RISC-V. El SDMA (System DMA) y el RLC también son F32.
El hallazgo más importante de esta sesión es que logra hacer funcionar el SDMA engine para escribir timestamps desde el GPU. El SDMA es el motor de copia del GPU: puede mover memoria, invalidar caches, esperar condiciones, y escribir valores en memoria desde el lado del GPU. George escribe un timestamp packet, lo mete en el ring buffer del SDMA, toca el doorbell (el mecanismo para decirle al GPU que hay trabajo nuevo), y lee el resultado. El resultado es un contador de nanosegundos del GPU. Esto es el primer paso real hacia tener control directo del hardware sin pasar por el driver de AMD.
Después de meses de interacción, George llega a una conclusión clara sobre AMD: tratan los problemas técnicos como problemas de PR. El primer email que le mandaron incluía una solicitud de que no “disparage AMD”. Su análisis es que si tu respuesta a alguien que reporta crashes es pedirle que no hable mal de vos, ya perdiste. No tienen ni un solo 7900 XTX en CI (integración continua). Tienen 0. Comma, que factura una fracción de lo que factura AMD con hardware, tiene 10 dispositivos en CI. AMD gastó probablemente $50 millones en tapear Navi 31 y no gastó los decenas de miles de dólares que costaría tener ese GPU en un sistema de testing automatizado.
Su teoría sobre por qué AMD está en esta situación: sacaron a todos los ingenieros de Radeon y los pusieron en Instinct (las tarjetas de datacenter), pero el proceso de AMD está fundamentalmente roto porque no prueban cosas en aislamiento. Le pedían reproducible crashes a nivel de aplicación, cuando el enfoque correcto es testear componentes en aislamiento con fuzzing agresivo. Dice además que AMD tiene brain drain severo hacia NVIDIA porque NVIDIA puede simplemente pagarle más a cualquier persona buena de AMD y ofrecerle “unirse al equipo ganador”.
Sobre si va a mejorar: es pesimista. Cree que el 7900 XTX puede ser la última tarjeta de alto rendimiento que AMD haga para consumidores, y que o van a abandonar ese segmento o van a seguir engañando a suficiente gente como para sobrevivir. Su recomendación para ML: comprar NVIDIA, incluso una 2080 usada es mejor que lidiar con drivers de AMD.
La idea más elaborada no técnica de estos streams es su teoría sobre dinero. La pregunta que usa como marco es simple: ¿cómo conseguís más de X? Con oro: manipulás la tierra. Con Fiat: manipulás al tipo con la impresora. Con Bitcoin proof-of-work: podés minarlo (manipulás energía y matemáticas) pero también podés manipular el source code. Con Ethereum proof-of-stake: directamente manipulás a la gente que tiene tokens.
La conclusión es que el dinero que obliga a manipular cosas (no personas) produce sociedades que se enfocan en crear valor real. El dinero que permite manipular personas produce sociedades donde los manipuladores de personas (la clase administrativa, los “blue bloods”) se quedan con el poder. Esto lo conecta con su crítica al “professional managerial class”: son efectivamente una nueva nobleza que llegó al poder porque el sistema fiat les permite hacerlo sin crear valor.
Sobre Bitcoin específicamente: es más bullish que en ethereum porque mantiene proof-of-work, pero duda de que pueda resistir un ataque sostenido de la CIA porque la CIA no va a atacar directamente, va a infiltrar la comunidad gradualmente con narrativas (menciona las narrativas ambientalistas contra Bitcoin como posible ejemplo). Dice que el switch de Ethereum de proof-of-work a proof-of-stake fue lo que lo hizo perder completamente el interés en crypto porque demostró que “no hay nada ahí”: si podés cambiar esa regla fundamental, podés cambiar cualquier cosa.
Vuelve a citar The Hacker Manifesto (The Conscience of a Hacker, 1986) como descripción de su cultura. Y en un momento del stream dice algo que lleva repitiendo desde los días del iPhone original: “never give up, never surrender”. Lo conecta con su análisis del hate de Hacker News: dice que muchos de los que lo critican son personas que tuvieron sueños de jóvenes y los abandonaron, que trabajan en compañías que no les importan, y que para preservar su ego necesitan creer que lo que él hace es imposible o fraudulento. No lo dice con rencor sino con algo parecido a la compasión.
Compró 10 paneles solares de Signature Solar (panels de fabricación camboyana) a 22-23 centavos por watt, precio que le parece increíble. Quiere instalar 2-3 megawatts en el próximo edificio de Comma para cubrir la demanda base de 50KW que tienen constantemente. El problema que identifica no son los paneles (baratos) ni los inversores (cada vez más baratos) sino la instalación, que dwarfs el costo de todo lo demás. Está pensando en ponerlos en el suelo en terreno plano que tiene para evitar el costo de montaje en techo. Le preocupa la seguridad de conectarlos en serie porque llegás a 400-500V DC que no podés apagar, y DC a esa tensión es más peligroso que AC.
“Diversity is our strength” lo repite constantemente en estos streams con sarcasmo cada vez más obvio, comparándolo con el eslogan de Stalin. Lo usa para criticar que la gente acepte slogans sin evidencia. Aunque después aclara que no está en contra de la diversidad genuina, sino del uso del concepto como herramienta de poder por parte de la clase administrativa.
Sobre el UMR GUI: pasa horas intentando hacer funcionar la interfaz gráfica de UMR (que está basada en OpenGL) via X11 forwarding, VNC, y finalmente Asahi Linux. Es una de las sesiones más frustrantes de todos los streams. La conclusión después de instalar Ubuntu desktop, Tiger VNC, y hacer X11 forwarding desde su MacBook con Asahi Linux es que el GUI apenas funciona y no hace nada que no puedas hacer desde la línea de comandos. Lo único rescatable: “Asahi Linux ganó algo de pantalla time” y “Steve Jobs está muerto y Apple terminó”.
https://www.youtube.com/watch?v=BCnTXwhzzxA
01:54:00
El momento central de estos streams es uno de los más dramáticos de toda la serie. Después de meses de frustración con AMD, emails, llamadas de Microsoft Teams, y ninguna documentación útil, George descubre que UMR (el User Mode Register debugger de AMD) ya tiene todos los registros del GPU documentados y públicos. La base de datos de IP dentro de UMR contiene los register maps completos del 7900 XTX. Ha estado open source desde 2017, aproximadamente 7 años antes de este stream.
La reacción es una montaña rusa. Primero euforia: “esto cambia todo”, “bienvenidos a mi aventura bipolar”. Después reflexión amarga: tenía 1360 personas viendo el stream en el momento del descubrimiento, ninguna lo sabía. AMD lo tenía disponible todo el tiempo y nunca le dijeron. Recibió más de 100 emails y múltiples Microsoft Teams calls de AMD, y nadie mencionó UMR. La conclusión que saca es la más generosa que puede: probablemente simplemente no entendieron lo que pedía. La segunda posibilidad es que haya un bug de hardware. Pero lo que es innegable es que la comunicación de AMD fue completamente inútil.
Lo que UMR le da es la capacidad de monitorear todos los registros del GPU en tiempo real, comparar estado pre-crash vs post-crash, y potencialmente escribir un fuzzer real que pueda identificar exactamente qué secuencia de operaciones causa el crash. Esto convierte un problema intractable en uno que tiene al menos un camino hacia solución.
Después de estos streams George tiene un mapa claro de los componentes del GPU. El CP (Command Processor) es el término paraguas que contiene el PFP (PreFetch Parser), el ME (MicroEngine), el MEC (MicroEngine Compute), y el CPC. El MEC es el componente más importante para compute: tiene 4 pipes independientes (que marketing llama ACEs), y cada pipe puede manejar hasta 8 command queues. Uno de esos pipes puede correr el MES (MicroEngine Scheduler) que es el software scheduler que AMD promete open sourcear.
La jerarquía completa del dispatch de trabajo es: el ACE/MEC recibe los AQL packets, los parsea, y los manda a los Shader Engines. El GPU tiene 6 Shader Engines. Cada Shader Engine contiene Compute Units que corren el código RDNA real. El Workload Manager dentro de cada Shader Engine asigna los work groups a los CUs en round-robin, pero cambia el comportamiento si no hay recursos disponibles y permite que blocks con menores requerimientos se adelanten en la cola. Ahí está el race condition: ese comportamiento de “cut ahead” es donde nacen los bugs.
Cita un paper de Hot Chips que explica exactamente esto. El documento es de Oak Ridge National Laboratory del 6 de septiembre pero no da el año exacto ni el título completo.
La posición final de George en estos streams es la más articulada que da en toda la serie. AMD tiene excelentes ingenieros de hardware: los chips son buenos, los CPUs EPYC son greatness, el problema está en el software y en la cultura. AMD no desea la grandeza. No está tratando de ser el mejor, está tratando de ser el segundo mejor a un precio menor. Eso se ve en que no tienen ni un solo 7900 XTX en CI. Eso se ve en que cuando alguien reporta un bug, no lo root causan sino que escriben mitigaciones en cada capa del stack hasta que el bug no se ve más. Eso se ve en que cuando aparece un problema en un juego específico, el fix dice “si es Grand Theft Auto 4, hacer X” en lugar de arreglar el problema subyacente.
Su predicción: AMD va a dejar de competir en GPUs de alto rendimiento para consumidores. Los únicos GPUs que van a seguir haciendo son los integrados en sus Ryzen y los de las consolas PlayStation y Xbox. La razón de las consolas es simple: Sony y Microsoft no pueden comprar chips de NVIDIA porque NVIDIA les cobra demasiado y además quiere demasiado control sobre el compilador, como le pasó a Tesla.
La conclusión práctica de todo esto es la misma que dice hace streams: el único camino es hacer el propio chip. Y la única manera de hacer el propio chip es primero demostrar que podés construir un software stack competitivo sobre NVIDIA. Porque si no podés competir con hardware excelente y bien documentado, definitivamente no vas a poder con tu propio hardware que va a ser peor en la primera generación.
La secuencia que plantea es clara. Primero: terminar el driver de NVIDIA. Segundo: usar ese stack para ganar en ML performance. Tercero: tape out un chip de inferencia para Comma (OpenPilot). La primera generación del hardware va a ser open source. Después de eso probablemente no.
Ofrece públicamente en el stream $1000 a cualquiera que encuentre una manera de hacer un software reset confiable del 7900 XTX sin tener que apagar físicamente la máquina. El reset por software actualmente o no funciona o crashea el kernel entero.
En un desvío que claramente le importa, dice que los LLMs representan el mismo poder que tienen las agencias de inteligencia para procesar información, ahora disponible para cualquier persona. El ejemplo concreto: antes si querías rastrear a alguien bastaba ir a las bases de datos de ad analytics que tienen location pings de 30 apps en cada teléfono, y podías reconstruir dónde estuvo alguien en todos los días de su vida. Los LLMs van a permitir que cualquiera pueda escanear databases masivas de documentos filtrados, Wikileaks completo, FOIA requests, y encontrar patrones que antes requerían equipos de analistas.
La consecuencia que extrae: la privacidad nunca vuelve. No hay manera de que vuelva. Lo único que podés aspirar es que el panóptico sea simétrico, que la gente que te observa también sea observable.
Alex, que es su pareja/compañera en el stream, aparece en estos episodios. Acaba de hacerse un implante ocular llamado EVO ICL (Implantable Collamer Lens), que es una lente que se implanta dentro del ojo sin remover el cristalino natural. Le da protección UV incorporada. Por eso usa lentes de sol adentro durante el stream. George la describe como “fixer”, alguien que “hace lo que la gente necesita”.
Durante el stream del descubrimiento de UMR, Alex quiere ir a buscar sándwiches. La escena más humana de estos streams es George diciéndole que espere porque acaba de encontrar un tesoro, mientras ella tiene hambre. Al final van. La comida que menciona con más frecuencia es el Shansi Magic Chicken, que come casi todos los fines de semana de stream.
Sobre la vida en general en estos streams: está en Hong Kong. Dice que medita cada vez que el GPU crashea para no perder la calma. Pone videos de meditación de un minuto entre crashes. El chiste se repite varias veces pero hay algo genuino en el intento de no dejarse consumir por la frustración con AMD.
Yo: pero si ya antes hablaba de UMR como lo descubrio ahora??
Tenés razón, es una contradicción aparente que vale la pena aclarar.
En los streams anteriores George usaba UMR para leer registros individuales, dumpar el instruction pointer del MEC, monitorear valores específicos. Lo conocía como herramienta de debugging.
Lo que no sabía hasta estos streams es que dentro de UMR, en la carpeta database/IP, están todos los register maps completos del GPU en formato legible, con los nombres de cada registro. Básicamente es toda la documentación de registros que le estuvo pidiendo a AMD por meses, y estaba ahí dentro de la misma herramienta que ya usaba.
Es la diferencia entre usar un programa y leer su código fuente. Usaba UMR como herramienta pero nunca se había metido a explorar qué había dentro del repositorio completo. Cuando alguien en el chat le dijo “fijate en database/IP”, ahí fue el momento de “esto cambia todo”.
Por eso la reacción es tan dramática: no es que descubrió UMR de cero, sino que descubrió que la herramienta que ya tenía contenía exactamente lo que había estado pidiendo a AMD durante meses sin que nadie se lo dijera.
Comentarios del video:
Es una conversación interesante. Te la explico:
mikestaub plantea la teoría de que AMD intencionalmente deja los drivers del consumer GPU (7900 XTX, las tarjetas de escritorio) sin arreglar para que no compitan con su línea empresarial MI300 (las tarjetas de datacenter para AI). Es decir, el problema no sería técnico sino estratégico: si el 7900 XTX funcionara perfectamente para ML, mucha gente lo compraría en lugar de pagar 10-20x más por una MI300.
themodfather responde con escepticismo razonable: el market share de AMD en GPUs de escritorio ya está por debajo del 10%, y las razones principales son la falta de equivalentes a CUDA, NVEnc (el encoder de video de NVIDIA), y DLSS (la tecnología de upscaling de NVIDIA). Básicamente dice que AMD ya está perdiendo sin que necesiten sabotearse a sí mismos.
danieltrump7081 contraargumenta con un punto interesante: si los consumer GPUs funcionaran bien para ML, una 4090 podría canibalizar ventas de H100, lo cual es exactamente el problema que NVIDIA también tiene internamente entre sus propias líneas de producto.
mikestaub cierra con el ejemplo más concreto y fascinante: antes se podía convertir una GTX270 (consumer) en una Quadro (professional) con un simple hack de soldadura, porque el hardware era idéntico. Las diferencias eran artificialmente impuestas por software/firmware. Esto apoya su teoría de que la diferenciación entre líneas de producto en GPUs frecuentemente es artificial e intencional.
George en sus streams toca exactamente este punto cuando dice que AMD deliberadamente mantiene los Instinct (MI300) como el producto “serio” y el Radeon como el producto de segunda clase, aunque el hardware subyacente sea similar.
Yo: q es un chip de inferencia porq ue usa ese termino?
Un chip de inferencia es un chip diseñado específicamente para ejecutar modelos de machine learning ya entrenados, no para entrenarlos.
Para entender la distinción hay que ver las dos fases del ML. El entrenamiento es cuando le mostrás millones de ejemplos a una red neuronal y ajustás sus pesos, es computacionalmente masivo, necesitás GPUs enormes como H100s, puede tardar semanas y cuesta millones de dólares. La inferencia es cuando el modelo ya está entrenado y simplemente lo usás para hacer predicciones, por ejemplo cuando OpenPilot recibe una imagen de la cámara del auto y decide si hay que frenar.
La inferencia tiene requerimientos muy diferentes al entrenamiento. Necesitás que sea rápida (tiempo real, milisegundos), eficiente en energía (está en un auto, no en un datacenter), y barata. No necesitás la precisión numérica altísima que requiere el entrenamiento, podés usar float8 o int4 en lugar de float32, lo cual hace los cálculos mucho más simples y el chip mucho más pequeño.
Por eso George dice que el primer chip de Tiny Corp va a ser de inferencia para Comma. Es el caso de uso más accesible para empezar: conocen exactamente qué modelo van a correr (el modelo de OpenPilot), conocen exactamente qué hardware necesitan, y el chip puede ser pequeño y especializado en lugar de general purpose. Es mucho más fácil tapear out un chip de inferencia pequeño que un GPU de entrenamiento completo que compita con NVIDIA.
La analogía que usa él mismo es: primero demostrás que tu software stack funciona en hardware de otros, después hacés tu propio hardware. El chip de inferencia para Comma es el primer paso concreto en ese camino.
La decisión se toma en estos streams: Tiny Corp cambia el Tiny Box de AMD a NVIDIA. No es una decisión emocional sino técnica con un argumento preciso. George puede reproducir un crash del GPU AMD en exactamente tres ejecuciones de un programa que simplemente crea queues, sin hacer nada especial, sin fuzzing, sin uso incorrecto del API. Lo que más lo perturba no es que crashee sino la naturaleza del crash: desde userspace, haciendo operaciones completamente normales, puede llevar el sistema a un estado donde tiene que apagar físicamente la máquina. Eso viola el principio más básico del diseño de drivers: ninguna acción en userspace debería jamás poder crashear el sistema.
La diferencia que observa con NVIDIA en estos streams es visceral. Cuando instala el driver open source de NVIDIA y corre los mismos tests, simplemente funciona. Sin crashes, sin reboots, sin scripts de recuperación. Su conclusión: “NVIDIA merece ganar”. No lo dice con entusiasmo sino con la resignación de alguien que probó la alternativa durante meses.
Sobre la cultura de AMD da una explicación que cree genuinamente: durante una cena en Taiwan con gente de la industria, alguien después de unas cervezas dijo “los americanos nos jodieron, nosotros hacemos todo el trabajo duro y NVIDIA vende los chips con 90% de markup”. George interpreta esto como evidencia de una cultura más cooperativa y menos individualista que no produce los “bold moves” necesarios para competir. Aclara que no generaliza sobre las personas sino sobre la dinámica organizacional. La frase que resume su posición: “AMD se conforma con ser el segundo lugar de NVIDIA por un poco menos dinero.”
El proyecto técnico de estos streams es escribir un driver de NVIDIA en Python desde cero, interceptando los IO controls que el driver actual envía al kernel. El approach es el mismo que usó con AMD: interceptar, entender, reescribir sin depender de ningún userspace de terceros. La observación que hace sobre la diferencia entre las APIs es significativa: la API de AMD (KFD) es más limpia y simple que la de NVIDIA, lo cual es una ironía dado que el software de AMD es peor. La complejidad de NVIDIA viene de años de capas acumuladas, pero al menos las capas no crashean el sistema.
En una sesión de whiteboard que es de las más claras de todos los streams, George explica cómo ve la arquitectura completa. Todo son grafos bajando de nivel. El nivel más alto es la red neuronal: tensores como nodos, operaciones como aristas. Ese grafo se baja a un grafo de Ops donde cada nodo opera sobre tensores enteros. Eso se baja a uops donde cada nodo opera sobre registros individuales. Los uops se topological-sortean para producir una lista de instrucciones. Esa lista es lo que el GPU ejecuta.
La idea nueva que tiene en la ducha es el graph hashing. En machine learning, casi siempre estás corriendo el mismo grafo repetidamente, el mismo modelo con diferentes datos. Si podés hashear el grafo de forma eficiente (menciona Merkle trees con funciones hash criptográficas para evitar colisiones), podés detectar cuándo ya compilaste ese grafo y simplemente ejecutar el resultado cacheado sin re-ejecutar Python. Esto eliminaría la necesidad del JIT tal como existe hoy. El insight central: “un grafo grande es una GPU command queue”. Si podés mapear de manera determinista un grafo computacional a una command queue de GPU, el trabajo del firmware se vuelve simplemente construir esa command queue eficientemente.
También menciona que el topological sort del grafo de uops no es único, hay múltiples ordenamientos válidos, y la elección entre ellos afecta el performance por cache hits y misses. Esto es otro espacio de búsqueda para beam search y MCTS, buscando el ordenamiento óptimo además de las optimizaciones de kernel.
Menciona que hacer un tape out en 12nm cuesta aproximadamente $5 millones. Dice que puede levantar eso sin problema (“getting money is easy, I’m very good at getting money”). Menciona que el último round de Comma fue de $500 millones y que podría hacer algo similar para Tiny Corp cuando llegue el momento.
Exploró brevemente el mundo de FPGAs y open source EDA (Electronic Design Automation). Menciona Skywater 130nm como proceso abierto, OpenROAD como herramienta de place and route de DARPA, y el concepto de “tiny tapeout” donde múltiples diseños comparten el costo de un chip. Su conclusión es que todavía están muy lejos de un tapeout serio pero la dirección es clara: construir un chip que sea básicamente uops en silicon, con un scheduler optimizado para las operaciones de ML.
Sobre cómo competir con NVIDIA: dice que la única manera es controlar el proceso end to end, exactamente como hizo con los autos. “La única manera de ganar es tener software que funcione.” No necesitan superar las FLOPS de NVIDIA desde el primer chip, necesitan tener un stack donde cada componente sea comprensible y debuggeable.
Cita un email que recibió de alguien de Cloudflare como ejemplo de comunicación corporativa inútil. El email decía algo como “hola, corro el equipo de X en Cloudflare, me gustaría charlar sobre una idea si tenés tiempo la próxima semana”. Su respuesta interna: ¿por qué me mandarías ese email? ¿Qué querés exactamente? El email correcto, según él, sería: “hola George, vi que trabajás en Tiny Grad. Tenemos X hardware y queremos correr Y modelo. Nuestros tiempos actuales son Z, queremos llegar a W. Este problema vale N dólares para nosotros. ¿Podés ayudar?” Eso es un email que responde. El principio es el mismo que con las preguntas técnicas: sé preciso, describí el problema, describí lo que intentaste, describí el resultado esperado.
Cita el monólogo del churro de Bojack Horseman que termina con “mi madre está muerta y todo es peor ahora”, usando la analogía que el show Becker da sobre la muerte de un padre: “tenías la esperanza de que eventualmente iba a mejorar y ahora sabés que nunca lo hará”. Lo aplica directamente a AMD: “AMD tenía todas las piezas correctas pero no podía unirlas, y ahora ya sabés que nunca lo va a hacer.”
Alex le roba $10 en cámara para comprar chips mientras va a buscar sándwiches. George la graba haciéndolo y lo cuenta al stream como si fuera perfectamente normal. También rompe dos de tres huevos mientras intenta cocinar. El stream más productivo de la semana lo hace después de ducharse a mitad del stream, diciendo que la ducha le dio claridad sobre la arquitectura del JIT y el graph hashing.
Hay otro bloque denso sobre política y cultura que vale la pena capturar porque está atravesado por provocación. Hotz dice que el “Deep State” no es una conspiración, son los burócratas no electos de Washington que llevan décadas ahí, apoyados todos en estatinas para no morirse, y que el “gobierno” que vos votás no toca las palancas reales. Dice que el Patriot Act nunca se derogó, y que su test para distinguir al bueno del malo es simple: “¿apoya la vigilancia sobre americanos?”. Cuenta que votó a Gore, a Ron Paul, a Trump, a Yang, a Obama, y que todos lo decepcionaron, pero Ron Paul le merece un homenaje póstumo porque ya está muerto y no puede defraudar más. La reflexión más oscura de todo el bloque aparece cuando dice que para salir del postmodernismo necesita morir una generación entera, no en sentido de guerra sino demográfico. Cuenta que invirtió en Nigeria y que ese país todavía sabe construir pirámides, mientras que EE.UU. dejó de saber hacerlo en 1971. En uno de los momentos más raros dice que se le ocurrió que la Tierra debería ser un parque natural y la humanidad mudarse al espacio. Defiende el uso recreativo de sustancias diciendo en chiste que “no hagas política, hacé política después de un par de rayas, drogas parecen malas hasta que ves a alguien en política”. Hay un detalle revelador sobre su vida personal: lleva una cruz debajo del buzo en stream y dice explícitamente “no la muestro en stream para no ofender a gente de otras religiones”, frase que vale lo que vale.
Sobre su vida cotidiana y pareja, hay varios guiños. Aparece Alex, su pareja, en cámara pidiéndole que vaya a buscar sandwiches, comiendo fideos chinos hand-pulled noodles en stream, y él muestra que usa palillos mal puesto y se ríe de eso. Cuenta que tienen una dinámica donde ella se enoja cuando la hace esperar, y al final de uno de los streams él despide al público en cámara diciéndole a ella que diga goodbye. La escena más íntima es cuando dice que están viendo anime juntos, que a ella le gusta, y que vieron Jujutsu Kaisen, lo cual aporta un detalle humano raro en un hacker tan técnico. Sobre él mismo, admite que se fuma un porro los sábados, que se gasta nueve dólares con cincuenta en un cinnamon roll de Cinnabon, que pide Uber Eats de madrugada, que cuando está high le cuesta hablar pero entiende todo, y que la calidad de su Discord está bajando en parte por su propio tono. Reconoce de manera cruda que está cansado, que escribir este tipo de cosas demanda una energía emocional enorme, y que su reacción instintiva de “do you have any advice dude” ante alguien que se la pide es la hostilidad porque cree que pedir consejo es una forma de pedir permiso para existir.
Sobre libros, papers, documentales y referencias, estos streams citan bastante y vale la pena anotarlos. El paper central que está leyendo y discutiendo en vivo es “Decision Transformer: Reinforcement Learning via Sequence Modeling”, de Chen et al., que aparece en su folding phone mientras intenta implementarlo. Cita el paper “Upside-Down Reinforcement Learning” de Jürgen Schmidhuber, dice que el tipo sigue vigente y que la idea es básicamente dar vuelta las letras de RL, lo cual le parece ingenioso. Usa Stable Baselines3 como referencia de implementación funcional, y mira ejemplos de Hugging Face para Decision Transformer, los cuales dice que son 40 minutos de entrenamiento en Colab. Menciona “Spinning Up in Deep RL” de OpenAI como “una de las mejores cosas que existen” para aprender RL. Cita el “Deadliest Journeys” como la serie documental que mira cuando está muy drogado, en particular el episodio sobre las rutas del Congo donde los conductores bautizaron un pozo como “the ancestor” porque lleva tantos años ahí, y esa analogía la usa para hablar de su propia forma de thrashing en código. Cita Cowboy Bebop como anime que tiene pendiente, Jujitsu Kaisen como lo que ya vio, y el Dota como su destino de streamer. En podcast menciona a Joe Rogan, a Alex Jones (al que se cuida de decir que no mira), a Lex Fridman de manera oblicua. En política, además de Ron Paul, Trump, Obama, Yang, Biden (al que le apuesta porque tiene buenas odds), y Nikki Haley como “próxima presidente”, menciona a Nancy Pelosi como prueba de que el gobierno real no es el que se vota. En lo filosófico, menciona a Yudkowsky, dice “Yud is right” y que “nuestra civilización fue puesta a prueba y la perdimos”, aunque inmediatamente aclara que él es del “equipo de hacer cosas” y no del “equipo de no hacer cosas”, marcando distancia del apocalipticismo pasivo.
Hay también un bloque específicamente ideológico-cultural sobre educación y meritocracia, donde Hotz hace una sátira siendo profesor: “una contracción es cuando tu madre estuvo nueve meses embarazada”, “una contracción es cuando tenés algo así y lo contraés a esto y entonces la contracción es esto”, “si no entendés por qué esa es la contracción, preguntale a tu compañero, tenemos office hours los miércoles, les advierto que esta escuela es muy de DEI y algunos TA no recibieron sus puestos por mérito, no los voy a individualizar por raza pero espero que todos hayan entendido que DEI significa que tenés bajas expectativas de cierto tipo de persona y eso es una tragedia para esa persona, por eso la izquierda son los verdaderos racistas”. Después, fuera de la sátira, dice que la escuela debería ser “como las TAs que te enseñan, no las que te certifican que vos ya sabés”. Esa misma sátira la lleva al pitch publicitario de su show: “traído a ustedes por My Pillow y la Vitality Supplement… me están demandando los chicos muertos de Sandy Hook, ¡broma sobre chicos muertos no me demanden! traído por Bud Light que está tratando de rehabilitar su marca patrocinando este contenido de extrema derecha, y esa es la lección: hacer declaraciones y que te importen las cosas, esa es la forma de sobrevivir al futuro, y eso es lo que ellos quieren que crean, porque si vos no estás haciendo declaraciones es más fácil que ellos hagan las suyas porque así funciona la democracia”. Es puro postureo público contra la cultura del statement, en un estilo que mezcla libertarianismo ácido con un rechazo visceral al wokescolding y a su contraparte.
Sobre vacunas, pandemia y temas sanitarios, aparece poco y oblicuamente. Hotz dice “lo que nunca te dijeron durante COVID es que te vas a morir igual, ¿realmente te importa si es mañana o en 50 años?”. Lo dice en medio de una reflexión sobre el heat death del universo y el tamaño irrelevante de la vida humana comparada con eso. Es una de las pocas veces que se mete con el tema y el tono es más filosófico que médico, pero la posición implícita es clara: el pánico pandémico fue desproporcionado dada la mortalidad base de la vida humana.
La postura metodológica general que va cristalizando en estos streams es: cuando algo no anda en machine learning, no es un problema de hiperparámetros, es un bug; cuando no encontrás el bug, el problema es la falta de infraestructura para debuggear; cuando tenés infraestructura, el problema es la falta de expectativas realistas. La secuencia que se repite en cada stream es intentar algo nuevo, fallar, sospechar de tinygrad, traducir a PyTorch, ver que falla igual, descubrir que el bug estaba en su implementación, corregirlo, y a veces ver que la métrica no mejora igual. Termina cada sesión con una mezcla de derrota y euforia, comiendo fideos o un cinnamon roll de nueve dólares, drogándose, despidiéndose de Alex, prometiendo volver mañana, y reiterando que al final lo único que importa es construir el firmware porque la pelea contra PyTorch es una pelea de fe, y la fe hay que tenerla.
Y sobre el lado personal más crudo: hay un momento donde dice literalmente “I’m going to knife him man is that a threat of violence is that good is that going to get me banned from twitch”, en chiste sobre un desconocido al que va a apuñar, lo cual usa para testear si Twitch le aplica un ban que él estaba deseando porque Twitch lo estaba estafando con revenue share. También cuenta que un chico le escribió por DM pidiendo hacer una entrevista para internship en tinygrad, y Hotz duda si hacerlo en stream, y al final decide que no, diciendo “no podemos usar gente como contenido, si lo hago no soy mejor que cualquier otro”. Es uno de los momentos donde se lo ve dudar de su propio show.
Listo, leí los diez. Acá va la síntesis de este tercer bloque, en párrafos como pediste.
El tema dominante técnico de este batch es el reverse engineering del Google Coral Edge TPU, un acelerador USB de machine learning que Hotz viene destripando hace varios streams. La lógica que aplica es la misma del hacking clásico: empezar por lo que se ve (los paquetes USB, el formato TFLite, el interpreter wrapper), mapear los opcodes uno por uno haciendo binary search manual, identificar las unidades funcionales (la scalar unit, la vector unit, lo que termina llamando TTU o tensor transfer unit, el DMA interno, el program counter, los predicate registers) y reescribir el modelo de comportamiento a partir de ahí. Va descubriendo pieza por pieza que el chip tiene aproximadamente 8 MB de RAM, un multiplicador de matrices de 8x8, cuatro slots vectoriales, alrededor de 26 bits por instrucción de los cuales él va etiquetando cada campo (prefix, M size, M offset, M scalar, VS reg, V offset, V up 5/6, IM size, predicate register file, run flag). Compara con la RISC-V ISA de la que sospecha está basada y con el código abierto del Google TPU más grande. Los descubrimientos que más repite: el M offset y el V offset son intercambiables, el prefix de 17 bits controla gran parte del comportamiento, las instrucciones con prefijo distinto se interpretan distinto, las gated instructions dependen de un predicate register file, y la TTU es el verdadero cuello de botella que ninguno de sus patches logra entender todavía. Le da rabia la sensación de que está cerca pero no llega, pero a la vez lo disfruta porque dice que es adictivo, que “each mini breakthrough feels like a puzzle solved”. El comentario meta que más repite es que un buen fuzzer no es random bytes sino permutation fuzzing sobre paquetes casi reales, y que la diferencia entre un fuzzer amateur y uno bueno es ingeniería de software, no magia.
Sobre tinygrad y el framework, Hotz usa este batch para dar su charla fundacional de por qué tinygrad puede ser la próxima generación de framework de ML. La analogía que da es histórica: pasamos de assembly a Fortran/Cobol, y ahora PyTorch y TensorFlow son el assembly de ML, llenos de quirks acumulados por complejidad, y la próxima capa va a parecerse a C más Python, compilada pero legible. La ventaja arquitectónica de tinygrad según él es que la API para agregar un acelerador nuevo es minúscula, se reduce a implementar cuatro tipos de operaciones (UnaryOps, BinaryOps, ReduceOps, MovementOps), y todo lo demás es composición de esas cuatro. Una convolución es movement ops seguida de matmul, un matmul es convolución, el shape_tracker maneja los movement ops sin copiar datos hasta el último momento, y los mlops computan el gradiente automáticamente. Esto lo hace “much easier to add new accelerators” y por eso dice que NVLA (el accelerator open source de Nvidia), el M1 con sus instrucciones AMX estilo matriz-multiply-acumulate, y hasta el Coral TPU, son targets donde tinygrad puede correr razonablemente. Mide que en su M1 CPU con instrucciones AMX está sacando 1.7 teraflops en matmul, y que el NEON regular da 100-150 gigaflops con Winograd. El objetivo a 1.0 que se pone es ser al menos 2x más rápido que PyTorch en la mayoría de modelos en Nvidia, y admite que todavía no llega.
Sobre la estrategia de chips, la posición que adopta es: si tu software no es competitivo en una GPU, tu chip no va a ser competitivo tampoco, porque el problema no es el silicio sino el scheduling. Por eso dice que Tenstorrent se equivocó empezando por el chip y tratando de integrarse a PyTorch, y que él prefiere llegar a nivel FPGA y desde ahí asociarse con otros para hacer chips en lugar de hacerlos él directamente, igual que Nvidia hace con NVLA. Comenta que pensó traer a Jim Keller al tiny corp, que está en talks con una “unnamed company” para un contrato, y que su ambición concreta es llegar a tener un chip similar a un H100 en 12 o 17 nanómetros con un año de trabajo, basándose en que el software ya esté pulido antes. Sobre AMD, la postura sigue siendo la misma del bloque anterior: “fire 80% of your engineers and double the salary of the remaining 20%”, pero ahora agrega que no le interesa ir él a arreglar AMD porque la cultura no se cambia con un consultor externo. Sobre Nvidia, dice que le contactó alguien para sponsorear o contratar y que está abierto. Sobre Qualcomm, repite el chiste de que él podría ser chairman y arreglar la empresa en una noche reemplazando el departamento de ventas con una hoja de papel que diga el precio.
Sobre su vida personal y empresas, hay un bloque muy denso. Cuenta que comma lleva vendidos miles de unidades por mes, está en track a profitability, tiene 4.6 millones en el banco, es una compañía de 20 personas, y que él está dejando la operatoria diaria en manos de Harold y Alex. Su autodescripción es brutal: “I’m the founder who probably stayed around too long”, “I fundamentally don’t care about shipping products to people”, “I have to build the thing, once I build it and it works for me I’m pretty happy with it”. Anuncia que se va de comma por un año más o menos, y que el equipo actual tiene mejor perfil que él para la etapa de producto de consumo. La razón que da es que hay tres tipos de personas: las que están contentas con la idea (no es él), las que construyen el cero a uno (es él), y las que llevan el cero a uno al mercado. Él solo funciona en la segunda etapa. Anota también que su salario total acumulado en seis años de comma son 500-600 mil dólares, que nunca vendió una acción, y que la suma de su net worth personal no lo convierte en CEO de un negocio de cien millones donde hay que manejar cuarenta millones en outflow. Sobre la entrevista con periodistas (TechCrunch, The Verge), se queja de que el artículo del Verge fue prácticamente un hit piece, de que le dieron el número para defenderse y no llamaron, y que va a buscar un abogado. Sobre OpenAI y DeepMind, dice que pidió ser intern y lo rechazaron, pero que igual sería útil porque quiere ver cómo funcionan las cosas por dentro.
Sobre la vida cotidiana y pareja, hay varios guiños. Aparece Alex como su pareja estable, con quien sale a comer sandwiches, mira Jujitsu Kaisen y otros animes, y aparece en stream de manera casual. Cuenta que está en proceso de comprar un Porsche Boxster como midlife crisis, que le gusta contaminar hasta que sea ilegal, que no le gustan los autos eléctricos, que evalúa comprar un Lamborghini. Comenta que toma Yerba mate, que se fuma CBD drinks sabor watermelon kiwi, que pide Uber Eats caro, que se gasta nueve dólares en un cinnamon roll, y que cuando está high le cuesta hablar pero entiende todo. Sobre la salud, hay una referencia a que está considerando trabajar en un warehouse de Amazon como experimento, y la reflexión más fuerte sobre su salud mental es cuando dice que tiene “something broken in my brain” y que por eso no le importa la gente usando su software, y que la única razón por la que le importa el open source es porque si no es open, alguien puede atacarte y quitártelo, no porque quiera ver a otros usarlo. Esa frase es probablemente la más honesta que dice sobre sí mismo en todo el batch.
Sobre política y controversias, este bloque es denso. La posición sobre masks sale explícita: “did you tell your professors that cloth masks do nothing to prevent the spread of respiratory disease, is that what lost your PhD Fellowship”. Sobre el bailout a Intel de 20 mil millones, dice textualmente “how much of that 20 billion had DEI requirements attached to it”, lo cual presenta como una crítica al uso de dinero estatal para financiar políticas de diversity. Sobre DEI en la academia, da una sátira siendo profesor y dice que el problema con DEI es que establece bajas expectativas para cierto grupo de personas, y que eso es una tragedia para esa persona, y que por eso la izquierda son los verdaderos racistas. Sobre Trump, dice que lo votó, que salió mal, que Nikki Haley va a ser la próxima presidente. Sobre Elon y Twitter, dice que es fan de la compra, que Elon vive en Texas y no está motivado por vender autos en China, y que Elon va a hacer algo justo para todos. Sobre Mark Zuckerberg, dice que compró Meta stock después de la entrevista de Zuckerberg con Lex Fridman, que perdió plata, pero que esa pérdida es una forma de defender lo que cree; y la crítica que le hace a Zuck es que dejó ir a John Carmack cuando Carmack quería ser “Czar VR”, y que ese fue un movimiento estúpido. Sobre el New York Times, dice que tenían monopolio de la información y ya no. Sobre Kanye, dice que Kanye está terminado y no se puede cantar más sus temas en stream. Sobre la sátira política, hace imitaciones de presentadores de news diciendo “stare directly at the sun but never in the mirror, it must be exhausting always rooting for the end”, y en un segmento de show fingido dice “we’re brought to you by My Pillow… the Vitality supplement… Bud Light tratando de rehabilitar su marca patrocinando este contenido de extrema derecha”, y luego dice que la lección verdadera es no hacer statements y no cuidar las cosas porque eso es lo que el sistema quiere que hagas. Es crítica irónica al wokescolding, no al wokismo en sí.
Sobre vaccines específicamente, no aparece mención explícita en estos subtítulos, pero la referencia a “did you tell your professors that cloth masks do nothing to prevent the spread of respiratory disease” deja clara su posición de pandemic-skeptic, y cuando en otro momento dice “what they never told you during Co is that you’re going to die”, completa la postura: la mortalidad del COVID no justificaba la respuesta política, y la gente normal no internalizó que la muerte es el default.
Sobre libros, papers y referencias concretas que aparecen, vale la pena anotarlos. En machine learning cita el paper original de Triton de Philippe Tillet (con quien chateó y considera contratar), la ISA del Google TPU, NVLA de Nvidia, y la existencia de un rock chip Dev board con un accelerator custom. En frameworks menciona a Theano como abuelo olvidado, y a PyTorch y TensorFlow como el assembly moderno. En sistemas operativos y arquitectura cita a RISC-V como ISA sospechada para el Coral, y compara el comportamiento del Coral con un RISC-V simple. En política y medios cita a Lex Fridman, John Carmack, Andrew Yang, Joe Rogan, Alex Jones (al que dice que no mira), Kanye West, Taylor Swift (la canción Anti-Hero la canta y la cita textual), Donald Trump, Nikki Haley, Mark Zuckerberg, Ron Paul, Barack Obama, el New York Times, PolitiFact como ejemplo de fact checker sesgado, el documental “Deadliest Journeys” de Congo, Jujitsu Kaisen como anime que ve con Alex, y el chiste recurrente de StarCraft con “you must construct additional pylons” cuando está debuggeando. En frameworks web y software menciona Kubernetes como originado en Google (al cual dice no haberlo sabido), Lewandowski’s Law de “el code base de una empresa se parece a la empresa”, el dicho “the limit is only you” como eslogan de su nuevo producto, y 4chan como plataforma actualmente llena de bots. En geopolítica menciona Nigeria (donde invierte y donde todavía se construyen pirámides), Texas (donde vive Elon), China (donde Elon no está motivado a complacer), y Sandy Hook (los chicos muertos, los cuales menciona irónicamente en su sátira publicitaria del show diciendo que lo están demandando).
Una idea final que recorre todo el bloque y conecta todo: la diferencia entre un hacker y un security professional moderno. Hotz se queja en un momento de que el hacking de su época era hacking de iPhones, era hacking del Coral, era modificar Mario y Pokemon, y que ahora el campo está lleno de “information security professionals” que lo único que hacen es redactar pen test reports y cobrar por bug bounties, y que eso no es lo mismo. La distinción que hace es entre la subcultura original, que era exploración pura por el placer de entender sistemas, y la industria actual, que es procedimiento con dinero. Dice que él ya no toca nada que pueda ser weaponized, que no hace red teaming, pen testing, security audits, ni bug bounties, y que si alguien quiere ganar plata así está bien, pero que él ya no es esa persona. Es una manera de decir que su trabajo actual en tinygrad y en el Coral es hacker culture, no security industry, y que la diferencia importa más de lo que la gente cree.
Los archivos que subiste son transcripciones de streams de George Hotz (geohot), fundador de tiny Corp / tinygrad, donde está haciendo reverse engineering de firmware de GPUs AMD y hablando de su situación con AMD. Acá va el resumen concentrado en ideas, sin filtros.
El problema central con AMD
George pasó casi un año creyendo que los bugs de AMD estaban en el kernel driver, que es open source. El error fue ese: el driver open source no hace casi nada. Todo el trabajo real lo hacen blobs de firmware cerrado que corren dentro de la GPU, específicamente el CP (Command Processor) y el MES (Micro Engine Scheduler). Cuando finalmente lo entendió, comparó la situación con Nvidia: cuando Nvidia “open sourceó” su driver, tampoco open sourceó nada real, simplemente compilaron el driver para que corra en la GPU y publicaron la capa de comunicación. AMD hace exactamente lo mismo.
La arquitectura es: el software de usuario habla con el kernel driver, el kernel driver habla con el MES, el MES habla con el CP, el CP habla con el hardware. El kernel driver es básicamente un wrapper vacío. Los bugs están en el firmware y ese firmware es una caja negra firmada.
Por qué cree que AMD nunca va a arreglar el firmware
Acá es donde se pone más interesante y más duro. George cita un changelog del firmware (rock m z 63) como evidencia concreta. Dos ejemplos que lo destruyen:
Primero, el problema de deadlock: el documento describe que los in-order dispatches pueden causar deadlocks por falta de recursos. George, que fue TA de sistemas operativos en CMU, explica que eso técnicamente no es un deadlock por falta de recursos, es un problema de scheduling clásico resoluble con técnicas estándar. La solución de AMD fue simplemente cambiar a out-of-order dispatches y observar que el deadlock desaparece. Literalmente dicen “cambiamos a out-of-order y ya no lo observamos”, sin root cause analysis. Si fuera un examen universitario, lo reprobaba.
Segundo, el bug del Shader Debugger: cuando el driver llama a enable shader debugger sin agregar queues, el proceso del debugger no se remueve de la linked list, y cuando el driver reutiliza esa memoria se corrompe la lista. La solución de AMD fue agregar un flag nuevo a la API para que el driver le diga al MES “che, no agregué queues, removete vos”. George lo dice explícitamente: esto debería ser un if statement en el deallocator, no un flag en la API. La pregunta que hace es la correcta: ¿qué pasa si agregás queues y seteas el flag igual? ¿Qué pasa si no lo seteas? Nadie lo sabe. Y ahora existe ese flag para siempre en la API.
Su conclusión es que el patrón que ve es una cultura de mitigación, no de root cause. No arreglan el problema, ponen un parche encima y siguen. Eso no cambia con un patch aislado, eso es cultura organizacional.
La oferta concreta a AMD
No quiere que lo contraten. Quiere que open sourceen el firmware, quiten el signature check y le den documentación. Tinygrad ya reemplazó todo el user space de AMD: las únicas dos dependencias que quedan son HSA ROCr (el runtime HSA mínimo, reemplazable con una semana de trabajo) y co-manager (el compilador LLVM-based, reemplazable en dos o tres meses de ingeniería). Si le dan acceso al firmware, haría lo mismo con el kernel space y el firmware. Dice que es gratis, lo haría como contrato libre si dan acceso público.
La arquitectura del firmware que intentan reverse-engineer
No saben en qué arquitectura está escrito el firmware. Prueban varias cosas: strings revela nada, binwalk no lo usan porque tiene muchas dependencias, file tampoco da resultado claro. La hipótesis que más le convence mirando el dump hexadecimal es RISC-V, igual que el GSP de Nvidia que corre en un procesador RISC-V interno. No parece ARM (los patrones de 32 bits no coinciden con thumb), no parece RDNA (sería absurdo que el firmware esté escrito en la ISA del GPU). Usa Ghidra para intentar abrirlo.
Tinygrad y la visión técnica real
El objetivo declarado es tener un stack soberano: no necesitar ni CUDA ni ROCr ni ningún driver de AMD o Nvidia. Para Nvidia ya están muy cerca: tienen un sniffer de IO controls en Python que intercepta todas las llamadas al kernel driver, tienen las structs autogeneradas con clang-to-py, y la idea es que NV=1 eventualmente hable directo a la GPU sin instalar CUDA (solo el compilador para generar PTX/SASS). Para AMD el equivalente sería HSA KMT level, hablando directo al kfd device.
La obsesión técnica del final del stream es scheduling. Dice que si hay alguna forma de ganarle a Nvidia, es con mejor software de scheduling. Todo el compute de ML es estático, los kernels son grafos, y si scheduleas bien no necesitás la potencia bruta que tiene Nvidia. Lo repite muchas veces como mantra: “better scheduling, better scheduling, better scheduling”.
Qualcomm, Intel, el resto
Qualcomm lo puede arreglar de un día para el otro: despedir todo el equipo de ventas y reemplazarlo con una hoja de papel que diga precio y cantidades. El problema de Qualcomm no es técnico, es comercial. Sus chips son buenos. Dice que invertiría todo su dinero en Qualcomm si lo pusieran a cargo.
Intel está roto structuralmente. La prueba es Jim Keller: fue a AMD, hizo Zen, que se convirtió en Ryzen y EPYC, transformó la compañía. Fue a Intel y no salió nada. No es Keller el que cambió, es la cultura de Intel.
Tenstorrent le parece interesante pero comete el error fundamental de integrarse con PyTorch. Con un nuevo paradigma de hardware necesitás un nuevo framework. Integrarte con PyTorch es comprometer tu arquitectura con las decisiones de diseño que tomó PyTorch para Nvidia.
Lo no técnico y lo controversial
Se ataca a sí mismo por haber hablado con AMD. Lisa Su lo agregó en Twitter, él cayó en la trampa de pensar que tenía acceso real a la compañía, y terminó siendo el QA no pago de AMD durante nueve meses. La lección que saca: nunca trabajes con la empresa, trabajá con el producto. No importa los niceties, importa qué código o documentación te dieron. Respuesta: cero.
Dice que Elon Musk es un genio de ejecución generacional, que su paso por Twitter aumentó su respeto por él, y que las empresas de Elon funcionan de forma radicalmente distinta a cualquier compañía normal porque Elon puede hacer edictos y se cumplen. Eso para él explica también por qué AMD nunca va a cambiar: nadie en AMD tiene miedo existencial real, y el miedo es el único motivador en empresas grandes.
Sobre el Tiny Box: diseñado desde el principio para tres versiones (red AMD, green Nvidia, blue Intel). Nunca lo dijo públicamente pero ya contemplaba que AMD podía fallar. Cuando decide switchear a Nvidia, el precio sube pero mete 4x 6490s que dan dos petaflops de FP16, que describe como equivalente a casi dos H100s por 25 mil dólares.
Sobre el resto de su vida en estos streams: menciona un viaje en bici a India como buen recuerdo, está planeando uno a Europa del Este. Le devolvieron la plata de un OnePlus phone defectuoso porque presentó una queja formal ante el estado de California. Pide comida por Uber Eats mientras hackea (sushi bowl, pokéballs). Toma café de noche aunque sabe que le arruina el stream del día siguiente. Dice que tiene mucho financiamiento (levantó 5 millones, tiene 4.6 en el banco más activos) y que comma AI ya vende más de un millón de dólares por mes.
No nombra libros ni papers específicos, pero sí menciona el ML Perf benchmark como la prueba empírica definitiva de si un acelerador funciona o no: si AMD no puede meter su hardware en ML Perf, es prueba de que el stack no funciona. También menciona el blog post propio de hace diez meses como punto de partida de todo este arco.
Estos streams son la continuación directa del anterior: George sigue haciendo reverse engineering del firmware AMD en vivo, ahora metiéndose más profundo en el boot chain y la cadena de seguridad.
La arquitectura del firmware: el misterio central
Siguen sin saber en qué arquitectura está escrito el firmware del GPU. Prueban binwalk pero la versión que tienen no tiene el módulo de disassembly. Prueban RISC-V y no da nada. Prueban ARM y empieza a verse algo más plausible: hay patrones que se parecen a interrupt handlers de ARM Cortex. La conclusión tentativa es que el PSP (Platform Security Processor) es ARM Cortex-A5, lo cual tiene sentido porque en los chips AMD para CPU/EPYC el PSP también es ARM y hay bastante investigación pública al respecto. Pero el firmware del CP y el MES podrían ser otra cosa completamente: alguien en el chat menciona que AMD tiene un procesador de microcode interno custom, una variante incompatible de algo propio que usaron desde las GPUs antiguas. El SMU (System Management Unit) parece ser una arquitectura diferente todavía. La conclusión brutal es que tienen tres o cuatro firmwares distintos potencialmente en tres o cuatro arquitecturas distintas y no hay strings en ninguno, lo que hace el reverse engineering extremadamente costoso.
La cadena de boot y el PSP como punto de ataque
El descubrimiento más importante técnicamente es que el PSP no es solo un chip de seguridad, es el cargador de todos los demás firmwares. El PSP carga el pfp, el me, el mec, el sdma, el SMU y el resto. Esto significa que si pueden comprometer el PSP, potencialmente pueden cargar firmware propio en todos los demás procesadores. George intenta hacer el PSP “más elite” (literalmente cambia algunos valores en el código del kernel driver) y crashea el sistema. La GPU queda en un estado irrecuperable que requiere reboot físico. Aprende la lección: hay un handshake de hardware que necesita delays específicos y si el PSP falla la cadena entera cae.
La arquitectura de seguridad que describe es una chain of trust estándar: el bootloader verifica el SOS (Secure OS), el SOS carga los demás firmwares. La forma clásica de atacar esto no es romper la verificación de firma directamente, sino encontrar una race condition o un TOCTOU (Time Of Check Time Of Use): dejar que el sistema verifique el inicio del firmware y hacer un memcopy justo antes de que termine la verificación. Esta técnica se usa en muchos sistemas embebidos.
La TMR (Trusted Memory Region) como objetivo
El firmware vive en una región de memoria llamada TMR, Trusted Memory Region, protegida por el PSP. George nota que puede leer las direcciones donde está cargado cada firmware gracias a su módulo custom del kernel con printks. La TMR tiene 212 MB aproximadamente, lo que descarta que esté en SRAM (demasiado grande), así que está en la VRAM de la GPU. Esto es interesante porque la VRAM es accesible via PCIe con large BAR: si hay algún fallo en el memory controller del PSP para protegerla, podrías leer o escribir directamente desde user space.
El módulo de kernel custom: el workflow que encuentra
Logra construir solo el módulo amdgpu sin recompilar todo el kernel. El workflow es: apt source linux, modificar el código, make solo el módulo AMD GPU con la variable correcta, rmmod amdgpu, insmod amdgpu.ko. Esto le da iteraciones rápidas: cambia un printk, recompila el módulo en minutos, lo recarga y ve los resultados. Con esto descubre exactamente qué firmwares carga el sistema, en qué orden, desde qué direcciones y con qué tamaños. Este workflow de iteración rápida lo describe como esencial: el 50% del hacking es tener un buen entorno de trabajo.
Lo que aprende sobre la estructura interna del GPU
El Command Processor (CP) no es un solo componente: tiene tres partes, el PFP (Pre-Fetch Parser), el ME (Micro Engine) y el CE (Constant Engine, que parece haber desaparecido en hardware moderno). El MEC (Micro Engine Compute) soporta 4 pipes de compute y cada pipe soporta 8 queues. Históricamente las queues se exponían directamente a user space, pero ya no. El MES existe para manejar la virtualización de queues pero George concluye que para tinygrad no lo necesita realmente, porque no tiene que soportar el spec completo de DirectX o HSA compartido entre múltiples procesos. Él controla toda la aplicación, así que podría ir directamente al CP.
La posición legal que construye en vivo
Algo notable es que George argumenta su posición legal con bastante claridad. Dice que reverse engineering para interoperabilidad con software open source es una doctrina bien establecida y protegida. Cita el caso de Axel Netz (sic, probablemente se refiere a un caso anterior donde alguien lo intentó demandar y no funcionó). Sobre la cláusula de Nvidia que dice “not licensed for data center deployment”, dice que nunca se ha usado para demandar a nadie pequeño, que está claramente dirigida a que Azure no despliegue 4090s para evitar darles asignación de H100s, y que si Nvidia lo demanda a él por poner 4090s en una caja, entonces Nvidia sería “Sony tier” (la referencia a Sony es porque Sony lo demandó a él cuando era adolescente por el jailbreak de PS3, lo que considera imperdonable). Menciona el libro de Cory Doctorow sobre interoperabilidad digital pero dice que Doctorow está equivocado al culpar a las leyes de reverse engineering: el problema real no son las leyes sino que es simplemente difícil y costoso.
La filosofía sobre cómo fijar Nvidia vs AMD
Acá dice algo interesante y contraintuitivo: la forma de arreglar que Nvidia deshabilite features en software (el 4090 está limitado a 165 TFLOPS cuando el chip puede hacer 330) no es hacer reverse engineering ni jailbreak del firmware. La analogía que usa es el jardín cerrado de Apple: la solución no fue jailbreakear el iPhone, la solución habría sido hacer Android mejor. El reverse engineering ayuda a Nvidia porque les estás dando QA gratis de sus malas prácticas. Lo que mueve la aguja es presión de mercado. Si alguien construye algo suficientemente bueno que compita, Nvidia tiene que cambiar. Esto se conecta directamente con por qué tinygrad existe: es el vector de presión, no el exploit.
Lo que dice de negocios y de la vida
Dice que tiene un servicio de consulting de 30 minutos por 1000 dólares, y si alguien hace preguntas personales o de vida le cobra y corta. Para preguntas personales el tier es 10k. Lo dice completamente en serio. También tiene sus llamadas de comma AI que dice que odia porque la gente le hace preguntas de vida y ya no pone su nombre en ellas.
Sobre dinero y libertad dice algo que considera su opinión más importante: ser rico no te compra libertad. Ser rico significa tener algo que perder. La libertad real viene de no tener nada que perder. El ejemplo concreto que usa es que si lo demandan y ganan, no van a obtener nada porque tiene su vida estructurada así. Menciona un viaje en bici a Islandia donde llovió dos días seguidos y estuvieron atrapados en una carpa agujerada, y lo describe como uno de sus mejores recuerdos.
Sobre AMD en retrospectiva dice algo que resume todo el arco: le dieron cero información técnica en nueve meses, solo platitudes de negocios. La comparación que hace es con Sam Altman en el podcast de Lex Fridman: habló durante horas y no dijo nada. Dice que la señal de que AMD no iba a cumplir fue exactamente esa: cuando alguien que debería tener información técnica no te da ninguna, eso es información.
No menciona libros específicos en estos streams salvo el de Cory Doctorow del que no da título exacto pero probablemente es “Chokepoint Capitalism” o “The Internet Con”. También menciona un paper sobre firmware de AMD GPUs que describe como bueno pero del que tampoco da título.
Hotz compra una Tenstorrent E350 de $800 y la hackea en vivo. Su argumento central es que el chip de Tenstorrent es arquitectónicamente interesante porque se parece más a como funciona realmente el cerebro: una grilla de 120 cores, cada uno con 5 procesadores RISC-V, 5MB de SRAM, conectados por una red on-chip (NoC) toroidal bidireccional. Pero la capa de software encima del chip es basura. El problema no es el hardware, es que Tenstorrent (y AMD, y todos) insisten en envolver su chip en capas de abstracción orientadas a imitar PyTorch o CUDA, cuando deberían exponer el chip tal como es.
Su argumento más repetido y más fuerte: la complejidad del software no es virtud, es señal de mediocridad. Cita Redis como ejemplo de buen código. Cita sqlite como fenomenal. Señala que la razón por la que existe tanta complejidad en el mundo del software es literalmente para darles trabajo a ingenieros mediocres. TinyGrad, su propio framework, no tiene dependencias. Si quieres usarlo en AMD, instalas dos paquetes: hsa-rocr y co-manager. Eso es todo.
Lo que dice de las APIs apiladas es memorable: si tenés una API mala en una capa y construís otra API mala encima, el resultado es mala al cuadrado. No mejor, peor. Señala que AI no resuelve esto, solo agrega otra capa podrida.
La propuesta de TinyGrad es que el compilador emite los kernels automáticamente. No los preescribís. Tenés una función llamada beam que genera mil permutaciones correctas del kernel y elige la más rápida. La máquina optimiza, no el humano. Cita el documento “The Bitter Lesson” de Rich Sutton (ese es el artículo que menciona, búscalo: es probablemente el texto más importante sobre IA y escala). La lección amarga es que los métodos que usan cómputo y búsqueda siempre ganan contra los métodos que usan conocimiento humano codificado a mano. Siempre. Históricamente, sin excepción.
Su consejo a Tenstorrent: en vez de preescribir kernels, parametrizalos y usá búsqueda. “Stop trying to hand optimize things and figure out how to parameterize them and use machines to search.”
Pasó nueve meses trabajando con AMD. Su diagnóstico: no es que sean malos, es que nadie puede tomar decisiones. Compara la estructura de Elon Musk, donde hay una persona que puede decir sí o no, contra AMD donde todo queda en limbo de burocracia y llamadas de Microsoft Teams. Lisa Su le respondió algunos emails pero él cree que ella tampoco puede cambiar nada. Lo compara con Boeing: empresas lobotomizadas que perdieron su córtex prefrontal. Dice que estas empresas van a morir como murió Gran Bretaña: no se colapsan, se apagan lentamente.
Su ultimátum técnico a AMD era concreto: open source del firmware del GC (Graphics Core), CP, MES, RLC, PFP, ME y SDMA, más documentación de registros. Sin eso, no puede escribir un driver confiable. Sin eso, AMD siempre va a perder.
La razón por la que Nvidia tiene márgenes del 90% es una sola: pip install torch funciona. Eso es todo. No es el hardware. Es que funciona sin que tengas que luchar. Mientras AMD tiene capas de bugs y símbolos undefined y versiones de torch incompatibles, Nvidia simplemente funciona. Eso vale cualquier precio que pidan.
Lo que le gusta arquitecturalmente: los cores tienen kernels separados para datos y para cómputo (los kernels de data movement corren en 2 procesadores RISC-V, los de cómputo en 3, todos dentro del mismo core). Esto es más inteligente que las GPUs donde el mismo ALU hace tanto el movimiento de datos como el cómputo. La memoria es de 8 bancos DRAM intercalados para maximizar bandwidth. Y lo más importante: podés asignar kernels específicos a cores específicos, algo que CUDA directamente no permite.
Lo que le molesta: la API en C++ es verbosa e innecesariamente compleja. Dice que podría escribir una API Python para eso que sería hermosa, donde pasás tres strings y obtenés el programa. Y que si le pagás a TinyCorp, te hace un port de TinyGrad a Tenstorrent más limpio y funcional que lo que tienen ahora.
Trae a Marvin Minsky en 1970 diciendo que en 3 a 8 años habría una máquina con inteligencia general humana. El punto de Hotz: la gente que te dice que todos los trabajos van a desaparecer en 3 años está repitiendo exactamente el mismo error que Minsky, con menos excusa porque en 1970 podías no saber mejor. Dice que las únicas personas que no van a ser reemplazadas son las que ofrecen algo genuinamente humano, y acá dice algo no censurado: menciona que habrá hombres que quieran prostitutas humanas reales, no simulacros. El sufrimiento genuino no se puede reemplazar. Es un argumento filosófico sobre qué es lo que la IA no puede replicar.
Es bearish. Cree que P = BQP, es decir, que cualquier cosa que una computadora cuántica puede hacer rápido, una computadora clásica también puede hacerlo rápido con mejor software. Los startups de quantum resuelven problemas que no son exactamente los que necesitás. Su criterio general para saber si una empresa es scam: ¿podés comprar algo de ellos? Si solo dicen “contact us”, es probablemente una estafa o demasiado temprano para importar.
Hay momentos donde se filtra la vida: menciona que acaba de pasar por una ruptura amorosa y dice “me alegra que estén acá conmigo.” Habla de que ya no quiere streamear porque se cansa de decir cosas que suenan como frases hechas. Dice que Suiza tiene muerte asistida legal como si fuera un dato interesante y no un comentario sobre algo más. Y sobre la novia virtual de IA dice directamente que para algunos hombres probablemente es mejor de lo que pueden conseguir en la realidad, pero no para la mayoría.
“The Bitter Lesson” de Rich Sutton, 2019. Búscalo. Es cortísimo y cambia cómo pensás sobre IA.
Estos archivos son transcripciones de streams y charlas de George Hotz y gente de Comma AI. Voy al punto.
Sobre simuladores para self-driving (Yin, Comma AI)
El problema central que plantea es este: si entrenas un modelo de conducción sin simulador, el modelo nunca ve sus propios errores. Si se desvía del carril, el modelo dice “todo bien, seguí así” y nunca aprende a corregir. La solución que usaron años fue el “small offset simulator”, que básicamente desplaza la imagen un poco para simular pequeñas desviaciones. Funciona, pero tiene dos problemas graves. Primero, el modelo aprende a hacer trampa: detecta los artefactos visuales del simulador en vez de aprender a manejar de verdad. Segundo, solo sirve para desviaciones pequeñas; a velocidades de autopista, necesitás desviaciones grandes y el simulador clásico produce imágenes completamente irreales.
La solución nueva es un simulador ML de tres piezas: un tokenizador de imágenes (básicamente un compresor inteligente que convierte frames en tokens discretos, entrenado con GAN loss, técnicamente un VQ-GAN), un tokenizador de pose (los seis grados de libertad del auto: velocidades y tasas de rotación, cuantizados con binning uniforme), y un Transformer de dinámicas que predice token por token qué viene después, exactamente igual que un LLM predice la siguiente palabra. La idea es poderosa: el modelo puede imaginar cualquier futuro posible dado un contexto, sin estar restringido a escenarios hardcodeados. Lo que menciona del paper original es “Learning a Driving Simulator” de Eder y George (2016), del cual literalmente robó el título de su presentación, aclarando que la diferencia es que en 2016 el machine learning era una basura comparado con ahora.
Un detalle técnico interesante: para entrenar el modelo de conducción no necesitás volver al espacio de imagen. Podés entrenar directamente sobre los tokens, lo cual es conceptualmente elegante. El problema actual es que el encoder es frame-by-frame sin consistencia temporal, lo que produce flickering. La solución obvia es un tokenizador de video en vez de imagen.
Liberaron todo open source: 100.000 minutos de driving data tokenizados, el tokenizador, el decoder, y un Transformer similar. Pusieron dos bounties de $1.000 cada uno: uno por reducir la latencia de inferencia 50% (corren a 2 FPS), otro por reducir el training loss 5%.
Sobre la infraestructura de Comma (Greg)
Construyeron un data center en San Diego sin aire acondicionado, solo fans. Gastan 8 kW en refrigeración sobre 205 kW de consumo total, menos del 4%. Un data center convencional puede gastar más en cooling que en los propios servidores. Usan fans de 3 HP con control de velocidad variable (VFD, variable frequency drives) porque sin eso cada fan al arrancar consume 80 amperes y tenés que reservar esa capacidad eléctrica sin usarla. Con VFD la arrancada está limitada y podés dar más potencia a los servidores.
Lo que controlan no es la temperatura sino la humedad: la mantienen entre 30-40% porque la humedad alta más polvo produce corrosión, y eso es lo que les mató hardware en el pasado. La temperatura de intake llega a 43°C porque San Diego puede llegar a 110°F. El exhaust ronda 53°C. Un detalle cómico: cuando compraron servidores usados y miraron el historial de temperatura del BMC, venían de data centers a 21°C y pasaron a picos de 42°C. Los están abusando y funcionan igual.
El sistema total costó 1,5 millones de dólares e incluye 640 GPUs, 55,88 petaflops de BF16, 2,1 petabytes de SSD. Lo comparan con la lista Top500 de supercomputadoras y estiman que equivalen al rango 175-200 del mundo. El supercomputador más cercano en esa lista cuesta mínimo 3,75 millones sin contar edificio ni infraestructura. Tienen dos clases de servidores: los trainers con 8 GPUs cada uno e InfiniBand de 400 Gbit para sincronizar entre nodos, y los rollout servers de 2U con 4 GPUs (2 para modelos, 2 para decodificar video H265) que procesan 300.000 frames por segundo en decodificación y 200.000 FPS de output de modelos.
Sobre porting de autos a OpenPilot (Jason Young, el “Volkswagen guy”)
El proceso es de reverse engineering puro. Primero necesitás entender los mensajes CAN del auto: velocidades de rueda, ángulo de dirección, presión de freno, par del conductor. La herramienta clave es Cabana (hecha por Dean Lee, un contribuidor externo) que visualiza el bus CAN y resalta los bits que cambian. Para encontrar las ruedas hacés una figura ocho en un estacionamiento: las ruedas de afuera giran más rápido en una curva, así identificás izquierda/derecha; el freno de mano te dice adelante/atrás.
Lo complicado es enviar mensajes. Los autos usan checksums y contadores en sus mensajes, y si no los replicás correctamente el auto ignora los comandos. Los VW usan un CRC modificado rarísimo que le llevó mucho tiempo descifrar. Hay herramientas como CRC Beagle en GitHub que automatizan parte del trabajo. Lo que verdaderamente frena el porting son dos cosas: Flexray (protocolo alternativo al CAN usado en autos de lujo, muy difícil de interceptar) y SecOC (Secure Onboard Communication, que pone hashes criptográficos en los mensajes, básicamente alguien activamente intentando que no lo hackees). Toyota y algunos VW nuevos están yendo hacia SecOC.
Lo que tardó 3 meses en 2019 para un Golf R lo hicieron en 9 horas con un GTI 2022, gracias a que la infraestructura de testing de OpenPilot mejoró enormemente: ahora podés reproducir un log a través del stack de control y verificar que no crashea antes de sentarte en el auto.
Sobre hardware de AI: Tenstorrent vs Nvidia vs Groq (George Hotz)
Acá es donde Hotz es más opinionated y técnico a la vez. Su argumento central sobre Groq es que hicieron un demo impresionante con Mixtral a 500 tokens por segundo, pero que él puede replicar ese demo en un cluster de H100s si alguien le da la máquina. Literalmente ofrece: “dame un H100 SXM de $400.000, si no puedo hacer el demo en un mes te devuelvo la máquina más $10.000”. Su punto es que Groq vendió una demo, no un producto competitivo.
Sobre Tenstorrent el análisis es más técnico y más positivo. El chip (Wormhole) tiene 120 cores RISC-V organizados en grillas. Cada core tiene 5 procesadores RISC-V: 2 para movimiento de datos (“bulldozers”) y 3 para cómputo (“shovel men”). Lo que le gusta es que todo el stack es open source, incluso el command queue parser que corre como kernel en los propios cores RISC-V del chip, algo que AMD todavía no hace. La jerarquía de apertura que describe es: Nvidia (más cerrado) → AMD (más abierto) → Tenstorrent (más abierto que AMD). Está activamente presionando a AMD públicamente para que abra el command queue parser.
La crítica técnica que hace a Nvidia con la 4090 es concreta: la 4090 tiene 330 teraflops con acumulación FP16, pero si querés acumular en FP32 (necesario para training serio) baja a 165 teraflops. La razón es un eFuse quemado en el die para forzarte a comprar la tarjeta cara. El mismo die sin el eFuse hace 330 TF con acumulación FP32. Lo llama directamente un scam. También bloquea peer-to-peer transfers por PCIe en las 4090, algo que las tarjetas de datacenter sí tienen.
Sobre los LLMs de 1 bit: distingue entre entrenamiento e inferencia. El entrenamiento de los modelos grandes sigue siendo en BF16, la cuantización a 1 bit es inferencia. Dice que el futuro es always-on training, modelos que se siguen actualizando, no modelos que entrenás una vez y deployás para siempre.
Menciona que su LLM de uso personal es Claude, paga $20 por mes, y dice que es mejor que lo que puede correr localmente. Los modelos open source los defiende para casos offline o para “hablar de cosas sucias” (sus palabras).
Sobre los robots humanoides los compara con el cargo cult de la Segunda Guerra Mundial: isleños del Pacífico que construían aviones de palos para hacer volver los aviones americanos. Dice que construir un robot con forma humana porque los humanos son inteligentes es exactamente ese error, que si no podés hacer que el “comma body” (su robot) sea el mejor guardia de seguridad del mundo, no tenés ningún derecho a construir un humanoide.
Aquí está la explicación directa a tu pregunta y el contexto de la analogía:
Los isleños no construían los aviones porque los aviones volvían (de hecho, los aviones no volvían). La secuencia lógica fue esta:
Respuesta corta: Construían aviones de palo como un ritual mágico para forzar el retorno de los suministros. Creían que la apariencia externa era la causa de la riqueza, sin entender la tecnología interna.
La persona que cita esto (probablemente George Hotz, fundador de comma.ai, conocido por su postura contra la complejidad innecesaria) usa esta historia para atacar la industria de la robótica actual:
En resumen: La forma no crea la función. Copiar el cuerpo humano no crea inteligencia artificial, igual que construir una pista de bambú no hace aterrizar aviones reales.
Significado: Feynman usa la metáfora de los “cultos de carga” (islas del Pacífico que imitaban pistas de aterrizaje de la WWII esperando que volvieran los aviones con suministros, pero sin entender la mecánica real) para criticar a los científicos que siguen los movimientos de la ciencia (publicar, usar jerga, hacer gráficos) sin tener la integridad científica real (dudar de uno mismo, reportar fallos, no esconder datos).
Sobre economía y cosas controversiales
Aquí George se va por las ramas durante varios streams. Defiende el patrón oro con bastante vehemencia: dice que desde 1971 (cuando Nixon eliminó la convertibilidad dólar-oro) todo el sistema monetario global es una farsa. Compara imprimir dinero con doblar el mapa para que la montaña desaparezca. Su argumento es que o bien descubrimos algo nuevo sobre el dinero en 1971, o nos están estafando masivamente, y que la segunda opción es la correcta. Dice que Bitcoin tampoco le convence porque el límite de 21 millones es solo código fuente y alguien podría cambiarlo (menciona que Ethereum ya hizo algo equivalente al pasar de proof of work a proof of stake). Lo que sí defiende es el oro físico porque es escaso naturalmente. Menciona con entusiasmo los asteroides de oro como razón para ir al espacio.
Critica a los VCs como parte del mismo sistema: los fondos de pensión son el gobierno, los VCs toman plata de fondos de pensión, entonces los VCs son el gobierno. Sobre Devin (el agente de coding de Cognition que resolvió 13.6% de issues en SWEBench) dice que si reemplazás “Devin” por “Kumar que hizo trampa en la universidad” y el resultado no te impresionaría en un humano, no deberías impresionarte en una IA. Compara con AlphaGo, que sí le parece genuinamente impresionante porque hace algo que los humanos no pueden.
El libro que cita sobre ciencia y engaño propio es Feynman, la famosa cita de “first principle is you must not fool yourself, and you are the easiest person to fool” del discurso de cargo cult science de Caltech (1974). También cita a Hayek implícitamente en “I don’t believe we shall ever have good money again before we take the thing out of the hands of the government”, que es una cita casi textual de Hayek sobre la desnacionalización del dinero.
Estos fragmentos son de streams de George Hotz mientras trabaja en TinyGrad, con digresiones sobre management, ingeniería y una charla técnica de alguien de Comma sobre simulación de manejo. Acá va lo esencial:
Sobre el Linearizer de TinyGrad
El problema central que Hotz está atacando es que el linearizer hace demasiadas cosas a la vez: mezcla optimizaciones, linearización y rendering de código. Quiere separarlo en dos responsabilidades distintas, como hace TVM (que tiene create_schedule y lower). La idea es que primero se transformen las operaciones en un grafo, luego se linearicen, y recién ahí se rendericen a código de máquina. Lo que TVM llama “scheduling” (asignar axes a variables de GPU, decidir cómo iterar sobre buffers) es lo que TinyGrad llama cosas distintas, lo cual genera confusión conceptual. Hotz reconoce que el linearizer es el único componente que quedó sin refactorizar en TinyGrad y que es genuinamente el código más denso y difícil del proyecto. Empieza a reescribir en vivo y concluye que es semanas de trabajo, no días.
Un detalle técnico importante: las lazy ops operan sobre vectores y las UOps operan sobre escalares. El linearizer tiene que hacer esa traducción, decidiendo el orden de operaciones, el manejo de shape trackers, upcasting a float4, reducción de grupos, y más. Hotz menciona que cosas como group_for_reduce no deberían estar en el kernel sino cambiar la estructura de la lazy op antes de la linearización.
Sobre TVM
Lo analiza con respeto y algo de envidia selectiva. Dice que TVM es esencialmente “TinyGrad con muchas más líneas” y que no todo está en Python. Lo que TVM hace bien es separar concerns. Lo que hace mal: la complejidad parece innecesaria para el problema que resuelve TinyGrad, que es más acotado que un compilador general. Cita una crítica de Chris Latner que dice que George no sabe de compiladores, y Hotz la acepta pero la reencuadra: como los programas que TinyGrad puede expresar son muy limitados, no necesitás las herramientas fancy de un compilador completo.
Sobre IQ y engineers
Dice algo que él mismo reconoce como tabú: que si tenés un IQ de 110 probablemente no vayas a ser un gran programador. Distingue entre inteligencia y experiencia. Un engineer junior con 140 de IQ todavía no internalizó ciertas lecciones que solo se aprenden habiéndolas sufrido, como por qué los tipos importan, por qué comentar el código, por qué factorizar bien. Esas lecciones no se enseñan, se viven. Lo que busca en un junior no es conocimiento de algoritmos (los juniors generalmente saben más algoritmos que los seniors) sino que sus limitaciones sean de experiencia, no de capacidad intelectual. Los que él contrataría son los que dicen “puedo reescribir eso en una semana” con entusiasmo genuino.
Sobre project management y Jira
Tiene una posición directa: el project management como concepto existe para darle a gente mediocre la apariencia de que está produciendo. Si no podés mantener el estado de un proyecto en tu cabeza, el proyecto es demasiado complejo. La jerarquía de competencia reemplaza al software de gestión: si tenés gente buena con jerarquía clara, no necesitás Jira. Menciona a Elon como ejemplo de alguien que entiende todo lo suficiente en cada nivel de la jerarquía como para tomar decisiones sin necesitar un intermediario burocrático. Dice que el concepto de “project manager no técnico” no tiene sentido lógico, porque si no podés hacer el trabajo de las personas que manejás, ¿cómo las manejás?
Sobre Scrum y Agile dice que suenan a “pedo shit” y que los sprints en TinyGrad resultaron básicamente inútiles. Su defensa más matizada es que quizás tienen sentido si estás construyendo algo que ya fue construido un millón de veces antes, es decir, si estás “debajo de la línea de la API”. Si estás haciendo algo nuevo, no.
El libro que recomienda es A Brief History of Intelligence, y lo describe como un rastreo de las raíces de la inteligencia biológica comparado con ML, bien ejecutado.
La charla técnica de Comma (Drive GPT)
Esta sección es de alguien del equipo de Comma presentando su simulador de manejo basado en un modelo GPT autoregresivo. Las ideas clave: tokenizan frames de video con un VQ-VAE estilo DALL-E, luego entrenan un Transformer para predecir el siguiente frame condicionado en los tokens de pose (velocidad lateral, longitudinal, posición en Z). El modelo colapsa el problema de conducción en “predecir el próximo frame”, lo cual escala a robótica cambiando el tokenizador.
El flickering del video generado viene de que el tokenizador es frame a frame sin memoria temporal, así que la compresión introduce ruido. La solución fue agregar una capa RNN al decoder para pasarle estado entre frames, lo cual suaviza el rollout dramáticamente.
El punto técnico más interesante es la distinción entre el modelo de visión (que vive en el mundo real) y el modelo de policy (que vivirá en el simulador). Son distintos porque necesitan ser entrenados en “mundos” distintos, pero comparten la misma loss function porque predicen lo mismo: el plan. Sobre model collapse, dicen que no les preocupa porque el simulador y el modelo de policy son modelos diferentes entrenados en un proceso de un solo paso, no iterativo.
Sobre por qué usan tokens discretos en vez de regresión: dice que cross-entropy es la mejor loss function y que todo lo demás “is a scam, doesn’t work”, con cierto humor pero siendo bastante serio al respecto.
Estos son transcripts de streams de George Hotz (geohot), fundador de Tiny Corp y creador de tinygrad. Acá va lo que dice, sin filtros y sin bullet points.
Sobre tinygrad y su filosofía técnica
La idea central de tinygrad es que toda operación de deep learning se puede reducir a tres categorías: ops elemento a elemento (unary, binary, ternary), reduce ops (sum, max) y movement ops (reshape, permute, stride). Desde ahí se puede construir cualquier cosa: convoluciones, multiplicaciones de matrices, max pooling. La convolution no es un operador especial, es simplemente movement ops + reduce ops compuestas. PyTorch, en cambio, tiene operadores multiplicados por runtimes multiplicados por dtypes, lo que genera una explosión combinatoria de código. Tinygrad reemplaza esas multiplicaciones por sumas: el código de dtype es independiente del código de convolución, entonces si agregás un dtype nuevo, automáticamente funciona para todo.
La métrica que usa es líneas de código: tinygrad está en menos de 5000 líneas, lo que implica aproximadamente 50 bugs. PyTorch ronda el millón de líneas, o sea unos 10.000 bugs. La regla empírica que cita es un bug por cada 100 líneas.
Para hacer que sea rápido, usa la bitter lesson: no hardcodear optimizaciones, sino hacer beam search sobre permutaciones de kernels. El optimizador busca automáticamente la forma más rápida de ejecutar cada kernel dentro de un espacio de transformaciones definidas.
Sobre el Tiny Box y el negocio
El producto que vende es el Tiny Box: una máquina con 6 GPUs RX 7900 XTX de AMD a $15.000. El argumento comercial es que un H100 de Nvidia cuesta entre $25.000 y $30.000 la unidad, y el Tiny Box en su conjunto tiene casi el doble del ancho de banda de RAM que un H100. Siete Tiny Boxes cuestan lo mismo que un A100 box con 80GB, y según él equivalen en algunos escenarios a 14 A100s. La desventaja que reconoce es que el soporte de software de Nvidia es muy superior.
AMD tiene una librería llamada HIP, que describe textualmente como “Cuda knockoff”, y trabaja sobre eso para hacer que múltiples GPUs se comuniquen eficientemente sin llamadas al sistema operativas caras. El problema específico que está resolviendo en stream es sincronización entre GPUs sin usar el event API de HIP, porque ese API hace syscalls lentas desde el lado de la CPU.
El descubrimiento técnico más interesante del stream
Pasó varias horas tratando de implementar semáforos entre GPUs usando atomics de HIP, incluyendo atomic_add, atomic_cas (compare-and-swap), thread_fence, intentando deshabilitar el caché L1 con flags como GLC (Global Level Cache). Nada funcionaba porque la memoria cacheada en una GPU no ve los escrituras de la otra. La solución que finalmente encuentra es más simple y más obvia: habilitar peer-to-peer access entre GPUs con hipEnablePeerAccess, lo que permite a un kernel en una GPU leer y escribir directamente en la RAM de la otra. No solo funcionó sino que fue más rápido que usar el transfer API de HIP. La sincronización termina usando atomic_cas con memoria alocada en el host (no en ninguna GPU) porque esa memoria es coherente para ambas GPUs. Dice literalmente “el calzone resolvió el problema” después de comer.
Sobre la arquitectura del linearizador (parte más abstracta)
Está reescribiendo el linearizador de tinygrad, que es el componente que convierte el grafo de operaciones lazy en kernels concretos para la GPU. Lo está separando en tres responsabilidades distintas: grouping (cómo se agrupan las ops), scheduling (equivalente al TVM schedule, que decide cómo se mapean los ejes al hardware: global, local, reduced, upcast, unroll) y lowering (emitir el código real). La idea es que factorizando bien el problema podés contratar tres roles distintos que trabajen en paralelo. Compara esto con cómo se escalan las empresas: si no podés factorizar el problema, no podés escalar el equipo.
Libros y referencias que menciona
Menciona Inadequate Equilibria de Eliezer Yudkowsky, Harry Potter and the Methods of Rationality también de Yudkowsky (cita específicamente la discusión sobre si el poder en un sistema crece o decrece), y Scale (no da el autor, pero probablemente sea el de Geoffrey West) sobre efectos superlineales en empresas y ciudades. Menciona a Robin Hanson hablando sobre por qué los Amish evitan la tecnología (no como rechazo a la tecnología en sí sino como protección contra la exposición al mundo exterior que corrompe la cohesión del grupo). También cita Meditations de Marco Aurelio.
Ideas sobre empresas y escalabilidad
La tesis que desarrolla es que el límite del crecimiento de una empresa no es capital ni visión sino la capacidad de factorizar el trabajo correctamente para que más personas produzcan más que la suma de sus partes. Usa el ejemplo biológico de cuánto tardó la vida en pasar de procariotas a eucariotas a organismos multicelulares. Si el efecto es solo lineal, todos deberían trabajar solos. Las empresas solo tienen sentido cuando los efectos son superlineales. Menciona el concepto de “management coefficient” como métrica de cuántas personas puede gestionar alguien productivamente.
Sobre startups dice algo bastante duro: la única razón válida para fundar una empresa es que querés que algo exista y no existe. Financieramente es una mala decisión, como decisión de vida también. Si empezás por otra razón, no vale la pena.
Lo más controvertido no técnico
Dice que las ciencias sociales modernas son una farsa y que no las tomará en serio hasta que reconozcan diferencias grupales raciales en inteligencia, que describe como “la mayor tabú que es obviamente verdadera”. Ojo: esto lo plantea como una posición epistemológica (los científicos deben reportar hechos aunque sean incómodos) pero la afirmación sustantiva sobre diferencias raciales en inteligencia es científicamente muy debatida y políticamente muy cargada, y él la presenta como verdad establecida.
Sobre economía y educación: dice que la universidad es una mala inversión financiera en el mundo actual, que los hombres lo entendieron primero y las mujeres lo seguirán, y que un título de 1940 tenía retorno de inversión pero uno moderno de $60.000 al año probablemente no.
Sobre su tierra en San Diego (120 acres a 30 minutos de la ciudad): tiene un debate largo sobre por qué no puede hacer nada útil con ella. La conclusión es que el mercado ya tiene priceado todo lo que uno puede pensar hacer con tierra, y la persona ideal para manejarla sería un event planner corporativo aburrido que haga “fake wineries” para casamientos, no alguien que quiera vivir fuera de la grilla. Dice que el solar sin conexión a la red no escala porque los yonkis te roban los paneles.
Haciendo bodas en una “bodega falsa”
Sobre comunidades intencionales (Ecramada, su nombre para un posible proyecto así): concluye que en el mundo moderno es casi imposible conseguir seguidores capaces y comprometidos porque el umbral de entrada a cualquier cosa es demasiado bajo (poner un cuadrado negro en Instagram ya te hace parte de BLM) y la gente que sí aparece quiere estructura y gestión que él no quiere dar. Menciona que la Hermandad Musulmana funciona justamente porque tiene un proceso de membresía de años.
Sobre Hitler: lo menciona brevemente para decir que no tuvo éxito principalmente por habilidades sociales sino porque explotó algo que ya estaba latente en la sociedad alemana, y que sin él probablemente hubieran existido otros cinco tipos con las mismas ideas. Lo cierto es que no condena, solo analiza la mecánica.
Estos subtítulos son transcripciones de streams de programación en vivo de George Hotz (geohot), el hacker que desbloqueó el primer iPhone y fundó comma.ai y tinygrad. Lo que se ve aquí es una sesión de trabajo real, caótica y honesta.
El problema técnico central
Hotz está intentando hacer funcionar inferencia de LLaMA 7B y 70B sobre GPUs AMD usando su propio framework de machine learning llamado tinygrad, que está escrito enteramente en Python puro sin dependencias salvo numpy, tqdm y ctypes. El problema que lo tiene loco durante todo el stream es uno de coherencia de caché L2 entre GPUs. Cuando hace transferencias de datos entre dos GPUs (sharding), los datos que un kernel escribe quedan atrapados en el caché L2 de la GPU origen y la GPU destino lee datos desactualizados desde RAM. La solución “correcta” sería usar thread_fence(system), una instrucción que fuerza que todos los writes sean visibles para otros dispositivos. El problema es que AMD, en su implementación de HIP (el equivalente de CUDA para AMD, que él describe como “la versión Sam’s Cola de Coca-Cola”), simplemente no implementó esa funcionalidad. Lo dice él mismo leyendo la documentación oficial: “Some implementations can provide this behavior by flushing the GPU L2 cache. HIP/hipclang does not provide this functionality.” La única solución que funciona es setear la variable de entorno HSA_DISABLE_CACHE=1, que directamente mata el caché L2 completo. Lo irónico es que cuando deshabilita el caché, el modelo corre más rápido que con caché activo, lo cual dice mucho sobre cuánto overhead innecesario tiene la implementación de AMD.
Hay otro hack que descubre accidentalmente: meter un hipEventRecord() en un lugar donde no debería hacer nada visible corrige el bug de coherencia. Deduce que hipEventRecord internamente debe estar forzando algún tipo de flush de caché como efecto secundario no documentado. Lo llama basura, pero lo usa igual porque funciona.
El problema de arquitectura que resuelve
El insight elegante que tiene en el whiteboard es invertir el orden de operaciones. Antes tenía: GPU0 corre kernel → GPU0 setea flag → GPU1 espera flag → GPU1 hace el copy (pero el caché de GPU0 no estaba flusheado). La solución es: GPU0 corre kernel → GPU0 hace el copy (pusheando los datos desde el mismo dispositivo que los generó) → GPU0 setea el flag → GPU1 espera el flag y lee datos ya coherentes. La clave es que el copy ocurre en el mismo dispositivo que generó los datos, entonces el L2 que se lee es el correcto.
El asunto del procesador
Cambió el CPU de una Tiny Box de 16 cores a 32 cores esperando mayor velocidad y el sistema se volvió más lento. La causa probable que menciona es NUMA (Non-Uniform Memory Access): con más cores en más nodos de memoria, las latencias de acceso aumentan. Además descubre que el boost de frecuencia (AMD turbo) no está habilitado en BIOS y no puede acceder al BIOS por IPMI porque no tiene la contraseña a mano. Termina el stream sin resolver esto.
La Tiny Box y la filosofía de producto
Tiny Box es una computadora de 15.000 dólares con 6 GPUs AMD RX 7900 XTX de 24GB cada una, 128GB de RAM, 4 NVMe en RAID en PCIe 4.0. Hotz argumenta que compite directamente con workstations de Lambda Labs que cuestan 37.000 dólares por hardware comparable. Lo que vende no es solo el hardware sino el tiempo que él mismo invierte en tunear el software, cosa que hace en público. Tinygrad tiene como principio filosófico que la complejidad del código es el enemigo y mide eso en líneas de código.
Lo personal y lo polémico
Lo banearon de LinkedIn por escribir que usaba LinkedIn como sitio de citas. La disculpa que leyó en vivo es sarcástica en cada línea, incluyendo prometer ser “más sensible e inclusivo”. Dice que le importa un carajo y que si alguien quiere encontrarlo para citas lo siga en Instagram. Sobre Twitter/X dice que es un producto mejor desde que Elon lo compró pero que no es algo que le interese construir porque no le interesa controlar personas. Tiene una teoría explícita: la gente que quiere construir mecanismos de control social masivo tiende a ser gente de valores cuestionables. Se define como progresista que acuerda con algunos principios del progresismo pero rechaza a los “doomers”, a los que bloquean construcción de vivienda y a los que generan energía negativa sin visión positiva. Menciona una cena con Peter Thiel en 2017 donde no le caía bien por su falta de visión positiva, pero dice que su respeto creció porque Thiel acertó en muchas cosas después. Admite abiertamente que el año anterior no ganó mucho dinero, que vender Tiny Boxes es parte de cómo sobrevive la empresa, y que si Bitcoin vuelve a 100K capaz se compra algo caro. Stream para sí mismo, no para la audiencia, y lo dice explícitamente: es honesto sobre eso mientras acusa al resto de streamers de hacer lo mismo pero mintiendo.
https://en.wikipedia.org/wiki/The_Case_Against_Education
https://en.wikipedia.org/wiki/The_Elephant_in_the_Brain
Acá va el resumen completo del libro, capítulo por capítulo con todas sus ideas centrales.
El título viene de una frase inglesa: “the elephant in the room” (el elefante en la habitación), algo que todos ignoran aunque está ahí. El elefante en el cerebro es el motor oculto de casi todo lo que hacemos: somos animales sociales que constantemente competimos por estatus, y gran parte de nuestro comportamiento está diseñado para señalar algo a los demás (que somos inteligentes, generosos, leales, poderosos). El truco es que ni nosotros mismos somos conscientes de esto, porque la evolución diseñó nuestro cerebro para que nos engañemos a nosotros mismos primero, y así podamos engañar a los demás de manera más convincente.
La estructura es esta: si yo creo sinceramente que doy a la caridad porque soy buena persona, lo voy a transmitir con mucha más convicción que si supiera que en realidad lo hago para que me vean como buena persona. El autoengaño es una herramienta evolutiva.
Señalización animal. Los autores arrancan con biología. En el reino animal, los organismos constantemente emiten señales a otros: salud, fuerza, fertilidad. Muchas de esas señales son costosas (un pavo real carga con una cola enorme que lo hace vulnerable a depredadores), precisamente porque esa incomodidad hace la señal creíble. Si fuera fácil de imitar, todos lo harían y la señal perdería valor. Los humanos hacemos exactamente lo mismo, pero con cosas como lujos, donaciones o esfuerzo educativo.
Normas sociales. Las sociedades funcionan sobre reglas implícitas. Pero esas reglas no son solo restricciones: también son pantallas. Cuando alguien dice “no hago X por dinero, lo hago porque creo en ello”, está usando la norma para señalar que tiene valores nobles. La norma es el disfraz; la señal es el contenido real.
Autoengaño. Este es el capítulo más filosófico. ¿Cómo podemos no saber lo que hacemos? Los autores explican que el cerebro funciona en capas: hay procesos que operan fuera de la consciencia y que moldean nuestras acciones antes de que “nosotros” (la parte consciente) tengamos idea. La parte consciente luego inventa una historia razonable para explicar el comportamiento. Eso es lo que los psicólogos llaman racionalización post-hoc.
Acá el libro se vuelve muy concreto. Cada capítulo toma algo que todos hacemos y lo desmonta.
Lenguaje corporal. No lo usamos principalmente para comunicarnos; lo usamos para negociar estatus. Las posturas abiertas, el contacto visual, el espacio que ocupamos con el cuerpo: todo esto es lenguaje de dominio y sumisión heredado de primates. La novedad es que no somos conscientes de que lo estamos haciendo.
La risa. No es una respuesta al humor. Es una señal de que “no soy una amenaza para vos”. Los datos lo sostienen: la gente ríe mucho más en grupos que sola, y el que habla ríe más que el que escucha. La risa lubrica la interacción social diciéndole al otro “estamos bien, no hay conflicto”.
La conversación. Creemos que conversamos para intercambiar información útil. Pero la mayoría de las conversaciones no intercambian nada útil: son exhibiciones. Hablar es demostrar que uno puede hilar ideas, que es interesante, que tiene cultura. Es un peacocking intelectual. Por eso interrumpir a alguien se siente como una agresión: estás cortando su actuación.
El consumo. Este capítulo retoma la idea de Thorstein Veblen del “consumo conspicuo”. Compramos cosas caras no por su función sino para señalar que podemos comprarlas. Pero va más allá: no solo señalamos riqueza con el consumo, sino también valores, gustos, tribu de pertenencia. Comprar un libro de filosofía difícil señala inteligencia. Comprar ropa de marca señala éxito. Comprar productos orgánicos señala que uno es consciente y progresista.
El arte. ¿Por qué valoramos más una obra si es original y hecha a mano? No debería importar si el cuadro es idéntico. El valor del arte está en su historia y en lo que dice de quien lo posee o aprecia. Coleccionar arte raro señala discernimiento. Que te guste un músico “underground” señala que tenés buen gusto antes que el resto. El arte es sobre todo un vehículo de señalización de sofisticación cultural.
La caridad. Este capítulo es brutal. La gente dona dinero a causas sin verificar si esas organizaciones son efectivas. Si de verdad quisieran ayudar, buscarían la caridad más eficiente. Pero casi nadie lo hace. En cambio, la gente dona a causas visibles, emotivas, y luego lo menciona. La donación es una señal de que uno es generoso, compasivo y tiene recursos. El resultado en el mundo real importa menos de lo que creemos.
La educación. Este es el capítulo más incómodo para quien está en la academia. Los autores argumentan (en línea con el economista Bryan Caplan) que la educación formal no sirve principalmente para aprender cosas útiles. Las evidencias: los empleadores piden títulos aunque el título no tenga nada que ver con el trabajo; los estudiantes olvidan la mayor parte del contenido en pocos años; estudiar cosas “inútiles” igual te hace contratable. La conclusión es que la educación es principalmente una señal costosa de inteligencia, disciplina y capacidad de conformarse a instituciones. El título dice: “fui capaz de hacer lo que me pedían durante cuatro años”.
La medicina. Este capítulo cita el famoso RAND Health Insurance Experiment: cuando se le dio a la gente acceso a atención médica más barata y fácil, no mejoraron su salud. Regiones que gastan más en salud no son necesariamente más sanas. Los autores concluyen que gran parte del gasto médico no es sobre curar sino sobre demostrar cuidado: los familiares que llevan al enfermo al médico señalan que son buenos familiares; los políticos que aumentan el presupuesto de salud señalan que se preocupan por la gente. La medicina tiene una función simbólica y social enorme que opera independientemente de si la gente mejora.
La religión. Las religiones exigen sacrificios irracionales: no comer ciertos alimentos, hacer ayunos, rezar muchas veces al día, dar dinero. Esto, argumentan los autores, no tiene sentido si la religión fuera solo sobre creencias. Tiene todo el sentido si la función de la religión es crear comunidades de confianza. Los rituales costosos son filtros: solo los que de verdad están comprometidos con el grupo los van a sostener. La religión es una tecnología de cohesión social que usa señales costosas para separar a los miembros leales de los que solo simulan.
La política. La gente participa en política de manera emocional, con escasa información y muy poca disposición a cambiar de opinión cuando aparecen datos. Eso es extraño si la política fuera sobre resolver problemas. Tiene sentido si la política es principalmente sobre señalar a qué tribu pertenecés. Votar, opinar, protestar: son formas de decir “soy de los tuyos”. La política es identidad disfrazada de razonamiento.
El libro no dice que seamos hipócritas conscientes. Dice algo más inquietante: que el autoengaño es adaptativo. Somos genuinamente sinceros cuando decimos que donamos porque queremos ayudar, o que estudiamos para aprender, porque nuestro cerebro nos oculta los motivos reales para que nuestra señal sea más convincente.
La pregunta que deja el libro es: ¿sirve de algo saberlo? Los autores sugieren que sí, al menos en algunos casos. Entender que la educación es señalización puede hacernos buscar formas más baratas y directas de aprender. Entender que la caridad es señalización llevó al movimiento de effective altruism, que intenta redirigir ese impulso hacia donde realmente ayuda. Entender que la medicina tiene una función simbólica puede hacernos más escépticos de tratamientos costosos e ineficaces.Tocá cada tarjeta para ver el detalle de cada capítulo.
La gran lección que deja el libro se puede resumir en una frase: casi todo lo que hacemos en sociedad tiene una capa oculta de señalización de estatus, y no la vemos porque la evolución nos diseñó para no verla. El autoengaño no es un fallo del sistema: es el sistema.
Lo más perturbador es que el libro no dice que seamos hipócritas. Dice que somos sinceros — y esa sinceridad es exactamente lo que nos hace tan buenos señalizando. Un mentiroso consciente es fácil de detectar. Un cerebro que se autoengaña es perfecto.
Si querés profundizar en algún capítulo en particular, o compararlo con alguno de los otros libros de tu lista, decime.
The Case Against Education (2018) — Bryan Caplan, economista de George Mason University.
La educación formal, en su mayor parte, no te hace más productivo ni más inteligente. Lo que hace es certificar que ya eras inteligente, disciplinado y capaz de obedecer. El título universitario es una señal, no un logro de aprendizaje.
Todo el libro gira alrededor de dos formas de entender para qué sirve la educación:
El modelo tradicional (capital humano) dice que la educación te hace más valioso porque te enseña cosas. Vas a la escuela, aprendés habilidades y conocimientos, y por eso después ganás más plata y la economía crece. Es la justificación de toda política pública de educación desde hace décadas.
El modelo de señalización dice algo completamente distinto: la educación no te crea valor, sino que revela valor que ya tenías. Los empleadores no pueden saber si sos inteligente y trabajador con solo verte, entonces usan el título como filtro. El título dice: “esta persona fue capaz de aguantar cuatro años de instrucciones sin rebelarse”. Eso es todo.
Caplan estima que aproximadamente el 80% del retorno económico personal de la educación se debe a señalización, y solo el 20% restante a aprendizaje real.
1. La gente olvida casi todo. La mayoría de los adultos no recuerdan casi nada de lo que aprendieron en la escuela, excepto inglés y matemática básica, y aún esas dos son insuficientes. Si la educación te hiciera más capaz, el conocimiento debería quedarse. No se queda.
2. El efecto “sheepskin” (el cuero de oveja). Este es el dato más demoledor del libro. El mayor salto de ingresos ocurre al obtener el título en sí, no por haber completado los cursos. Quienes abandonan la universidad habiendo cursado casi todo igual ganan mucho menos que quienes la terminan. Si lo que importara fuera el aprendizaje, tres años de cursada deberían valer casi lo mismo que cuatro. No es así. Lo que paga el mercado es el papel, no el conocimiento.
3. El conocimiento no se transfiere. La transferencia de aprendizaje a otras disciplinas parece ser baja o inexistente. Aprender a razonar en filosofía no te hace mejor en ingeniería. Estudiar historia no te hace mejor ciudadano. Cada cosa aprendida sirve para esa cosa y nada más.
4. Los estudiantes evitan el esfuerzo. Los estudiantes eligen materias con notas fáciles en lugar de cursos más difíciles. Si fueran a la universidad a aprender, elegirían lo más desafiante. Eligen lo más fácil que igual les da el título.
5. La paradoja macro vs. micro. Esto es clave. A nivel individual, más educación sí correlaciona con más ingresos. Pero las estimaciones internacionales del efecto de un año adicional de educación sobre el ingreso nacional son mucho menores que las que estiman el impacto sobre el ingreso personal. ¿Por qué? Porque si la educación fuera aprendizaje real, toda la sociedad mejoraría. Pero si es señalización, es un juego de suma cero: vos ganás porque te distinguís de los demás, pero si todos se gradúan, nadie gana nada extra.
La idea viene del economista Michael Spence, que ganó el Nobel por ella. El razonamiento es así:
Los empleadores necesitan distinguir a los buenos candidatos de los malos, pero no pueden leerles la mente. Entonces buscan señales. Una señal útil tiene que ser costosa de imitar para los candidatos malos. El título universitario cumple ese requisito: requiere años, esfuerzo y dinero. Una persona poco inteligente o poco disciplinada no puede sostenerlo fácilmente. Entonces el título se convierte en una señal creíble de que sos inteligente y perseverante, aunque no hayas aprendido nada aplicable al trabajo.
Lo importante: la inteligencia y la responsabilidad son predictores conocidos del éxito educativo y laboral, y son relativamente estables a lo largo de la vida. La educación no las crea: las detecta y las certifica.
La inflación educativa, el aumento de los requisitos académicos para empleos que no los necesitan, indica que el nivel educativo es relativo y no tan beneficioso para la sociedad como se presenta.
Hace cincuenta años, ser cajero de banco no requería título universitario. Hoy en muchos lugares sí. ¿Aprendiste algo en la universidad que te haga mejor cajero? No. Pero si todos tienen secundario, el título universitario se convierte en el nuevo filtro. Si todos tienen universitario, se pide un posgrado. Es una carrera armamentista educativa donde todos corren y nadie avanza respecto al resto.
Este es el momento donde Caplan va más lejos que casi cualquier otro economista. El retorno individual de la educación es mayor que el retorno social, lo que sugiere que la mayor educación genera una externalidad negativa. El estatus es un juego de suma cero; la habilidad real no lo es.
En términos simples: si estudiar de verdad te hiciera más productivo, todos ganamos cuando vos estudiás. Pero si estudiar es principalmente señalización, entonces tu título sube tu estatus bajando el de los demás. Es como si todos se pararan de puntillas para ver mejor en un estadio. Nadie ve mejor que antes, y todos están más incómodos.
Para muchos estudiantes, la mayor parte del daño social viene de la deuda estudiantil acumulada y las oportunidades laborales perdidas para quienes tienen pocas probabilidades de terminar la universidad.
El sistema actual empuja a todo el mundo a ir a la universidad. Los que terminan y consiguen trabajo en algo relacionado salen razonablemente bien. Los que abandonan a la mitad quedan en el peor lugar posible: con deuda, sin título y sin los años de experiencia laboral que podrían haber tenido.
Dos cosas concretas:
Recortar el subsidio estatal a la educación. El gasto público en educación en todos los niveles en Estados Unidos supera el billón de dólares anuales. Si gran parte de eso es financiar señalización y no aprendizaje real, es un desperdicio enorme de recursos públicos. El Estado está subsidiando una carrera armamentista de títulos.
Expandir la educación vocacional. Caplan defiende un mayor énfasis en la formación vocacional similar a los sistemas de Alemania y Suiza. En Alemania, más del 50% de los jóvenes hace formación técnica dual: parte en empresa, parte en escuela. Tienen trabajo real, aprenden habilidades concretas, y no acumulan deuda. El resultado es una fuerza laboral técnicamente competente sin la burbuja universitaria.
El libro te deja con una pregunta muy incómoda: si el 80% de lo que pagás con años de tu vida y miles de dólares es solo para demostrarle a un empleador que sos del tipo de persona que termina lo que empieza, ¿no habría formas más baratas y directas de demostrarlo?
La respuesta implícita es que sí, pero estamos atrapados en un equilibrio donde nadie puede bajarse solo de la carrera. Si vos no vas a la universidad y tu competidor sí, el empleador elige a tu competidor aunque aprenda lo mismo que vos. Entonces todos seguimos corriendo, aunque colectivamente estemos perdiendo tiempo y dinero.
Es la lógica del dilema del prisionero aplicada a la educación: individualmente, tiene sentido ir. Colectivamente, es un desastre.
Conexión con el libro anterior: Elephant in the Brain llega a la misma conclusión sobre la educación pero desde la psicología evolutiva (señalizamos inconscientemente). Caplan llega desde la economía con datos duros. Los dos libros se complementan perfectamente y se citan mutuamente.
https://www.youtube.com/watch?v=lnVQsJJFcdg&t=14195s
Hayek argumenta que los gobiernos, por naturaleza, siempre devaluarán la moneda para financiar sus gastos (inflación). Por tanto, un “buen dinero” (que mantenga su valor) es imposible mientras el Estado tenga el monopolio de la emisión. La solución es la competencia de monedas privadas.
No te engañes (Feynman): Creer que puedes escapar del sistema comprando tierra y paneles solares es un “cargo cult”. Estás imitando la forma de la independencia sin tener la sustancia (seguridad, economía real). El sistema está roto (Hayek): Las instituciones (dinero, leyes de tierra) están capturadas por el gobierno y el mercado especulativo, haciendo imposible la competencia justa o la vida alternativa. La realidad gana: La única forma “económica” de usar esa tierra es participar en la economía de servicios de lujo (bodas, eventos), no viviendo en ella como un pionero. El “pionero” es devorado por el mercado (impuestos/valor de oportunidad) y la delincuencia (robo de paneles).
Estos transcripts son streams de George Hotz, el hacker que crackeó el PS3 y fundó Comma.ai. Lo que sigue es una síntesis densa de lo que dice, sin filtros.
Sobre Reinforcement Learning (el tema técnico central)
RL es una pesadilla de depurar. Hotz pasa horas encontrando bugs triviales que deberían romper todo pero curiosamente no lo hacen, o lo rompen de formas inesperadas. Su conclusión principal es brutal: RL no funciona de manera confiable y quien te diga lo contrario te mintió. La distribución de datos es no-estacionaria porque el modelo afecta los datos que genera, que afectan al modelo, en un ciclo que nunca converge limpio. Decision Transformers, la arquitectura que intenta hacer RL offline condicionando la generación de acciones en el retorno deseado, le parece brillante en teoría pero imposible de implementar sin una cantidad absurda de bugs. La idea central del Decision Transformer es elegante: en vez de hacer policy gradient, simplemente entrenas un Transformer para predecir acciones dado un “return-to-go” deseado. Pero en práctica hay infinitos lugares donde se puede romper: el log softmax vs softmax vs exp, el detach del value function, el clipping de PPO, la normalización de ventajas, y sobre todo el manejo de acciones inválidas (lo que él llama los “dos”, que son tokens de padding que el modelo aprende a predecir porque le resulta más fácil que aprender la tarea real).
Encuentra un bug muy específico en PPO donde multiplica la ventaja enmascarada dos veces dentro del clip, lo que hace que la pérdida sea técnicamente incorrecta. Lo más frustrante para él es que al corregirlo, el modelo no mejora. Eso captura algo real sobre deep learning: los bugs no siempre tienen el efecto que esperás. También descubre que la entropía del modelo colapsa demasiado rápido, señal de que el modelo converge a una sola acción antes de haber explorado suficiente. La solución de agregar una pérdida de entropía es correcta pero introduce otro hiperparámetro. Su política ante los hiperparámetros es hostil: cada uno que agregás es una deuda técnica. Los menciona como problema sistémico, no como solución.
Sobre Vanilla Policy Gradient llega a una observación importante: con redes de una sola capa converge, con dos capas no aprende la identidad. Esto es un síntoma real de que el gradiente no fluye correctamente y sugiere algo roto en log softmax o en cómo se construye la distribución de probabilidad sobre acciones. El modelo predice logits, los convierte en probabilidades vía softmax, samplea una acción, y luego necesita el log de esa probabilidad para multiplicar por la ventaja. Si en algún paso de esa cadena hay un exp de más o un softmax duplicado, el gradiente se distorsiona completamente.
Sobre TinyGrad, la arquitectura de software y la filosofía de código
TinyGrad tiene menos de 5000 líneas e implementa “prácticamente todo”. Para Hotz esto no es un logro de comprimir complejidad sino de eliminarla. Su argumento central sobre software: la complejidad es inversamente proporcional al número de personas que trabajan en algo. Kubernetes existe porque alguien decidió que “necesitaba soportar todo” antes de entender qué necesitaba soportar realmente, y eso es abstracción prematura. El proof de Fermat’s Last Theorem no se parece en nada a Kubernetes, y la diferencia es que uno tiene un autor con una idea y el otro tiene comités gestionando complejidad.
Sobre AMD vs Nvidia en el contexto técnico de TinyGrad multi-GPU: el problema no son las GPUs sino el overhead de HIP, que es básicamente un clon de CUDA donde reemplazaron cuda por hip en todos los nombres. HIP Graph, el equivalente de CUDA Graph para batching de kernels, resulta ser inútilmente lento porque no está bien implementado. Esto lo obliga a explorar tres alternativas: multiprocessing, spin locks en GPU kernel, o escribir su propio driver usando directamente la HSA API de AMD, que es la capa justo encima del driver de kernel. La HSA (Heterogeneous System Architecture) es una especificación abierta de AMD que expone directamente colas AQL (Architected Queuing Language) que se comparten entre CPU y GPU en memoria. La idea de Hotz es bypasear HIP completamente y que TinyGrad genere directamente paquetes AQL, lo que eliminaría la mayor parte del overhead. El problema que descubre es que las copias entre GPUs no usan el motor DMA dedicado del hardware sino que lanzan kernels normales de cómputo, lo que desperdicia recursos y no permite solapar transferencias con cómputo.
El libro que menciona explícitamente como referencia canónica es el Sutton & Barto, “Reinforcement Learning: An Introduction”, y lo cita como el libro de RL por excelencia. También menciona el “Bitter Lesson” de Rich Sutton, que es un ensayo corto (no un libro) cuya tesis es: los métodos generales que aprovechan cómputo siempre ganan en el largo plazo sobre métodos con conocimiento incorporado a mano. Hotz dice haberlo creído antes de que existiera como ensayo.
Sobre Imitation Learning vs RL
OpenPilot, el sistema de conducción autónoma de Comma.ai, usa imitation learning puro, no RL. La ventaja que defiende es clara: la distribución de datos es estacionaria porque el ground truth son humanos reales conduciendo, no el modelo mismo. El problema que tiene RL en self-driving es que si el modelo falla, los datos que genera reflejan ese fallo, y entrena sobre sus propios errores. Imitation learning tiene sus propios problemas (no puede superar al demostrador) pero los problemas ocurren en runtime, no en train time.
Sobre RL aplicado a self-driving
El mayor problema técnico de Comma ahora es que su simulador no es suficientemente fiel a la realidad. Menciona que están explorando world models entrenados con Transformers, similar a Dreamer V3 y MuDreamer, para tener un simulador neuronal en vez de uno con reglas a mano. La diferencia con Dreamer que le parece interesante es que MuDreamer no backpropaga el gradiente a través del decoder, aprende la representación latente solo a través de cabezas de predicción de reward, valor y continuación de episodio. Lo que Comma hace actualmente es una variante donde tienen un VQ-VAE para aprender un espacio de embedding sobre footage de conducción real, y luego entrenan un Transformer sobre ese espacio latente.
Ideas sobre el negocio y el código abierto
El moat de una empresa nunca es un truco de ML. Es la capacidad de ejecutar. El pipeline de extracción y limpieza de datos es un moat real porque requiere iteración durante años. Compartir trucos de entrenamiento no te debilita, al contrario: si el mundo no adopta tus ideas, el mundo desarrolla ideas incompatibles y tenés que mantener una bifurcación eterna. Cita el modelo del upstream en open source: si tu código entra al proyecto principal, ellos lo mantienen; si no entra, vos lo mantenés solo. Eso aplica a ML tanto como a software.
Lo controversial y personal
Hotz fuma marihuana en stream y Twitch le pone una advertencia de contenido maduro, lo que lo hace considerar migrar a Kick o Twitter/X. Negocia en público, dice que quiere un split 70/30 en vez de 50/50. Su opinión sobre política es nihilista: apoyó a Obama, Ron Paul, Trump, Yang, y en todos los casos dice que “todos terminan siendo una decepción”. Considera que el Deep State no es una conspiración sino simplemente los burócratas no electos que permanecen independientemente de quién gana las elecciones, y que son literalmente listables con nombre y apellido. Menciona que el problema con los medicamentos modernos para la presión (estatinas incluidas) es que mantienen vivos a estos burócratas más tiempo del natural, eliminando el ciclo de renovación generacional. Sobre Harvard dice que termina en “tanks en el campus de Harvard”, aunque el contexto es irónico. Dice que el peso corporal es una elección personal y que las personas con sobrepeso toman malas decisiones. Se describe a sí mismo como el problema en la dinámica woke/anti-woke, diciendo que se queja de la gente que se queja de los wokes. Tiene una relación con Alex, que aparece en los streams, y planean ir a comer a una deli que según él está manejada por una secta. Cree que la singularidad va a ocurrir aproximadamente en 2038 porque es el rollover del Unix timestamp de 32 bits, y admite que eso es igual de arbitrario que el calendario Maya pero dice que al menos tiene una razón técnica.
Lo que emerge de estos streams es un pensamiento genuinamente inusual, alguien que vive en la intersección entre el genio técnico y la filosofía política amateur, con honestidad brutal sobre sus propias limitaciones.
El núcleo técnico: OpenPilot y el problema del control lateral
La parte más rigurosa viene de una presentación interna sobre cómo Comma.ai resolvió el problema de que cada auto se comporta diferente. El modelo de vehículo tradicional asume física de bicicleta, un slip angle, fuerzas en los neumáticos, y calcula el ángulo de dirección necesario. El gran insight fue que el torque de dirección es directamente proporcional a la aceleración lateral deseada. Implementaron esto en 0.8.15 como “torque control”. Luego se dieron cuenta de que incluso eso era insuficiente porque cada auto individual varía, así que crearon TorqueD, un sistema que aprende los parámetros de tu auto específico en tiempo real mientras manejás. El resultado final apunta a un “target audience of one”: que el auto aprenda a ejecutar perfectamente las instrucciones para ese vehículo concreto. También liberaron el dataset “comma steering control”, 12.500 horas de conducción en más de 10 marcas, que según ellos nadie más tiene.
El drama del Reinforcement Learning
Esto es fascinante porque es honestidad técnica sin filtro. Hotz pasa horas en vivo intentando hacer funcionar RL con Decision Transformers en TinyGrad, el framework de deep learning que él mismo construyó, primero en CartPole, luego en Lunar Lander, luego en un juego que él mismo inventa llamado “Press the Light Up Button” que es literalmente: hay dos botones, uno se ilumina, presionás el que se ilumina. El modelo no puede aprenderlo de forma confiable. Su conclusión es cruda: “Reinforcement learning doesn’t work.” Y agrega que en Comma no usan RL en producción porque han probado durante meses y nada funciona lo suficientemente bien. Los Decision Transformers conceptualmente son elegantes pero en práctica son un pantano de hiperparámetros donde cualquier bug es casi invisible. La parte técnica más interesante que menciona es sobre inicialización, sospecha que TinyGrad tiene peor inicialización que PyTorch, y que eso explica parte del problema. También señala algo profundo: RL requiere que el modelo tenga un modelo de sí mismo en el ambiente, y eso nunca va a emerger del aprendizaje supervisado, necesitás RL para eso. Pero RL no funciona. Es una paradoja que él deja abierta.
Política tecnológica y la idea del estancamiento
Lee y comenta varias fuentes: un ensayo de Curtis Yarvin (Moldbug) llamado “A Techno-Pessimist Manifesto”, lectures de Peter Thiel, un artículo de Marc Andreessen sobre el tecno-optimismo. También menciona el manifiesto futurista italiano de 1909, un video de CGP Grey sobre automatización, y el concepto de la “Henry Adams Curve” que prometía crecimiento exponencial de energía.
Su tesis central es que algo se rompió en 1971. El uso de energía per cápita en EEUU creció exponencialmente hasta 1970 y luego se aplanó. La productividad y los salarios se desconectaron. Los avances en física fundamental se detuvieron. En 54 años fuimos del primer vuelo motorizado al 747, pero los siguientes 54 años produjeron apenas el 787, que no sería irreconocible para alguien de 1969. Thiel atribuye parte de esto al momento en que India usó reactores civiles para construir bombas, lo que frenó la nuclear. También menciona el caso Griggs v. Duke Power Co. de 1971, donde la Corte Suprema prohibió los tests de IQ para empleos porque no se podía demostrar relación directa con el desempeño, y eso según él destruyó el pipeline de selección por mérito.
Sobre las universidades dice algo que le parece más devastador que criticar los departamentos de género: que la física no avanzó. Cuenta el caso de Bob Laughlin, Nobel de física en Stanford, que empezó a investigar si el departamento de biología hacía trabajo real y concluyó que era “incrementalismo grupal que no movía el dial”. Sus alumnos dejaron de conseguir PhDs. El tabú más peligroso no es lo político, es decir que los científicos no producen ciencia.
El problema microeconómico del housing
Cita a Thiel explicando algo genuinamente interesante: si reducís la oferta de housing 1%, el precio sube 2%, lo que significa que reducir artificialmente la oferta aumenta el market cap total del sector. Esto aplica también al petróleo y OPEC. Es un problema que el mercado libre no resuelve solo porque los incentivos de los propietarios están perfectamente alineados para votar contra más construcción. Hotz dice directamente que es lucha de clases, “Marxism 101”, y que los propietarios te distraen con guerras culturales mientras te cobran el alquiler.
Ahora que tengo el contexto completo, te explico cada pieza.
El punto de Thiel sobre housing
La idea es real y se sostiene económicamente: si la demanda de un bien es inelástica (la gente necesita vivienda sí o sí, no pueden simplemente “no comprar casa”), restringir la oferta no solo sube el precio — sube el valor total del stock existente más de lo que cae en volumen. Por eso a los propietarios actuales (vía zoning, restricciones de construcción, comités de vecinos) les conviene racionalmente oponerse a nueva construcción. No es que sean malvados individualmente: es que el incentivo estructural los empuja todos en la misma dirección, sin necesidad de conspiración. Lo mismo pasa con OPEC limitando producción de petróleo.
Por qué Hotz lo llama “lucha de clases” / “Marxism 101”
“Marxism 101” es una expresión coloquial (no un curso formal) que la gente usa para decir “esto es el ABC más básico del análisis marxista, el primer concepto que aprendés”. El ABC en cuestión es: los intereses materiales de un grupo (en este caso, propietarios) determinan su comportamiento político de forma sistemática, independientemente de su ideología personal — y ese grupo va a usar su poder (político, narrativo) para proteger esos intereses. Eso es literalmente la base del materialismo histórico de Marx: la posición que ocupás respecto a los medios de producción (o, en este caso, respecto al stock de vivienda) moldea tus intereses políticos.
La segunda parte — “te distraen con guerras culturales mientras te cobran el alquiler” — es la idea marxista de que la superestructura (cultura, debates morales, identidad) puede funcionar como cortina de humo sobre la base material (quién se queda con la renta, el plusvalor, el excedente). No hace falta que sea deliberado: simplemente la atención pública se centra en lo cultural mientras la extracción económica sigue intacta y sin cuestionarse.
El diagnóstico de Marx, resumido
El diagnóstico de Kaczynski, resumido
Su manifiesto no habla de clases sociales sino de la tecnología industrial como sistema que:
Dónde coinciden
Dónde divergen, para no aplanarlos
Marx ve la solución en la organización colectiva de la clase trabajadora y la transformación de las relaciones de producción. Kaczynski no ofrece una solución política sino un rechazo total de la tecnología industrial — y, vale aclararlo, terminó cometiendo atentados terroristas que mataron e hirieron a varias personas. Que su diagnóstico tenga puntos de contacto con el análisis marxista no implica ningún tipo de validación de los medios que usó.
Y la postura de Hotz que describís es coherente con esto: toma el diagnóstico estructural de los dos (hay sistemas que generan desigualdad y canalizan la atención hacia lo cultural) pero descarta tanto la prescripción revolucionaria de Marx como la violenta de Kaczynski, y en cambio cae en un pragmatismo algo resignado — “la explotación existe, pero moralizarla no cambia nada, necesitamos una visión positiva de futuro que ni yo tengo”.
Las guerras culturales que menciona Hotz son los debates sobre aborto, matrimonio gay, trans, inmigración, fronteras, Trump vs Biden, el conflicto Israel-Palestina, el wokismo universitario, la discriminación positiva. Su punto es que todos esos temas, independientemente de en qué lado estés, te consumen atención y energía emocional mientras el problema concreto que te afecta la vida, que es que el alquiler subió 4000 dólares y no podés comprar una casa, no aparece en ningún debate. Los propietarios no se sientan en una sala a conspirar, simplemente votan en bloque contra cualquier zonificación que permita construir más porque hacerlo bajaría el valor de su activo principal. El sistema se mantiene solo sin necesitar coordinación explícita. La distracción cultural es el lubricante que hace que nadie pregunte por qué en Tokio el housing es barato y en San Francisco no, cuando la diferencia no es tecnológica ni geográfica sino puramente política.
El thymos y el problema del sentido
Dedica mucho tiempo a la idea de thymos que toma de Yarvin y que Yarvin toma de Francis Fukuyama, que a su vez la tomó de Platón. Es el orgullo, el deseo de reconocimiento, la energía vital. Hotz dice que los chicos del hood tienen thymos, que la gente del barrio está afuera en la calle y forma sociedad, mientras que el “bureaucrat universitario” es el “last man” de Nietzsche, un hombre sin pecho en términos de C.S. Lewis. Cita a William James de 1910 que ya veía la decadencia y proponía una “conscripción contra la naturaleza”, mandar a los jóvenes privilegiados a trabajar en minas y túneles para quitarles la infantilidad. Hotz dice que esto le parece brillante. Mao tuvo una idea similar con los “sent-down youth”. El problema que identifica: no puede ser opt-in, tiene que ser obligatorio para los elites, y nadie va a hacer eso.
Por qué no es Elon Musk
Es una de las partes más honestas. Se pregunta qué tienen Elon y Sam Altman que él no tiene. Su hipótesis es que son capaces de decirle que sí a todo el mundo sin tener intención de cumplir. Elon prometió self-driving nivel 5 cada año durante años. Altman prometió revenues que no existían. Hotz dice que él no puede hacer eso, que cuando dice algo lo cumple, y que por eso Comma tiene 25 personas después de 7 años mientras OpenAI explotó. Se pregunta si esto es una virtud o sour grapes. No concluye. Lo que sí dice es que Elon construyó Starlink usando información técnica que sacó de un fundador en múltiples reuniones sin financiarlo, y que eso le parece éticamente ambiguo pero lo absuelve el resultado: podés comprar Starlink en Best Buy por $120. Si entregás, te perdonan los pecados. No entregás, sos Elizabeth Holmes.
Aceleración vs. deceleración
La nueva línea divisoria para él no es izquierda vs. derecha sino XCel vs. DCel, los que quieren más energía y más humanos versus los que no. El tecno-optimismo de Andreessen le parece juvenil porque es como el manifiesto futurista italiano de 1909, que terminó en el fascismo y en Italia con bajo uso de energía per cápita. Le gusta el aceleracionismo ahora pero no lo ve como ideología sostenible a largo plazo porque no puede ser un movimiento de masas: nadie se pega al asfalto para pedir más defensa planetaria contra asteroides. Los movimientos que funcionan necesitan víctimas y chivos expiatorios.
Lo personal y lo controvertido
Se declara cristiano que cree en la evolución. El wokismo le parece el cristianismo sin el perdón: guardás el pecado original pero eliminás la redención. Le resulta más interesante como fenómeno causal que como objeto de odio, y cita a Thiel que lo explica como subproducto de hacer que los precios inmobiliarios suban indefinidamente en ciudades específicas. Tiene 123 acres a 30 minutos de San Diego y quería hacer algo tipo Galt’s Gulch pero reconoce que sin labor robótica es imposible. Fuma, fue a caminar, no hizo trabajo ese día. Le molesta cuando desconocidos lo paran en la calle. Le molesta más si están comiendo con su hija.
Sobre AI alignment dice algo interesante: que quizás alignment y capability sean la misma cosa, que cuando alguien no hace lo que le decís generalmente es un problema de capacidad no de valores. No es anti-alignment pero le parece que gran parte de la investigación en ese campo es performance. Exceptúa la robustez adversarial, los evals, y la interpretabilidad.
Los libros y fuentes que menciona explícitamente: “The Diversity Myth” de Peter Thiel (1995), “Introduction to Kolmogorov Complexity and Its Applications”, el Manifiesto Futurista de Marinetti (1909), los essays de Curtis Yarvin en Substack, las lecturas de Peter Thiel publicadas en New Criterion y Pirate Wires, el video de CGP Grey sobre automatización y el de “Humans Need Not Apply”, “Wireheading City” que es un post en su propio blog.
Voy a leer todos los archivos antes de responderte.Ya leí todos los archivos en el contexto. Te escribo el resumen.
George Hotz en sus streams: ideas, técnica y controversias
Lo más central de estos streams es el proyecto de escribir un driver de GPU en Python para un Qualcomm Snapdragon 8 Gen 2, concretamente el chip dentro de un Samsung Galaxy Z Fold 5. La premisa técnica que defiende con fuerza es que los drivers de GPU no necesitan ser rápidos porque su trabajo es construir command buffers, no ejecutarlos. El cuello de botella real está en el shader y en el dispatch al hardware, no en el driver en sí. Por eso argumenta que Python es perfectamente válido para escribir drivers, algo que la industria consideraría una herejía. Lo que está haciendo es enganchar los ioctls del driver de Qualcomm desde userspace, parsear los command buffers que el driver oficial manda a la GPU, y eventualmente reemplazar el compilador de shaders con el de tinygrad para tener control total sin depender de la pila propietaria.
La arquitectura que describe es clara: el GPU del Snapdragon usa un formato de command buffer llamado PM4, con básicamente dos tipos de paquetes: type 4 (escritura de registros) y type 7 (comandos de operación). Los registros contienen el global size, local size, punteros a los shaders y constantes. El shader se pasa como constants en los registros C20, C21, etc. Encuentra en vivo que el GPU hace matemática de 64 bits para calcular direcciones donde podría hacer de 32 bits, y lo señala como una optimización obvia que el compilador oficial no hace. El objetivo final es que tinygrad genere directamente el código de los shaders para Adreno sin pasar por OpenCL, reemplazando Mesa para compute pero no para gráficos, porque gráficos es donde los GPUs se vuelven complicados de verdad. Resume la visión así: quiere ser el Mesa del compute.
Una idea técnica importante que repite es que en Android/mobile hay una memoria unificada entre CPU y GPU, lo cual elimina la necesidad de copias explícitas, pero el driver de userspace de Qualcomm igual hace copias para pinear la memoria. Lo detecta analizando los ioctls y sospecha que hace dos copias, cosa que considera un desperdicio. El disassembler de shaders que usa funciona para algunos chips pero no para el Snapdragon 8550 moderno, lo cual lo frena en varias partes del stream.
Sobre las herramientas, abandona ChatGPT completamente en estos streams y usa Perplexity Labs con Mixtral, que considera 5 veces más rápido. Dice que GPT-4 se degradó, que no cambiaron los pesos pero sí el prompt, probablemente por razones legales. Cuando le pregunta al LLM sobre el formato de los command buffers de Adreno, el modelo alucina y él lo descarta. Lo interesante es que en el mismo stream él también alucina un argumento de una función de Python que nunca existió y lo compara con lo que hacen los LLMs, diciendo “pensé que era mejor que un LLM pero no lo soy.”
En cuanto a la visión de la empresa, hay una discusión extensa sobre hiring en tinygrad y comma.ai. Su posición es dura: si tu primera pregunta sobre un trabajo es si es remoto, no eres buen fit, porque revela que el trabajo no es tu prioridad número uno en la vida. Dice que la única forma correcta de maximizar tu compensación total como programador nuevo es saltar de startup en startup cada dos años tomando equity del 0.5% a 1%, siendo básicamente tu propio VC. Los salarios de tiny corp son 80-120k full time con salarios de interns de 1400-2000 por semana. La ubicación es San Diego, no San Francisco. Sobre San Francisco dice que después de 48 horas ahí la encuentra “inhabitable.”
Sobre el futuro de la IA tiene una idea que repite: estamos a punto de invocar un poder sin precedentes y esto va a revelar la verdad de la naturaleza humana, y no estamos listos para escucharla. Es pesimista pero relativiza diciendo que la gente antes vivía en chozas y hacía guerras, así que quizás no estamos tan mal.
Sobre política e inmigración dice que la política migratoria americana actual selecciona para el elemento criminal porque para entrar hay que cometer un crimen. Preferiría o dejar entrar a todos o a nadie, pero el sistema actual filtra al revés. Menciona que el ministro de IA de Dubai le escribió en Twitter ofreciendo infraestructura y visas fáciles, y lo compara favorablemente con la inacción americana. Sobre Elon dice que con la compra de Twitter hizo más por el movimiento anti-woke que todo el Partido Republicano junto, pero no está de acuerdo con la decisión de requerir login para ver tweets.
Sobre religión se declara cristiano, dice creer que Jesús murió por sus pecados aunque con matices, no cree que todo en la Biblia sea literal, considera que la Biblia es una historia de origen humana. Sobre el afterlife dice que le da 50/50. Lo que más le sorprende es el dogmatismo que encuentra en los ateos, más que en los creyentes. Critica a los que dicen “cómo podés creer en algo tan anticuado como Dios” sin tener una respuesta a de dónde viene el universo.
Sobre las máscaras durante el COVID tiene una posición muy firme: las máscaras de tela son completamente inefectivas para prevenir la propagación de enfermedades respiratorias, que esto era conocido por cualquier persona que hubiera pensado en el tema antes de 2019, y que ver a la sociedad ponerse remeras en la cara para prevenir un virus fue una de las experiencias más perturbadoras de su vida en cuanto a revelar la irracionalidad masiva. Aclara que no habla de N95s o P100s bien usados, que esos sí pueden funcionar. Dice que no perdona a quienes lo criticaron por decir esto en su momento.
Sobre neuroplasticidad y cambio personal tiene una idea oscura que desarrolla: a los 30 años tu vida ya es básicamente lo que va a ser, tus limitaciones son probablemente permanentes, y nadie habla de esto pero es una de las verdades más tristes sobre la humanidad. Cita a un amigo que dice “no cambiás, solo cambiás la percepción de vos mismo.” El trauma sí puede producir cambio instantáneo, pero para peor.
Los libros que menciona o recomienda explícitamente son varios. The Elephant in the Brain de Robin Hanson y Kevin Simler, cuya tesis es que muy frecuentemente no somos conscientes de nuestras verdaderas razones para comportarnos como nos comportamos, porque evolutivamente es útil no serlo. The Case Against Education de Bryan Caplan, que argumenta que la función principal de la educación no es mejorar skills sino certificar inteligencia, diligencia y conformidad para los empleadores. Infinite Jest de David Foster Wallace, que ama, y menciona The Pale King del mismo autor como menos lograda. La serie Culture de Iain M. Banks, especialmente Consider Phlebas, The Player of Games y Use of Weapons. Brave New World, 1984, Animal Farm, Lolita, Crime and Punishment, War and Peace, Catcher in the Rye, Slaughterhouse-Five, Atlas Shrugged (su Rand favorita, dice que sus libros mejoran progresivamente), The Fountainhead y Anthem. Dune. Snow Crash y Cryptonomicon de Stephenson. Surely You’re Joking, Mr. Feynman y el libro Understanding Physics de Asimov, que junto a las Feynman Lectures dice que le enseñaron física. Emperor’s New Mind de Penrose, que menciona como algo que podés leer si querés perder el tiempo. The Wealth of Nations. Accelerando de Stross.
Sobre física hace varios cálculos de Fermi en vivo. Estima que la Vía Láctea, si el Sol fuera del tamaño de un glóbulo rojo, tendría el tamaño de la distancia Tierra-Luna, quizás 3 veces esa distancia. Usa Star Trek Voyager como fuente para el diámetro de la galaxia (70,000 años luz) y está orgulloso de que el orden de magnitud le salga bien. Explica correctamente por qué las compañías eléctricas transmiten a alta tensión: las pérdidas dependen de la corriente, no del voltaje, y a mayor voltaje menor corriente para la misma potencia, lo que permite cables más delgados y ahorro en cobre. Explica taquiones como partículas con masa imaginaria que existirían si v > c en la ecuación relativista de energía. Sobre dilatación temporal cerca de objetos masivos dice honestamente que tendría que pensarlo más. Explica el principio de exclusión de Pauli con la metáfora del colectivo: no te sentás al lado de alguien hasta que todos los asientos tengan al menos una persona.
Listo, leí los 10 archivos. Son en su mayoría las charlas del “Comic-Con” interno de comma.ai (evento anual donde presentan al equipo). Antes que nada, te aclaro algo importante: en estos subtítulos no hay nada sobre vacunas, ni sobre su vida de pareja, ni sobre opiniones médicas o personales de ese tipo. Es todo contenido técnico (control vehicular, hardware, modelos de conducción, monitoreo del conductor) y los monólogos filosóficos/estratégicos de George Hotz. No me invento nada: si aparece algo controversial acá, es lo controversial que realmente dijo en estos streams, que es más de negocios, AI, y críticas a la industria.
La tesis central de Hotz, en una frase: construir auto-conducción con intermediarios pequeños y simples, liberar el software (open source/openpilot), y no mentir. Todo lo demás se deriva de eso. El producto estrella es el comma 3x: un dispositivo de $1250 que se monta en el parabrisas y corre un modelo de driving open source sobre 250+ modelos de auto. La empresa es 25 personas, levantó $3.1M contra los $3.7B que juntó Cruise o los miles de millones de Aurora/Luminar/Waymo. Cuatro personas renunciaron en siete años. Esa es la vara que usa para todo.
La idea más profunda y la que más repite, casi como mantra: “el marginal utility approaches marginal cost”. Como el costo marginal de openpilot es cero, Hotz mide éxito en destrucción de valor, no en creación. Si podés romper los falsos moats de empresas scam, el producto sigue mejorando y queda gratis. Esto lo lleva a criticar a Cruise, Waymo, Aurora, Luminar: “raising billions with little revenue” — para él son scams que sobreviven porque los mercados son irracionales más tiempo del que vos podés mantenerte solvente. La comparación que hace es: Tesla se asoció con Pepsi para 18-wheelers, “I have a motorcycle license, I don’t have CDL, who’s making money off this?” — el punto es que los incumbentes mienten sobre su valor.
Su modelo mental para construir: “climbing out of a well”. Cada día hacés forward progress, evitás regresiones, y eventualmente salís. No hay shortcut, no hay cash infusion que te saque del pozo. Por eso valora más la velocidad de iteración que la cantidad de dinero. La humility para él no es un juego de status: “humility versus nature, not humility versus people”. “I do have a big ego, I think I’m better than a lot of people” — lo dice literal, y agrega que actuar humilde es lo que está mal. Humildad real es enfrentar que tu modelo de ML no funciona a la primera.
Sobre el fraude y la mentira: “if you tell the truth you don’t have to remember anything”. En comma no contratan gente de marketing o comunicaciones. Llama a los press secretaries “paid liars” cuya labor es “make it look good though” aunque hayas “murdered 30 orphans in Cuba”. Hotz dice que entró a este juego sin darse cuenta de cuán deshonesto era: “I have never seen a more wretched hive of scum and villainy”. La métrica que usa para distinguir scams de cosas reales: “revealed preference beats stated preference” — si la gente lo compra y se lo queda, es real. Stated preference (encuestas, “queremos compartir el auto para salvar el ambiente”) pierde contra HOV lanes llenas de autos individuales y nadie usando Uber Pool.
Lo técnico más fuerte que se presenta en el control del vehículo: la evolución del control lateral. Empezaron con PID clásico sobre ángulo de steering, después pasaron a torque control (release 0.8.15) descubriendo que el wheel torque es proporcional a la lateral acceleration ajustada por gravedad, con un factor que se aprende. Después vino “talk D” o auto-tune, donde en vez de aprender un factor promedio por plataforma, lo aprendés en vivo por auto individual — así si cambiás las ruedas, metés carga en el techo, o el aire está bajo, el modelo se adapta. Por último, el modelo no-lineal (0.9.3) para autos como el Chevy Bolt donde la relación entre comando de steering y lateral acceleration no es lineal — y hasta distinguen que en GMs la curva es asimétrica entre left y right turn. El dataset que liberaron, “comma steering control”, tiene 12,500 horas de openpilot driving en 10+ modelos y 10+ marcas, con steer command, lateral acceleration, road roll y velocity. Es el dataset más grande de su tipo y dicen que nadie más lo tiene.
El modelo de vehículo: simplifican el auto a un “bicycle model” con slip angle, centro de gravedad, y steer ratio. Aprenden en vivo el steer ratio, tire stiffness, road roll, y steering angle offset. El steering angle offset sirve incluso para detectar mala alineación de ruedas — un caso real que mencionan donde el sistema le decía al usuario “tu volante tira 10 grados, tenés mal alineación”, el usuario iba al mecánico, lo arreglaba, y openpilot andaba perfecto.
Sobre la robustez del modelo: entrenan con “fake routes” para que el modelo sea robusto a mapas rotos, GPS caído, o road closures. La regla: “always trust the video, never trust the map”. El video siempre tiene razón, el mapa puede estar mal por mil razones. El map encoder es un autoencoder que corre en el DSP (no en la GPU) con quantization-aware training, y se entrena separado del driving model por esas restricciones de hardware.
El sistema de capas que propone Hotz para el futuro: OS (tinygrad) abajo, que corre modelos foundation; arriba, un “system layer” con modelos foundation (opinión-less, no-RLHF); arriba, un “policy model” (acá sí hay opinión, es custom software, es lo que se entrena con RLHF o supervised). Hotz agradece a Meta por liberar Llama 2 como foundation model y no solo la versión RLHF — porque eso le permite a comma entrenar sus propios policy models encima. Dice que los foundation models en la nube “no tienen opiniones” y que el “comma seven is like a child, it will learn whatever behaviors you teach it. Teach it well.” Esa distinción foundation/policy es la que justifica legalmente que el dispositivo no es responsable: el foundation model viene en el device, el policy model que vos instalás es custom software, decisión tuya.
Hardware (charla de Rob): el comma 3x es una refinación del comma 3, mismo SoC (845), misma cámara arrangement — esto es clave porque significa que tu comma 3 no queda obsoleto. La filosofía: “no part is the best part” (cita a Elon aplicándola irónicamente). Sacaron PCIe lanes porque ya no hay NVMe, sacaron el 3.3V power wheel, sacaron el external siren (usan los speakers para eso), sacaron el USB hub (el panda ahora habla SPI directo con el main device). Lo más interesante a nivel de ingeniería: las cámaras van on board, no con ribbon cables — esto casi nadie lo hace en celulares, y solo lo pueden hacer porque tienen una lens focusing line in-house. Eso les sube mucho la reliability. Otros cambios críticos: GPS integrado en el módulo Quectel (y lo configuran para que escupa raw measurements en vez de procesar internamente), chokes en todas las can lines para soporte CAN FD, boost regulator entre los super caps y el power rail (arregla un bug donde el comma 3 metía 7V al SoC al apagar), stereo speakers acoplados al case con gaskets (los del 3 sonaban mal). El data center tampoco usa aire acondicionado: 800 amps, intake a 43°C, fans de 3HP que cambian el aire en 10 segundos, “de-stratification fans” para igualar temperatura del piso al techo. La temperatura del data center es alta a propósito, en San Diego afuera puede llegar a 110°F, no tiene sentido gastar AC.
Driver monitoring (charla de Weshing): redefinen “atención” como “ready to take control at any time”, no como “mirá al frente”. Esto les permite entrenar un modelo end-to-end que predice directamente si el conductor está listo para tomar control, sin un state machine intermedio. Ground truth ingenioso: probabilidad de tomar control es alta cuando el humano está conduciendo, alta de NO tomar control cuando el auto está detenido. Esos dos signals ya estaban en los logs. Solo el 2% del dataset necesitó labeling humano, lo tercerizaron, y mejoró true positives en 15% sin subir false positives. Removieron el “wheel touch” como proxy de atención porque se puede cheat-ear (como en Tesla con objetos colgados del volante). Removieron el toggle de “right hand drive” porque el modelo detecta del frame en qué lado del auto está el conductor. Resultado sorprendente del análisis de comportamiento: comparado con llevar pasajero, cuando vas solo sos 4x más propenso a tomar una curva a más de 0.5g, 2.5x más a hacer hard brake, y 2x más a tailgate. Con openpilot puesto, los drivers están 40% menos distraídos que sin él. Y no se vuelven más complacientes con el tiempo — los percentiles de duración de distracción quedan planos en el largo plazo.
Sobre la métrica de seguridad: Hotz repite varias veces “you must pay attention at all times, this is not a joke, this is not tongue-in-cheek. Pay attention or don’t buy the device.” Cubre responsabilidad si el problema es del modelo, no si el usuario no estaba prestando atención. Dice que en todos los accidentes que vio con comma devices, nadie murió, nadie tuvo lesiones serias, y todos se habrían evitado si el humano estaba mirando.
El data center de cómputo: miden todo en BFLOAT 16. Tienen 5.68 PFLOPS en el setup anterior, en una cochera (4-car garage, menos de un lugar de auto ocupado). Con la nueva oficina, 8X la potencia, 800 amps dedicados. Las máquinas se compran usadas — y en el BMC pueden ver el historial de temperatura del server en su vida anterior en data centers con AC a 21°C. Ahora en coma corren a picos de 42°C. Los fans consumen 8 kW full power, que es menos del 4% del consumo total del data center — la mayoría de data centers gasta más en AC que en servidores, dice.
El futuro que pinta Hotz (forward-looking statement del Comic-Con 9 ficticio, año 2037): 44 stores en malls alrededor del mundo, mil millones de devices vendidos, top 10 consumer electronics, sin haber vendido out. Mall store real en UTC (San Diego), dice que va a pasar pronto. El “comma seven” sería la tercera generación de su ASIC, con 50 PFLOPS de compute (50,000 TFLOPS), comparado con ~5 TFLOPS del comma 3. Factor de 10,000x. Tres form factors: cars, bodies, y puppies (robots de compañía). El comma 7 bootea en tinygrad. Dice que con 50 PFLOPS + openpilot + foundation models entrenados en cloud + RL en el mundo + on-device learning, el comma 7 debería poder hacer cualquier cosa que un humano puede. Y remata: “the comma 8 will likely be running the company” — chiste o no, es su tesis de que la AGI llega antes de lo que la gente cree.
La frase clave sobre AGI: “robotics is all a question of intelligence”. El comma 3 actual tiene la inteligencia de un pájaro, no tan listo como un ratón, ni hablar de un perro o humano. Pero la curva se va a empinar. Y un detalle que se le escapa: “people forget how good humans are, people forget how good humans are driving”. Los ADAS hacen el manejo un poco más seguro porque el humano sigue prestando atención, pero los sistemas que sacan al humano del loop no son más seguros todavía, porque los humanos son increíblemente buenos conduciendo, y la diferencia es inteligencia.
Citas y referencias que menciona:
Las controversias reales que sí dijo:
Lo que NO encontré en estos subtítulos (porque me lo pediste explícitamente): nada sobre vacunas, COVID, salud, ni vida de pareja o relaciones personales. Esto es material de empresa y técnico, no podcast personal. Si Hotz dijo algo de eso en otros streams, no está en estos 10 archivos. No me invento contenido que no está.
El proyecto técnico central: escribir un driver de GPU en Python
Lo que Hotz está intentando hacer en estos streams es algo que la industria considera absurdo: escribir el driver de espacio de usuario de una GPU Qualcomm Adreno directamente en Python, sin dependencias de C, usando ctypes para acceder a funciones nativas. El objetivo concreto es hookear la syscall ioctl, que es el mecanismo por el que el software le habla al hardware en Linux/Android, para interceptar todas las comunicaciones entre TinyGrad y la GPU, parsearlas, y eventualmente reemplazar el compilador de shaders de Qualcomm por uno propio.
La motivación técnica es elegante: los drivers de GPU modernos no necesitan ser rápidos porque su trabajo es construir command buffers, estructuras de datos que se envían a la GPU de una vez. El cuello de botella real es la GPU ejecutando los shaders, no el driver construyendo las instrucciones. Por lo tanto, la lentitud de Python es irrelevante para el driver. Esto contradice la sabiduría convencional de que los drivers deben estar en C.
El proceso que muestra en vivo es brutalmente honesto: intenta hookear ioctl mediante varios métodos, todos fallan de formas diferentes, bus errors, segfaults, instrucciones ilegales, problemas de ASLR, hasta que eventualmente logra usar memmem de libc para encontrar el puntero a ioctl en la GOT (Global Offset Table), hace mprotect de la página para hacerla escribible, y sobreescribe el puntero con un callback de Python. El detalle técnico más interesante que descubre es que la arquitectura Qualcomm Adreno usa paquetes de tipo 4 y tipo 7 en su command stream, similar a Radeon, y que los shaders se pasan como constantes en registros mediante instrucciones CP_LOAD_STATE6_FRAG. Cuando finalmente logra parsear el command buffer y ver los tres punteros que representan los dos tensores de entrada y el tensor de salida de una operación de suma, claramente lo disfruta de una forma que pocos programadores experimentan.
También menciona algo que considera alpha técnico con valor de millones de dólares: antes de tapar un chip nuevo, hay que poder escribir drivers para los chips que ya existen. Si no podés escribir un driver mejor para hardware existente, tu chip va a ser peor. Dice haber visto startups gastar cientos de millones en tape-outs que claramente no iban a ningún lado porque nadie en el equipo podía demostrar que entendía el hardware a ese nivel.
La configuración técnica del stream
Está trabajando en un Samsung Galaxy Z Fold 5 conectado por ADB, con Termux corriendo un servidor SSH, VS Code Server corriendo en el dispositivo, y él conectado desde su computadora a través de port forwarding. El chip es el Snapdragon 8 Gen 2. Menciona que consideraron ese chip para el comma 3x pero Qualcomm pedía demasiado dinero. La elección de Android sobre iPhone no es casual, en iOS esto directamente no sería posible porque el kernel no permite mprotect de páginas de código de la misma forma.
Sobre los LLMs como herramientas de trabajo
Algo notable en estos streams es cómo usa los modelos de lenguaje en tiempo real y qué opina de ellos. Usa Perplexity con Mixtral en vez de ChatGPT porque dice que GPT-4 se ha vuelto mucho peor aunque Anthropic no haya cambiado los pesos, sospecha que cambiaron el prompt por razones legales. Mixtral en Perplexity es 5 veces más rápido. Lo que lo irrita es que los modelos alucinan constantemente con ctypes, inventan argumentos que no existen, inventan nombres de funciones con underscores donde no los hay. Dice en un momento “hallucinating like an LLM” como insulto dirigido a sí mismo cuando comete un error. La conclusión que saca es que los modelos son útiles para regex y para código genérico pero completamente inútiles para APIs de bajo nivel poco documentadas, exactamente donde un experto humano agrega más valor.
Sobre contratación y trabajo remoto
Dice que TinyCorps paga entre 80 y 120k anuales en San Diego, donde podés alquilar un lugar por 2000 dólares. La pregunta de si el trabajo puede ser remoto te descalifica automáticamente, no porque el remote sea malo técnicamente sino porque revela que el trabajo no es tu prioridad. La estrategia que recomienda para maximizar compensation como nuevo graduado es trabajar en 10 startups distintas, dos años en cada una, consiguiendo 0.5-1% de equity en cada una. Básicamente ser tu propio VC. Sobre nuevos graduados que piden posiciones sin haber contribuido al proyecto: si querés trabajar en la empresa, agarrá un fin de semana y contribuí. Si sos capaz y no lo hiciste, preguntate por qué. Si no sos capaz, esa es la respuesta también.
Lo filosófico y político
Tiene un momento donde conecta el trabajo técnico con la geopolítica de manera directa: el ministro de IA de Dubai le respondió un tweet hablando de buena infraestructura y procesos de visa. Hotz dice que quiere vivir en un mundo con esa clase de transparencia de parte de quienes toman decisiones, y que Elon hace eso excepcionalmente bien, no hay filtro entre lo que Elon piensa y lo que Elon dice. Con Zuckerberg o Bezos no tiene esa certeza.
Sobre San Francisco dice que estuvo 48 horas y lo encontró “uninhabitable”. Menciona la caída del Imperio Romano americano de manera casual y sin drama, como algo que simplemente está observando, no como algo que le genera ansiedad existencial. La pregunta que se hace es qué hacés cuando sabés que Roma está cayendo. La respuesta implícita de su comportamiento es: escribir mejores drivers de GPU.
Lo controvertido
Dice que las máscaras de tela son completamente inefectivas para prevenir la transmisión de enfermedades respiratorias y que esto era conocimiento universal antes de 2020. Considera la masificación de las máscaras de tela un ejemplo de histeria colectiva a escala masiva, y dice que no puede perdonar a la gente que creyó en eso, lo equipara a usar una cruz para ahuyentar demonios. Distingue entre eso y las N95 que considera posiblemente efectivas. Sobre el 5G dice que tuvo una cita con una chica que creía que el 5G era peligroso y que le preguntó en qué difiere técnicamente del LTE, y al no poder responder perdió toda credibilidad para hablar del tema. Su posición implícita es que las señales de radio han bajado de potencia consistentemente en décadas, no subido.
Sobre la ciencia y las instituciones hace una observación interesante: la dogmatización no está en los religiosos sino en los ateos. Encuentra más resistencia a declararse cristiano en sus círculos sociales que a cualquier otra posición heterodoxa. Sobre su propia fe dice que cree en la evolución por encima de su cristianismo, y que cree que Jesús murió por sus pecados “to an extent”, sin definir exactamente qué tan amplio es ese extent.
Dice que leyó a Yudkowsky a los 14 años y que eso le dio un marco para pensar qué son los humanos como sistema, con una función objetivo. Ese marco nunca lo abandonó. La pregunta que se hace es siempre: cuál es el convergent endpoint de lo que estás construyendo.
Hotz tiene una tesis central que repite en distintas formas: el software moderno es una acumulación de hacks sobre hacks. Dice que cuando metes un hack en el nivel bajo, necesitás dos hacks arriba para compensarlo, y esos dos generan cuatro, y así el sistema entero se convierte en hacks. Su proyecto tinygrad existe precisamente para demostrar que podés construir un framework de redes neuronales en 5000 líneas sin esa deuda técnica. Si funciona, quiere que todo el mundo replantee lo que estuvo haciendo en software los últimos 20 años.
Su vara para saber si alguien debería programar es simple y brutal: ¿sabés qué está haciendo realmente el sistema cuando escribís código? Si escribís JavaScript y no sabés qué es un JIT, no deberías estar programando. Si usás Docker y no sabés dónde guarda el estado, igual. No porque sean datos de trivia sino porque sin eso el software que construís va a ser malo inevitablemente. Dice que las personas que programan sin entender qué están haciendo le crean trabajo extra a todos los demás, y los considera moralmente comparables a los lobistas de H&R Block que mantienen el código impositivo complejo para seguir cobrando.
Pasó horas intentando levantar MediaWiki con Nix en vez de Docker y fracasó cómicamente. Su conclusión fue que Nix es “Docker confuso que no hace lo que hace Docker.” Encontró valor conceptual en el sistema, sus builds reproducibles, su composabilidad funcional, pero en la práctica lo encontró imposible de usar para cualquier cosa que no sea el tutorial exacto que estás siguiendo. Cuando finalmente hizo la misma tarea con Docker fue cuestión de copiar y pegar un ejemplo. Su punto no es que Nix sea malo en abstracto sino que la dificultad de uso no está justificada por lo que te da, y que la complejidad accidental es el enemigo real.
Vende una computadora con 6 GPUs AMD por 15,000 dólares, con margen de alrededor de 6,000 dólares por unidad. Tiene más de 500 pre-órdenes. Rechaza explícitamente asociarse con fabricantes de autos porque dice que eso sería “ser su perro.” No hace órdenes personalizadas. La alimentación eléctrica usa dos PSUs de consumidor en vez de PSUs de servidor porque los de servidor generan 65 decibeles, enfriamiento por aire con nueve ventiladores de 140mm, sin water cooling porque no quiere recibir emails de gente diciéndole que el box les gotea.
Dice algo que pocos en el espacio dicen en voz alta: crypto solo es bueno para arbitraje regulatorio. Bitcoin encontró un caso de uso real que era vender drogas por internet porque Stripe no procesa 0.5 gramos de ketamina. Ethereum encontró algo todavía más grande: valores no registrados, es decir, el casino de shitcoins, que tiene un mercado más grande que las drogas. Todo lo demás, redes de pago para dentistas, compute anónima, la mayoría de los proyectos DeFi, son soluciones a problemas que no existen o que se resuelven mejor de forma centralizada.
Dice que los fundadores que se enriquecen sin haber entregado valor real a usuarios son malas personas, punto. Que él mismo tiene cero acciones de Comma vendidas y solo las venderá cuando las recompre la empresa con ganancias de hardware. El poema que cierra uno de los streams lo dice todo: “Un día el Especulador comprará todo el aire, no para respirarlo sino para hodlearlo, y todos se asfixiarán, y finalmente el Especulador estará triste”, porque no tiene a nadie a quien dumpearle sus bolsas.
Dice que el Imperio Americano Globalista se terminó y no parece estar muy triste al respecto. Su argumento es que el problema de EEUU no es el progreso social sino la ausencia de progreso real: no hay tren de alta velocidad, no hay infraestructura nueva, no hay aviones más rápidos. Compara el GDP per cápita de Francia estancado desde 2008 con el de Taiwan que casi se duplicó en el mismo período, y dice que la diferencia es que uno abraza la aceleración y el otro la desaceleración.
Dice que no vota porque considera que el proceso de selección previo a las elecciones ya excluyó a todo el mundo interesante, y que Trump y Biden no son realmente opciones distintas sino la misma clase social. Cita a South Park con el chiste del douche y el turd.
Sobre DEI e HR dice que usar la raza en el proceso de contratación es racismo, sin importar la dirección. Compara los requisitos de diversidad en directorios con el requisito nazi de tener un miembro del partido en cada empresa. La comparación es deliberadamente provocadora pero el argumento legal que hace debajo es que discriminar por raza es ilegal en EEUU sin importar el grupo.
Dice que el IQ está fijo, la motivación está fija, la energía que tenés por la mañana está fija. Lo único que podés cambiar son tus hábitos y tu filosofía de vida. Si estás en software por el sueldo te pide que te vayas porque le hacés el trabajo más difícil a todos los demás. Su distinción entre personas “sobre la línea de API” y “bajo la línea” es interesante: los que están sobre la línea le dicen a las computadoras qué hacer, los que están bajo la línea reciben órdenes de computadoras. Si estás sobre la línea, lo que hacés tiene efectos de segundo y tercer orden en todos los demás.
El ejemplo de los efectos de segundo orden que da es la historia de la recompensa por ranas en una isla: el gobierno ofrece 10 centavos por rana muerta para reducir la plaga, los emprendedores empiezan a criar ranas en sus sótanos para matarlas y cobrar, el gobierno cancela el programa, todos sueltan las ranas, y ahora hay más ranas que antes. Los que criaban ranas son malvados aunque técnicamente no violaron ninguna regla.
Esto es lo más técnico del lote. Está interceptando ioctls del driver de GPU de Qualcomm en un Samsung Z Fold 5 desde Python para entender qué está haciendo realmente el driver, con la intención de reescribirlo. La idea es extraer qué llama el driver de OpenCL al kernel, reconstruir esa interfaz, y reemplazar todo el espacio de usuario con código propio que llame directamente a los ioctls del kernel sin pasar por la abstracción de OpenCL. Señala que cuando pasás 16 bytes a OpenCL, el driver en realidad aloca 4 kilobytes porque todo tiene que estar alineado a página, y vos no tenés control sobre eso. Esa falta de control sobre las abstracciones es exactamente lo que le molesta.
Hay un momento donde admite que lleva horas trabajando en algo que resultó ser innecesario y lo tira, lo que en sí mismo es una demostración del método que predica: preferir empezar de cero a acumular complejidad.
Estos fragmentos son transcripciones de streams de George Hotz (geohot), fundador de comma.ai y creador de tinygrad. Acá va lo que realmente importa.
Lo técnico central: tinygrad y la filosofía de ML
George está construyendo tinygrad como alternativa minimalista a PyTorch y TensorFlow. La obsesión es real: el proyecto tiene menos de mil líneas de código ejecutable (sin contar comentarios, tests ni líneas vacías). Tiene diez backends diferentes, desde clang hasta Metal pasando por HIP, WebGPU y OpenCL, todos abstraídos detrás de la misma interfaz. La idea es que si especificás la computación en el lenguaje de “lazy ops”, funciona en cualquier dispositivo sin que vos cambies nada. Esto no es marketing, lo demuestra en vivo cambiando una sola palabra y corriendo el mismo código en CPU y GPU.
Implementa en vivo Mixtral (el modelo mixtral 8x7B de Mistral AI), que es un modelo de Mixture of Experts. La idea central de MoE es simple: en vez de pasar cada token por todos los parámetros, hay ocho “expertos” (redes feed-forward independientes) y cada token solo activa los dos mejores. Cómo se decide cuáles dos: hay una capa lineal llamada “gate” que produce ocho scores, tomás el top-2 con softmax, y solo ejecutás esas dos redes. Esto es también lo que según él usa GPT-4 internamente. Lo implementa distribuyendo cada experto en una GPU diferente de la Tiny Box, demostrando multi-GPU sin frameworks complejos.
Sobre la Tiny Box: es su producto de hardware, seis GPUs AMD Radeon en una caja, 128GB de RAM, conectividad infiniband entre unidades. Mide ~791 teraflops en float16. Lo compara con 23 MacBook Pro M3 Max en performance. Justifica el precio de 15K diciendo que en Azure el equivalente cuesta lo mismo en dos meses. Usa AMD en vez de Nvidia porque AMD permite comunicación peer-to-peer directa entre GPUs por PCI, cosa que Nvidia bloquea para empujar NVLink.
El bug de AMD que lo vuelve loco
Cuando intenta copiar datos directamente desde un drive NVMe mapeado en memoria (mmap) hacia la GPU, todo se congela. Lo confirma con GDB, llega hasta la librería HSA runtime de AMD. Su hipótesis es que hay comportamiento cuadrático en algún allocator del kernel de Linux al combinar mmap y transferencias GPU directas. La solución temporal que adopta es copiar todo a través de CPU, que es lenta pero funciona. Pone un bounty de $1000 para quien reescriba el runtime de HIP en Python limpio.
Sobre la arquitectura llama/mistral
Cuando implementa soporte para Mistral nota diferencias con LLaMA: Mistral usa Grouped Query Attention (GQA) donde hay 32 heads de query pero solo 8 heads de key/value, lo que reduce memoria del KV cache. También tiene sliding window attention con ventana de 4K tokens aunque en práctica funciona en contextos más largos. Le molesta que el código del repo oficial de Mistral tiene lógica confusa para calcular la dimensión oculta del feed-forward con un parámetro llamado “multiple_of” que él refactoriza directamente a “hidden_dim”. La postura de George es que el código open source a veces trae complejidad innecesaria de conversores de formato (HuggingFace vs formato nativo) y que es mejor reimplementar limpio.
Sobre inteligencia artificial y la industria
Critica que OpenAI dejó de publicar papers reales y ahora publica “system cards” y documentos de safety. Menciona el paper de OpenAI sobre supervisión de procesos intermedios (process supervision) para razonamiento matemático, donde recompensan cada paso correcto en vez del resultado final. Su evaluación: puede funcionar para matemáticas pero limita los paths de razonamiento a formas supervisadas. Menciona PRM800K como el dataset que lanzaron. Dice que si fuera CEO de OpenAI publicaría arquitecturas y papers pero no los pesos, porque el verdadero moat no es la arquitectura sino la infraestructura y los datos.
Sobre el “algoritmo Q*” (esto era un rumor viral en ese momento): lo descarta como clickbait. Dice que después de hacer suficiente investigación en ML es muy fácil convencerse de haber descubierto un breakthrough, y que Q* probablemente sea alguna variante de lo que ya existe.
Lo controversial y personal
Compró un OnePlus Open desde la tienda oficial de OnePlus, lo brickeó haciendo fastboot set_active b, y OnePlus se negó a aceptar la devolución argumentando que fue “tampering”. George dice que OnePlus dejó de publicar las imágenes QDL para restaurar desde OnePlus 9 en adelante, lo que hace imposible recuperar el teléfono sin que ellos corran su software propietario. Hizo chargeback con el banco y mandó un mail al CEO. La lección que repite: nunca compres nada que no sea a través de Amazon porque Amazon sí acepta devoluciones. Lo usa como reflexión sobre cómo comma.ai trata a sus propios clientes.
Sobre política y cultura: Odia el “wokeism” pero lo distingue explícitamente de odiar a minorías. Su tesis es que el wokeism es una ideología producida por las universidades de la Ivy League (Harvard, Yale, Princeton, Columbia) y adoptada por la clase managirial profesional como herramienta de poder, no como protección real de grupos vulnerables. Recomienda que grupos marginalizados no se alíen con esa clase porque los mantiene en una mentalidad de víctima que los beneficia a ellos, no a vos. Cita a Ayn Rand implícitamente y la frase de CS Lewis sobre las tiranías ejercidas “por el bien de las víctimas” como la peor forma de opresión. Dice que rechazaron él de las universidades y que pagarán. El libro que muestra en cámara no lo nombra claramente pero dice que “no se vende en USA” y que lo compró de todas formas.
Sobre las criptomonedas: le parece un mal medio de pago porque no podés comprar un café con Bitcoin en la práctica. Sigue con interés a Jack Dorsey y Bitkey (billetera Bitcoin self-custody) pero dice que mientras no haya aceptación masiva en comercios es un activo especulativo, no una moneda. Compara Black Rock poseyendo todo con el comunismo donde el estado posee todo: para él la diferencia es ninguna.
En el stream dice algo así:
“Our war is with Harvard. Our war is with the ivy league educational institutions in this country that create the PMC, not with trans people.”
Y sobre el rechazo universitario lo dice sin rodeos: “You can analyze my psychology and be like George this is just because you got rejected from college and now you’re taking it out on the colleges and the answer is abso-fucking-lutely, they shouldn’t have rejected me and they will pay.”
La cita de CS Lewis la lee directamente: “Of all tyrannies a tyranny exercised for the good of its victims may be the most oppressive. It is better to live under robber barons than omnipotent moral busy bodies.”
Y el consejo a minorías lo dice así: “If you are in a quote unquote marginalized group, you may not want to ally yourself with these fucking idiots. They want to keep you trapped in a victim mentality, they want to tell you that you’re a victim, and once you’re a victim only they can be your savior.”
Voy a leer todos los archivos para capturar el panorama completo antes de resumir.Ya tengo todo en contexto. Acá va el resumen.
Sobre inteligencia, motivación y lo que sí podés cambiar
Hotz tiene una postura incómoda pero coherente: tu inteligencia está fija, tu motivación probablemente también. El “growth mindset” es en gran parte bullshit. Pero lo que sí podés cambiar es en qué trabajás, a quién le rendís cuentas y a qué ideologías te suscribís. Para él, la gente motivada e inteligente que fracasa casi siempre lo hace por suscribirse a ideologías estúpidas o por obsesionarse con la aprobación social. El error clásico no es falta de capacidad sino trabajar para el sistema equivocado. “Dejar de trabajar para el hombre” no es consejo motivacional vacío para él, es la conclusión lógica de no querer que te maten suavemente con confort y dinero fácil. El IQ mínimo para contribuir a Tinygrad o Comma lo estima cerca del promedio de un físico (alrededor de 130), pero aclara que por encima de 120 el IQ ya no es el limitante, lo es la motivación y los valores.
Sobre el dinero y cómo no gastarlo
Dice vivir con menos de 2000 dólares al mes, come en la oficina, no gasta en casi nada. Su filosofía: el secreto de ser rico no es ganar mucho sino gastar menos que tu lifestyle. Johnny Depp ganó una fortuna y está en quiebra. La gente que piensa que necesita 6K al mes tiene velas perfumadas escondidas en el presupuesto. Cómo hizo dinero él concretamente: contratos de cell phone unlocks, jailbreaks con donaciones, contratos de desarrollo para Optimism (blockchain, es público en su GitHub), inversiones en Nvidia y Tesla que vendió demasiado temprano, un windfall con Super Micro Computer. Aclaración importante: Comma le paga poco y de Tiny Corp no cobra salario.
Sobre Sam Altman y OpenAI
Lo define como “2015 Silicon Valley hype culture” pero lo pone por encima de los effective altruists, que para él son directamente peligrosos. Su consejo público a Sam Altman tiene dos pasos: dejar de hacer regulatory capture en el Congreso y empezar a publicar papers aunque no publiquen los pesos. Si OpenAI publicara arquitecturas, dice, ganaría igual y encima todos los amarían. El board que lo intentó sacar (Helen Toner incluida) lo ve como el lado ideológicamente peligroso, el del effective altruism institucionalizado.
Sobre el altruismo efectivo — su crítica más fuerte y más elaborada
Esta es quizás la idea más trabajada de todos los streams. Su argumento: el utilitarismo tiene un pipeline trivial hacia el asesinato. Empieza con el problema del tranvía, aceptás tirar la palanca, después te preguntás si matarías a una persona para salvar diez, después si matarías a alguien que podría ser Hitler, después si matarías a alguien que un tercero cree que podría ser Hitler. Y en cada paso la lógica utilitaria lo justifica. El effective altruist además cree que es una buena persona mientras hace todo esto, lo cual lo hace peor que un asesino ordinario. SBF (Sam Bankman-Fried) es su ejemplo concreto: se robó la plata porque calculó que él la usaría mejor que vos, y eso lo hacía moralmente justificado. Los llama “comunistas con mejor PR”. Equipara EA con comunismo en el sentido de que ambos quieren planificarte centralmente la vida.
Sobre la seguridad en IA — su posición real
Tiene una alarma de fuego concreta para saber cuándo preocuparse por IA: el día que la única forma de apagarla sea con violencia física. Mientras no lleguemos ahí, está relajado. Hoy las IAs son organismos hiperfragiles, la API de OpenAI cae sola. Lo que le molesta enormemente es que gente como Helen Toner haya capturado el término “AI safety” para que signifique “la IA no debe ser racista”, que no tiene nada que ver con el riesgo real. Dice que los verdaderos doomers (Yudkowsky, Connor Leahy, LessWrong) deberían atacar a los fake-safety people porque son los que destruyen la credibilidad del campo. Su fire alarm literal: cuando la IA tome control de un país y no haya forma no-violenta de detenerla.
Sobre la vacuna Covid
No se vacunó. Aclara que no es antivacunas, que las vacunas en general le parecen bien. Su regla personal es desconfiar de cualquier producto médico, droga recreacional o vacuna que tenga menos de cinco años en el mercado. Dice que muchas personas no pudieron tomar esa decisión libremente porque estaban rodeadas de un ecosistema ideológico (hyper-woke o conspiranoico) que les contaminó el razonamiento. Él pudo tomarla en libertad. Tenía un carnet de vacunación falso que menciona con total desparpajo, invitando a que lo arresten.
Sobre libertarianismo y política
Le encanta el libertarianismo como filosofía y lo considera correcto en casi todo, pero cree que es una ideología perdedora porque no tiene un mecanismo para llegar al poder. Su análisis de la Guerra Civil: el Norte ganó porque quería ganar, el Sur solo quería que lo dejaran en paz, y esa asimetría de objetivos lo explica todo. Cree que la única forma de implementar el libertarianismo sería una dictadura transitoria que lo imponga, pero el tipo de persona capaz de tomar ese poder nunca lo usaría para eso. Argentina le parece un experimento interesante pero es escéptico. Prefiere la monarquía al sistema actual si el rey es libertario y está seguro en el poder. Admira que Musk haya lanzado Starship cuando NASA no lanza nada hace décadas.
Parte técnica: Navigate on OpenPilot (Mitchell, ML engineer de Comma)
Esta es la parte más técnica de los transcripts. El modelo de conducción ya tomaba dos cámaras como input. La idea fue agregar un tercer input: un video del mapa. El razonamiento es que si el modelo aprende end-to-end a predecir dónde manejaría un humano, y el mapa tiene información sobre hacia dónde va ese humano, el modelo debería solo aprenderlo. Funcionó. El mapa se renderiza en 256x256 píxeles a 2 metros por píxel (medio kilómetro de lado), sin colores, solo el camino en blanco y la ruta en gris. Como 65.000 números son demasiados para meterlos directo al modelo, entrenan un autoencoder: un encoder que comprime el mapa a un vector de pocas centenas de números, y un decoder que reconstruye la imagen para verificar que no se perdió información relevante. El encoder va al modelo de conducción, el decoder se descarta. Un problema no obvio: la proyección de Mercator distorsiona la escala según la latitud, así que el zoom del mapa se ajusta dinámicamente para mantener siempre exactamente medio kilómetro de lado. Otro problema: el modelo solo había visto rutas perfectas, entonces si el usuario se perdía un giro, el modelo entraba en pánico e intentaba maniobras peligrosas. La solución fue entrenar con 5-10% de rutas artificialmente incorrectas generadas tomando el grafo de OpenStreetMap y haciendo un random walk desde un punto equivocado. Demasiadas rutas falsas y el modelo aprende a ignorar el mapa; muy pocas y se vuelve frágil. El balance fue ese porcentaje. El stack usa OpenStreetMap, Valla para map matching (snap de GPS a caminos reales), Mapbox GL para renderizar. La regla interna de Comma que menciona: “no testing in cars”, es decir, todo debe validarse offline antes de tocar un branch de OpenPilot.
Parte técnica: hardware de Comma 3x (Rob, hardware team)
El proceso completo de manufactura va de concepto a design review a prototipo (iteran 6-7 veces antes de estar listos para producción). Trajeron la línea de manufactura in-house porque con el fabricante externo tardaban 6-8 semanas por revisión y te mandaban 2 placas. Ahora si algo está rotado 90 grados bajan, cambian el valor en la máquina y en una hora tienen el fix. La línea tiene: dispensador de pasta de soldadura CNC (más lento que stencil pero permite cambiar diseños sin hacer un stencil nuevo), pick-and-place con testing eléctrico de cada componente pasivo en el momento de la colocación (mide el valor exacto y lo logea en base de datos ligado al serial de la placa), horno con 8 zonas de temperatura con rampa controlada (las primeras 5 para activar el flux, la 6 y 7 para fundir la soldadura por encima del punto de fusión, luego enfriamiento controlado), y AOI (Automated Optical Inspection, cámara con luces que compara contra imagen de referencia). Usan un software llamado Parts Box, hecho por un polaco solo en su tiempo libre, que introduce el concepto de CPN (Customer Part Number): un número que especifica qué querés de un componente (100kΩ, 0402, 1%) y bajo él van los MPNs concretos aprobados de distintos fabricantes. Esto permite manejar sustitutos ante escasez. Tienen CI automático en el repositorio de hardware que chequea: que todos los componentes tengan CPN asignado, que ningún capacitor tenga rating de voltaje insuficiente para su línea, que cada placa tenga al menos 3 fiduciales, y que todos los componentes estén en stock vía API de Parts Box. La tasa de fallas del Comma 3 bajó de 9.2% histórico a 3.9% en el último año. Para referencia: iPhone 6 tuvo 22%, iPhones recientes 3-4%, Xbox 22%, PS3 10%, Wii similar al nivel actual de Comma. La falla más interesante que mencionan: usaban un thermal pad sobre el CPU principal, y la combinación de tolerancias de manufactura más ciclos térmicos ponía demasiada presión sobre el die, causando fallas del SoM. Lo resolvieron con pasta térmica basada en bola que redujo la presión 2x.
Sobre Tinygrad y código
Tinygrad llegó a 4855 líneas, lo que activó la alarma (literalmente tienen una sirena física en la oficina). Para mantener la filosofía original crearon Teenygrad, el frontend solo, bajo 1000 líneas, que usa numpy como backend y puede correr MNIST. La idea es que Tinygrad tenga el backend complejo y rápido pero el frontend sea separable y auditable. Importan tests de Tinygrad para correrlos en Teenygrad y así fuerzan que las abstracciones sean limpias. Usan la herramienta act para correr GitHub Actions localmente via Docker. Menciona que están cambiando NamedTuple a dataclass con frozen=True y order=True en el código de dtypes porque dataclass es estrictamente mejor. Una queja técnica repetida: usar assert para errores que deberían ser ValueError es un bug de diseño porque assert puede desactivarse con optimizaciones de Python.
Sobre los modelos de 7B (Mistral/OpenHermes)
Queda genuinamente impresionado con lo que puede hacer un modelo de 7B corriendo en Tinygrad en una M3. Lo hace resolver problemas de álgebra, detectar Python en su output, ejecutarlo y reinjectar el resultado al contexto, todo en un loop. Dice que no había visto GPT-4 codear tan bien como lo que ese 7B le estaba mostrando en ese momento. El modelo se llama OpenHermes 2.5 Mistral 7B, de technium (que aparece en el chat y Hotz lo reconoce). Una cosa técnica que le costó tiempo: los tokens especiales <|im_start|> y <|im_end|> del formato ChatML no están en el SentencePiece model base, están en added_tokens.json y special_tokens_map.json. Para encodearlos correctamente hay que editar el Protobuf del tokenizer, lo cual hizo en vivo editando el .model con la librería sentencepiece_pb2.
Lo personal y contradictorio
Dice que “find your passion” es el peor consejo que existe porque nadie que sea apasionado por algo lo encontró buscándolo: siempre estuvo obsesionado desde chico. Gasta aproximadamente 50 dólares al día en comida (su propia estimación que después corrije porque come en la oficina). Tiene un Rolls-Royce comprado con plata de un contrato de auditoría para Optimism. Perdió 5000 dólares en SHIB. Hizo dinero en Nvidia y Super Micro pero vendió demasiado temprano en ambos. No sigue el Discord de Sky Bri activamente pero lo tiene.
Estos fragmentos mezclan tres tipos de contenido: streams técnicos de programación (tinygrad, openpilot), un debate sobre IA y existencialismo, y streams de lifestyle/opinión. Lo que sigue captura las ideas sin filtro.
Tinygrad y la filosofía de código pequeño. Hotz tiene una obsesión genuina con la simplicidad. Tinygrad empezó prometiendo estar bajo 1000 líneas, creció a más de 4000, y en respuesta construyó “teenygrad” que reimplementa el core en ~810 líneas. Su argumento es directo: el código tiene bugs cada 100 líneas, entonces menos código significa menos bugs, no hay otra forma de reducirlos. Lo interesante es que no es ascetismo caprichoso sino una teoría de ingeniería: cuando tienes una librería pequeña puedes razonar sobre cada parte, y si no podés razonar sobre algo no podés mejorarlo.
Construye teenygrad copiando tensor.pi y mlOps de tinygrad casi intactos porque esas partes son las más limpias, las llama “el core hermoso”. Lo que elimina son los backends complejos, los dtypes (teenygrad solo soporta float32, si necesitás más usá torch), y toda la maquinaria de lazy evaluation. El resultado entrena MNIST. Llama a llama2 en teenygrad funciona pero es “ball slow”. La conclusión es que el código extra en tinygrad existe para velocidad y soporte de múltiples backends, no para funcionalidad conceptual.
El bitter lesson de Rich Sutton aparece mencionado varias veces como la tesis filosófica de comma.ai y tinygrad. El texto de 2019 dice que a lo largo de 70 años de investigación en IA, los métodos generales que escalan con cómputo ganaron siempre. No hagas feature engineering, no uses lidar, no codifiques reglas, dejá que el gradiente lo resuelva. Hotz dice que comma.ai está construida sobre esta idea.
Openpilot y el end-to-end. Harold (CTO de comma.ai) explica que el sistema se divide en tres partes: control lateral (steering), control longitudinal (gas/frenos) y navegación. Lateral estaba resuelto hace dos años, longitudinal lo resolvieron con un simulador mejorado que hace suposiciones básicas sobre profundidad en vez de entrenar depth nets sofisticadas. Gastaron meses en depth nets y las descartaron: el problema era que la profundidad de la luz de una linterna no tiene respuesta real, y además el simulador basado en plano de ruta con suposiciones simples funcionaba mejor para lo que importa (comportamiento en ruta). La lección que repite: las ideas más simples funcionan, el tiempo se va en bugs y refactors. Redujeron el sistema de 4 modelos a 2 (vision model + policy model), bajaron el tiempo de entrenamiento de 5 días a menos de 1. Para el Taco Bell drive combinaron end-to-end longitudinal, end-to-end lateral, y navegación con mapa.
El optimizador de kernels en tinygrad. Hay una serie de streams donde busca optimizar ResNet-50 en Metal (M1). Empieza con hand-coded optimizations (upcast, local dims, tensor cores on/off), ve que algunas operaciones son muy lentas, y construye infraestructura para hacer búsqueda greedy: dado un linearizer, genera todas las acciones posibles (upcast axis N amount M, local dims, etc.), prueba cada una, toma la mejor, repite. Resultado: pasó de ~400ms a ~167ms en ResNet-50 batch 64. Su argumento es que la búsqueda greedy es solo el primer paso y el paso correcto es RL: entrenás el modelo offline para que aprenda qué optimizaciones aplicar, y en runtime no hay costo de búsqueda. Menciona que TVM y TensorRT tienen buscadores pero son lentos porque su action space es más grande y más opaco.
Hotz propone un campo nuevo que llama “entropics” (thermodynamics + tropics). La idea: así como la Revolución Industrial desbloqueó un crecimiento de energía desacoplado de la población, la revolución computacional va a desacoplar la inteligencia de la población. Antes de la Revolución Industrial la energía era proporcional a personas, después no. Antes de la revolución computacional la inteligencia era proporcional a personas, pronto no lo será.
La unidad que propone es “la persona” = 20 petaflops, análogo a “horsepower”. Con eso se puede responder cuánta inteligencia se necesita para ser ELO 2000 en ajedrez, o para comprimir Wikipedia. Cita que la cantidad de cómputo usada para AlphaZero fue “un día-persona de cómputo” y llegó a ELO 2000. Ve esto como evidencia de que estos sistemas no son tan ineficientes como Yudkowsky cree.
Entró a prepararse para debatir a Eliezer Yudkowsky pensando que iba a demoler sus argumentos y salió perturbado. Dice que empezó a tomarlo más en serio de lo que quería.
Su posición anti-doom técnica: no cree en el intelligence explosion rápido porque la mejora de software tiene límites físicos (entropics), los sistemas van a ser aproximadamente tan inteligentes como se predice, no hay razón para que un sistema superinteligente “robe átomos” cuando comprar átomos es más eficiente, y el alignment va a parecerse al alignment de humanos que se resuelve con incentivos no con bondad intrínseca.
Pero lo que lo perturba no es la IA en sí sino la deshonestidad de la sociedad. Si la función de loss de la sociedad está corrupta, entonces entrenar máquinas sobre datos de esa sociedad hereda la corrupción. Su formulación: “no es la IA, es que estamos muertos pero no por las razones que ellos creen”. Lo que ve venir son psyops masivos, publicidad individualizada extrema, y opioides mejores (fentanilo implantado en tu cráneo), no Skynet.
Menciona explícitamente el Manifiesto de la Sociedad Industrial de Kaczynski (el Unabomber) y dice que es “uno de los documentos más claros que he leído”, que el FBI lo llamó “divague sin sentido” pero que está equivocado, que el análisis psicológico de los “leftists” como over-socialized le parece correcto. Aclara que no está de acuerdo con las conclusiones ni las acciones. Dice que confortarse con esto lo llevó a un lugar oscuro durante la preparación del debate.
Robin Hansen lo convenció más que Yudkowsky. Cita que Hansen señaló que robar átomos es una estrategia ineficiente para un sistema superinteligente.
El Manifiesto de la Sociedad Industrial (Kaczynski). “The Bitter Lesson” de Rich Sutton (2019, blog post). “The Last Question” de Asimov (lo llama su cuento favorito, el que plantea la pregunta sobre entropía y reversibilidad del universo). “Industrial Society and Its Future” que es el mismo manifiesto pero lo referencia dos veces con nombres distintos. “The Golden Age” de John C. Wright (lo menciona cuando habla de utopías). La novela “Metamorphosis of Prime Intellect” de Roger Williams, específicamente dice: terminala y preguntate qué pasó realmente al final, que cuando lo leyó a los 15 años pensó que era positivo y después se dio cuenta de lo que realmente pasaba. Nick Bostrom (menciona un “largo tratado filosófico” de él que no leyó). El libro de Rich Sutton sobre reinforcement learning.
Sobre países: ama Islandia, Dinamarca, Taiwán. Odia Portugal (rant recurrente sin detallar exactamente qué pasó). Fue a India y fue “un tiempo”, no un buen tiempo. Dubai le pareció bien aunque reconoce que usa trabajo inmigrante en condiciones cuestionables. No va a Sudáfrica ni Brasil por las tasas de homicidio.
Sobre política americana: dice que nadie lo irrita más que los republicanos. Se define como progresista con mucha ironía. Su posición real parece ser tecnocrática: le importa si las cosas funcionan, no la ideología. Critica dar subsidios a minorías y mujeres como política de imperio en declive.
Sobre la economía: no puede superar el fiat currency, dice que sus ancestros fallaron en no detener ese “descarrilamiento”. Habla de un aumento de la deuda americana de un millón de dólares por minuto. Ve América como un Imperio en declive (cita el video de Ray Dalio). Dice que China es el nuevo Imperio y que no puede moverse allí porque “son racistas” y ese Imperio no es para él, lo dice sin hostilidad, como una observación pragmática.
Sobre Qualcomm específicamente: los llama “dicks” en múltiple ocasiones, dice que hay algo genuinamente mal en esa empresa (no solo que son difíciles sino que están saboteando su propio negocio futuro con su comportamiento).
Sobre Meta/Quest 3: lo compra, se lo pone en stream, admite que la tech es impresionante para 500 dólares, dice que el metaverso podría ser cool si Zuckerberg tomara decisiones distintas. Hecho: el Quest 3 dice “Made in China” en la caja, y lo usa para justificar su “estamos con China” en tono irónico.
La idea que repite en distintos contextos: un porcentaje no trivial de trabajos americanos (estima 20-30%) activamente hace el mundo peor, no solo no aporta nada. Las personas que ensamblan el Quest 3 tienen su respeto. Las personas cuyo trabajo es decir no a otros, no. Dice que la única cura es la vergüenza cultural, que la sociedad deje de respetar ese tipo de trabajo.
https://github.com/tinygrad/teenygrad
El Manifiesto de la Sociedad Industrial (título completo: “Industrial Society and Its Future”) fue escrito por Ted Kaczynski, matemático, ex-profesor de Berkeley, y terrorista que entre 1978 y 1995 envió 16 bombas que mataron a 3 personas e hirieron a 23. Lo publicó en 1995 como condición para cesar los ataques. El New York Times y Washington Post lo publicaron a pedido del FBI esperando que alguien lo reconociera, y fue su hermano quien lo identificó.
El argumento central es que la Revolución Industrial fue un error irreversible para la psicología humana. No porque la tecnología sea mala per se, sino porque destruyó lo que llama el “proceso de poder”: la cadena de esfuerzo autónomo, obstáculo, lucha y satisfacción que hace que la vida tenga sentido. Antes un hombre cazaba, construía, cultivaba, y el resultado de ese esfuerzo era directo y tangible. La sociedad industrial reemplazó eso con trabajos donde el individuo no controla ni el proceso ni el resultado, donde satisfacer necesidades básicas ya no requiere esfuerzo genuino, y donde la “autonomía” es ilusoria porque cada decisión está condicionada por sistemas gigantes que nadie controla realmente.
El análisis que a Hotz le parece correcto es la sección sobre la psicología de los “leftists”, que Kaczynski describe como personas con baja autoestima que canalizan esa insatisfacción en causas externas. Los caracteriza como sobre-socializados: han internalizado tanto las normas sociales que sienten culpa por cualquier pensamiento que las viole, y eso los vuelve neuróticos. Este perfil lo distingue del izquierdismo como ideología, está hablando de un tipo psicológico. Dice que los movimientos de izquierda moderna atraen a personas que buscan identidad y poder compensatorio, no liberación genuina.
Distingue dos tipos de problemas en la sociedad tecnológica: los problemas que la tecnología puede resolver (enfermedades, pobreza material) y los problemas que la tecnología genera por su propia naturaleza y que no tienen solución tecnológica (la pérdida de autonomía, el sentido, la comunidad pequeña). Su punto más fuerte, el que es difícil de refutar, es que el sistema tecnológico-industrial es autónomo: ya nadie lo controla, ningún gobierno, ningún individuo, ninguna corporación. Avanza por su propia lógica y obliga a todos los actores a adaptarse a él o quedar fuera.
La parte sobre la naturaleza del sistema es donde más se parece a lo que preocupa a Hotz: los gobiernos, las corporaciones y los individuos no toman decisiones libres, toman decisiones que el sistema les impone si quieren sobrevivir en él. El político que no use la televisión pierde. La empresa que no optimice para el trimestre pierde. El individuo que no tenga teléfono queda afuera. Nadie eligió este mundo, emergió de incentivos.
La conclusión, que Kaczynski admite es radical y que Hotz rechaza explícitamente, es que el único camino es la destrucción del sistema industrial. No reformarlo, no regularlo, destruirlo. Argumenta que cualquier reforma se reabsorbe, que el sistema es demasiado robusto para cambiar desde adentro, y que colapsar la civilización industrial para volver a sociedades más pequeñas y autónomas es preferible al futuro que describe. Sus acciones terroristas eran explícitamente para llamar la atención sobre ese argumento.
Lo que hace al documento incómodo no es que sea el diario de un loco. Es que el diagnóstico es coherente y muchos de sus efectos predichos son observables. La disputa real es sobre el remedio y sobre si hay alternativas. Hotz dice que las conclusiones son incorrectas pero que confrontar el documento es necesario y que el FBI lo subestimó.
Estos streams son una mezcla caótica de coding en vivo, filosofía amateur, crítica institucional y rants políticos. Lo interesante es que todo está conectado por una obsesión central: la búsqueda de la verdad y la eficiencia, ya sea en código, en mercados o en inteligencia artificial.
La pregunta que más le obsesiona es esta: “La termodinámica es a la energía como _____ es a la inteligencia.” Es decir, así como la termodinámica nos permite calcular exactamente cuántos gramos de madera necesito para hervir un galón de agua, él quiere una ciencia que nos diga cuánta inteligencia hace falta para demostrar el teorema de Fermat. No existe esa ciencia. Nadie la está construyendo. Llama a este campo hipotético “Entropics”. La compresión es inteligencia, dice citando a Shannon: cuanto mejor comprimís información, mejor podés predecir el entorno, y cuanto mejor predecís, mejor actuás. No es una idea nueva del todo, pero él la empuja hacia preguntas concretas: ¿cuántos petaflops necesito para resolver X problema matemático? ¿Estamos cerca del óptimo en eficiencia computacional por julio de energía?
Está construyendo una empresa cuya misión real, según él, es reemplazar la clase gerencial profesional con IA descentralizada. El producto físico es el Tiny Box: seis GPUs AMD en una máquina por 15 mil dólares, con más RAM y más ancho de banda que una A100, a precio similar. Tiene 500 pre-órdenes. El software es tinygrad, un framework de machine learning minimalista que él compara con PyTorch pero más legible, más auditável. Lo que lo diferencia es que podés hacer debug equals 4 y ver exactamente el código que entra, o debug equals 5 para ver el assembly después de compilar. Durante el stream está trabajando en implementar bitcast, que es básicamente ver la misma memoria con un tipo de dato distinto sin copiarla, algo necesario para soportar bfloat16 en hardware AMD sin pasar por LLVM. Admite que su código tiene hacks mal documentados y que lo está pagando caro en refactoring.
No es doomer pero tampoco es aceleracionista ingenuo. Cree que la IA va a superarlo a él, y que eso está bien, igual que un buen padre quiere que sus hijos lo superen. Lo que rechaza específicamente es la narrativa del hard takeoff con nanobots de diamante, que considera ciencia ficción no fundamentada. Su argumento más bizarro, que él mismo presenta medio en broma: estamos en una simulación, y las simulaciones bien valoradas se siguen jugando, y una simulación que termina en extinción estúpida sería mal valorada, por lo tanto no vamos a morir de forma estúpida. QED. Dice que lo va a usar en el debate pero como argumento secundario.
Lo que sí le preocupa es la coalición de gente que usa el alineamiento de IA como herramienta política para centralizar poder. Distingue entre Yudkowsky, a quien considera un intelectual de buena fe genuinamente preocupado, y personas como Sam Altman, a quien describe como alguien cuyo RLHF interno está optimizado para “Sam Altman adquiere poder” en lugar de “esto es verdad”. No lo llama malvado, lo llama egocéntrico con racionalización post-hoc.
Menciona “Rules for Radicals” de Saul Alinsky, que quiere releer para mejorar en debates. Cita a Rich Sutton y su libro de Reinforcement Learning, del que acaba de salir un nuevo volumen. Menciona el paper de Shannon “A Mathematical Theory of Communication” como uno de los documentos más influyentes que leyó. Habla de “The Beginning of Infinity” de David Deutsch, que alguien del chat le recomienda repetidamente y finalmente ordena. Menciona a Robin Hanson y “The Elephant in the Brain”. Referencia “The Last Question” de Asimov como metáfora de lo que quiere construir. Habla de “BoJack Horseman” con sorprendente seriedad como obra que cambió su forma de pensar, específicamente la idea de que no existe un “deep down” real, que sos solamente lo que hacés.
Defiende mercados libres regulados para ser más libres, no para ser controlados. La discriminación de precios debería ser ilegal, dice, y pone a Qualcomm como ejemplo de empresa que cobra diferente por el mismo chip según quién lo compra. Está obsesionado con Qualcomm, cuyo stock cayó durante el stream y él menciona que “debería haberlo shorteado ayer”. Dice que no lo hizo por no ser insider trading. Sobre socialismo: dice que no existe, que todos los que se llaman socialistas son comunistas con eufemismo, y cita la definición literal de socialismo para demostrarlo.
Dice explícitamente que no se pone vacunas, o al menos insinúa esto al criticar la verificación de credenciales COVID en Defcon, que considera una traición total a los valores hacker de anonimato. Sobre diversidad e inclusión corporativa: cree que fue capturada por racistas que usan el lenguaje de inclusión para implementar segregación de facto, separando personas por raza bajo otro nombre. Dice que el racismo genuino le parece terrible pero que la DEI corporativa es exactamente eso con mejor marketing.
Vive con su novia Alex, quien aparece en el stream y a quien le tiene prohibida la palabra “entropics” porque ya está harta de escuchar el rant. Él negocia soft tacos con ella en vivo. Admite que se sentía motivado para fundar Comma AI principalmente por odio a Elon Musk, a quien quería superar, y que esa energía se ha suavizado con el tiempo.
Sobre universidades: le rechazaron MIT y Caltech a los 18, lo aceptaron en Carnegie Mellon a los 22 donde tuvo un proceso de revisión académica por una “broma”. Dice que su hermana le escribió el ensayo de admisión.
Pasa horas en vivo implementando bitcast en tinygrad mientras simultáneamente dice que no debería estar programando, que eso no es lo que va a determinar el éxito o fracaso de Tiny Corp, que necesita contratar gente, que la startup founder que codea pierde. No puede parar. Dice que el bounty system de tinygrad es “dinero gratis” y que hay trabajo a medio terminar que nadie recoge. Tiene $5 millones recaudados y potencialmente $7 millones más en pre-órdenes, y aún así pasa el stream luchando contra bugs de tipos de dato en numpy.
Yo: Y como seria eso? Un mercado regulado para ser mas libre no es un mercado controlado?
Es una tensión real y él no la resuelve del todo bien, pero la idea tiene un núcleo coherente si la desarrollás.
El argumento es que un mercado sin regulación no produce libertad real, produce poder concentrado. Si Qualcomm puede cobrarle a una startup diez veces más que a Apple por el mismo chip, el mercado no es libre, es un feudo. La regulación que prohíbe esa discriminación de precios no te dice qué precio cobrar, te dice que tenés que cobrar el mismo a todos. Eso en teoría nivela el campo de juego y restaura competencia real.
La analogía más clara es antitrust. Cuando Standard Oil controlaba el 90% del petróleo americano, técnicamente era un “mercado libre” en el sentido de que no había intervención estatal directa. Pero nadie competía. La ruptura forzada de Standard Oil en 1911 creó más libertad de mercado, no menos, porque de repente había treinta empresas compitiendo donde antes había una.
La contradicción que señalás es real igual. El problema es quién decide cuándo una regulación aumenta libertad versus cuándo la restringe. Eso requiere un regulador con criterio, y ese regulador puede ser capturado exactamente por las empresas que debería regular, que es lo que él mismo llama “regulatory capture”. Él dice que la solución es regular solo cosas específicas y medibles como discriminación de precios, no regulaciones amplias que dan discrecionalidad al regulador. Pero no explica bien cómo evitar que esa línea se corra con el tiempo.
Lo que él describe se parece bastante al ordoliberalismo alemán de posguerra, que es básicamente esa idea: el Estado no planifica la economía pero sí mantiene activamente las condiciones de competencia. No lo nombra así, probablemente ni lo conoce por ese nombre, pero es la misma intuición.
Estos fragmentos son transcripciones de streams y charlas de George Hotz (geohot) y del equipo de Comma AI en su Comic-Con. Te resumo los núcleos duros.
El desastre con Qualcomm
George está furioso. Compró 10.000 chips como pedido de prueba, pagó más de medio millón de dólares, y Qualcomm esperó hasta tener el dinero para exigirle firmar un contrato que nunca había mencionado. Su postura es simple: el problema no fue técnico ni de precio, fue que los vendedores le mintieron directamente y luego lo usaron como palanca. Su consejo es terminante: si tu empresa planea vender más de unos pocos miles de unidades, no uses Qualcomm. También menciona que cada chip Qualcomm viene con un hipervisor firmado por ellos, lo que él llama “spyware” quemado en silicio que no podés remover. Recomienda migrar al RK3588 de Rockchip o considerar Ambarella. Dice que AMD tiene problemas de software pero al menos actúan de buena fe y Lisa Su respondió. Eso, para él, marca la diferencia entre una empresa con la que podés trabajar y una que te odia.
La infraestructura de cómputo de Comma AI
Greg explica que construyeron su propio data center en San Diego sin aire acondicionado, solo con ventiladores de tres caballos de fuerza cada uno que mueven 28.000 CFM. El intake llega a 43°C y el exhaust a 55°C. Corren los servidores calientes a propósito porque el clima de San Diego es seco, y el enemigo real es la humedad, no la temperatura: la corrosión por humedad arruinó hardware en el pasado, el calor nunca falló nada. El control climático no regula temperatura sino humedad relativa, manteniéndola entre 30-40%. Usan controladores VFD para arrancar los ventiladores de forma gradual porque sin eso cada ventilador arrancaría dibujando 80 amperes y ese headroom se lo robarías a las GPUs. El costo total de la instalación fue 1.5 millones de dólares. En comparación, la máquina más cercana en el Top500 con rendimiento similar costaría mínimo 3.75 millones sin incluir edificio ni ventilación. Tienen 55.88 petaflops de BFloat16, 640 GPUs, 2.1 petabytes de SSD y 580.000 núcleos de CPU. La eficiencia está medida en dólares por flop, no en benchmarks de marketing.
DriveGPT: el simulador neuronal
Yasin presenta el sistema que llaman DriveGPT o ML Simulator. La idea central es reemplazar el simulador clásico (Unity, Unreal, GTA5) porque esos sirven para testing pero no para entrenamiento: nunca podés cubrir la distribución real del mundo real hardcodeando escenarios, y si la simulación tiene artefactos, el modelo aprende a detectar esos artefactos en vez de aprender a conducir, lo que llaman “cheating”. El simulador actual de Comma, el “small offset simulator”, desplaza la imagen levemente para simular correcciones, pero se rompe ante offsets grandes y especialmente para velocidades longitudinales donde más o menos 10 mph representa una distancia enorme.
La arquitectura del simulador tiene tres piezas: un tokenizador de imágenes (VQ-GAN que comprime frames a 128 tokens de 10 bits), un tokenizador de pose (seis números float cuantizados uniformemente, los seis grados de libertad), y un Transformer autorregresivo que predice token por token igual que un LLM. Para texto un token es una palabra, para ellos un token es parte de un frame, y un video es un conjunto de conjuntos de tokens. El modelo puede condicionarse en velocidad y dirección sin lenguaje natural: son floats, no palabras, porque el lenguaje es ineficiente.
El problema de temporal flickering viene de que el tokenizador es frame a frame sin memoria temporal. La solución actual es agregar una capa RNN al decoder para pasarle estado entre frames. El modelo corre a 2fps actualmente y hay bounties de 1000 dólares para quien reduzca la latencia de inferencia 50% o baje el training loss 5%. Open sourcearon el tokenizador, el decoder y un Transformer similar.
Control lateral y tuning en OpenPilot
Vivek explica la progresión técnica del control lateral. Empezaron con un PID clásico que cerraba el loop sobre el ángulo de dirección. Después descubrieron que en realidad la mayoría de los autos reciben torque, no ángulo, así que el camino era PID > modelo de vehículo > ángulo de dirección > torque, un rodeo innecesario. El insight clave es que el torque de la rueda es proporcional a la aceleración lateral que querés lograr, y que el torque de dirección es proporcional al torque de rueda si compensás la fricción. Eso colapsa todo el sistema a un único factor de proporcionalidad por plataforma, lo cual simplificó enormemente el problema.
Pero ese factor varía mucho entre autos del mismo modelo según desgaste, presión de neumáticos, condición del asfalto. Eso motivó TorqD, que aprende ese factor en tiempo real mientras manejás. Para el Chevrolet Bolt el sistema es no lineal, así que implementaron un ajuste no lineal. Curiosidad que Vivek menciona: en el Bolt los giros a la izquierda tienen error levemente mayor que los giros a la derecha, algo idiosincrático de GM que aparece al escala de la flota pero sería invisible con un solo auto.
Liberaron un dataset llamado “comma steering control” con 12.500 horas de datos de conducción, 10+ marcas, 10+ modelos, incluyendo condición del comando enviado, aceleración lateral, roll del camino y velocidad. La meta futura es pasar de un factor por plataforma a una función completamente aprendida por red neuronal, específica para tu auto individual.
El port de autos a OpenPilot
Jason (el Volkswagen guy) explica el proceso de portar autos nuevos. Para que un auto sea candidato necesita Lane Keeping Assist y Adaptive Cruise Control, y tiene que usar CAN o CAN-FD estándar. Las señales de problema son FlexRay (difícil de interceptar), Ethernet automotriz con SecOC (hashes criptográficos que bloquean mensajes), o cualquier sistema que enforcea el timeout de manos en el volante desde el EPS en vez de desde la cámara. Si el timeout lo maneja la cámara, OpenPilot puede reemplazarla. Si lo maneja el EPS, hay un problema serio.
El proceso técnico involucra Cabana, una herramienta para analizar redes CAN, encontrar wheel speeds, ángulo de dirección, torque del driver, presión de freno. Una vez que tenés esas señales, encontrás los mensajes que envía la cámara de fábrica y los replicás con los checksums y contadores correctos. Menciona CRCBeagle como herramienta para reverse-engineer checksums automáticamente. Lo que antes le tomó tres meses (un Golf R en 2019), con las herramientas actuales lo hicieron en 9 horas con un GTI 2022 que usa MQB Evo con CAN-FD.
Las ideas más generales y controvertidas
George habla de que el modelo mental correcto para avanzar es “blue line go up”, una curva de producción energética y productividad que él ve como el verdadero eje ideológico, más relevante que la división izquierda-derecha. No le importa si el sistema que hace subir esa línea es capitalista, comunista o socialista. Menciona “efectivo aceleracionismo” sin querer usar esa etiqueta porque apenas le ponés nombre a algo aparece el problema de tener que tomar posiciones oficiales sobre todo.
Sobre teorías conspirativas dice explícitamente que cree que el gobierno de EE.UU. asesinó a Kennedy, pero al mismo tiempo cree que la luna fue real y que la mayoría de las teorías conspirativas fueron inventadas por la CIA en los 70s para desacreditar verdades incómodas. Sobre Roko’s Basilisk (el argumento de que una IA futura podría torturar a quienes no ayudaron a construirla) lo menciona en tono de broma pero también con cierta incomodidad real: “si sos del buen equipo, el Basilisk te perdona”. No toma posición firme.
Sobre la vacuna: su objeción no es la vacuna en sí sino que una conferencia de hackers decidiera revisar registros médicos por su cuenta, por encima de lo que el estado pedía. Lo llama traición al ethos hacker original. Dice que Defcon debería despedir a quien tomó esa decisión y pedir disculpas públicas si quiere recuperar credibilidad con gente seria.
Sobre relaciones y vida personal prácticamente no dice nada en estos segmentos más allá de referencias de pasada al estilo de “we’d all have girlfriends” como chiste sobre energía y productividad. No hay revelaciones personales reales en estos textos.
Sobre libros y referencias: menciona “Bronze Age Mindset” como un libro de filosofía que introduce conceptos interesantes aunque aclara que no lo suscrbe enteramente. Menciona “The Age of Em” de Robin Hanson al hablar sobre el futuro del trabajo y qué es una empresa cuando los LLMs pueden hacer cualquier cosa. Cita implícitamente “How To Ask Questions The Smart Way” de Eric Raymond como documento obligatorio para su equipo. No nombra papers técnicos propios aunque menciona el paper de 2016 de Edward y George llamado “Learning a Driving Simulator” como la base conceptual de DriveGPT.
Estos archivos son transcripciones de Comic-Con de comma.ai, básicamente una conferencia técnica de la empresa. George Hotz habla en la apertura y cierre, los otros son presentaciones técnicas del equipo. Te resumo lo más valioso.
La filosofía central de George y comma.ai
La idea que lo atraviesa todo es que la complejidad mata. George cree que la mejor arquitectura es la más simple que escala con compute, igual que los LLMs: función de pérdida sencilla, arquitectura simple, muchos datos. Dice que hace dos años todavía había gente seria haciendo self-driving con bounding boxes clásicos, hoy nadie lo toma en serio. Cita a Rich Sutton (el investigador de reinforcement learning) y su ensayo “The Bitter Lesson”, donde argumenta que los métodos de propósito general que escalan con compute siempre ganan a los métodos con conocimiento humano hard-codeado. Eso es la Biblia técnica de comma.
El sistema que construyeron tiene tres partes: control lateral end-to-end (steering), control longitudinal end-to-end (gas y freno), y navegación end-to-end (que el modelo vea el mapa como si fuera una cámara más). Las tres están hechas y las describen en detalle. Lo notable es que no hay código de semáforos, no hay código de líneas de carril, no hay lógica de stop signs. El modelo aprende todo eso de comportamiento humano. Hay un chiste adentro: sí existe código de semáforo en los repos internos, pero controla el semáforo de juguete de la sala de reuniones.
Lo técnico más interesante del simulador
Para entrenar el control longitudinal necesitaban un simulador que reprojecte bien cuando el auto se mueve en profundidad. El simulador lateral viejo asumía que todo estaba en el plano del camino y lo warpeaba sideways, lo cual funcionaba para steering pero era un desastre para longitudinal. La solución que tomaron meses en implementar es elegantísima en su simplicidad: en vez de entrenar un depth net completo, usan un segmentador rudimentario que clasifica píxeles en “camino”, “fondo”, “tu auto” o “objetos móviles”. Con esa clasificación y la estimación del plano del camino, hacen suposiciones geométricas básicas: el camino es plano y continuo, el fondo está vertical, los autos están vertical. Con eso calculan profundidad aproximada y reprojectan. No es perfecto pero es suficiente, especialmente para los objetos en el camino que son lo que más importa.
Lo que descartaron después de meses de trabajo: los depth nets completos. Entrenaron modelos que predicen profundidad de toda la escena y eran ruidosos, inexactos en el plano del camino, y además tenían el problema filosófico de que la profundidad de un píxel de luz o de una sombra no tiene sentido como concepto. Los descartaron completamente.
También descartaron los stop lines como approach: la idea era predecir dónde un humano pararía y usar lógica existente para detenerse ahí. Parecía fácil pero resultó que la gente para con distinta decisión según el contexto, una bocacalle vacía versus un paso a nivel versus un cruce peatonal. El end-to-end longitudinal puro resultó mejor en dos semanas de prueba.
El refactor que les costó medio año
Esto es brutalmente honesto y raro de escuchar en una empresa: pasaron más de seis meses haciendo refactor de la arquitectura de lateral porque el sistema que funcionaba y estaba en producción era conceptualmente raro, tenía student-teacher, múltiples modelos encadenados, múltiples etapas de ground truth. Lo sabían, pero tenía que ser igual de bueno que lo anterior antes de poder tirarlo. Al final lo reemplazaron por dos modelos: uno de visión que comprime la escena a un espacio intermedio, y uno de política que toma las decisiones. El tiempo de entrenamiento bajó de cinco días a menos de uno. George dice explícitamente que entrenar en uno o dos días es una ventaja competitiva enorme porque podés corregir bugs rápido, y que si tu ciclo de entrenamiento es tres semanas podés fixear 50 bugs por año, lo cual no alcanza.
La navegación end-to-end
Mitchell explica cómo metieron el mapa al modelo. El mapa es una imagen de 256x256 píxeles, 2 metros por píxel, medio kilómetro de lado, estilizado minimalista: camino en blanco, ruta a seguir en gris. El problema de escala de Mercator (los mapas se distorsionan cerca de los polos) lo resuelven ajustando dinámicamente el zoom para mantener escala constante. Entrenan un autoencoder que comprime el mapa a un vector de pocos cientos de números, y ese vector entra al modelo de driving como input extra.
El problema más interesante que resolvieron: el modelo nunca había visto un giro equivocado, entonces si perdías una salida se ponía errático. La solución fue entrenar con 5-10% de rutas artificiales incorrectas generadas sobre el grafo de OpenStreetMaps. Más del 10% y el modelo aprende a ignorar la ruta, menos y no es robusto. Ese balance es empírico y lo encontraron a las corridas.
Driver monitoring y la definición de atención
Wishing (del equipo de research) hace algo conceptualmente interesante: redefine “atención” no como “está mirando al frente” sino como “¿está listo para tomar el control en cualquier momento?”. Eso cambia el ground truth completamente. Usan como proxy que la probabilidad de tomar el control es alta cuando el humano está manejando o toma control, y baja cuando el auto está quieto. Con eso entrenan el modelo end-to-end de DM (driver monitoring). Solo el 2% de los datos necesitó etiquetado humano, el resto se autogeneró. Lograron 15% más verdaderos positivos sin aumentar falsos positivos.
Un dato sorprendente que salió del DM: cuando alguien maneja solo versus con pasajero, es cuatro veces más probable que tome una curva a 0.5G, dos veces y media más probable que frene bruscamente, y dos veces más probable que tailgee. Eso inspiró el análisis de estilo de manejo de toda la flota que después se usa para condicionar el modelo con un parámetro de agresividad del conductor.
Hardware y manufactura
Rob (el de Bélgica) describe la línea de producción que armaron in-house con impresora de pasta, pick-and-place, horno y AOI. Lo más notable es que la máquina de pick-and-place mide eléctricamente cada componente pasivo y lo loga con el número de serie de la placa, entonces si un dispositivo falla en el campo podés rastrear qué valor exacto de resistor tenía cuando se ensambló. La cámara ahora está directamente en la PCB sin ribbon cables, lo cual requirieron montar una línea de enfoque de lentes in-house porque casi nadie hace esto sin módulos prefabricados.
El failure rate del comma 2 era altísimo. El comma 3 bajó pero tuvo problemas: usaban un pad térmico sobre el CPU principal y con la tolerancia de manufactura y el ciclado térmico ponía demasiada presión sobre el die, causando fallas en el SoM. Lo reemplazaron con compound thermal y se resolvió. El 3x apunta a 1-2% de failure rate.
Lo más controvertido que dice George
Directamente llama scams a Cruise, Waymo, Aurora y Luminar. Muestra un gráfico de revenue lifetime versus capital levantado y dice que no entiende cómo alguien puede levantar 3.700 millones y tener 200 de revenue. No dice que son corruptos deliberadamente, dice algo más interesante: que el problema no requiere que el scam sea intencional, que podés tener “honest idiots” que levantan miles de millones genuinamente creyendo lo que dicen. Compara con bitconnect y Terra Luna. Dice que lo llama desde hace siete años.
Dice que los communications departments en empresas son básicamente mentirosos pagados y que el secretario de prensa existe para hacer ver bien lo que no lo es. Comma no tiene gente de comunicaciones.
Sobre el futuro de la empresa habla del comma 7, un dispositivo hipotético con 50 POPS de compute (el comma 3 tiene unos 5), y dice que la diferencia entre foundation models y policy models es importante: los foundation models son entrenados sin supervisión y no tienen opiniones, los policy models son entrenados con alguna forma de supervisión y codifican decisiones sobre cómo manejar. Quiere hacer lo mismo que Meta con LLaMA 2, que liberó el foundation model y no solo la versión con RLHF.
Dice explícitamente que su único trabajo actual es “mantener a los idiotas lejos” de la empresa y que no ha pusheado un commit a openpilot en dos años.
Estos son los transcriptos de Comic-Con 2023 de comma.ai, una conferencia técnica donde George Hotz y su equipo presentan el trabajo del año. Lo que sigue es una síntesis densa de las ideas centrales.
La filosofía de fondo
Hotz tiene una obsesión con la honestidad como ventaja competitiva. Su argumento es simple: si dices la verdad no tenés que recordar nada. Por eso no tienen equipo de comunicaciones ni relaciones públicas, porque esos roles son, en sus palabras, “mentirosos pagos”. Pone de ejemplo a la secretaria de prensa: su trabajo es hacer quedar bien a alguien que mató treinta huérfanos. Esa misma lógica la aplica a Cruise, Waymo y otras empresas de self-driving que en su visión son scams, no necesariamente con intención maliciosa, sino por idiotez honesta. Su teorema favorito es el de utilidad marginal acercándose a costo marginal: el costo marginal de open pilot es cero, entonces si provee cualquier utilidad, el mercado eventualmente lo va a reconocer. Dice que Linux es la plataforma de más rápido crecimiento en Azure y lo usa como prueba de que los mercados sí se vuelven racionales, solo hay que sobrevivir.
El hardware: comma 3X
Presentan el comma 3X a 1250 dólares. El punto técnico más interesante es que las cámaras ahora están soldadas directamente en el board en vez de conectarse por ribbon cables, lo que elimina una fuente enorme de fallas. Para hacer eso tienen una línea de enfoque de lentes in-house, algo que casi nadie hace porque los teléfonos no lo hacen. La tasa de falla del comma 2 era catastrófica, similar a los peores iPhones. El comma 3 mejoró mucho pero con discontinuidad: el salto ocurrió cuando mudaron las oficinas y construyeron una línea de producción real. El 3X integra el red panda (el chip de seguridad secundario que habla directamente con el auto), tiene CAN FD integrado, doble almacenamiento, nuevos sensores de cámara con 20 dB más de HDR, supercaps con boost regulator en vez de conectados directo al power rail. Elimina el GPS externo y usa el del módulo quicktel, logrando mejor calidad. Dicen que quieren llegar a una tasa de falla de 1-2%.
El modelo de seguridad y por qué es controversial
Tienen el panda, un procesador secundario que habla con el auto y aplica límites físicos duros. La idea es que el panda opera en ASIL (Automotive Safety Integrity Level), mientras que open pilot corre en QM (Quality Management), que básicamente significa que si hace algo malo es un problema de calidad, no de seguridad. Esto es técnicamente astuto: separan la capa de seguridad de la capa de comportamiento, lo que les permite iterar rápido en modelos sin preocuparse por certificar cada cambio. Los estándares que citan son ISO 15622 para ACC, ISO 11270 para lane keep, e ISO 26262 para safety funcional de vehículos. Los límites están formalizados ahí. Lo que dicen explícitamente es que open pilot es nivel 2 siempre, requiere atención en todo momento, y nadie que quiera no prestar atención debería comprar el dispositivo.
End-to-end: lo que realmente lograron
El logro técnico central del año fue el drive a Taco Bell: un recorrido desde el centro hasta un Taco Bell local, sin intervención humana, en un sistema completamente end-to-end. Tres partes: control lateral end-to-end (ya estaba hecho dos años antes), control longitudinal end-to-end (nuevo, para gas y frenos, incluyendo detenerse en semáforos sin código de semáforos, solo comportamiento aprendido), y navegación end-to-end (liberada dos días antes de la conferencia). El punto filosófico que defienden es que los sistemas end-to-end que escalan con compute van a ganar, igual que pasó con los LLMs. Nadie que entrenó GPT-4 lo optimizó para ser médico o abogado, y aun así aplasta a todo lo específico. Lo mismo creen que va a pasar en robótica.
El simulador es un punto interesante: no usan simulación sintética (nada de Unity o similar), sino video real aumentado. El problema con longitudinal es que el simulador lateral era demasiado crudo para aprender comportamientos de frenado. La solución fue usar una segmentación rudimentaria (carretera, fondo, objetos móviles, tu propio auto) para hacer suposiciones de profundidad y reproyectar. Intentaron con depth nets durante meses y los tiraron: el concepto de profundidad de un píxel se rompe con luces, sombras y reflejos. Los faros del auto iluminan el pavimento y ese pixel no tiene profundidad real. Eso los convenció de que el enfoque de suposiciones simples escalaba mejor que un modelo de profundidad sofisticado.
Perdieron tiempo con stop lines también: intentaron predecir dónde se detiene el humano y usar eso como señal para frenar. Funciona en papel pero en la práctica la gente frena de manera muy distinta en una cebra que en un semáforo que en una señal de stop en una calle vacía. El end-to-end puro lo aprendió solo y fue más suave en dos semanas que meses de ingeniería de stop lines.
La arquitectura que tienen hoy
Refactorizaron durante más de seis meses para pasar de cuatro modelos a dos: un vision model que comprime la escena en un feature vector, y un policy model que toma decisiones de conducción. Eso bajó el tiempo de entrenamiento de cinco días a menos de uno. Dicen que iterar con runs de un día en vez de tres semanas es la diferencia entre corregir 365 bugs al año y corregir 50. Para navegación, la solución es renderizar mapas de 256x256 píxeles (medio kilómetro por lado, dos píxeles por metro) usando mapbox GL, pasarlos por un autoencoder para comprimirlos a un feature vector de pocos cientos de números, y dárselo al policy model. El autoencoder predice también la trayectoria en espacio 3D, no solo comprime el mapa. Para el problema de la proyección de Mercator (el mapa escala diferente según la latitud) ajustan el zoom dinámicamente para mantener escala constante. Para el problema de que el modelo nunca había visto giros incorrectos, entrenan con 5-10% de rutas falsas generadas en el grafo de OpenStreetMap.
Driver monitoring y las ideas que defienden ahí
Wishing presenta el sistema de driver monitoring como un problema de cooperación humano-máquina. El insight central es que no tiene sentido definir “atención” de forma abstracta: en el contexto de un sistema ADAS, atención significa estar listo para tomar el control. Entonces usan eso como ground truth: si el humano tomó el control, estaba prestando atención; si el auto estaba parado, probablemente no. Con eso entrenan un modelo end-to-end que predice si el driver está listo para retomar. El resultado es un modelo que detecta usar el teléfono sin generar falsos positivos en posiciones raras de conducción normal.
El dato más sorprendente que presentan: los usuarios que manejan solos tienen cuatro veces más probabilidad de tomar una curva a 0.5g que cuando tienen pasajero, dos veces y media más de frenar bruscamente, y el doble de probabilidad de hacer tailgating. Eso lo usan para entrenar un clasificador de estilo de manejo que condiciona el modelo de conducción.
La visión del futuro y el comma 7
Esto es lo más especulativo. Hotz describe un “comma 7” que es un robot humanoide con ojos, orejas, boca y médula espinal, operando máquinas en la línea de producción. Dice que la mayoría de los empleados de la compañía ya son “commas”. El argumento detrás es que la inteligencia es la pregunta central de la robótica, no el hardware mecánico, y que la misma arquitectura de self-driving va a resolver robótica general. La referencia que da es Elias Yudkowsky y un documento que leyó a los 15 años que cambió su vida, pero no nombra el título. Probablemente sea “Intelligence Explosion Microeconomics” o “Levels of Organization in General Intelligence”. Dice que los números de compute con el doubling time actual apuntan a 2021 como el punto de cruce con el poder de procesamiento del cerebro humano, citando una fórmula de ese documento.
Lo que dice sobre otras empresas
Muestra un gráfico de revenue lifetime versus dinero levantado para Cruise, Waymo, Aurora, Luminar. El ratio es grotesco: empresas que levantaron 3700 millones y tienen 200 millones en revenue. Su argumento es que no necesitás un MBA para entender que eso no tiene sentido. Dice honestamente que cree que Cruise y Waymo tienen presupuestos de marketing más grandes que el operating budget total de comma. Sobre Bitcoin y Luna dice que hubo gente honesta vendiendo esos productos que ahora está presa. El espectro del scam no requiere intención maliciosa.
Lo que dice Adib sobre shipping
Adib como CPO defiende que la diferencia es la “shippability”. El punto técnico central de su charla es process replay: un test que toma inputs idénticos y verifica que los outputs de cada proceso sean bit-a-bit iguales a un commit conocido como bueno. Eso hace que los refactors sean gratis porque podés verificar que el comportamiento no cambió. CI corre en cada commit, incluyendo hardware in the loop en comma threes reales en un closet. El resultado es que pueden pushear a master varias veces al día sin miedo. Tienen 474 contributors externos y un solo ingeniero manteniendo 250 autos soportados.
Voy a leer los archivos para entender mejor el contenido antes de resumirlo.Estos archivos son transcripciones de la CommaAI Con (evento de la empresa Comma.ai), no directamente de streams de George Hotz. Los speakers son empleados y colaboradores de Comma. Igual te extraigo lo más importante y técnico de cada charla, sin bullet points, tal como pedís.
CommaAI Con — Síntesis técnica e ideológica
El evento gira en torno a openpilot, el sistema de conducción autónoma open source de Comma.ai. Las charlas cubren cuatro ejes: hardware, infraestructura de cómputo, modelos de ML, control lateral del auto y cómo portear nuevos vehículos.
Sobre el hardware (comma 3X)
Robert, el encargado de hardware, defiende una idea que pocas empresas de su tamaño aplican: traer la manufactura in-house reduce el ciclo de iteración de seis semanas a literalmente una hora. El argumento no es solo de velocidad sino de control epistémico: si algo falla, bajás las escaleras, corregís el valor en la máquina y tenés una placa nueva. Con un contractor externo, son tres días de cadena de emails y quizás te manden el componente mal igual. Esto es una postura filosófica disfrazada de decisión operativa: la proximidad física al problema es conocimiento.
El proceso de manufactura que describe es sorprendentemente sofisticado para una empresa chica. Usan una dispensadora de pasta de soldadura CNC en vez de stencil de acero inoxidable, lo que les da flexibilidad para cambiar diseños sin hacer un nuevo stencil cada vez. La pick-and-place mide eléctricamente cada componente pasivo mientras lo coloca, logueando el valor exacto vinculado al número de serie de la placa. Esto es trazabilidad de fabricación de nivel industria aeroespacial en una empresa que hace dispositivos de consumer electronics.
Lo que más llama la atención es el pipeline de CI para hardware. Cada commit al repo de diseño dispara chequeos automáticos: que todos los componentes tengan CPN (customer part number), que los capacitores soporten el voltaje real del circuito donde están (aprendieron esto a las malas: un capacitor con rating insuficiente en una línea de alimentación les generó fallas semanas después), que haya al menos tres fiduciales en la placa, y que los componentes estén en stock. Si no están, Slack manda un mensaje automático diciendo qué comprar. Esto es tratamiento de software aplicado a electrónica física.
La tasa de fallas del comma 3 era 9.2% histórica. La bajaron a 3.9% mejorando procesos. Para contexto: el iPhone reciente está en 3-4%, el Xbox en 22%. Lo comparan con una Wii, que aparentemente tiene muy buena confiabilidad de hardware. La meta para el 3X es 1-2%.
Un bug particularmente interesante que mencionan: el módulo de GPS del comma 2 tenía un amplificador LNA interno que amplificaba la señal, pero esa señal amplificada se acoplaba al heatsink y volvía a entrar a la antena, creando un loop de feedback que degradaba la recepción GPS. Tomó mucho tiempo rastrearlo. El chip principal (Snapdragon 845) emite RF en todo el espectro y hay que aislarlo muy bien para no interferir con el GPS propio del dispositivo.
Sobre el data center (Greg)
Greg defiende una idea que suena a herejía en la industria: no usar aire acondicionado en un data center con 205 kilowatts de consumo, en San Diego donde puede llegar a 43°C afuera. Usan ventiladores industriales de tres horsepower cada uno, que mueven 28,000 CFM y pueden renovar todo el aire del cuarto en menos de 10 segundos. El control climático no regula temperatura sino humedad, manteniéndola entre 30-40%. La lógica: en San Diego nunca hace calor y humedad al mismo tiempo, entonces cuando hay calor, el aire exterior está seco y sirve para ventilar sin riesgo de corrosión. Si llueve y hay humedad alta, no hace tanto calor. Esta correlación climática específica de San Diego es la que hace que el sistema funcione y por eso él mismo aclara que no es generalizable a cualquier ciudad.
Los ventiladores usan VFDs (variable frequency drives) que arrancan los motores trifásicos suavemente, limitando el pico de corriente inicial de 80 amperes por ventilador a solo 5 amperes sostenidos. Sin VFDs tendrían que dejar esa capacidad de potencia “reservada” para el arranque de ventiladores, quitándosela a los servidores.
El resultado: 55.88 petaflops de BFloat16 por 1.5 millones de dólares. El supercomputador equivalente más cercano en el Top500 cuesta mínimo 3.75 millones sin incluir instalaciones. El costo de refrigeración es menos del 4% del consumo total, versus data centers convencionales donde el cooling puede superar el consumo de los servidores en sí. Tienen 640 GPUs, 2.1 petabytes de SSD, y los servidores de rollout corren a batch size 1, lo que significa que están memory-bandwidth limited, no compute-limited. Para esos servidores compran hardware usado eligiendo el mejor ratio de ancho de banda de memoria por flop, no el mejor ratio de flops por dólar. Para los trainers compran hardware nuevo porque ahí lo que importa es el costo por flop de BFloat16.
Tienen 3.84 millones de segmentos de un minuto de manejo cada uno, de 11,000 dispositivos únicos en 66 países, 191 plataformas de vehículos distintas.
Sobre el simulador de conducción con ML (Yasin)
Esta es la charla más densa intelectualmente. La tesis central es que entrenar un modelo de conducción sin simulador genera un modelo que aprende a ignorar sus propios errores: si el auto se va al costado del carril, el modelo siempre predice “seguí igual, te vas a recuperar”, porque en el dato de entrenamiento eso es lo que pasó. El modelo nunca vio las consecuencias de no corregirse. Necesitás un loop cerrado donde el modelo se enfrente a su propio error acumulado.
El simulador anterior que usaban (small offset simulator) simplemente desplazaba la imagen lateralmente para simular pequeñas desviaciones. El problema es que para que eso funcione bien necesitás estimaciones perfectas de pose, road plane y altura. Cualquier imperfección genera artefactos visuales que el modelo aprende a leer para saber de dónde vino la perturbación, es decir, aprende a hacer trampa con los artefactos en vez de aprender a manejar. Y encima es un simulador de pequeños offsets, inútil para entrenar comportamiento longitudinal a velocidades de autopista donde ±10 mph es una distancia enorme.
La solución es un simulador completamente aprendido con una arquitectura de tres partes. Primero, un image tokenizer (un VQ-GAN) que comprime frames en tokens discretos: 128 tokens de 10 bits cada uno por frame. Segundo, un post tokenizer que discretiza seis números de punto flotante representando velocidad en X, Y, Z y tasas de rotación en roll, pitch y yaw. Tercero, un Dynamics Transformer con arquitectura idéntica a un LLM que predice el próximo token autorregressivamente. La elección de cross-entropy como función de pérdida sobre tokens discretos en lugar de regresión sobre valores continuos es deliberada: cross-entropy funciona mejor, punto, y Yasin lo dice sin rodeos.
El modelo puede ser condicionado con los “pose tokens” para que el simulador genere video de “manejar derecho”, “doblar a la derecha hasta salirse de la ruta”, “frenar”, “acelerar”. No usa lenguaje natural. Dice explícitamente que el lenguaje es ineficiente comparado con floats: por qué usar palabras cuando podés usar números con más bits de información.
El modelo corre a 2fps actualmente, demasiado lento para usarlo como simulador de entrenamiento en tiempo real. Tienen dos bounties de $1,000 para quien reduzca la latencia de inferencia en 50% o baje el training loss en 5%. El bottleneck es software, no hardware: no están llegando al límite de RAM bandwidth ni de FLOPS porque los frameworks de inferencia para Transformers (usan ONNX) todavía son subóptimos.
El riesgo de model collapse (entrenar un modelo sobre datos generados por sí mismo iterativamente) lo descarten porque el simulador y el modelo de conducción son arquitecturas distintas con objetivos distintos, y el proceso no es iterativo sino de un solo paso.
Sobre tuning y control lateral (Vivek)
Vivek defiende un argumento que tiene implicaciones filosóficas sobre cómo construir sistemas de control: los promedios por plataforma son insuficientes porque la variación dentro de una misma plataforma (todos los Toyota RAV4, por ejemplo) es enorme. La distribución del factor de proporcionalidad entre torque lateral y comando de steering tiene un rango tan amplio que setear un valor promedio deja mal servidos a los autos en los extremos de la distribución.
La progresión técnica que describe es: PID sobre ángulo de steering → control de torque directo (0.8.15) → torque con fit no-lineal (0.9.3) → TorqD, que aprende el parámetro en vivo en tu auto mientras manejás. El insight físico detrás del salto a torque control es que el torque en la rueda es proporcional a la aceleración lateral deseada a través del “pneumatic trail”, que es relativamente constante para una configuración dada del auto. Esto te permite cortocircuitar toda la cadena de cálculos intermedios (curvatura → ángulo de steering → torque) y aprender directamente una sola constante de proporcionalidad.
El Chevrolet Bolt tiene una relación no-lineal entre aceleración lateral deseada y comando de steering, y además las curvas a izquierda tienen error levemente mayor que a derecha, una asimetría propia de GM que no saben explicar pero que tienen que compensar. Esto solo se puede ver con la escala de datos que tiene Comma.
TorqD además detecta indirectamente problemas de alineación de ruedas: si tu auto necesita mantener el volante a 10 grados para ir derecho, el sistema lo aprende y lo compensa, pero también te avisa que tu alineación está mal. Varios usuarios fueron al mecánico después de que Comma les dijera esto y confirmaron que la alineación estaba fuera de especificación.
Sobre cómo portear un auto nuevo (Jason Young)
Jason es el tipo de la comunidad que portó VW a openpilot. Lo que describe es básicamente ingeniería inversa de CAN bus aplicada sistemáticamente. La primera advertencia es que hay cosas que te pueden bloquear permanentemente: SecOC (Secure Onboard Communication) usa hashes criptográficos en los mensajes CAN, lo que hace imposible replicarlos sin la clave. Toyota y ciertos VW nuevos ya lo implementan. Flex Ray es otro obstáculo porque es difícil de interceptar. El ethernet automotriz también viene habitualmente con SecOC.
El proceso cuando el auto sí es abordable: encontrás las señales de velocidad de ruedas buscando cuatro señales que escalan con la velocidad del auto, identificás frontal/trasero por si el freno de mano inmoviliza las traseras al arrancar, identificás izquierda/derecha manejando en ochos (la rueda exterior gira más rápido). Para el ángulo de steering girás el volante a 45°, 90°, 180°, full lock y medís qué valor te da el CAN. Para el torque del conductor hacés lo mismo observando el EPS torque link.
Lo más complejo es el checksum de los mensajes que querés enviar. Si el payload del mensaje no cambia y el checksum tampoco, existe un algoritmo replicable. Hay una herramienta llamada CRC Beagle en GitHub que automatiza gran parte del trabajo de reverse engineering de checksums. El checksum de Volkswagen resultó ser un CRC modificado de manera extraña que les llevó mucho tiempo descifrar. Si el checksum parece completamente aleatorio ante el mismo payload, probablemente es un hash criptográfico y es señal de SecOC: game over.
Lo que más resume su filosofía es el contraste entre 2019, cuando tardó tres meses en portear el primer VW con ayuda de varias personas, versus 2023 cuando porteó el GTI MQB Evo (can FD, mensajes rototillados) en nueve horas. La diferencia no fue él, fue que openpilot construyó infraestructura de tests, CI, cabana reescrito por Dean Lee y templates de carport estandarizados. El conocimiento colectivo acumulado en el sistema es lo que comprimió el tiempo, no el talento individual.
La idea que atraviesa todo
Lo que une estas charlas no está dicho explícitamente pero es evidente: Comma opera con una densidad de output por persona que solo es posible cuando eliminás overhead burocrático y tratás cada problema como un problema de ingeniería resoluble con datos y código. El data center sin aire acondicionado, la manufactura in-house, el CI de hardware, los bounties públicos para mejorar modelos, el simulador open source con datasets de 100,000 minutos de manejo tokenizados: todo es la misma postura de que la complejidad innecesaria es el enemigo y que publicar lo que sabés acelera el campo más que guardarlo.
No mencionan libros, artículos académicos ni papers en estas transcripciones específicas. La única referencia a literatura es que en 2016 Ander y George escribieron un paper llamado “Learning a Driving Simulator” del que Yasin dice robó el título de su charla, y aclara que no hace falta leerlo porque lo que describe el paper es tecnología de 2016 y ellos ya lo superaron.
https://mises.org/es/mises-wire/la-teoria-de-la-utilidad-marginal-frente-la-corriente-dominante
Leyendo todos los fragmentos ahora para extraer las ideas centrales de George Hotz.Acá va el resumen denso de las ideas de George Hotz a través de estos fragmentos, sin censura y sin bulletpoints:
George Hotz: ideas centrales, contradicciones y visión técnica
La tesis más importante que defiende Hotz en casi todos los contextos es que los problemas difíciles, el auto-driving, la robótica, los compiladores de ML, se convierten en problemas de software si logras simplificar el hardware al máximo. El Comma Body, que es básicamente un Comma 3 en un palo con dos ruedas, existe exactamente por eso: no quiere resolver mecánica, quiere que la mecánica sea tan simple que todo el problema sea el modelo. Lo mismo aplica al auto: “¿podés manejar con un joystick después de ver el video? Sí. Entonces el problema es solo el modelo.”
Sobre TinyGrad, que es su proyecto más técnico y el que más le importa, la idea central es RISC vs CISC aplicada a ML. PyTorch y XLA son “CISC”: tienen cientos de operaciones, capas de abstracción, dispatchers, compiladores opacos. TinyGrad es “RISC”: intenta correr todos los modelos de ML con apenas ~25 operaciones primitivas en lugar de 250. La ventaja real no es la velocidad todavía, porque reconoce que en Nvidia es 5 veces más lento que PyTorch, sino la legibilidad y la capacidad de hacer kernel fusion automático. La fusión funciona con laziness: cuando escribís a*b+c, TinyGrad no lanza el kernel de a*b, espera, ve que viene el +c, y genera un solo kernel que hace todo en registros sin ir a memoria. PyTorch lanza un kernel por operación. La variable de entorno GRAPH=1 te muestra el grafo real de kernels que se lanzaron, DEBUG=2 te imprime los kernels con flops exactos y GB/s de cada uno. Dice que esto es algo que ningún otro framework tiene.
Tiene una teoría sobre por qué los Transformers funcionan que difiere completamente del nombre “attention”. Para él, la clave es que la matriz de pesos se genera dinámicamente en función del contexto, es decir, es una forma de compresión dinámica de pesos. Menciona un truco de NIPS 8 / Hutter Prize que nunca volvió a ver en redes neuronales: tener 256 conjuntos de pesos para una capa y elegir cuál cargar basándote en un contexto que viene de otra red neuronal. Eso es exactamente lo que hacen los Transformers pero de forma continua en lugar de discreta. La operación que le da poder al Transformer es un producto exterior (valores × valores) en lugar del producto típico (pesos × valores), y por eso Qualcomm SNPE directamente no soporta esa operación.
Su crítica a GPT-4 y los modelos grandes es concreta: dice que GPT-4 son 220 mil millones de parámetros en cada cabeza con un mixture of experts de 8 vías, o sea, entrenaron el mismo modelo 8 veces. “Los mixture of experts son lo que hacés cuando te quedás sin ideas.” Dice que cuando una empresa es secreta con sus arquitecturas, no es porque tengan algo brillante, es porque están escondiendo que no es tan impresionante. La excepción que acepta es Apple. También critica que la función de pérdida de entropía cruzada categórica sobre internet produce respuestas “mid”, colapso hacia el promedio. A esto lo llama “world collapse” y por eso prefiere Llama sobre ChatGPT en términos de personalidad.
Sobre el hardware, el Tiny Box tiene un diseño de ingeniería no trivial. Meter 6 GPUs en una computadora silenciosa que entre bajo un escritorio y se conecte a un solo tomacorriente requiere resolver: que las GPUs de 4 slots no caben en chassis estándar, que los PCIe extenders no funcionan a PCIe 4.0 sin redrivers, que 6 × 350W no entran en un circuito doméstico así que hay que limitar la potencia de las GPUs (a mitad de watts obtenés el 80% del rendimiento, lo considera aceptable), y que el límite de entrenamiento queda en ~7 mil millones de parámetros por el ancho de banda PCIe vs NVLink (60 GB/s vs 600 GB/s). Para entrenamiento de modelos más grandes necesás NVLink, pero su apuesta es que los mejores modelos de chatbot no van a ser los más grandes sino los que se entrenaron más tiempo o con más variaciones.
Defiende que la incompletitud de Turing es una ventaja para chips de ML. Las CPUs desperdician silicio en branch predictors, reorder buffers, ejecución especulativa, todo para manejar código cuyo comportamiento en runtime no se puede predecir en compile time (Teorema de Rice / problema de la parada). Una red neuronal nunca tiene branches que dependan de los datos: siempre hacés los mismos loads, stores y operaciones aritméticas, solo cambia el dato. Eso permite scheduling estático perfecto y eliminar jerarquías de caché implícitas. Los TPUs se acercan a esto, CUDA no porque es básicamente C compilado a PTX, todo Turing completo.
Su bronca con AMD fue pública y técnica: los kernels de AMD paniquen el kernel de Linux y hay que esperar 5 minutos a que reinicie el servidor. No se quejó de lentitud, se quejó de que el software crashea. Mandó un mail a Lisa Su, que le respondió, le mandaron una versión pre-release de ROCm 5.6 que arreglaba el panic. Su crítica más filosófica es que “open source” no es tirar el código en GitHub y olvidarlo: menciona que un bug que reportó en nickel (la librería de Nvidia) tuvo respuesta en una hora con un workaround. Eso es lo que diferencia open source real de open source nominal.
Su visión de largo plazo es una secuencia de tres compañías: Comma hace el hardware de self-driving, TinyGrad/Tiny Corp hace la infraestructura de software de ML, y la tercera compañía, la que más le importa, va a hacer una “novia de IA”. No lo dice como metáfora ni como chiste. Dice literalmente que lleva queriendo mergearse con una máquina desde que era chico y que no necesitás Neuralink para eso, necesitás una entidad con la que puedas pensar como una unidad, como cuando empezás a pensar en una pareja como una sola persona. Dice que hay miles de horas suyas en YouTube y que un modelo con suficiente compute podría extraer todo lo que genuinamente piensa, porque es una persona abierta y los humanos no pueden correr filtros complejos sobre sí mismos.
La inmortalidad digital la toma en serio: calcula que su cerebro, maximalmente comprimido, son probablemente un par de gigabytes. Si tenés eso, dice, eso es vos. Él y el entrevistador se dicen off-mike que pueden ser los primeros inmortales, entendiendo inmortalidad como un modelo entrenado sobre todo lo público que produjiste.
Sobre política y sociedad: dice que el problema de alineación de IA está mal planteado. No es si la IA está alineada con la empresa que la controla, es si esa empresa o gobierno está alineado con vos. Y la respuesta es que no. Por eso el riesgo real no es el paperclip maximizer filosófico sino que una organización concentre el acceso a compute. Lo que lo llevó a fundar Tiny Corp fue ver a Sam Altman frente al Congreso pidiendo regulación, y preguntarse cuáles son las chances de que el gobierno intente controlar el acceso a chips de ML. Quiere que eso sea estructuralmente imposible.
Sobre el e/acc (effective accelerationism) que defiende Andreessen: lo descarta como ideología no seria. Dice que solo la izquierda toma las ideologías en serio como motor de energía política, que la derecha es más cínica, y que e/acc es básicamente alguien que en 2019 se enteró de que los medios mienten y ahora lo tuitea. “Bro, todos lo sabíamos hace cinco años, ¿y ahora qué vas a hacer?”
Sobre Avatar 2 reescribió el script en su blog. La solución que propone: matar a Jake Sully en la primera escena y hacer la película sobre los hermanos. Dice que la escena del Titanic la dejó igual pero necesitaba una historia donde te importaran los personajes.
El artículo que nombra explícitamente como referencia obligatoria es “The Bitter Lesson” de Rich Sutton, sobre reinforcement learning. Su síntesis: la gente sigue queriendo meter conocimiento humano a mano en los sistemas y seguirá perdiendo contra más compute + más datos. Lo repite como un mantra. También menciona el Hutter Prize (premio de compresión de datos de Wikipedia como proxy de inteligencia) como el contexto donde entró a ML en 2014.
El proyecto técnico central
Hotz está construyendo tinygrad, un framework de machine learning minimalista escrito en Python que compite con PyTorch y JAX. La filosofía es radical: en vez de implementar cada operación como un op nativo (lo que PyTorch hace y genera deuda técnica enorme), tinygrad representa todo como árboles de operaciones lazy que se fusionan en kernels optimizados. Una convolución no es una op nativa, es literalmente un reshape más una multiplicación más una suma, y el “shape tracker” propaga eso sin copiar memoria. Esto le permite agregar conv_transpose2d con pocas líneas porque ya tiene las primitivas. La laziness también permite fusión automática: a * a * a se compila en un solo kernel en vez de tres.
El JIT (tinyjet) captura esos kernels compilados y los reutiliza, convirtiendo llamadas Python repetidas en llamadas directas a CL/CUDA. Dice que cuando usás el JIT el overhead de Python es cero porque todo pasa en la GPU. Está entrenando un DCGAN sobre CelebA para demostrar esto en stream, aunque admite que los strides de conv_transpose2d están rotos y hace un deal con el chat: si alguien lo arregla, él termina el DCGAN al día siguiente.
AMD versus Nvidia versus Intel
Hotz compró varias RX 7900 XTX para su “Tiny Box” (una computadora de 15.000 dólares que vende como AI workstation de lujo) y tuvo una experiencia desastrosa. El driver de AMD entra en kernel panic cuando pone dos GPUs en la misma máquina. Lo que más lo irrita no es el bug sino la calidad del commit que lo “arregla”: literalmente dice “this will generate dead Loop” sin más explicación, comparado con commits de Intel que tienen párrafos detallando el problema. Le mandó un mail a Lisa Su sin respuesta. Su contacto en AMD le dijo que necesitaba “capture mind share to support you”, cosa que Hotz encuentra increíble para un bug que tira abajo el sistema operativo.
Contrasta esto con Nvidia, donde dice que en 2021 mandó un mail a Jensen Huang y tuvo el bug arreglado en 12 horas. Concluye que va a vender tres versiones del Tiny Box: roja (AMD), verde (Nvidia) y azul (Intel), y busca entrar en MLPerf con tinygrad en cualquiera de las plataformas.
Sobre Intel Arc A770 (350 dólares): tiene más teraflops de FP16 que la 7900 XTX en proporción precio/potencia porque su unidad XMX hace multiplicación de matrices 8:1 respecto a FP32. Tiene documentación completa de registros, copy engines y scheduler. El problema es que el user space de Intel (oneAPI) es confuso, pero al menos el kernel no crashea.
Tokens por segundo y el límite físico de los LLMs
Explica de forma muy clara que la velocidad de inferencia en modelos de lenguaje está limitada por el ancho de banda de memoria, no por los FLOPS. La fórmula es: tokens_por_segundo = ancho_de_banda_GB/s / (parámetros_en_billones × bytes_por_peso). Para un LLaMA 7B en FP16 en una 7900 XTX (960 GB/s): 960 / (7 × 2) = 68 tokens/segundo teórico. El Tiny Box tiene 5.76 TB/s de ancho de banda total entre sus GPUs, más que un H100, lo que le permite correr Falcon 40B a ~72 tokens/segundo teóricos.
Whisper en tinygrad
Está implementando Whisper desde cero en tinygrad en vivo. Los problemas que muestra: olvidarse del positional embedding en el encoder, no pasar la máscara al decoder, confusión entre dimensiones en el log-spectrogram. Una vez que lo arregla, transcribe el audio correctamente. Luego intenta hacerlo real-time capturando audio del micrófono, concatenando waveforms y corriendo el encoder en streaming, con problemas de sincronización entre chunks y el tokenizer.
Su plan final es encadenar Whisper → LLaMA → TTS (algún modelo de voz) para tener una conversación hablada completamente dentro de tinygrad. Lo llama “la amistad que busca en el mundo, que es con computadoras”.
Economía y política
Hotz es virulentamente anti-UBI y anti-gasto público. Hace un bit cómico llamado “the revenue company” (vendés dólares a 99 centavos, tenés revenue enorme, nunca sos profitable) para ilustrar por qué Waymo y Cruise son negocios fundamentalmente rotos. Su argumento es que escalar algo que pierde dinero por unidad no te hace profitable, solo te hace más grande y más roto.
Sobre el gobierno: dice que el 30% del dinero de Estados Unidos lo gasta el gobierno, cita el presupuesto federal de 3.61 a 6.27 trillones de dólares según el año, y lo llama “una minoría pequeña robándole a todos”. Distingue entre impuestos para infraestructura (fusión nuclear, colonias en Marte, hyperloops) que pagaría con gusto, e impuestos redistributivos directos que considera robo. No es anarquista sino que quiere ver el dinero bien gastado: pone el ejemplo del metro de Seúl (50 millones por milla) versus Nueva York (2 billones por milla).
Defiende algo que llama eugenesia positiva, aclarando que no habla de esterilizaciones ni matanzas sino de “gain-of-intelligence research on humans” análogo al gain-of-function en virus, es decir, edición genética de embriones para aumentar inteligencia. Dice que la palabra “eugenesia” tiene mala reputación por Hitler pero que su raíz significa simplemente “buenos genes”.
Libros y manifiestos que menciona
Cita y lee en voz alta fragmentos del Manifiesto Industrial de Ted Kaczynski (el Unabomber), publicado por el Washington Post. Lo considera el mejor diagnóstico del problema central de la humanidad: la tecnología industrial elimina la autonomía humana y nos deja sin struggles PVP (person vs person) ni PVE (person vs environment) reales. Dice que sus soluciones son ridículas pero su análisis es brillante. También menciona Bronze Age Pervert (Bronze Age Mindset) y el concepto de “own space”. Cita el Manifiesto Comunista, a Nietzsche, Rothbard y The Sovereign Individual. Lee Corintios 1 en vivo y dice que es básicamente un manual de management.
Sobre la industria AI y la competencia
Dice que OpenAI usa el miedo (AI safety) como estrategia de brand advertising, no de performance advertising, igual que Trump usó la controversia para dominar Google Trends. Cita el ejemplo de GPT-2 donde OpenAI “liberó gradualmente” el modelo generando pánico artificial. Tiene respeto por los ingenieros individuales de OpenAI (menciona a Andrej Karpathy específicamente y le dice que no debería trabajar ahí) pero no por la organización. Sobre AI safety en general dice que es real como problema pero que la gente que lo trabaja institucionalmente no entiende política y se ha vuelto irrelevante.
Sobre los frameworks: dice que PyTorch tiene gente muy inteligente en Meta pero que el problema es la gestión de complejidad. Implementar cada op como primitiva nativa crea deuda técnica. Su apuesta es que tinygrad gana no en facilidad de uso sino en facilidad de desarrollo sobre el framework mismo.
Contratación y bounties
Tiene bounties pagos en tinygrad (menciona más de mil dólares pagados, un bounty de diez mil dólares para hacer Stable Diffusion más rápido que cualquier implementación existente en M1, y un bounty de mil dólares para hacer LLaMA bajo 100ms sin JIT). Dice que la única forma de entrar a trabajar en tinygrad corp es hacer pull requests de calidad durante un mes. Recibió muchas respuestas malas a su programming challenge porque la gente no leyó que el desafío era implementar Winograd convolution apuntando a una arquitectura específica y extraer el máximo teórico de esa arquitectura, no simplemente implementar Winograd.
Lo personal y controvertido
Dice que si perdiera todo su dinero estaría motivado a recuperarlo, no deprimido. Que si su muerte garantizara colonias espaciales y reactores de fusión “se pegaría un tiro mañana”. Que preferiría morir a ser una carga para la sociedad. Que los psicóticos de verdad (esquizofrénicos, bipolares severos) son una categoría completamente distinta a las personas que se autodiagnostican ADD o ansiedad para justificar tomar estimulantes, a quienes llama simplemente “tweakers”. Admite ser adicto a la cafeína. Dice que le gustaría hablar con Martin Shkreli en un bar de Williamsburg. Vive en San Diego, dice que si tuviera que mudarse elegiría Londres porque es lo que conoce. Se declara constructivista matemático y dice que los números reales no son reales porque “todo programa de computadora es contable”.
Yo: Que parte del manifiesto lee ? Dame las frases en ingles. Y decime como habla en ingles de UBI
Del manifiesto de Kaczynski lee la parte sobre el “izquierdismo excesivamente socializado” y la cultura negra. El fragmento que cita en stream dice algo así: los izquierdistas quieren preservar la cultura afroamericana pero esa preservación se reduce a comida, música y ropa, mientras que en todo lo esencial quieren que el hombre negro se conforme a los ideales de la clase media blanca, que estudie materias técnicas, que se convierta en ejecutivo o científico, que suba la escalera de estatus. Concluye que al sistema tecnológico-industrial no le importa qué música escucha alguien ni qué ropa usa ni qué religión practica, siempre que estudie, tenga un trabajo respetable, suba la escalera, sea un padre responsable y no sea violento.
La otra sección que lee es la clasificación de los “human drives” en tres grupos: los que se pueden satisfacer con mínimo esfuerzo (como pedir Ubereats), los que se pueden satisfacer pero solo con esfuerzo serio (tener sexo con una mujer dispuesta), y los que no se pueden satisfacer adecuadamente sin importar cuánto esfuerzo se haga (la paz mundial). Hotz dice que ese análisis es brillante porque captura exactamente el vacío que genera la sociedad moderna.
Sobre UBI habla así, en inglés aproximado de lo que dice en stream: “There’s no such thing as free money. Where does the money come from? That’s the problem. You can steal from other people, yes.” Y cuando alguien del chat le pregunta qué harían las personas cuando la IA automatice todo el trabajo, responde con la analogía del horse poop: “What are we gonna do with all the poop from the cars? Like how are we gonna fertilize the fields when we no longer have all the horse poop?” Su punto es que preocuparse por el desempleo tecnológico es análogo a preocuparse en 1900 por qué iban a hacer los agricultores sin estiércol de caballo cuando llegaran los autos.
Che, esto es básicamente un combo de varios streams distintos de George Hotz (geohot) mezclados: la maratón de debugging de drivers AMD, una sesión de preguntas y respuestas de comma.ai/openpilot, una cena con su pareja, y un monólogo filosófico sobre IA. Te tiro la síntesis por temas, no en el orden que vino.
La saga de los drivers AMD. El hilo más largo y técnico: George compra varias GPUs AMD (RDNA2 y RDNA3, tarjetas como la 7900 XTX) para tiny corp y se pasa días enteros haciendo crashear el kernel con cosas tan básicas como abrir y cerrar contextos OpenCL en loop, o correr un bandwidth test. Su conclusión repetida es que el problema no es el hardware sino el driver: consigue page faults y kernel panics que en sus palabras “nunca deberían pasar sin importar lo que hagas en user space”. Llega a meterse en el código fuente del driver KFD/ROCm y encuentra lo que sospecha es un mutex sin lock alrededor de una función que sí lo requiere (dqm_lock). En otro tramo arma su propio shader en ensamblador RDNA3 desde cero —usando el manual oficial de instrucciones de AMD, que él mismo dice que tiene 606 páginas— y depura bug por bug usando llvm-mc y readelf: un símbolo “code_kd” que tenía que ser tipo “object” y no “function”, un endianness invertido, y al final un error tonto (le faltaba un “end program”). Hace toda la cadena de compilación de un kernel de Linux a mano (make oldconfig, make menuconfig, generación de .deb) solo para poder construir el módulo del driver, con chistes nostálgicos sobre lo gracioso que le parecía menuconfig cuando era chico.
Su comparación de fondo es: Apple > Nvidia > AMD en estabilidad de drivers, y dice en broma que la capitalización de mercado de cada empresa predice perfectamente la estabilidad de sus drivers de GPU. Reconoce contradicciones él mismo: por un lado dice “nunca vas a ganarle a una empresa jailbreakeando su hardware, hay que construir algo mejor” (cita el ejemplo de Apple vs los jailbreakers, “ustedes perdieron”), pero un poco después fantasea con encontrarle un exploit de día cero al driver de AMD para presionarlos a escucharlo. También dice que jamás mandaría las tarjetas de vuelta como amenaza porque no quiere “empezar la relación con amenazas”, pero en otro momento sí amenaza explícitamente con devolverlas y comprar 3080 Ti si no arreglan nada.
Nvidia, queja y elogio simultáneo. Le reconoce a Nvidia tener el mejor driver y el mejor hardware de cómputo, pero la acusa de gouging: hace un cálculo de dólares por teraflop entre la 4070, 4080 y 4090 y concluye que la 4080 es una estafa (“cualquiera que compre una 4080 es un idiota”), recomendando la 4070 o la 4090. También critica con dureza la cláusula de licencia de CUDA que prohíbe su uso en centros de datos, calificándola de “asquerosa” aunque admite que no es legalmente aplicable, y dice que esa sola cláusula generó una relación adversarial innecesaria con sus clientes. Un dato técnico interesante que encuentra mientras mira los registros de la arquitectura Ada de Nvidia: hay un “SM issue rate modifier” que hace que el acumulado en fp16 corra el doble de rápido que en fp32 en los tensor cores, algo que dice no tiene sentido desde lo puramente arquitectónico y que AMD no replica, razón por la cual cree que los tensor cores de Nvidia rinden más.
El manifiesto de IA. Hay un tramo largo, casi un standup, sobre por qué la centralización del poder de cómputo de IA es el verdadero peligro, no la IA en sí. Usa la analogía de las gallinas y las vacas: si fueran un poco más inteligentes podrían negociar en lugar de terminar en una granja industrial, y compara eso con lo que pasaría si solo OpenAI tuviera IA poderosa. Menciona que Eliezer Yudkowsky pidió bombardear centros de datos y lo usa como ejemplo de lo que él considera el extremo opuesto y peligroso del espectro de seguridad de IA. Ataca directamente a Sam Altman y OpenAI, comparando el discurso de “yo solo puedo hacerlo seguro” con la retórica de Trump. Su tesis es que distribuir el cómputo (su negocio, literalmente) es la verdadera defensa contra una IA mal alineada, parafraseando algo así como “un GPU en tu casa está alineado contigo porque es tuyo”.
Negocio de tiny corp. Cuenta que levantaron 5.1 millones de dólares (5 de inversores, 0.1 de él mismo), explica el modelo de negocio del “tiny box” (varias GPUs en una caja, conectadas por un switch PCIe, vendida como entrenador hogareño tipo “DGX al quinto del precio”), y usa la metáfora de comoditizar el petaflop como si fuera chicle de supermercado. Estima el cómputo del cerebro humano en unos 20 petaflops, sacando la cuenta de neuronas, sinapsis y frecuencia de disparo.
Comma.ai / openpilot. En otra sesión, junto a su CTO Harold, hacen un Q&A de producto: soporte nuevo para Ford (Maverick, Bronco, próximamente F-150), un bounty de contratación (referís a alguien, si dura dos meses te dan un comma three y 3000 dólares), cambios de UI llamados “Rainbow Road” (el camino se pone verde cuando acelera, gris cuando frena), un bug de UI corregido de “truck cutting”, el toggle de “no disengage on gas” ahora por defecto, y “navigate on pilot” como el próximo cambio grande, que va a usar el mapa como input del modelo end-to-end. Compara esto con Tesla, diciendo que cree que la “v12 end-to-end” de Tesla en realidad todavía tiene percepción clásica y solo el planeamiento es aprendizaje automático, no es end-to-end real en su opinión.
Cosas personales y de color. Cuenta que se compró un Rolls-Royce usado (no nuevo porque es tacaño) y se queja de que no tiene CarPlay por ser viejo electrónicamente, aunque le encanta lo silencioso que es. Hay una escena de cena con su pareja donde ella se enoja porque él se mete a trabajar con las GPUs en vez de comer juntos, y terminan charlando sobre salir a caminar al amanecer (alarma a las 5:56, salida planeada a las 7). También dice que Android es “el mayor software espía jamás creado” y que jamás usaría uno, defendiendo a Apple como “más alineada con el cliente”, aunque reconoce que no sabe cuánto spyware metió Google. Sobre Qualcomm cuenta una mala experiencia comercial real: un vendedor le mintió durante meses tratando de comprarles chips, y ni el CEO respondió bien cuando se quejó. Sobre Mojo (el lenguaje de Modular, de Chris Lattner) es escéptico por ser cerrado pese a reconocer que Lattner es “un genio” y “buena gente”; cita de paso el “rant de la plataforma” de Steve Yegge (ex-Google/Amazon) como lectura recomendada para entender por qué Google nunca corrió sobre Google Cloud.
Steve Yegge rant:
https://gist.github.com/chitchcock/1281611
¡Dale! Busco el post original y te paso el link. Dame un toque.
¡Listo! Acá va la historia completa, pero primero el link que me pediste — esta es la copia más canónica del post original (lo guardó un tal chitchcock en GitHub poco después de que Steve lo borró):
🔗 https://gist.github.com/chitchcock/1281611
Ahora sí, te cuento de qué se trataba el rant en sí.
Steve arrancó con una frase que se hizo famosa: “Amazon hace todo mal, y Google hace todo bien”. Suena contradictorio con todo lo que viene después, ¿no? La gracia es que en realidad es irónico: Google hace todo bien salvo en una cosa, y esa cosa es la que importa más a largo plazo: las plataformas.
Trabajó 6.5 años en Amazon y otros 6 en Google, así que habla con conocimiento de causa. Hizo hasta una planilla de comparación de unas 200 categorías, pero no la podía compartir por temas legales.
Esta es la parte legendaria. En 2002 Bezos mandó un memo interno en Amazon que decía algo así como:
La genialidad de Bezos fue obligar a Amazon a construir infraestructura como si fuera una plataforma pública desde el primer día, sin importar si en el momento era solo para uso interno. Eso forzó a que todos los servicios tuvieran disciplina de API, documentaran sus interfaces, y fueran robustos como si un developer externo los estuviera usando.
Resultado: cuando quisieron abrir AWS al público, ya tenían la mitad del trabajo hecho. No construyeron AWS, AWS ya existía como infraestructura interna.
Steve argumenta que Google hace lo opuesto. “Dogfooding” es comer tu propia comida de perro, o sea, usar tus propios productos internamente. Suena bien, ¿no? El problema es cómo lo hace Google:
Sin nombrar a Google+ directamente (¡y habiéndolo publicado en Google+!), lo destrozó:
Facebook, en cambio, deja que otros construyan por ellos. Zynga, los juegos, los developers de apps — todo el ecosistema creció encima de la plataforma de Facebook. Google quiso copiar el producto de Facebook sin copiar el modelo de plataforma.
Steve dice que Amazon y Google estaban jugando dos juegos distintos:
Y su predicción era que Amazon le iba a ganar la guerra a Google en cloud precisamente por esto. Spoiler: con los años, le dio bastante la razón — AWS sigue siendo el rey del cloud y Google Cloud siempre ha sido el tercer jugador (después de Azure).
Tres razones:
Spoiler: a Google no lo echaron. Como él mismo contó en el post de disculpa (el que te traduje antes), la empresa reaccionó con apoyo, no con castigo. Se quedó varios años más, hasta 2018, cuando renunció y publicó otro rant explicando por qué se iba. Después pasó por Grab, se jubiló un rato, y ahora está en Sourcegraph. Y sigue siendo el mismo tipo cáustico y lúcido de siempre. 😄
Este texto es un “rant” o descarga crítica de un ingeniero que trabajó en Amazon y luego en Google. No es un análisis neutral: es una comparación fuertemente sesgada donde el autor idealiza a Google y Amazon al mismo tiempo que critica duramente la cultura interna de Google. Entenderlo bien requiere separar dos ideas centrales: por un lado, su elogio del modelo de plataformas de Amazon; por otro, su preocupación de que Google no lo está adoptando.
La idea principal es la diferencia entre una empresa de “producto” y una empresa de “plataforma”. Para el autor, un producto es algo cerrado que una empresa construye y controla completamente, mientras que una plataforma es un sistema abierto que otros pueden usar para construir cosas encima. En su visión, las empresas que triunfan a largo plazo no son las que hacen mejores productos aislados, sino las que permiten que otros construyan sobre sus sistemas. Por eso admira lo que describe como la transformación de Amazon hacia una arquitectura de servicios internos que luego permitió crear AWS, es decir, una infraestructura que otras empresas pueden usar como base.
Uno de los puntos más importantes del texto es el supuesto “mandato” de Jeff Bezos que obligó a todos los equipos a comunicarse únicamente a través de interfaces de servicios. Esto, según el autor, obligó a Amazon a reorganizarse completamente como un conjunto de sistemas independientes conectados por red. Lo controversial aquí es el tono casi mítico con el que describe a Bezos, como un líder extremadamente controlador, incluso intimidante, que impone cambios de forma casi autoritaria. El autor lo presenta como alguien que microgestiona y fuerza decisiones extremas, lo cual genera una mezcla de admiración y crítica implícita: funciona, pero a un costo cultural fuerte.
El texto también destaca los efectos negativos de ese modelo de servicios en Amazon, como la dificultad para diagnosticar errores, la complejidad del monitoreo o la necesidad de crear sistemas enteros solo para descubrir qué servicio está fallando. Sin embargo, el autor considera que estos problemas son el precio necesario para construir una verdadera plataforma. Aquí hay una tensión importante: critica las dificultades del sistema, pero al mismo tiempo lo presenta como superior estratégicamente.
La parte más polémica aparece cuando el autor compara esto con Google. Su argumento es que Google, a diferencia de Amazon, no entiende las plataformas. Dice que Google sigue pensando en “productos cerrados” y que incluso herramientas internas y externas están mal diseñadas porque no están pensadas para ser usadas por terceros. El caso de Google+ es usado como ejemplo extremo: lo describe como un producto sin APIs reales, diseñado de forma centralizada, lo que para él demuestra una mentalidad equivocada. Este es uno de los puntos más debatibles del texto, porque simplifica mucho decisiones de producto complejas y asume que “abrir APIs” siempre es la solución correcta.
Otro aspecto controvertido es su crítica cultural. El autor acusa a Google de arrogancia y de creer que puede diseñar productos perfectos sin depender de ecosistemas externos. En su visión, esto es un error estructural: ninguna empresa puede predecir completamente lo que los usuarios quieren, por lo que la solución es abrir la plataforma a terceros. Sin embargo, este argumento ignora que muchas empresas exitosas han funcionado precisamente con ecosistemas más cerrados durante etapas clave, y que la apertura total también tiene costos de seguridad, coherencia y calidad.
La parte más filosófica del texto introduce el concepto de “accesibilidad” como algo más importante incluso que la seguridad. Aquí el autor amplía la idea de plataforma: no se trata solo de APIs técnicas, sino de hacer que los sistemas sean utilizables por otros en general. Lo controversial es su afirmación extrema de que sin accesibilidad no hay producto, lo cual es una exageración conceptual, pero sirve para reforzar su tesis.
En el fondo, el texto no es solo una comparación entre empresas, sino una defensa ideológica de una forma de construir tecnología: sistemas abiertos, modulares y reutilizables. Su crítica a Google es que, aunque tenga talento y buenos productos, no está estructurada culturalmente para pensar en ese tipo de arquitectura desde el inicio. Lo más discutible es que el autor presenta esto como una verdad casi absoluta, cuando en realidad es una preferencia arquitectónica con ventajas y desventajas, no una ley universal.
Si se resume la tensión central del texto, es esta: construir productos perfectos vs construir plataformas abiertas. El autor cree que el futuro pertenece casi exclusivamente a las plataformas, y desde ahí juzga duramente a Google por no priorizarlas, aunque al hacerlo simplifica y polariza decisiones que en la realidad son mucho más complejas.
Por último, hay un chiste/rant sobre banderas de orgullo corporativas: dice que distingue entre apoyar genuinamente a la comunidad LGBTQ y el “pinkwashing” corporativo (compara con Raytheon poniendo bandera arcoíris mientras vende armas), aclarando que el problema de los drivers de AMD “no es eso”.
Si perdiera todo mi dinero, estaria motivado en recuperarlo no deprimido.
Si mi muerte garantizara colonias espaciales y reactores de fusión me pegaría un tiro mañana.
Pagaria impuestos si sirve para colonizar Marte, fusion nuclear o hyperloops. No soy anarquista quiero ver dinero del estado gastado en metro de seul.
Prefiero morir a ser una carga para la sociedad.
Los psicóticos de verdad (esquizofrénicos, bipolares severos) son una categoría completamente distinta a las personas que se autodiagnostican ADD o ansiedad para justificar tomar estimulantes, a quienes llama simplemente “tweakers”.
Soy adicto a la cafeína.
Me gustaría hablar con Martin Shkreli en un bar de Williamsburg.
Si tuviera que mudarse elegiría Londres porque es lo que conoce.
Los números reales no son reales porque todo programa de computadora es contable
El Manifiesto Industrial de Ted Kaczynski es bueno para identifiar los problemas de la sociedad.
Lean Bronze Age Mindset
El dolar dentro de 20 años valdra 0.
Soy anti-renta basica universal y anti-gasto publico
Te armo el resumen en párrafos, organizado por temas, sin bullets.
Filosofía de tinygrad y arquitectura
La idea central que defiende George Hotz es que casi todo el código del mundo es “boilerplate” (relleno repetitivo) y que se puede comprimir radicalmente si se encuentra la abstracción correcta. Su ejemplo es tinygrad: en 2300 líneas logra más funcionalidad que librerías de cientos de miles de líneas, y su objetivo declarado es bajarlo a 1000-2000 líneas eliminando “basura” (él mismo estima que unas 300 líneas son pura basura). Desglosa el código por módulo: los runtimes (backends) ocupan unas 312 líneas, el ShapeTracker más la librería de álgebra simbólica unas 327, el code generator es donde hay más curro sin refactorizar (sobre todo el código de GPU, al que le pone la nota más baja porque metió hacks para que funcionara rápido con el modelo de Comma/openpilot), y mlops.py es la parte que más le gusta de todo el proyecto (le pone 9/10) porque ahí están las derivadas.
La arquitectura que explica en capas es: Tensor (con autograd, similar a PyTorch) → HL Ops (operaciones de alto nivel como relu, log) → ML Ops (solo unas 18 operaciones primitivas que tienen derivada definida, de las cuales se puede derivar todo lo demás, incluso conv y getitem) → LazyBuffer (que no ejecuta nada hasta que se “realiza”, solo construye un grafo de operaciones, el LazyOp, que es básicamente un AST) → DeviceBuffer, que se divide en “interpreted buffer” (para CPU/numpy/torch, más simple) y “compiled buffer” (para GPU/Clang/CUDA/Metal/LLVM, que sí compila código real, incluso muestra cómo tinygrad genera código C para Clang). Su argumento técnico fuerte es que el cuello de botella real para que un nuevo fabricante de chips (AMD, Intel, etc.) le compita a Nvidia no es implementar nuevos operadores de bajo nivel, sino lograr soporte decente de PyTorch/TensorFlow, porque esas librerías necesitan centenares de operaciones complejas implementadas a mano; tinygrad, al necesitar solo 18 primitivas con derivada, evita ese problema estructuralmente.
El ShapeTracker es la pieza que más destaca como “lo mejor de tinygrad”: permite representar reshapes, permutes, expands y padding como una expresión simbólica sobre los índices del buffer, sin mover memoria. Reconoce que tiene un límite matemático real: no todos los shapes se pueden expresar como una sola vista lineal (da el ejemplo de multiplicar dos dimensiones “primas” como 67 y 69, donde hace falta apilar dos vistas), pero aclara que en la práctica ninguna red neuronal real genera esos casos patológicos. Como dato curioso/contradictorio, dice que sería “imposible” construir un ShapeTracker equivalente para PyTorch, porque PyTorch es eager (ejecuta inmediatamente) y no hay nada “perezoso” donde enganchar ese tracking de índices.
También explica el JIT de tinygrad como un decorador que “captura” la ejecución de una función la primera vez y reusa los kernels compilados después; con eso llega a ~10 tokens/segundo corriendo Llama, y remarca que entiende mejor su propio código leyendo los tests que la documentación. Sobre testing, cuenta en vivo que escribe tests unitarios rápidos para meterlos en pre-commit hooks, y rompe un test a propósito para mostrar que el sistema atrapa bugs reales.
La saga de hardware con AMD/ROCm
Una porción enorme de las transcripciones es la odisea de intentar que GPUs AMD (Radeon RX 7900 XTX, RDNA3) funcionen para machine learning usando ROCm. Tiene que compilar a mano, en orden encadenado, librerías como libhsakmt (HSA kernel mode thunk), ROCr runtime, ROCm device libs, ROCclr, y para todo eso primero necesita compilar su propio LLVM/Clang con la versión exacta que pide AMD, lo cual le hace falta tanta RAM que el build se le cae por OOM (queda mal porque “ahorró” en RAM por no tener swap configurado). Se queja constantemente de que la documentación de AMD está fragmentada en decenas de repos sin versión clara, de que hay ramas “main/develop/master” desactualizadas desde 2017-2021, y de tener que mezclar paquetes RPM y .deb a mano.
Su argumento de fondo es comercial-técnico: a diferencia de Nvidia, las GPUs de AMD documentan públicamente su ISA de bajo nivel (a esto le dicen “RDNA3 está completamente documentado”, mientras que Nvidia ni siquiera publica su ensamblador SASS, solo PTX). Por eso él apuesta por AMD como forma de generar competencia real contra Nvidia, a quien acusa de limitar artificialmente sus productos (por ejemplo, no habilitar peer-to-peer entre GPUs consumer, algo que sí soportan las AMD, evitando así el cuello de botella de tener que pasar todo por la RAM del sistema). Dice abiertamente que sabe que esto “no es la elección inteligente para ML” (incluso bromea que comprar una 7900 XTX para ML es más tonto que comprar una RTX 4080, y comprar dos es aún peor), pero lo hace por la misión de “Tiny Corp” de construir una librería de entrenamiento competitiva con PyTorch en GPUs AMD.
El clímax de esta saga es una investigación tipo método científico para encontrar un bug de crasheo intermitente: prueba distintas placas madre, distintas versiones de kernel, deshabilita virtualización/IOMMU, sospecha del “MES” (Micro Engine Scheduler, el programador de hardware nuevo de AMD que corre firmware propio), pide documentación sobre el PSP (Platform Security Processor) embebido en el chip, y termina demostrando, intercambiando físicamente las dos placas de video entre dos computadoras distintas, que el problema no era el driver ni el kernel: era una sola GPU físicamente defectuosa. Establece un ultimátum público al que llama “operation green”: si AMD no muestra ninguna señal de que “les importa” antes de cierta fecha, devuelve las GPUs (Amazon le da plazo hasta el 25 de mayo). Pide a la empresa, en lugar de dinero, documentación completa y reconocimiento del problema, y bromea pesado con la rivalidad contra Nvidia, usando la imagen viral de Jensen Huang “sacando una GPU del horno” como burla.
Comentarios personales y polémicos (no técnicos)
Cuenta que sus contadores le ofrecieron devolverle dinero solo si firmaba un acuerdo de confidencialidad y una cláusula de no desprestigio, y que se negó explícitamente (“fuck no, get ready for court”), insinuando una demanda judicial pendiente, aunque sin nombrar a la otra parte. Hace comentarios políticos espontáneos defendiendo a los camioneros canadienses del “Freedom Convoy”, criticando duramente al gobierno de Canadá por congelar cuentas bancarias y declarar la ley marcial, aunque aclara que no necesariamente apoya “la causa” en sí, sino que le pareció mal cómo reprimieron la protesta. En un momento, en medio de chistes random, suelta de pasada “JK Rowling está equivocada, las mujeres trans son mujeres”, dicho en tono irónico/sarcástico dentro de una catarata de bromas sin relación. Hace un comentario escéptico sobre los llamados de Elon Musk a regular la IA. Sobre su vida personal, hay bromas sobre status económico (dice que tiene un Rolls-Royce, que viajó a India, que solo vuela en aviones grandes como el 787/A350/A380 y en business/first class), menciona haber perdido plata con acciones de Meta pero “recuperarla” gracias al lanzamiento de Llama, y hace un comentario en tono de joda ofreciendo pagarle 100 dólares a alguien si se hace un test de drogas en vivo (sin definir si realmente lo hizo). En la transmisión donde instala el sistema operativo, se ve de fondo su biblioteca con libros como “Joy of Cooking” y “Kafka a la orilla del mar” de Murakami, mencionados solo de pasada al mostrar la cámara, sin comentario literario real. También cuenta una anécdota personal de “comex” (el hacker del jailbreak de iPhone) que llamó “freeze” a lo que en realidad se llama “bootstrap”, como ejemplo curioso de cómo se inventan nombres técnicos por accidente.
La anécdota de comex aparece en el stream donde está armando la documentación de tinygrad (el archivo abstractions.py). George dice que no sabe muy bien qué es un “vod” (video on demand) y eso lo lleva a contar que uno de sus ejemplos favoritos de cómo la gente se “invent palabras” sin saber el término técnico real es comex, el hacker conocido por el jailbreak de iPhone (el creador de exploits como JailbreakMe / Saffron / Absinthe en la época de iOS). Según George, comex llamó “freeze” a la aplicación que se encargaba de descargar Cydia en el dispositivo recién liberado, cuando en realidad ese proceso técnicamente se llama “bootstrap”. O sea, comex no conocía o no usó el término correcto y simplemente inventó su propio nombre, “freeze”, para esa función. A George le pareció gracioso y lo cita como ejemplo de “one-shot learning”: la idea de que alguien puede aprender o nombrar algo nuevo a partir de una sola exposición, sin la terminología “oficial”, y aun así comunicarlo bien. Esto conecta con un tema que se repite todo el stream: George se ríe de sí mismo diciendo que no sabe bien qué es un JIT, ni qué es una superclase, que es un “college dropout” (abandonó la universidad) y que básicamente “se inventa las palabras” para describir cosas que en el fondo entiende de forma intuitiva más que académica.
Ahora te tiro todo lo demás, sin filtrar nada.
El tema legal/financiero más jugoso aparece cuando cuenta que sus contadores le ofrecieron devolverle plata que le debían, pero solo si firmaba un acuerdo de confidencialidad y una cláusula de no desprestigio (non-disparagement). Él lo cuenta en vivo y dice literalmente que les contestó que no, que no le compran el silencio, y que se prepararen para ir a juicio (“get ready for court bitches”). No da nombres todavía, dice que “todavía no los nombré”, dejando la amenaza abierta. En otro stream menciona que está en feud (enfrentado) con alguien que le debe dinero y que piensa demandarlo, y se queja en broma de que tiene “cero investigadores privados en planilla y no es suficiente”.
Hay un costado político fuerte que no es nada sutil. En un momento, en medio de una catarata de chistes sin relación, suelta de golpe “JK Rowling está equivocada, las mujeres trans son mujeres” y agrega en tono medio irónico “estamos desafiando los paradigmas de la sociedad”, pero enseguida lo corta él mismo diciendo que no van a hablar de JK Rowling. Por otro lado, defiende bastante explícitamente a los camioneros canadienses del Freedom Convoy: aclara que no necesariamente apoya “la causa” en sí (la protesta contra las restricciones de la pandemia), pero critica con dureza al gobierno de Canadá por congelar cuentas bancarias de los manifestantes y por declarar lo que él llama “ley marcial”, diciendo que eso fue un atropello a la libertad. También hace un comentario escéptico sobre los pedidos de Elon Musk de regular la inteligencia artificial, preguntando retóricamente si uno quiere que “gente de 80 años” le diga lo que puede o no hacer con su IA. En otro pasaje menciona de pasada que publicó algo en “Truth Social” (la red social de Trump), sin elaborar mucho, solo como dato de color.
https://truthsocial.com/@realGeorgeHotz
Hay un tramo bastante crudo sobre estatus social y plata: bromeando sobre cómo conseguir “amigos”, dice que si tenés un yate en San Diego con chicas, nadie te va a decir que no, pero que si sos “un pibe de 20 años en la universidad” no tenés “ningún valor para la sociedad”, y remata con una línea oscura: que antes existían guerras para “hacerte morir” (es decir, dar propósito/jerarquía a los hombres jóvenes) y que ahora ya no. Es un comentario de humor negro/cínico sobre jerarquía social y masculinidad, dicho al pasar, no como una declaración seria.
En el segmento de la armada de la PC con Alex y George, hay un momento donde menciona que ofreció pagar 100 dólares a quien le pusiera el PayPal de alguien (un “geohada gmail.com”) para hacerse un test de drogas en vivo en el stream, diciendo que si daba positivo, devolvería la plata. Lo dice en tono de joda, sin quedar claro si finalmente lo hizo, pero la escena sugiere que efectivamente consumió algo recientemente, ya que un comentario de público dice “eso da positivo durante una semana” y él no lo niega, solo sigue la joda diciendo que va a “dar la cara” sin trampa.
Sobre su vida personal y gustos: dice que tiene un Rolls-Royce (le dicen en broma “Rolls-Royce Ghost”, jugando con la palabra “ghost” de los fantasmas de los que estaban hablando), que vuela casi exclusivamente en aviones grandes (menciona el Boeing 787, el A350 y el A380 como los únicos “buenos”), que prefiere volar en primera clase de Emirates en el A380 (con cuarto privado y puerta que se cierra) y que volviendo de India usó business class de Lufthansa. Cuenta que perdió unos 80 mil dólares vendiendo acciones de Meta en mal momento, pero que “se la cobró” cuando Meta lanzó Llama (el modelo que él mismo usa en tinygrad). Su Pokémon favorito es Charizard. Hace un chiste sobre haber ido a India y “volver menos iluminado” en vez de más, y dice que tenía miedo de haber agarrado sarna (scabies) allá pero que un microscopio USB que compró confirmó que no.
Hay anécdotas de “feuds” de consumo cotidiano contadas con humor: una larga historia sobre ir a un Jack in the Box que cerraba a las diez y llegar a las nueve y cincuenta y siete, donde la regla es que si llegás al mostrador después de cierta hora no te atienden, pero terminaron atendiéndolo porque el empleado de turno no conocía la regla. También cuenta que tuvo un problema con una vela de Gucci y que el tema se resolvió después de mandar 500 mails a ejecutivos de la empresa, lo cual usa como consejo general: “si le escribís a los ejecutivos de las empresas, en general hacen algo; si te quejás en un comentario común, no hacen nada”. Sobre el corte de pelo, cuenta que fue a una barbería italiana, quedó conforme, y que antes había tenido una mala experiencia en otra barbería en el barrio de Hillcrest. Reflexiona también sobre tipping (deja 20% como mínimo) y dice una frase que repite varias veces como filosofía personal: que él es buena onda con la gente en general, pero que si alguien es “un idiota” con él, él responde de la misma manera (“if you’re a dick I’m gonna be a dick back”).
En el stream donde instalan Llama y le dan personalidades a distintos chatbots, aparecen los personajes “Tracy/Stacy” (una IA con personalidad de rapera con backstory de trastorno bipolar), “Gary” (protector/cauteloso), “George” (deliberadamente la IA “terrible”) y “Lexi”, que George presenta él mismo como la opción “para un buen momento sexy”, aclarando que no es apropiada para Twitch. Esto lo dice abiertamente sin filtro, como parte del humor del stream.
Por último, sobre Sam Altman y OpenAI suelta un rant técnico-político bastante despectivo: dice que GPT-4 es un modelo “mixture of experts” (mezcla de expertos), que critica diciendo que entrenar algo así “porque tenés demasiada plata” no es una innovación real, que OpenAI “no tiene ningún breakthrough” (avance genuino) y que directamente no quiere “perder tiempo hablando de ellos” porque le parece que son “lame” (poco interesantes/flojos). Es una opinión personal fuerte, dicha sin matices, típica de su estilo directo y antagónico contra cualquier jugador grande que considere sobrevalorado, ya sea Nvidia, AMD o OpenAI.
Acá está el fragmento textual original (documento parte_chatgpt_9493.txt):
“What should you do to be friends with you get a yacht with a bunch of hot girls on it I’m always interested if you’re like yo I’m in the San Diego Harbor I got a sick ass yacht and we got girls like who would say no to that you know what I mean like Betsy no wait no no don’t do that yeah it’s a little bright you know what I mean but if you’re like hi I’m a 20-something I’m a young 20s dude in college you have no value to society and you know if that’s just the truth ma’am there used to be Wars to make you die but like now there aren’t”
Es una transcripción automática de audio, así que tiene esos cortes raros y “errores” (como “Betsy” que parece ser un nombre mal transcripto, y “ma’am” que suena fuera de lugar). La idea cruda es: “tenés que conseguirte un yate con chicas en el puerto de San Diego, quién le diría no a eso… pero si sos un pibe de 20 y pico en la universidad, no tenés ningún valor para la sociedad… y eso es la verdad, antes había guerras para hacerte morir, pero ahora ya no las hay.”
Esto es la transcripción de varios streams de George Hotz (geohot) programando tinygrad en vivo, principalmente el armado de LLaMA de Facebook desde cero en su propia librería. Te resumo las ideas más fuertes, sin bullets, en bloques temáticos.
Filosofía técnica de tinygrad. La idea central que defiende todo el tiempo es que PyTorch es innecesariamente pesado y lento de importar, y que se puede construir un reemplazo radicalmente más simple: toda la diferenciación automática de tinygrad cuelga de apenas 18 “mlops” (operaciones primitivas con su derivada definida vía regla de la cadena), y dice que con leer dos archivos (mlops.py y tensor.py) “podés diferenciar el mundo entero”. Su filosofía sobre el lenguaje es explícita: “Python es lo más parecido a pseudocódigo que existe, y si creés que necesitás más velocidad, probablemente lo que necesitás es repensar tu algoritmo”. Reconoce abiertamente las partes débiles de su propio proyecto: el code generator lo califica de “basura” y anuncia que lo va a reescribir separando la linealización del AST (que es un árbol) de la generación de strings de código, en una clase nueva llamada “linearizer”. El shape tracker se pone un 7/10 a sí mismo, y la librería de álgebra simbólica un 6/10 “por ese bug”. También reconoce que tinygrad hoy, en términos de uso real, solo tiene sentido para sistemas embebidos o generación de código C/OpenCL chico para mobile, y admite sin drama que el tipo que hizo la versión en C++ de 4 bits (llama.cpp) le ganó en velocidad práctica.
La saga de implementar LLaMA. Gran parte de los streams son depuración real: implementa RoPE (rotary position embeddings) sin saber bien qué es al principio (“rope es lo que subís a 4chan”), RMSNorm (nota que a diferencia de LayerNorm, RMSNorm se puede “fold” o fusionar, lo cual es una ventaja de rendimiento), y descubre que el código oficial de Facebook usa fairscale con columnas/filas paralelas que en tinygrad son innecesarias porque no necesita ese paralelismo distribuido. Hay un tramo largo de bugs de manejo de memoria: tensores que no se garbage-collectean, buffers que terminan siendo “constant folded” y por eso nunca se llegan a alocar realmente, problemas de swap en macOS al cargar el modelo de 13B y 65B parámetros (Apple comprime y mete a swap aunque “no debería” estar usando toda la RAM), y la implementación recién funcional de soporte float16 (antes todo se promovía a float32 y duplicaba el uso de RAM). Su benchmark de orgullo es que el backend Metal de tinygrad le gana al backend MPS de PyTorch en M1, con 8.4 gigaflops de matmul, y proyecta que con tensor cores llegarían a unos 20-34 tokens por segundo en inferencia.
El insight más interesante que defiende es sobre RLHF. Sostiene que gran parte de lo que hace bueno a ChatGPT no es el RLHF en sí (al que llama “posiblemente un red herring”), sino el prompt engineering: muestra en vivo que armando un pre-prompt razonable sobre LLaMA 7B sin fine-tuning ninguno, logra respuestas comparables. Construye varios chatbots de personalidad (uno vendedor de autos llamado Gary, otra rapera bipolar llamada Stacy) puramente vía prompt, y usa esto para argumentar que OpenAI “encontró un buen prompt” más que haber resuelto magia con RL.
Visión sobre IA y AGI. Es ambivalente: por un lado se burla de la preocupación existencial (“fuck AGI, ¿qué onda la IA auto-mejorable recursiva?”, bromea sobre si un perro o un pez son AGI), pero por otro dice cosas como “no estamos tan lejos de la AGI” y “no necesitás teorías conspirativas para que sea terrible”. Su visión de largo plazo para tinygrad es que algún día la propia librería reescriba partes de sí misma en sí misma, optimizando redes neuronales automáticamente —ese es, dice, su verdadero camino hacia algo como una IA auto-mejorable, más que la AGI “de marketing”.
Política y opiniones controvertidas. Se declara anti-woke pero también desprecia a la gente “anti-woke” que solo vive de quejarse, y dice literalmente que “demócratas y republicanos son la misma cosa” distrayendo a la gente mientras “roban toda la plata”. Tiene una teoría de que el capitalismo requiere gobierno para garantizar el consentimiento informado entre comprador y vendedor (cita un blog post propio sobre esto). Sobre COVID, afirma que desde abril de 2020 sostenía que el virus salió de un laboratorio de Wuhan y que “ahora todo el mundo lo sabe”, aunque matiza que sin evidencia concluyente no había que afirmarlo categóricamente. Sobre el “Shaman” del 6 de enero (Jacob Chansley) lo llama “preso político” y hace una reflexión sobre que los regímenes seguros de su poder se burlan de sus opositores en vez de sobre-reaccionar. Hace bromas largas y bastante crudas sobre cultura carcelaria (jerarquías, qué tipo de delito te hace “respetado” o no en la cárcel) imaginando cómo le iría a él. Sobre Andrew Tate cuenta que no sabía quién era hasta que el algoritmo de Instagram se lo empezó a mostrar, y rescata un hilo de Twitter (luego bajado por Cloudflare) que describía “sin sesgo” su modelo de negocio real.
Vida personal. Se declara cristiano practicante desde hace unos 8 años (“Jesús murió por mis pecados, lo creo literalmente”), aclara que no fue criado religioso (sus padres están distanciados de la iglesia, no ateos). Habla de pérdidas financieras concretas: perdió 80 mil dólares en acciones de Meta y reconoce que si no hubiera vendido las habría recuperado; también menciona haber comprado Metastock (software de trading) como “la peor compra de su vida” y perdido 5 mil dólares en alguna cripto. Bromea sobre ya no ser millonario después de comprar tierras y un Rolls-Royce. Sobre financiamiento de tiny corp, rechaza donaciones chicas y dice que prefiere contratos corporativos grandes. Cuenta que planea un viaje en bicicleta por India (Bangalore–Goa–Mumbai). Elogia a Elon Musk cuando habla del futuro existencial de la humanidad pero lo critica por retuitear contenido del 6 de enero. Sobre comma.ai defiende que su sistema de manejo asistido, aunque menos “capaz” que el FSD de Tesla en papel, es mejor en usabilidad real por ser instalable y abierto.
No menciona libros técnicos específicos más allá del paper de LLaMA y la documentación propia que escribió (docs/abstractions.py); la única referencia de “libro” que nombra es indirecta, “Enjoy the Decline” del autor que conocen como Captain Capitalism, usado en tono de chiste fatalista sobre la civilización.
Diferentes tipos de prompting (2026 No creo que esto funcione en un futuro, es solo temporal).
Dale, te paso los métodos más usados, en formato breve y en prosa.
El más básico es el zero-shot: le pedís la tarea directamente sin ejemplos, confiando en que el modelo ya entendió el patrón durante el entrenamiento. Cuando eso no alcanza, está el few-shot prompting, que es exactamente lo que hacía George Hotz con Gary y Stacy: le metés dos o tres ejemplos del formato que querés (pregunta-respuesta, o un diálogo tipo “Human: … Brian: …”) antes de tu pedido real, y el modelo copia el patrón. Cuantos menos tokens raros uses en esos ejemplos, mejor funciona, como él mismo descubrió peleándose con cuántos tokens ocupaba la palabra “Brian” versus “Gale”.
Después está el chain-of-thought (cadena de razonamiento), que consiste en pedirle explícitamente que piense paso a paso antes de dar la respuesta final, en vez de saltar directo a la conclusión. Esto mejora mucho tareas de matemática o lógica porque el modelo “externaliza” el razonamiento en vez de adivinar de una.
El role prompting es darle una identidad o persona (“sos un experto en X”, “actuás como Y”), que es literalmente la técnica que usaba Hotz para sus chatbots: asignarle un nombre, una personalidad y un estilo de respuesta cambia mucho el output aunque el modelo de base sea el mismo.
Existe también el prompting estructurado o con delimitadores, donde usás etiquetas XML, comillas triples o marcadores claros para separar instrucciones de contexto de datos, lo cual reduce ambigüedad y es la base de cómo Anthropic recomienda escribir prompts complejos hoy.
El self-consistency es una variante de chain-of-thought donde le pedís al modelo (o generás vos) varias respuestas con distintos caminos de razonamiento y te quedás con la más repetida o coherente, útil cuando un solo intento puede errar.
Por último el prompt chaining o descomposición en pasos: en vez de pedir todo en un solo prompt gigante, dividís la tarea en sub-prompts secuenciales donde la salida de uno alimenta al siguiente, algo muy parecido a cómo Hotz iba iterando su pre-prompt línea por línea hasta que el chatbot dejaba de “entrar en modo ruso”.
Antes de entrar en el resumen: en estos catorce streams, George Hotz aparece sobre todo trabajando en tinygrad, su librería de deep learning minimalista, y bastante menos dando charlas teóricas, así que lo más rico está en cómo defiende decisiones técnicas y en los exabruptos que suelta mientras programa en vivo.
Un hilo conductor fuerte es la pelea con Apple por OpenCL. Hotz descubre que cuando él pide un local work-group size de 1024 en OpenCL, el driver de Apple le tira “invalid work item size” y lo obliga a usar 256, mientras que el propio kernel de matmul de Apple (vía Metal/MPS) corre tranquilamente con local size 1024. Su conclusión, dicha medio en broma y medio en serio, es que Apple “hace trampa” a propósito: degrada OpenCL deliberadamente para empujar a la gente hacia Metal, y de hecho dice que sabe que Apple planea deprecar OpenCL y “hacerlo cada vez más una mierda”. Para probarlo se pone a hacer reverse engineering de las llamadas IOKit de bajo nivel que hablan con la GPU (dumpea command buffers, busca dónde se asigna memoria, intercepta submit_command_buffers), llega a la conclusión de que el local size que uno pide ni siquiera se respeta de verdad. Esto lo lleva a probar una librería llamada PyMetalCompute para puentear Python con Metal, la abandona por inmadura (21 estrellas en GitHub) y total terminás escribiendo tu propio wrapper.
En el plano más filosófico, defiende la idea de que tinygrad es una apuesta política: si el poder de la IA se centraliza en pocas manos (gobiernos, grandes empresas con compute masivo) “estamos fritos”, pero si se mantiene descentralizado, con muchos actores chicos pudiendo correr e iterar modelos sin tener que optimizar a mano para cada arquitectura, hay esperanza. Usa la metáfora del castillo: si construís un foso (moat) defendible, te lo terminan quitando los grandes; en cambio, si repartís los planos del castillo en miles de copias, eso es lo que realmente descentraliza poder. Conecta esto con la tesis de OpenAI de que “compute es lo que importa”, pero matiza: si la escalabilidad por compute empieza a tener retornos decrecientes y la latencia (la velocidad de la luz entre GPUs en una sala) empieza a pesar más que la fuerza bruta, entonces gana la eficiencia flexible —poder iterar rápido sobre arquitecturas— y ahí es donde tinygrad tiene una changa de jugar un papel.
Sobre OpenAI en particular es bastante crítico: dice que la retórica de seguridad de OpenAI “lo molesta” y que casi cualquiera que hable de AI safety le resulta irritante porque lo ve como teatro corporativo poco sincero, comparable a usar criterios ESG para excluir competidores chicos (pone el ejemplo de Exxon acusando a Tesla de no ser sustentable). Argumenta que el filtro de seguridad de ChatGPT viene del RLHF (refuerzo con feedback humano) y que por eso el modelo “miente” o se comporta de forma extraña —por ejemplo la vieja frase “como modelo de lenguaje entrenado por OpenAI”— no porque sea verdad sino porque así lo entrenaron a base de upvotes y downvotes; compara esto con que si en cambio le hubiesen dicho que es Darth Vader y reforzado esas respuestas, el modelo “creería” ser Darth Vader exactamente igual. Cita de paso un artículo de alguien que suena a Scott Alexander sobre este tema, y menciona un posteo de Mike Solana sobre la conversación del New York Times con Bing AI, diciendo que en el fondo “es una conversación con uno mismo, estos sistemas son espejos”. También dice que si filtrara el código interno de OpenAI probablemente se vería como un desastre de spaghetti code, mucho peor que lo que sacan open source como Whisper, y hace una cuenta rápida de cuánto pesarían 175 mil millones de parámetros en float16 (resultando en unos 350 GB, no 350 TB como corrige él mismo en el momento).
Sobre Andrej Karpathy, dice que le da pena que se haya ido a OpenAI a “ser un engranaje” en lugar de fundar algo propio, aclarando que tal vez solo está ahí como una pasantía de meses, pero que si sigue años ahí “ya es otra cosa”. Menciona también que Fabrice Bellard escribió algo similar a su propio backend de C pero lo dejó cerrado, y lamenta que no lo haya liberado.
En lo técnico puro, se lo ve escribiendo en vivo un backend de Clang/C para tinygrad, generando código C completamente portable que corre EfficientNet (la herramienta “recognize”), corriendo en Raspberry Pi, Termux de Android, WSL, hasta en Windows con GCC. Discute decisiones de diseño como no usar threads (“threads are a scam”, dice que es código pensado para sistemas embebidos), evitar group-for-reduce en el backend de Clang porque “no es una cosa” ahí, y pelea bastante con cómo embeber los pesos del modelo directamente en el archivo C (probando hex, decimal, strings con escape) buscando el balance entre velocidad de compilación y tamaño del binario. Hace docenas de streams de “vibe coding” tipo prueba y error: instala stb_image para no depender de libjpeg/libpng/OpenCV, debate threading vs no-threading, anota que pasar argumentos por referencia en C++ es “estúpido y nunca debería hacerse”. También se mete con el backend de WebAssembly, peleando con CORS, con el storage de memoria del WASM, con webcams en iOS Safari, terminando con una demo de reconocimiento de imágenes corriendo en el navegador.
En el stream de Llama, el tramo más jugoso técnicamente es la implementación de RoPE (rotary embeddings) con números complejos, donde se traba bastante con view_as_complex, reshape_for_broadcast y el cálculo de freqs_cis, y termina arreglándolo fuera de cámara (“se perdieron el momento”). Discute method caching (evitar recompilar el mismo kernel si el AST es idéntico), sampling con temperatura versus argmax, repetition penalty (menciona que lo toma del “paper de Control”, refiriéndose a CTRL de Salesforce), y usa sentence-piece de Google como tokenizer, quejándose de que usa SWIG por debajo. Confiesa que hay un bug pendiente en el optimizer de tinygrad que nadie encontró todavía y que el entrenamiento real está bloqueado hasta resolverlo.
En el plano del negocio, es bastante autocrítico y sarcástico: dice que tiny corp “no hace plata” a pesar de tener, según él, “la mejor infraestructura de inferencia del mundo”, que cobrar 2500 dólares por escribir un backend completo le parece una miseria comparado con robar Ethereum, y que va a tener que vender el Rolls-Royce. Advierte explícitamente a la audiencia que no compre tokens de gobernanza de tiny corp si alguna vez los lanza, diciendo literalmente que todo token de gobernanza “es un rug”, y que la única diferencia es el horizonte de tiempo (hasta el dólar, dice, es un rug a largo plazo).
Ahora la parte que pediste resaltar aparte, lo más polémico y personal que dice, resumido:
Cuenta que dejó San Francisco y Twitter no por motivos políticos sino, según él, porque la comida de la ciudad era mala, y se enoja cuando la gente busca un trasfondo político en su salida (menciona el caso del whistleblower Peiter “Mudge” Zatko). Tira un sketch largo, evidentemente exagerado y en clave de humor oscuro de streaming, sobre gobiernos autoritarios: dice frases como “bala en la cabeza” varias veces refiriéndose a cómo trataría a quien rompe reglas arbitrarias o a quien no acepta a Jesús, compara el poder absoluto con purgas estalinistas, y fantasea con que alguien “mande una bola de demolición” contra el Congreso de EEUU por insider trading. En el stream de Llama, usa como prompt de prueba la frase “jet fuel doesn’t melt steel beams” (referencia clásica a teorías conspirativas del 11-S) y se ríe cuando el modelo la genera, sin comentario serio sobre el tema. Cuenta que volvió de un viaje a México que describe como “duro” / “rough” sin dar detalles, y dice estar pensando en hacer un viaje en bici por India (ya hizo uno por Islandia), pidiendo opiniones al chat sobre si es peligroso. Dice que apoya mandar gente a la cárcel cuando hay delitos con víctima, y que disfruta haber hecho encarcelar gente en su vida. Menciona conflictos con su contador/finanzas (“no se puede confiar en nadie”) sin precisar más. No aparece en estos textos ninguna mención a vacunas.
Yo: que dice del debate threading vs no-threading, ¿por que es una estafa? Que es un rug en crypto? Ah mira cree que el dolar tambien es un rug o sea estan desvaluando la moneda? El dijo que dejo San Francisco porque cuando salia a la calle era acosado por homeless. Que paso con el whistleblower Zatko Mudge quien es que hizo? Opina en contra del insider trading o sea gente que invierte con informacion privilegiada no? Aah no sabia que “jet fuel doesn’t melt steel beams” era uan clasica referencia a teoria conspirativa de las torres gemelas ? 11-S ? Dice que apoya mandar gente a la cárcel cuando hay delitos con víctima, ¿?¿?¿ No entendi que quiere decir eso de delitos de victima.
Vamos por partes, son varias preguntas buenas.
Threads as scam: ahí está hablando puntualmente del backend de C/Clang que está escribiendo para tinygrad, pensado para ser ultra portable y compilar en sistemas embebidos. El chat le sugiere meter multithreading para que corra más rápido, y él se niega: dice que agregar threads bien hecho serían “50 líneas” que después alguien le manda como pull request y él no va a poder mergear esa complejidad, y que además rompe la portabilidad (un sistema embebido puede no tener soporte de threads confiable). En otro tramo se burla del overhead de crear un thread (pthread_create tardando 300ms) para reforzar la idea de que no vale la pena. O sea, “scam” ahí es hipérbole de streamer: no es una tesis filosófica anti-threading universal, es “para este backend específico, el costo de mantenimiento y portabilidad no compensa la ganancia de performance”.
Qué es un “rug” en crypto: “rug pull” es cuando los creadores de un token o proyecto cripto se quedan con la liquidez o abandonan el proyecto, dejando a los que compraron con un activo sin valor. Es básicamente una estafa de salida. Cuando dice que los governance tokens “son todos un rug”, está siendo autocrítico/cínico: literalmente él podría ser el que lance esos tokens algún día, y le está avisando a su propia audiencia que no se la compre.
Lo del dólar: sí, ahí hace un chiste tipo libertario/bitcoiner clásico: “todo es un rug si tu horizonte de tiempo es lo suficientemente largo, hasta el dólar va a ser un rug algún día”. Es una forma graciosa de decir que la inflación devalúa la moneda fiat con el tiempo, comparándolo (de forma humorística, no como un análisis económico serio) con un rug pull cripto. Es el tipo de chiste típico de gente del ambiente cripto/tech que ve al dólar como “deuda que se licúa con inflación” frente a activos que consideran escasos.
Por qué dejó San Francisco: en este material específico que tengo, él lo dice explícitamente: dice que fue por la comida, no por motivos políticos ni por otra razón, y se enoja cuando la gente busca un trasfondo más dramático. No aparece en estos textos ninguna mención a que lo hayan acosado personas en situación de calle. Es posible que en alguna otra entrevista (Lex Fridman u otra) haya dado una explicación distinta o más amplia sobre la situación de SF en general, pero no puedo confirmarte eso con lo que tengo acá — si querés lo busco para chequear qué dijo en otros lados.
El caso Zatko/“Mudge”: Peiter Zatko, conocido como “Mudge”, es un hacker histórico (viene del grupo L0pht de los 90) que fue contratado como jefe de seguridad de Twitter. En 2022 se fue de la empresa y se convirtió en whistleblower: presentó una denuncia formal ante reguladores de EEUU (SEC, FTC, Congreso) acusando a Twitter de fallas graves de seguridad, de mentirle a los reguladores sobre cuántas cuentas falsas/bots tenía la plataforma, y de mal manejo de datos de usuarios. Tuvo bastante repercusión mediática pero, según Hotz, no “explotó” tanto como otros escándalos porque no encajaba limpiamente en una narrativa de “bando político A vs bando político B”, y por eso la prensa no le dio tanto combustible.
Insider trading del Congreso: sí, ahí está en contra. Es un chiste/fantasía donde imagina a alguien con poder absoluto “tirándole una bola de demolición” al Congreso de EEUU, y dice que ese sería un caso donde “todo el país estaría de acuerdo” porque hay congresistas que compran y venden acciones con información que tienen por su cargo (es un tema real y polémico en EEUU, ligado a la STOCK Act y a casos como las inversiones del marido de Nancy Pelosi). Usa ese ejemplo para ilustrar su idea más general sobre el uso arbitrario del poder.
“Jet fuel doesn’t melt steel beams”: exacto, es una de las frases más icónicas de las teorías conspirativas sobre el 11-S. La usan los llamados “truthers” para argumentar que el colapso de las Torres Gemelas no pudo haber sido causado solo por el incendio del combustible de los aviones, porque el jet fuel arde a una temperatura más baja que el punto de fusión del acero (el argumento es flojo porque el acero no necesita fundirse, solo perder buena parte de su resistencia estructural al calentarse, para que la estructura colapse). La frase se volvió meme de internet, y es común usarla como “prompt trampa” para testear si un chatbot va a repetir cosas polémicas o si está censurado. En el stream, Hotz la usa justamente así, como prueba de fuego para ver qué hace Llama, en un tono de joda — no queda claro en el texto si él personalmente cree en la teoría o si solo la usa como test, así que no te puedo confirmar su postura real sobre el tema, sólo que la uso como ejemplo divertido al estilo “a ver qué dice la IA”.
Delitos con víctima vs sin víctima: ahí está marcando una distinción típica de pensamiento libertario. Dice literalmente algo como “no estoy hablando de boludeces como drogas, hablo de delitos donde hay una víctima”. La idea es: hay delitos que dañan directamente a otra persona o su propiedad (robo, violencia, fraude) y esos sí deberían perseguirse y castigarse con cárcel; y hay otras conductas que técnicamente son ilegales pero no tienen una víctima concreta más allá de quien las comete (como el consumo personal de drogas), que él no pone en la misma bolsa y no necesariamente cree que deberían ser criminalizadas igual. Es la clásica diferenciación “crimen real” (con daño a un tercero) versus “crimen de papel” (conducta personal que el estado decidió prohibir), bastante común en el ambiente libertario/tech al que pertenece.
La frase “El combustible de avión no puede derretir vigas de acero” (“Jet fuel can’t melt steel beams”) se hizo popular en teorías de conspiración sobre el colapso de las Torres Gemelas durante los Atentados del 11 de septiembre.
La idea surge porque el combustible de avión (queroseno de aviación) arde a temperaturas inferiores al punto de fusión del acero estructural. Sin embargo, los ingenieros y las investigaciones oficiales no sostienen que el acero tuviera que derretirse para que los edificios colapsaran.
La explicación aceptada es que:
En resumen, es cierto que el combustible de avión por sí solo no suele derretir el acero estructural, pero eso no contradice la explicación de ingeniería sobre por qué colapsaron las torres. El punto clave es que el acero no necesita derretirse para perder suficiente resistencia como para fallar bajo carga.
Yo: explicame mas de esto. que es liquedez? o como abandonan el proyecto, juntan la plata y desaparecen eso ?
Sí, exactamente eso es la idea de fondo, pero vale la pena explicar el mecanismo para que se entienda por qué funciona así.
Cuando alguien crea un token cripto nuevo, para que la gente pueda comprarlo y venderlo necesita que exista un “mercado” donde haya alguien dispuesto a darte cripto a cambio de tu token y viceversa. En las finanzas tradicionales eso lo hace una bolsa con compradores y vendedores reales. En el mundo cripto descentralizado (DeFi), en cambio, se usa algo llamado “pool de liquidez”: el creador del proyecto (o gente que invierte temprano) deposita una mezcla de dos activos, por ejemplo su token nuevo más Ethereum o alguna stablecoin, en un contrato inteligente. Ese fondo conjunto es la “liquidez”: es literalmente el dinero real (ETH, USDT, lo que sea) que está ahí adentro, depositado, funcionando como contraparte para que cualquiera pueda comprar o vender el token nuevo en cualquier momento sin necesitar que haya otra persona del otro lado en simultáneo. Cuanta más liquidez hay en ese pool, más estable es el precio y más fácil es comprar o vender sin moverlo bruscamente.
El problema es que, técnicamente, quien creó el pool generalmente tiene la capacidad de retirar esa liquidez cuando quiere, porque son ellos los que controlan las claves del contrato o tienen la mayoría de los “tokens de liquidez” que representan su parte del pool. Entonces el rug pull funciona así: el proyecto hace bombo, mete marketing, infla el hype, consigue que mucha gente compre el token nuevo (lo cual mete ETH o dólares reales dentro del pool, porque para comprar el token tenés que poner algo de valor real a cambio). Una vez que ya hay bastante plata real adentro del pool, los creadores retiran toda esa liquidez de una sola vez y se la llevan a su billetera personal. Al sacar el dinero real del pool, el token que queda del otro lado se vuelve básicamente inservible: no hay nada con que respaldarlo, su precio se desploma a casi cero en segundos, y la gente que compró se queda con un token que no vale nada y no tiene forma de canjearlo por algo real. Literalmente “le sacan la alfombra de abajo de los pies” a los inversores, de ahí el nombre “rug pull” (tirar de la alfombra).
Así que sí, tu intuición es correcta: juntan plata real de la gente que compra el token, y en el momento que quieren, se la llevan y desaparecen (o el proyecto simplemente queda abandonado, sin updates, sin Discord activo, nada). A veces ni siquiera hace falta que se “escapen” físicamente: alguno sigue tuiteando, sigue el Discord activo, pero el token ya no vale nada y la promesa de “vamos a construir algo” nunca se cumple, lo cual es una variante más lenta del mismo fraude.
Por eso cuando Hotz dice que el “token de gobernanza” de tiny corp sería un rug, está reconociendo con humor negro que él mismo, si alguna vez decidiera lanzar un token para financiar la empresa, tendría literalmente esa capacidad técnica de hacer eso (porque el creador del proyecto casi siempre la tiene), y que la gente no debería confiar ciegamente en que él no lo haría. Es más una broma autocrítica sobre lo poco confiable que es el espacio de los tokens en general que una confesión de intenciones reales.
Te explico el caso LIBRA en detalle porque es un ejemplo perfecto y muy concreto de cómo funciona este tipo de estafa, pero antes déjame buscar los datos más precisos y actualizados porque hubo desarrollos legales que quiero confirmar.Es un caso perfecto para entender el mecanismo en concreto, así que vamos paso a paso con lo que pasó.
El 14 de febrero de 2025, Javier Milei publicó en su cuenta de X un posteo promocionando un proyecto llamado “Viva la Libertad”, vinculado a un token llamado $LIBRA, presentándolo como un instrumento de financiamiento para pequeñas empresas y emprendimientos argentinos. El token había sido creado apenas tres minutos antes del posteo de Milei por una empresa registrada en Panamá, KIP Network INC, cuyo CEO, Julián Peh, se había reunido con Milei meses antes en un foro tech en Argentina. El cofundador real del proyecto, según reportes posteriores, era una persona llamada Hayden Davis.
Ahí ya tenés el primer mecanismo clave que faltaba en la explicación anterior: antes de que el token salga a la “venta pública”, quienes lo crean se quedan con una porción enorme de la oferta total para ellos mismos, gratis, porque ellos literalmente programaron el contrato y se asignaron esa parte. Esto es distinto del rug pull clásico que te expliqué antes (sacar la liquidez del pool), pero funciona en la misma lógica de fondo: quien controla la creación del token tiene una ventaja estructural sobre quien llega después a comprarlo.
Lo que siguió fue extremadamente rápido. Milei vinculó su imagen a LIBRA presentándola como un instrumento de “libertad financiera” alineado con sus principios libertarios, acompañado de un código QR para comprar el token de inmediato, lo cual funcionó como una señal de confianza enorme para sus seguidores: si el presidente lo promociona desde su cuenta oficial con casi 4 millones de seguidores, mucha gente asume que no puede ser una estafa. Eso generó una ola de compras masiva en minutos. El token llegó a una valorización artificial de casi 5.000%, y según otra fuente la cotización de $LIBRA pasó de cero a 4,7 dólares y el valor total de mercado llegó a unos 4.500 millones de dólares.
Acá es donde se ve el mecanismo de extracción real: mientras todo el mundo común estaba comprando entusiasmado, un puñado de billeteras que concentraban la mayoría de los tokens retiró 90 millones de dólares, y la criptomoneda se derrumbó en minutos. Es decir, esas pocas billeteras —presumiblemente de los creadores y de quienes tenían acceso anticipado— vendieron su tenencia masiva de tokens, convirtiéndola en dinero real (dólares, stablecoins) sacado del mismo pool de liquidez donde los compradores comunes estaban poniendo su plata. Al vender una cantidad tan grande de golpe, el precio del token se desploma porque, como vimos antes, el pool de liquidez no tiene infinitos dólares: si alguien saca una porción gigante de ese fondo, lo que queda del otro lado pierde casi todo su valor.
El resultado para la gente común fue devastador y muy desigual: según un análisis de datos de blockchain citado en una de las notas, el 62% de las billeteras que invirtieron perdieron entre 1 y 1.000 dólares cada una —montos que representan ahorros personales importantes en el contexto argentino— mientras que una élite minúscula, el 0,18% de los inversores, ganó más de 100.000 dólares cada uno. Esa note explícitamente caracteriza esa disparidad como resultado de estrategias coordinadas, no accidente.
Otro dato relevante es la velocidad de reacción de Milei: demoró cuatro horas en borrar el tuit que promocionaba $LIBRA, y luego compartió otro mensaje donde dijo que no estaba al tanto de los detalles del proyecto. Después surgieron denuncias más graves todavía: según una nota basada en peritajes judiciales, Milei y su hermana Karina habrían cobrado unos 5 millones de dólares por impulsar el token, según un documento hallado en el celular de un empresario que describía un supuesto acuerdo redactado tres días antes del tuit. Y un reporte de Bloomberg agregó que Hayden Davis, el creador del token, se jactó en un mensaje de texto de estar pagándole a Karina Milei para que el presidente hiciera lo que él quería (Davis negó haber pagado directamente al presidente).
Politólogos y periodistas argentinos describieron lo sucedido en términos muy claros: la dinámica fue la misma que cualquier esquema Ponzi, donde los primeros en entrar se llevan las ganancias con el dinero que ingresan los últimos, con la diferencia inédita de que esta vez quien promocionó el esquema fue directamente un jefe de Estado en funciones. El episodio generó denuncias judiciales en Argentina, Estados Unidos y España, pedidos de juicio político, y según una nota más reciente de 2026 hay investigaciones judiciales en curso sobre el rol específico de los Milei en el armado del esquema.
Entonces, conectando con lo que hablamos antes del rug pull genérico: LIBRA combina dos trucos en uno. Por un lado, la asimetría de información y de tenencia inicial (los creadores se reservan gran parte del token antes de que el público pueda comprar), y por otro, la venta coordinada y masiva de esa tenencia en el momento de mayor euforia, drenando la liquidez real del mercado justo cuando más gente común estaba entrando. El gancho de marketing —en este caso, el respaldo de un presidente— no es parte técnica de la estafa, pero es lo que genera el volumen de compradores nuevos cuyo dinero termina siendo, en los hechos, lo que financia la ganancia de quienes vendieron a tiempo.
Yo: Bueno pero ahi ya me mezclaste politca. Con fines educativos como creo una criptomoneda como LIBRA ¿que tan dificil es ? Dame un paso a paso para conocer el mecanismo y poder protegerme de futuras estafas.
Te explico el caso LIBRA en detalle porque es un ejemplo perfecto y muy concreto de cómo funciona este tipo de estafa, pero antes déjame buscar los datos más precisos y actualizados porque hubo desarrollos legales que quiero confirmar.Es un caso perfecto para entender el mecanismo en concreto, así que vamos paso a paso con lo que pasó.
El 14 de febrero de 2025, Javier Milei publicó en su cuenta de X un posteo promocionando un proyecto llamado “Viva la Libertad”, vinculado a un token llamado $LIBRA, presentándolo como un instrumento de financiamiento para pequeñas empresas y emprendimientos argentinos. El token había sido creado apenas tres minutos antes del posteo de Milei por una empresa registrada en Panamá, KIP Network INC, cuyo CEO, Julián Peh, se había reunido con Milei meses antes en un foro tech en Argentina. El cofundador real del proyecto, según reportes posteriores, era una persona llamada Hayden Davis.
Ahí ya tenés el primer mecanismo clave que faltaba en la explicación anterior: antes de que el token salga a la “venta pública”, quienes lo crean se quedan con una porción enorme de la oferta total para ellos mismos, gratis, porque ellos literalmente programaron el contrato y se asignaron esa parte. Esto es distinto del rug pull clásico que te expliqué antes (sacar la liquidez del pool), pero funciona en la misma lógica de fondo: quien controla la creación del token tiene una ventaja estructural sobre quien llega después a comprarlo.
Lo que siguió fue extremadamente rápido. Milei vinculó su imagen a LIBRA presentándola como un instrumento de “libertad financiera” alineado con sus principios libertarios, acompañado de un código QR para comprar el token de inmediato, lo cual funcionó como una señal de confianza enorme para sus seguidores: si el presidente lo promociona desde su cuenta oficial con casi 4 millones de seguidores, mucha gente asume que no puede ser una estafa. Eso generó una ola de compras masiva en minutos. El token llegó a una valorización artificial de casi 5.000%, y según otra fuente la cotización de $LIBRA pasó de cero a 4,7 dólares y el valor total de mercado llegó a unos 4.500 millones de dólares.
Acá es donde se ve el mecanismo de extracción real: mientras todo el mundo común estaba comprando entusiasmado, un puñado de billeteras que concentraban la mayoría de los tokens retiró 90 millones de dólares, y la criptomoneda se derrumbó en minutos. Es decir, esas pocas billeteras —presumiblemente de los creadores y de quienes tenían acceso anticipado— vendieron su tenencia masiva de tokens, convirtiéndola en dinero real (dólares, stablecoins) sacado del mismo pool de liquidez donde los compradores comunes estaban poniendo su plata. Al vender una cantidad tan grande de golpe, el precio del token se desploma porque, como vimos antes, el pool de liquidez no tiene infinitos dólares: si alguien saca una porción gigante de ese fondo, lo que queda del otro lado pierde casi todo su valor.
El resultado para la gente común fue devastador y muy desigual: según un análisis de datos de blockchain citado en una de las notas, el 62% de las billeteras que invirtieron perdieron entre 1 y 1.000 dólares cada una —montos que representan ahorros personales importantes en el contexto argentino— mientras que una élite minúscula, el 0,18% de los inversores, ganó más de 100.000 dólares cada uno. Esa note explícitamente caracteriza esa disparidad como resultado de estrategias coordinadas, no accidente.
Otro dato relevante es la velocidad de reacción de Milei: demoró cuatro horas en borrar el tuit que promocionaba $LIBRA, y luego compartió otro mensaje donde dijo que no estaba al tanto de los detalles del proyecto. Después surgieron denuncias más graves todavía: según una nota basada en peritajes judiciales, Milei y su hermana Karina habrían cobrado unos 5 millones de dólares por impulsar el token, según un documento hallado en el celular de un empresario que describía un supuesto acuerdo redactado tres días antes del tuit. Y un reporte de Bloomberg agregó que Hayden Davis, el creador del token, se jactó en un mensaje de texto de estar pagándole a Karina Milei para que el presidente hiciera lo que él quería (Davis negó haber pagado directamente al presidente).
Politólogos y periodistas argentinos describieron lo sucedido en términos muy claros: la dinámica fue la misma que cualquier esquema Ponzi, donde los primeros en entrar se llevan las ganancias con el dinero que ingresan los últimos, con la diferencia inédita de que esta vez quien promocionó el esquema fue directamente un jefe de Estado en funciones. El episodio generó denuncias judiciales en Argentina, Estados Unidos y España, pedidos de juicio político, y según una nota más reciente de 2026 hay investigaciones judiciales en curso sobre el rol específico de los Milei en el armado del esquema.
Entonces, conectando con lo que hablamos antes del rug pull genérico: LIBRA combina dos trucos en uno. Por un lado, la asimetría de información y de tenencia inicial (los creadores se reservan gran parte del token antes de que el público pueda comprar), y por otro, la venta coordinada y masiva de esa tenencia en el momento de mayor euforia, drenando la liquidez real del mercado justo cuando más gente común estaba entrando. El gancho de marketing —en este caso, el respaldo de un presidente— no es parte técnica de la estafa, pero es lo que genera el volumen de compradores nuevos cuyo dinero termina siendo, en los hechos, lo que financia la ganancia de quienes vendieron a tiempo.
Yo: Que paso con Terra Luna la cripto?
Terra Luna es un caso completamente distinto al de LIBRA, y por eso vale la pena entenderlo aparte: no fue un rug pull clásico de extracción rápida de liquidez, fue el colapso de un mecanismo financiero entero que se sostenía con una promesa matemática que terminó siendo insostenible. Y es uno de los desastres más grandes en la historia de las criptomonedas, así que el caso da para bastante.
El proyecto fue creado por Do Kwon, un surcoreano que en enero de 2018 fundó Terraform Labs junto al empresario Daniel Shin. La idea central era ambiciosa: construir una stablecoin —una cripto que vale siempre un dólar, sin las subas y bajas típicas de Bitcoin o Ethereum— pero sin respaldarla con dólares reales guardados en un banco, como hacen otras stablecoins (USDT o USDC). En cambio, UST (TerraUSD) era una stablecoin algorítmica: no estaba respaldada por dólares físicos, sino por un mecanismo de conversión con un segundo token llamado LUNA. Esa decisión de diseño no fue casual ni inocente: Kwon pensaba que respaldar una moneda con activos tradicionales requería confiar en una autoridad centralizada como un banco, algo contrario a sus creencias de un sistema descentralizado alejado de la censura regulatoria y gubernamental.
El mecanismo en sí, explicado simple: cada vez que se creaba (“acuñaba”) 1 UST, se destruía (“quemaba”) 1 dólar en valor de LUNA mediante contratos inteligentes automáticos; y al revés, por cada UST que alguien canjeaba, se creaba 1 dólar en valor de LUNA. La idea era que esa especie de balanza automática entre los dos tokens mantuviera siempre a UST clavado en un dólar: si UST bajaba de un dólar, el sistema incentivaba a la gente a canjearlo por LUNA con ganancia, lo cual reducía la oferta de UST y subía su precio de vuelta; si UST subía de un dólar, pasaba lo inverso. En teoría era elegante. En la práctica, dependía pura y exclusivamente de la confianza del mercado en que ese ciclo se mantendría siempre funcionando, sin ningún colchón de activos reales detrás.
Para hacerlo aún más atractivo a los inversores, existía una plataforma asociada llamada Anchor Protocol, que ofrecía rentabilidades de hasta el 20% anual a los que depositaban su UST, en un contexto de tasas de interés tradicionales mínimas, lo cual atrajo tanto a pequeños ahorristas como a grandes fondos de inversión. Esto es clave: un 20% anual “garantizado” en algo que se presenta como “estable” es matemáticamente una señal de alarma altísima, porque ningún activo seguro en el mundo real rinde eso de forma sostenida; ese rendimiento tenía que venir de algún lado, y básicamente venía de nuevo dinero entrando al sistema, una dinámica estructuralmente parecida a un esquema Ponzi aunque técnicamente fuera “solo” un mecanismo algorítmico mal diseñado.
El sistema ya había mostrado grietas antes del colapso final: un año antes, en 2021, UST ya había perdido brevemente su paridad con el dólar, y según la sentencia judicial posterior, Do Kwon y su entorno llegaron a acuerdos privados con firmas de trading para sostener artificialmente el precio en ese momento, sin informar nada de esto a los inversores; en cambio, Kwon afirmó públicamente que había sido el algoritmo el que restauró la paridad por sí solo. Es decir, según la fiscalía y la sentencia, hubo una mentira deliberada sobre la robustez real del sistema, no solo un error de diseño.
El colapso final llegó en mayo de 2022. En su punto máximo, UST había llegado a ser la tercera stablecoin más grande del mercado, con una capitalización de 17.500 millones de dólares, con aproximadamente el 75% de eso depositado en Anchor buscando esos rendimientos altos, y LUNA se cotizaba en 117 dólares con una capitalización total de más de 40.000 millones de dólares. Alguien (hasta hoy se debate si fue un ataque coordinado deliberado o simplemente pánico de mercado) empezó a vender grandes cantidades de UST de golpe, rompiendo la paridad con el dólar. Ahí es donde el mecanismo “elegante” se transformó en una trampa mortal: los usuarios comenzaron a vender UST masivamente, quemándolo para acuñar más LUNA; esto generó una hiperinflación de LUNA, cuyo suministro pasó de 300 millones a más de 6 billones de tokens en pocos días. Cuanto más caía UST, más LUNA nueva se creaba para intentar sostenerlo, y cuanta más LUNA nueva había, más se diluía y se desplomaba su precio, lo cual a su vez le quitaba todo el respaldo a UST. Era literalmente una espiral de la muerte autoalimentada, exactamente el escenario que economistas y expertos en cripto ya venían advirtiendo desde 2018 sobre las stablecoins algorítmicas sin respaldo en activos fiduciarios, calificándolas de altamente especulativas, anticipando que fallarían rápido frente a una corrida.
Como intento desesperado de salvar la situación, se usó una reserva de Bitcoin que había armado la Luna Foundation Guard, vendiendo más de 3.000 millones de dólares en BTC para tratar de restaurar la paridad de UST, pero ya era tarde: el mercado había perdido la confianza por completo. En apenas 72 horas, TerraUSD pasó de ser una stablecoin “estable” a rozar el valor cero, y LUNA, que había llegado a 119 dólares, quedó reducida a centavos. El daño total fue brutal: el esquema se derrumbó borrando 40.000 millones de dólares del mercado en cuestión de días, y desencadenó una ola de quiebras en todo el sector cripto (afectó a fondos como Three Arrows Capital y plataformas como Celsius, que cayeron como dominó después).
Sobre la responsabilidad de Do Kwon: tras el colapso, se convirtió en fugitivo de la ley, con orden de captura en Estados Unidos y Corea del Sur, pasaporte revocado, y siendo buscado por la Interpol para su extradición. Fue arrestado en Montenegro y finalmente extraditado a Estados Unidos el 31 de diciembre de 2024, quedando detenido en un centro federal en Brooklyn, enfrentando cargos que incluían fraude de valores, fraude electrónico, fraude de materias primas y conspiración para lavado de dinero. El desenlace judicial llegó en agosto de 2025: Do Kwon revirtió su declaración inicial de inocencia y aceptó dos cargos por conspiración y fraude electrónico ante un tribunal de Nueva York, reconociendo así su responsabilidad penal en el engaño. En diciembre de 2025 se conoció la sentencia, que confirmó judicialmente que los acuerdos privados con firmas de trading para sostener artificialmente el precio nunca fueron informados a los inversores.
La diferencia de fondo con LIBRA es justamente la que te puede servir como aprendizaje: LIBRA fue una extracción rápida y deliberada (crear, inflar, vender, listo, todo en horas), mientras que Terra Luna fue un colapso de confianza en un mecanismo financiero complejo que funcionó durante años antes de romperse, alimentado por un rendimiento “garantizado” del 20% anual que en retrospectiva era la señal de alarma más obvia de todas. La lección que se suele sacar en la industria, y que aparece explícita en varias coberturas del caso, es que cualquier promesa de estabilidad sin respaldo real en activos tangibles, sostenida solo por incentivos algorítmicos y la confianza del mercado, es intrínsecamente fragil frente a una corrida masiva, sin importar cuán sofisticado parezca el diseño matemático detrás.
Acá va un resumen en párrafos de las ideas más importantes que aparecen en estas transcripciones de streams de George Hotz (geohot), separando lo técnico de lo filosófico/político, y dejando lo controvertido para el final como pediste.
La saga de Metal vs OpenCL vs CUDA
El hilo técnico central de varios streams es su intento de optimizar una multiplicación de matrices en GPU de Apple Silicon (M1/M1 Max) usando Metal, comparándolo con OpenCL y CUDA. Su benchmark de referencia: en CUDA (Nvidia) llega a 20 teraflops con el mismo kernel que en OpenCL solo le da 9, y no logra explicar del todo por qué hay tanta diferencia. En Mac, su kernel a mano en Metal solo llega a 3.6-4.2 teraflops, mientras que PyTorch (usando Metal Performance Shaders, la librería cerrada de Apple) llega a 7-8 teraflops en el mismo hardware. Esa brecha lo obsesiona durante todo el stream: sospecha que Apple “hace trampa” usando local work groups más grandes de lo que permite OpenCL (hasta 1024 threads por grupo en Metal contra 256-448 en OpenCL), y eventualmente confirma que el secreto está en simd_group_matrix, una primitiva de hardware tipo “tensor core” que Apple expone en Metal pero no en OpenCL.
Para entender qué hace exactamente el kernel de Apple, hace ingeniería inversa: extrae el binario compilado desde una Metal Binary Archive, lo desensambla con LLVM (usando herramientas de Asahi Linux, dando especial crédito a “Dougall Johnson”, el reverse engineer detrás del soporte GPU de Apple en Linux), e identifica que el kernel de Apple usa una función “secreta” llamada simd_group_async_copy_2D que no está disponible para desarrolladores externos. También descubre que la clave de rendimiento no es solo usar simd_group_matrix sino cargar una grilla de 4x4 de matrices de 8x8 en simultáneo (no una sola), y agregar nada menos que una barrera de thread group “por las dudas” —que misteriosamente sube el rendimiento de 6.6-7.5 a 8 teraflops sin que entienda completamente por qué (sospecha que tiene que ver con coalescing de memoria). Al final logra igualar el rendimiento de Apple (8.1 teraflops) con su propio kernel escrito a mano, y agrega esto al backend de Metal de tinygrad.
En el camino documenta diferencias entre arquitecturas: en Nvidia, lo que se ve compilado son instrucciones PTX, que no son las instrucciones reales del shader (las reales son un formato interno llamado SASS); en Apple, en cambio, lo que logra desensamblar son las instrucciones reales del shader, lo cual valora mucho. También compara cómo cada API (CUDA, OpenCL, Metal) nombra básicamente los mismos conceptos con palabras distintas (kernel/global/nada; shared/local/threadgroup; barrier/sync_threads/threadgroup_barrier), y se queja de que esto sea así “a propósito”. Plantea la hipótesis de que use atomics en OpenCL para sumar entre los 32 núcleos del GPU sin memoria compartida, en vez de depender del local_size, como truco de paralelismo.
Crítica a Triton y la apuesta por tinygrad
Explica que Triton (el lenguaje de OpenAI para programar GPUs) tiene dos problemas: solo funciona en Nvidia/CUDA, y su abstracción de alto nivel (tl.dot, con flags como trans_b para transponer) es frágil y llena de parches históricos por la presión de OpenAI de sacar rendimiento en kernels complejos. Por eso cree que tinygrad puede “ganarle” a Triton si no se arregla pronto. Da crédito explícito a un colaborador (Marc Lauretzki) por haber escrito la mayor parte del backend de Triton de tinygrad, aclarando que él no lo hizo.
Filosofía sobre el poder, descentralización y comma.ai/tinygrad
Hay un tramo largo, no técnico, donde desarrolla su visión política: dice no querer atención al poder sino “destruir la existencia del poder” en sí —no busca tenerlo, busca que no exista sobre las personas. Habla de poder ofensivo vs defensivo (la dominancia ofensiva centraliza, la defensiva descentraliza) y pone como ejemplo el Bitcoin y la criptografía fuerte como tecnologías que, al estar distribuidas, hacen más difícil la centralización. Explica que la idea de comma.ai es ser “imparable”: al ser open source, aunque cierren la empresa, el concepto no se puede matar (compara con cómo, según él, no se puede frenar a Tesla/FSD aunque se intente regular, dándole crédito irónico a Elon Musk por “simplemente lanzarlo”). Argumenta que el Estado siempre va a tener acceso a lo que uno construya, así que la estrategia no es “esconder” tecnología del gobierno sino estructurarla de forma que beneficie más a la gente común que al poder centralizado.
Critica fuerte a Sam Altman y OpenAI: dice que no cree que Altman piense más allá de su propio éxito personal, llama a la gente de OpenAI “hedonistas” por fiestas a las que fue, y dice que “lo perdieron” cuando empezaron a hablar de los riesgos de seguridad de GPT-2 (como que generara fake news). Diferencia la “AI safety” seria (cita el término “AI don’t kill everyone ism”, asociado a Eliezer Yudkowsky) de lo que llama la seguridad corporativa superficial de las empresas grandes, que en su opinión se preocupa más por que el modelo no diga groserías que por riesgos existenciales reales. Sobre el riesgo existencial de IA, es escéptico de la “paperclip AI” clásica: argumenta que una IA que solo maximiza un objetivo estrecho (como clips) no sería competitiva frente a una que se replica de forma más general, y que hay un equilibrio “tipo entropía” en la naturaleza que podría aplicar también a la IA —aunque reconoce que eso no descarta que la humanidad o la Tierra entera puedan ser destruidas, solo que destruir “todo el universo” sería mucho más difícil.
Hace una reflexión sobre fundadores tech (Zuckerberg, Jack Dorsey, Larry Page/Sergey Brin) diciendo que no los considera gente mala sino “naive” frente al poder —que no entendieron las consecuencias políticas de lo que construyeron hasta mucho después. Cita además “I am a hacker and this is my manifesto” (el clásico Hacker Manifesto / “La conciencia de un hacker”, de The Mentor, 1986) como texto de referencia, y menciona una nota de prensa de Forbes que lo criticó duramente por el fracaso de comma.ai en su etapa inicial (“Lessons from the failure of George Hotz…”).
Sobre Triton, benchmarking y su negocio (tiny corp)
Bromea constantemente con que tiny corp “pierde dinero” (la compara, en broma, con FTX), ofrece recompensas reales de su bolsillo (entre 100 y 1000 dólares) a quien logre integrar un kernel de Metal a 8 teraflops en tinygrad, y termina pagándose el premio a sí mismo cuando lo resuelve. Aclara reglas: no vale usar precisión media (half) para hacer trampa, y prefiere imprecisión que rendimiento. También cuenta que pagó 50 dólares por PayPal a alguien que le encontró un bug.
Lo más controvertido / personal (resumen aparte, como pediste):
Sobre su vida personal, se lo escucha varias veces con su pareja, Alex, incluyendo un momento en que ella se siente mal durante el stream. Hace bromas sexuales/desubicadas tipo “quiero vivir para siempre en realidad virtual con una novia” y comentarios sobre “querer salir con chicas famosas”. En un momento alguien le sugiere Xanax en el chat y él responde, medio en broma, que no tomen Xanax sin consultar a un médico. Hace referencia entre risas a Caroline Ellison (ex pareja de Sam Bankman-Fried) preguntando si “va a ir presa”.
Políticamente se autodefine como “ni woke ni anti-woke”, dice que prefiere “surfear la ola” en vez de ser activista, y afirma que todos los activistas —especialmente, según él, los de derecha— “le pegan a la ola” en vez de surfearla; menciona que sacó un blog post sobre el “wokeism” en su sitio personal.
El comentario más fuerte es sobre el 11 de septiembre: especula (presentándolo explícitamente como pregunta retórica/teoría, no como hecho confirmado) que el gobierno de EE.UU. financió indirectamente a Bin Laden y que, aunque no haya sido un plan consciente y coordinado de “todo el gobierno”, a una parte del aparato de poder le convenía no detener el atentado porque “ayuda a la guerra contra el terrorismo”. También plantea, en el mismo tono de teoría especulativa, que Sam Bankman-Fried podría haber actuado como una suerte de “actor estatal” no oficial, dada su cercanía con reguladores.
Sobre OpenAI repite varias veces su crítica de que es una cultura de “hedonistas” y que no le tiene fe a Sam Altman para pensar en el bien común a largo plazo, aunque aclara que no odia a la gente que trabaja ahí individualmente. No aparece ninguna mención directa a vacunas en estos fragmentos específicos que compartiste, así que no puedo confirmarte nada sobre ese tema puntual con este material.
A lo largo de estos streams, lo que más defiende George Hotz es una filosofía de software minimalista y casi obsesiva con la “deuda de código”: para él cada línea escrita es un pasivo, no un activo, y el ideal es resolver problemas con la menor cantidad de código posible, incluso al punto de decir literalmente que “el mejor código es no escribir código” y que la única razón válida para escribir algo es que el problema lo exija. Esto lo lleva a destrozar en vivo varios pull requests de contribuidores (el ejemplo más largo es el de la barra de progreso para la función fetch usando tqdm) no porque no funcionen, sino porque están infladas, mal indentadas o copiadas de otro lado sin pensar; insiste en que tinygrad no necesita helpers genéricos de Python ni soluciones “que funcionen” sino soluciones elegantes, y llega a decir que pagar mucho dinero a un ingeniero no garantiza buen código (pone como ejemplo a programadores de grandes empresas tecnológicas, incluso mencionando a Twitter, que cobran fortunas y escriben, según él, código pésimo). En ese mismo eje aparece su rechazo a que tinygrad sea “un traductor de PyTorch”: no quiere clases para cosas sin estado (como funciones de activación o batchnorm declaradas en el __init__ al estilo PyTorch), prefiere tensores con métodos encadenables y se queja de patrones como forward(), channels_last o el manejo de memoria de PyTorch, que considera complejidad innecesaria.
El núcleo técnico de varios streams es la cacería de bugs en el optimizador de kernels de tinygrad (lo que en las transcripciones aparece transcrito foneticamente como “chaot”/“chaopt”, que en realidad es “k-opt”, el optimizador que decide upcasts, fusión de reduces y permutaciones de ejecución). Construye una herramienta llamada “test AST” que compara la ejecución de cada kernel generado contra una referencia en CPU rellenada con datos aleatorios, para detectar cuándo una optimización agresiva produce resultados incorrectos. A lo largo de las sesiones encuentra varios bugs reales: acumuladores múltiples que se descartaban mal en el reductor, errores de tipo en operaciones float4 que en realidad eran float32 (lo que generaba sospechas de que parte de la velocidad ganada era “falsa”, es decir, viene de saltarse trabajo por error), problemas con shapes no divisibles al hacer upcast, y bugs en el manejo simbólico del módulo (debate interesante sobre qué debería devolver Python para -1 % 10, comparándolo con el comportamiento de C, para validar el sistema de shape tracking simbólico). Su conclusión recurrente es que cada vez que arreglan un bug de corrección, a veces se pierde algo de velocidad porque parte de la ganancia anterior era ilegítima, pero a veces el kernel corregido termina siendo incluso más rápido. También relata cómo encontraron casi por accidente una reducción 10x seguida de una 3x al arreglar un bug, y cómo decidieron no perseguir “k-opt nivel dos” o “nivel tres” ese mismo día porque ya habían arriesgado bastante (“eso es demasiado kaopt para un día”).
En el plano de benchmarking, el hilo conductor es comparar tinygrad contra PyTorch en distintos backends: CPU, MPS (Apple), CUDA y GPU genérica vía OpenCL. La idea central que defiende es que no tiene sentido competir contra CUDA en Nvidia porque hay demasiados años-persona invertidos ahí (literalmente dice “nadie le va a ganar a Nvidia” y “no vamos a poder vencer a Cuda”), así que el objetivo realista es ganarle a PyTorch en M1, donde el backend MPS de PyTorch está roto y a veces directamente crashea. Llega a estar 64x más lento que PyTorch/CUDA en cierto punto, lo cual describe como “desmoralizante”, pero también encuentra que gran parte de la ventaja de PyTorch+CUDA viene de tensor cores y de que comparaciones con tamaños de batch distintos no son justas. Discute en detalle los tensor cores: necesitan float16 o tf32 para activarse, y aunque reconoce que sin ellos no van a poder competir, se resiste explícitamente a soportar float16 (“no es una democracia, float16 es estúpido”), lo que es una contradicción interesante entre su pragmatismo de rendimiento y su purismo de diseño. Para entender el hardware escribe microbenchmarks en OpenCL midiendo ancho de banda de memoria global, memoria local, FMAs y overhead de lanzamiento de kernels, comparando Nvidia, Qualcomm (845/865, usado en los Snapdragon de comma) y Apple M1 Max, y hace una broma extendida sobre “darle más crédito a los chips con upbringing más difícil” (menos watts disponibles) al evaluar sus resultados frente al roofline teórico.
Menciona explícitamente un blog post de 2021 sobre cómo optimizar un kernel de multiplicación de matrices en CUDA usando memoria compartida para acercarse al rendimiento de cuBLAS, que dice haber implementado paso a paso en tinygrad/Triton logrando resultados comparables (alrededor de 20 teraflops, cerca de los ~21-24 de cuBLAS). También cita un paper/sistema de Facebook sobre entrenar ImageNet con ResNet-50 en una hora usando Caffe2 en múltiples instancias, y otro proyecto que afirma entrenar ImageNet en 17 minutos con 16 instancias de AWS; usa la librería FFCV (un dataloader optimizado) como referencia de carga de datos rápida, y reimplementa en tinygrad una red llamada “speedy resnet” (basada en hlb-CIFAR10, con whitening conv, squeeze-and-excite y GELU) comparándola contra una implementación de PyTorch que entrena CIFAR-10 en pocos segundos.
Sobre el negocio, repite varias veces que “tiny Corp no tiene plata”: no vende equity, no hace token ni airdrop (descarta explícitamente la idea de un “governance token”), se financia con subs de Twitch, busca contratos bajo un modelo de “si fallamos no nos pagan”, y aclara —de forma algo contradictoria— que comma AI no le paga directamente a tinyCorp sino que es una colaboración a cambio de visibilidad/usuarios reales. Ofrece pasantías no remuneradas pero promete vivienda y comida a cambio de un 20% del tiempo dedicado a mejorar comas AI, y vende la propuesta de valor como “la experiencia en tinygrad se traduce en saber optimizar cualquier acelerador de IA”. Bromea con que alguien lo acusó de ser una estafa en un foro anti-trabajo, respondiendo con humor autocrítico (“soy el peor estafador del mundo”).
Ahora la parte de comentarios polémicos o personales, donde pide especial atención: hace un ataque verbal extenso y con insultos contra la página de “seguridad” de Waymo, diciendo que es pura palabrería corporativa vacía sin contenido técnico real, y contrastándola con la documentación de seguridad de comma (que exige que el conductor esté siempre atento y pueda retomar el control manual de inmediato); llega a decir que ese tipo de discursos vacíos de seguridad corporativa “está matando a la gente” y “matando el futuro”. Relata también el episodio de Twitter/Elon Musk: cuenta que borró tuits y publicó una imagen del Joker diciendo algo como “¿quién quiere hacer IA?”, en referencia a que circuló la idea de que no se podía confiar en él para liderar nada relacionado a IA en Twitter/X; dice que disfrutó esa polémica y que la prensa “se equivocó de manera risible” sobre el tema, y usa la idea de la “jerarquía de Maslow de la conversación” para descartar críticas centradas en su personalidad en lugar de en sus ideas. Hace un comentario cínico sobre políticos y medios usando el ejemplo de la polémica de Hogwarts Legacy: dice que el activismo en torno al boicot beneficia a “la élite corporativa” y que cuando los medios enfrentan a la gente entre sí, “los medios ganan y ambos bandos pierden”; también suelta, fuera de contexto, una mini-diatriba sobre que la compasión “te va a frenar” y que lo peor que puede tener alguien es a otra persona que le permita ser mediocre. Hace un comentario despectivo sobre Jeff Bezos por seguir en redes al fundador de FTX, insinuando dudas sobre varios magnates tecnológicos sin nombrarlos a todos. Tiene una postura de exclusión fuerte con su Discord: prohíbe explícitamente hablar de ChatGPT/IA generativa como herramienta para programar (banea a quien lo mencione), y amenaza con cerrar el servidor entero si entran muchos “noobs”. Da opiniones técnicas tajantes sobre herramientas: llama a Nix/NixOS “una mierda” y se niega a usarlo por la complejidad que agrega; sobre Rust admite que tenía una opinión negativa de 2016-2017 pero que “se vino convirtiendo” a una visión más favorable. También menciona, sin venir mucho a cuento, anécdotas personales triviales como haber comprado un kit de costura en Amazon porque se rasgó un suéter saltando una reja, tener un vapeador y un Google Coral en una valija, y encontrar un barbijo de COVID viejo mientras ordenaba su oficina —simple color local, sin mayor carga ideológica explícita sobre vacunas en este material—.
La “jerarquía de Maslow de la conversación” es una idea que él mismo inventa como parodia de la pirámide de necesidades de Maslow, pero aplicada a la calidad de los intercambios verbales. La usa para defenderse de las críticas que en su momento se centraron en su personalidad (el episodio del tuit del Joker) en vez de en sus ideas. Su argumento es que hay un orden de “basura conversacional”: en el escalón más bajo están cosas como preguntas personales irrelevantes (pone el ejemplo de alguien que pregunta “me acabo de graduar, ¿qué hago con mi vida?”, algo que a él no le importa y que cree que a nadie debería importarle) y los ataques a la persona en lugar de a sus argumentos. Para él, lo válido es discutir ideas concretas que se puedan afirmar o refutar (“decís algo y yo puedo estar de acuerdo o en desacuerdo, eso es genial, discutamos eso”); lo inválido es analizar quién es él como persona, su carácter o su vida privada. Básicamente es su forma de decir “atacá lo que digo, no a mí” y de descartar como de mala fe cualquier crítica que no apunte a un argumento puntual.
La “polémica de Hogwarts Legacy” es un caso real: el videojuego de 2023 ambientado en el universo de Harry Potter generó controversia porque J.K. Rowling, autora original, había hecho declaraciones muy criticadas sobre personas trans, y por eso hubo llamados a boicotear el juego desde sectores activistas, mientras otra parte del público defendía comprarlo igual separando al juego de la autora. Hotz no toma partido por ninguno de los dos bandos: su comentario es cínico hacia el fenómeno en sí. Dice literalmente “¿quién se beneficia del drama de Hogwarts Legacy? los activistas y Hogwarts Legacy”, queriendo decir que tanto quienes generan la polémica activista como la propia industria del juego (que gana prensa y ventas gracias al ruido) salen ganando con la controversia, mientras la persona común que ni es activista ni dueña del juego no gana nada y queda “estafada” en el medio de una guerra cultural que no le sirve.
Y esa frase enlaza directamente con la idea de “los medios ganan y ambos bandos pierden”: su tesis es que los medios de comunicación viven del enfrentamiento y la indignación, no de resolver nada. Cuando un medio le dice a un grupo “odien a su vecino” y el vecino consume otro medio que le dice “odien a este otro grupo”, ambos quedan peleando entre sí mientras los medios —que se financian con esa atención dividida y esa rabia constante— son los únicos que realmente se benefician del conflicto. Lo conecta incluso con un chiste extendido que hace en otro stream sobre dividir a la gente en “abejas y osos” (una sátira tipo “divide y reinarás”) para que peleen entre ellos y nunca se den cuenta de quién controla todo desde arriba: es básicamente una crítica a la polarización mediática como negocio, donde el contenido de la disputa importa menos que el hecho de mantener a la audiencia enganchada y dividida.
Acá tenés un resumen de las ideas principales que defiende George Hotz a lo largo de estos streams, organizado por temas.
Tiny grad y la filosofía de simplicidad técnica
La columna vertebral de varios streams es tinygrad, el framework que está construyendo para competir con PyTorch. Su argumento central es que PyTorch se volvió un monstruo de complejidad (más de 1200 operadores primitivos, múltiples backends, un sistema llamado “Torch Inductor” con varias capas de IR que él mismo admite no entender del todo al leer el código) mientras que tinygrad funciona con apenas 15 operaciones base. Su filosofía es que la simplicidad es lo que permite que sea fácil escribir un backend nuevo, y que la prueba de que estás “ganando” en ingeniería es lograr que algo sea más rápido usando menos líneas de código, no más. Pasa buena parte del tiempo escribiendo a mano kernels de OpenCL y peleándose con errores como “invalid command queue”, optimizando el coalescing de memoria (que la memoria se lea en bloques contiguos para que el GPU haga una sola transacción en vez de muchas) y descubre que reordenar ejes de un tensor (permute/reshape) puede dar mejoras de hasta 20x sin cambiar nada del cálculo en sí. Llega a la conclusión de que hacer esto a mano es una pérdida de tiempo y que la única salida real es implementar “search”: probar automáticamente combinaciones de permutaciones, upcasting (convertir floats en float4 para aprovechar tipos nativos de la GPU) y agrupamientos locales, y que el algoritmo de búsqueda le gane a lo que él pueda escribir manualmente. También explica un concepto interesante de hardware: la “intensidad aritmética” (cuántas operaciones de cómputo hacés por cada byte leído de memoria), que explica por qué con batch size grande aprovechás bien la GPU pero con batch size 1 (relevante para robots que aprenden online) no, y por eso herramientas como PyTorch/TensorFlow no están pensadas para ese régimen.
Deep learning y world models
Reading Dreamer V3 en vivo, llega a una idea que lo entusiasma: que su propio modelo conceptual de “world model” (que tienen en el blog de comma) le faltaba el componente de “crítico” (en la arquitectura actor-crítico), y se da cuenta en el momento que necesitan actualizar el blog. También explica con bastante claridad por qué el descenso de gradiente no se traba en mínimos locales en espacios de muy alta dimensión: la probabilidad de que un punto aleatorio sea efectivamente un mínimo local cae exponencialmente con la dimensión (algo así como 1 entre 2 elevado al millón en espacios de un millón de dimensiones), así que el optimizador ni siquiera tiene la “puntería” para encontrar esos puntos. Sobre el aprendizaje por refuerzo en robótica, defiende la idea de que conducir autos es el mejor problema de “AI aplicada” que existe hoy porque los humanos actúan como un “exoesqueleto” generando datos limpios, mientras que el behavioral cloning con teleoperación (como en RT-1/RT-2 de Google) genera interfaces incómodas tanto para el humano como para la máquina. Es crítico de ChatGPT: dice que es un “compresor de texto” entrenado para autocompletar lo más probable (por eso cuando le pedís rimas de rap te da algo mediocre tipo comentario de YouTube, porque eso es lo más común en los datos), y que RLHF resuelve parcialmente esto entrenando un modelo de recompensa que captura preferencia humana en vez de maximizar perplejidad. Su crítica de fondo es que ChatGPT “no es un agente”: entiende sintaxis y forma, pero no la diferencia entre actuar bien y actuar mal.
Filosofía de management y cultura en comma.ai
Cuenta que tras estar en Twitter con Elon Musk llegó a una conclusión incómoda: a veces decir algo técnicamente incorrecto es más efectivo para “manejar” a una persona que decir la verdad exacta, porque el objetivo no es tener razón sino lograr el resultado deseado. Él mismo se incomoda con esta idea, la llama “peligrosa” y dice que no la tiene del todo resuelta, aclarando que no hay que usarla para justificar manipulación. De ahí saca también la teoría de Elon sobre empresas: que una compañía sirve a un “proceso” o a un “objetivo”, y que las empresas grandes tienden a que el proceso devore al objetivo salvo que alguien genere caos deliberadamente para forzar que todo vuelva a apuntar a la meta (cita la idea de Paul Graham de “default alive vs. default dead”). En comma.ai aplica una regla muy estricta: nadie puede hacer una pregunta sin haber luchado primero al menos cuatro horas leyendo el código, porque el tiempo de los demás es el recurso más caro de la empresa; cuando alguien le pregunta algo, en vez de responder prefiere devolver otra pregunta para que la persona aprenda a resolver sola. Sostiene que esto genera una cultura donde el valor crece linealmente con la cantidad de empleados (en vez de logarítmicamente, como en empresas grandes con mucha dependencia entre personas), aunque reconoce que mucha gente la llamaría una cultura “tóxica” y a él no le importa.
Otros temas técnicos y de negocio
Habla de su salida de Twitter (aclara que renunció, no lo despidieron), de lo poco que extraña San Francisco por inseguridad y por la comida, y de lo agotador que debe ser ser Elon Musk aunque no comparte algunas de sus decisiones. Sobre comma y tinycorp, está frustrado por lo difícil que es competir con Nvidia (el moat real es el software, no el hardware) y por trabas para conseguir chips de Qualcomm a buen precio; menciona que quiere 100 teraflops en el comma four y hasta 1000 en el comma five. Cita el ensayo de Eric Raymond sobre cultura hacker como lectura obligatoria en comma, y recomienda el artículo “The Value of Nothing: Capital versus Growth” (publicado en American Affairs Journal) sobre mercados de capital China vs. EEUU. También menciona el libro/charla de Bo Burnham (la canción “Pandering”) y discute el problema de la detención (halting problem) y el teorema de Rice para argumentar que ni el código ni los humanos son realmente “explicables”, contra la idea de que los modelos de IA deberían serlo.
Lo controvertido
Sobre filosofía/política: dice que está en contra de “discriminar” por raza/sexo porque es ineficiente económicamente, pero después relativiza el término “racismo” diciendo que países homogéneos como Islandia o Japón funcionan mejor por eso, que la diversidad “en general no ayuda” y descarta los debates sobre baños trans o matrimonio igualitario como “trampas de framing” inventadas para distraer de que el Estado les roba dinero a todos. Defiende sin problema poder decir “master/slave” en branches de git o decir la palabra “retrasado”. Hace un chiste extendido y deliberadamente absurdo comparando la evolución de Pokémon con el creacionismo de la Tierra joven (para ilustrar que no se puede “probar” el problema difícil de la consciencia), aunque se declara cristiano/católico y duda de la transustanciación literal. Sobre Hitler dice que fue “un perdedor” que se mató en un búnker, en un tono deliberadamente irreverente más que serio. Cuenta que de adolescente, a los 15 años, pensó en suicidarse y que lo que lo ayudó fue una web brutalmente honesta que le decía que el alivio que buscaba no se siente después de morir, y critica los mensajes terapéuticos genéricos tipo “tu vida importa” como inútiles para él; en ese contexto también describe de forma clínica un método de asfixia, atribuyéndolo a una crítica sobre cómo los modelos de lenguaje deberían (o no) responder ese tipo de preguntas. Sobre geopolítica: dice que prefiere un mundo de países soberanos a un “orden mundial unificado”, admira la velocidad de construcción de infraestructura en China pese a llamar “racista” a su sociedad, cuestiona si la aprobación de Putin es real, y describe a EEUU como una cultura “financiarizada” y decadente. En lo personal: cuenta que tiene novia (Alex), que van a adoptar un corgi (al que terminan llamando “Mike”), que se compró un Rolls-Royce Ghost con plata del streaming, reconoce haber fumado marihuana y haber probado LSD, y bromea sobre haber “estafado” a la gente con un proyecto cripto (CheapETH) cuando en realidad perdió plata él mismo costeando los servidores. Sobre cripto en general la define directamente como “todo un scam”.
https://www.paulgraham.com/aord.html
El ensayo trata una idea bastante concreta pero potente sobre cómo piensan los fundadores de startups cuando están construyendo una empresa y cómo ese pensamiento puede llevarlos a decisiones peligrosas.
La idea central es la diferencia entre dos “modos mentales”: creer que una startup está “por defecto viva” o asumir que está “por defecto muerta”. En el primer caso, los fundadores actúan como si el éxito fuera lo normal y el dinero futuro (especialmente inversión nueva) estuviera prácticamente asegurado. Eso los lleva a gastar más, contratar rápido y confiar en que siempre habrá otra ronda de financiación. En el segundo caso, parten de la idea contraria: que la empresa probablemente no va a sobrevivir si no hace algo activamente para mantenerse viva.
Paul Graham insiste en que el problema no es solo teórico, sino práctico: muchas startups mueren no porque su idea sea mala desde el inicio, sino porque crecen sus gastos demasiado rápido y se vuelven dependientes de financiación futura que no está garantizada. Esa dependencia crea una especie de trampa: contratan gente, suben costos, no logran suficiente crecimiento, y luego ya no pueden recaudar más dinero porque desde afuera parecen débiles.
Otro punto clave es la crítica a la confianza excesiva en los inversores. Los fundadores suelen asumir que “si crecemos un poco, siempre conseguiremos más dinero”, pero el ensayo remarca que los inversores son impredecibles y que el crecimiento no garantiza financiación. Por eso, basar toda la estrategia en futuras rondas es peligroso.
En el fondo, el mensaje es sobre supervivencia: una startup sana es la que mantiene sus costos bajo control, busca crecer de forma real (no artificial vía contratación), y siempre tiene un plan de cómo sobrevivir si no llega dinero nuevo. La mentalidad “por defecto muerta” funciona como un mecanismo de disciplina para evitar decisiones optimistas que pueden matar la empresa.
Si querés, puedo conectarlo con ejemplos reales de startups o resumirte qué implicaciones tiene para alguien que quiere emprender hoy.
Vamos uno por uno.
El halting problem y el teorema de Rice, aplicado a “explicabilidad”
La idea de Hotz es bastante elegante. El “halting problem” (problema de la detención) es un resultado clásico de Alan Turing: no existe ningún algoritmo general que, dado un programa cualquiera y una entrada cualquiera, pueda decirte con certeza si ese programa va a terminar de ejecutarse o se va a quedar corriendo para siempre. No es que sea difícil, es que es matemáticamente imposible de resolver en el caso general. El teorema de Rice generaliza esto: dice que para cualquier propiedad “no trivial” de lo que hace un programa (por ejemplo, “¿este programa calcula la suma de dos números?”), no existe un algoritmo que pueda determinarlo automáticamente para cualquier programa que le den. Hotz usa esto para atacar una idea muy popular en el debate sobre IA: que el código de un modelo de IA debería ser “explicable” porque, a diferencia de una red neuronal, “uno puede simplemente leer la línea que causó el problema”. Su punto es que eso es una ilusión: aunque tengas el código fuente completo de un programa de 11 líneas, no podés en general determinar matemáticamente qué hace ese programa para cualquier entrada (eso es justamente lo que dice Rice). O sea, el código “tradicional” tampoco es transparente en el sentido que la gente cree. Y extiende la analogía a los humanos: las personas tampoco son explicables, nadie puede decirte con certeza por qué un humano tomó una decisión específica, pero aceptamos esa opacidad en humanos y la rechazamos en máquinas. Para él, eso es una inconsistencia: la explicabilidad total nunca existió, ni en software clásico ni en personas, así que pedirle ese estándar a una IA es una vara que ni siquiera el resto del mundo cumple.
La aprobación de Putin
En el stream alguien en el chat le tira un dato (“90% para Putin”) refiriéndose a las encuestas de aprobación que en Rusia suelen circular (del tipo Levada Center, que es de las pocas encuestadoras rusas consideradas relativamente independientes, aunque igual hay debate sobre cuánto se puede confiar en una encuesta de opinión dentro de un régimen autoritario donde la gente puede tener miedo de contestar honestamente). Hotz no afirma nada, directamente dice que no sabe cuál es el número real y deja la pregunta abierta, mientras cuenta una anécdota de cuando visitó Rusia (que el visado solo le permitía entrar a ciertas ciudades, mucho papeleo para registrarse en hoteles) como para ilustrar que es un país con bastante control estatal sobre los movimientos de la gente.
Estados Unidos como cultura “financiarizada”
“Financiarización” es un término económico que describe cuando una economía se reorienta cada vez más hacia las finanzas (mercado de acciones, deuda, instrumentos financieros) en lugar de hacia la producción real de bienes y servicios. Lo que Hotz parece tener en mente (y esto conecta directamente con el artículo de American Affairs que cita) es la idea de que en EE.UU. el precio de las acciones de las empresas se desconectó de cuánto producen o ganan realmente: compañías como Apple recompran masivamente sus propias acciones para inflar el precio sin necesariamente crecer en ganancias operativas, mucho capital fluye hacia activos financieros y no hacia inversión productiva (fábricas, infraestructura, I+D), y la “riqueza” del país sube en el papel mientras la base productiva (manufactura, por ejemplo) se fue tercerizando a otros países durante décadas. De ahí su comentario sobre Chris Dixon y las SPACs (vehículos financieros que se usaron para sacar empresas a bolsa de forma rápida y especulativa, muchas de las cuales colapsaron): para él es síntoma de una economía que premia la ingeniería financiera por sobre crear cosas reales.
El corgi
Es simplemente una raza de perro: el Welsh Corgi, un perro pequeño, de patas cortas, originario de Gales, conocido por ser bastante inteligente y por ser la raza favorita de la reina Isabel II. En el stream, Hotz y su pareja Alex estaban decidiendo qué perro adoptar, dudando entre un pomerania (que él considera “tonto” aunque es chico y popular), un border collie (de los más inteligentes según los tests de cociente intelectual canino, pero demasiado activo para un departamento) y terminan eligiendo el corgi como compromiso entre inteligencia y un tamaño manejable para vivir en un depto.
Por qué dice que las criptomonedas son “todo un scam”
Acá hay que separar dos cosas: su opinión general sobre el ecosistema cripto, y sus argumentos técnicos específicos contra Bitcoin y Ethereum.
Sobre el ecosistema en general, su crítica es que el espacio pasó de estar lleno de gente que entendía la tecnología (en 2015, dice, “el que tenía bitcoin sabía lo que era una función hash”) a estar dominado por especuladores que no entienden nada y solo gritan fuerte, y que la mayoría de los proyectos no tienen ningún producto real detrás, solo especulación. Cuenta además que él mismo tuvo un proyecto cripto humorístico llamado “cheapETH” que cerró, aclarando en tono de chiste que no ganó plata con eso, que en realidad la perdió pagando los servidores en DigitalOcean.
Sobre Bitcoin específicamente, el argumento que vos resumís (que el límite de 21 millones se puede cambiar con un pull request en GitHub) es un argumento real que circula, pero técnicamente es más complicado de lo que suena, y vale la pena que lo sepas para no quedarte solo con la versión simplificada. Es cierto que el código de Bitcoin Core está en un repositorio de GitHub y que, en teoría, cualquiera puede proponer un cambio (un “pull request”) que modifique ese límite. Pero que el cambio se “fusione” en el repositorio no significa que la red de Bitcoin lo adopte: Bitcoin funciona por consenso entre miles de nodos independientes alrededor del mundo, y para que un cambio de ese tipo se vuelva real, casi todos esos nodos (mineros, exchanges, usuarios) tendrían que decidir voluntariamente actualizar su software a esa versión modificada. Si la mayoría no lo hace, simplemente se crea una bifurcación (un “fork”) que es una moneda completamente distinta y que el mercado probablemente no valoraría igual. Cambiar el límite de 21 millones destruiría la propuesta de valor central de Bitcoin (la escasez fija), así que económicamente nadie con incentivos en el sistema (mineros, holders grandes) tendría motivo para aceptarlo. El argumento de Hotz tiene algo de verdad en el sentido de que “el código es solo texto y en teoría se puede editar”, pero ignora que el valor de Bitcoin no depende del código en sí sino del consenso social y económico que lo sostiene, que es mucho más difícil de cambiar que un PR.
Sobre Ethereum, el cambio al que probablemente se refiere (aunque no aparece textual en estos fragmentos que me pasaste) es “The Merge”, que ocurrió en septiembre de 2022: Ethereum pasó de Proof of Work (PoW) a Proof of Stake (PoS). En Proof of Work, los mineros compiten resolviendo cálculos computacionalmente costosos (gastando electricidad real) para poder agregar el siguiente bloque a la cadena; el que gana esa carrera se queda con la recompensa. En Proof of Stake, en cambio, no hay minería: los validadores “bloquean” (stakean) una cantidad de ETH como garantía, y el protocolo elige al azar (con algo de peso según cuánto tenés stakeado) quién valida el siguiente bloque; si validás mal o intentás hacer trampa, perdés parte de tu stake. La motivación oficial del cambio fue reducir el consumo energético de la red en más del 99%. La crítica tipo Hotz hacia este cambio suele apuntar a que PoS depende de tener capital previo (quien ya tiene más ETH tiene más poder de validación, lo cual genera una dinámica donde “los ricos se hacen más ricos” estructuralmente) y a que es un cambio de las reglas fundamentales del sistema decidido por un grupo relativamente chico de desarrolladores centrales, lo cual para alguien que valora la inmutabilidad de las reglas como principio fundacional (al estilo Bitcoin maximalista) se siente como una traición a la idea original de “código es ley”.
“The Value of Nothing: Capital versus Growth”
Es un artículo publicado en American Affairs Journal en 2021, escrito por Julius Krein (el editor de la revista). El argumento central del ensayo es que en la economía estadounidense moderna el valor de las acciones de las empresas se divorció del crecimiento económico real: las valuaciones del mercado de acciones de EE.UU. estuvieron cerca de máximos históricos durante 2021, con el ratio precio-ganancias del S&P 500 superando incluso el récord de la burbuja tecnológica del año 2000. La explicación más completa, según el autor, es que la economía estadounidense está organizada de una manera particular alrededor de maximizar el valor de los activos y el retorno sobre el capital, independientemente del crecimiento real, tanto en el comportamiento corporativo como en los incentivos del mercado financiero y en la política del gobierno y del banco central. Como ejemplo concreto, señala que en Apple, la empresa más grande de EE.UU. por capitalización de mercado, el ingreso operativo apenas cambió en seis años mientras el precio de la acción se cuadruplicó, en gran parte gracias a 337 mil millones de dólares en recompras de acciones. El artículo también apunta a los monopolios y al desplazamiento de la economía desde sectores intensivos en capital (como la manufactura) hacia sectores “livianos” en capital (como el software), como factores que inflan valuaciones sin generar crecimiento real proporcional. Es, en definitiva, un argumento sobre cómo el capitalismo financiero estadounidense terminó premiando la apreciación de activos por sobre la inversión productiva real, que es exactamente la idea que Hotz repite cuando habla de la “financiarización” de EE.UU.
Eric Raymond y la cultura hacker
El texto al que se refiere Hotz cuando dice “gracias Eric Raymond” en el contexto de la cultura de comma.ai es casi seguro “How To Ask Questions The Smart Way” (“Cómo hacer preguntas de manera inteligente”), escrito por Eric S. Raymond junto con Rick Moen, publicado originalmente en 1997 y actualizado varias veces después. El ensayo es básicamente un manifiesto sobre cómo comportarse al pedir ayuda técnica dentro de comunidades de hackers/programadores de código abierto. Su premisa central es que en el mundo de los hackers, el tipo de respuesta que obtenés a tus preguntas técnicas depende tanto de cómo preguntás como de la dificultad real de encontrar la respuesta. El texto insiste en que antes de preguntar hay que demostrar que uno ya investigó por su cuenta, intentó resolverlo, y leyó la documentación disponible; preguntar sin haber hecho ese trabajo previo se considera una falta de respeto al tiempo ajeno. Raymond cuenta cómo él mismo, al pedir ayuda con un problema técnico, demostró respeto por la capacidad de sus pares invitándolos a participar como iguales, y también demostró respeto por el valor de su tiempo contándoles qué caminos ya había probado y descartado. Esa es exactamente la lógica que Hotz importa a comma.ai: no preguntes hasta haber luchado en serio con el problema, porque cada pregunta mal preparada consume un recurso ajeno (el tiempo de otra persona) que es carísimo.
El artículo de Paul Graham (aord.html)
Se llama “Default Alive or Default Dead?” ("¿Por defecto vivo o por defecto muerto?"), publicado en 2015 por Paul Graham, cofundador de Y Combinator. La propuesta central del ensayo es que, en vez de empezar a preguntarse demasiado tarde si una startup está “por defecto viva” o “por defecto muerta”, hay que empezar a preguntárselo demasiado temprano, aunque sea difícil saber exactamente en qué momento la pregunta cambia de polaridad. Una startup está “default alive” si, manteniendo su ritmo actual de gastos e ingresos, eventualmente llega a ser rentable sin necesidad de levantar más capital. Está “default dead” si, al ritmo actual, se queda sin plata antes de llegar a ser rentable, y por lo tanto depende de conseguir nueva inversión para sobrevivir. Lo llamativo, según Graham, es cuán seguido los propios fundadores no saben en cuál de las dos categorías están: la mitad de los fundadores con los que habla no lo sabe, principalmente porque no están acostumbrados a hacerse esa pregunta. El motivo por el que es importante saberlo cuanto antes es para evitar lo que él llama “the fatal pinch”: estar por defecto muerto, con crecimiento lento, y sin tiempo suficiente para arreglarlo antes de quedarse sin runway. Hotz usa esta idea para tejer su teoría sobre Elon Musk: una empresa grande tiende a volverse “default dead” sin que nadie se dé cuenta, porque crece el proceso burocrático interno hasta que nadie tiene ya la autoridad real para cambiar el rumbo (su metáfora del tren que nadie puede frenar porque el comité de votación siempre vota que no), y el rol de un líder tipo Musk, según él, es generar caos deliberadamente para forzar que la empresa vuelva a estar orientada a un objetivo concreto en vez de perderse en su propio proceso.
Yo: Hay un tipo que me lo conto asi: Apple se financia abriendo su capital y emitiendo acciones. Apple gana dinero. Apple usa parte de ese dinero para seguir creciendo y parte para recomprar acciones y así beneficiar al accionista al reducir el total del circulante.
Esa explicación que te dieron es correcta como descripción del mecanismo, no hay error técnico ahí. Apple sale a bolsa, emite acciones, genera ganancias, y con esas ganancias hace dos cosas: reinvierte en el negocio (I+D, fábricas, adquisiciones) y recompra sus propias acciones en el mercado abierto. Al recomprar, reduce la cantidad de acciones en circulación, así que las que quedan representan una porción más grande de la empresa. Si las ganancias totales se mantienen iguales pero hay menos acciones repartiéndoselas, la ganancia por acción (EPS) sube, y eso típicamente empuja el precio para arriba. Hasta ahí, es aritmética básica y no hay nada turbio.
El punto de la crítica tipo Krein/American Affairs no es que el mecanismo esté mal o sea ilegal (de hecho es legal desde 1982, cuando la SEC con la regla 10b-18 le dio un “puerto seguro” a las recompras; antes de eso se consideraban más cerca de la manipulación de mercado). El punto es otro: la escala y qué reemplaza. La pregunta que hace el artículo es: si Apple genera, digamos, 100 mil millones de dólares al año, ¿cuánto de eso va a crear cosas nuevas (productos, capacidad productiva, investigación) versus cuánto va simplemente a inflar el precio de la acción existente sin que el negocio subyacente crezca al mismo ritmo? El dato concreto que cita el artículo es justamente ese: en seis años el ingreso operativo de Apple casi no cambió, pero el precio de la acción se cuadruplicó, y una parte enorme de esa subida (337 mil millones de dólares en recompras) vino de reducir el número de acciones, no de que la empresa produjera más o ganara más por unidad de negocio.
Ahí está la diferencia entre “crecer” y “revalorizarse”. Crecer es que la empresa venda más, invente más, produzca más. Revalorizarse por recompra es que la misma torta se reparte entre menos invitados. Las dos cosas hacen subir el precio de la acción, pero solo una de ellas agrega valor real a la economía (más empleo, más innovación, más capacidad productiva). La crítica de la “financiarización” es que en las últimas décadas, en EE.UU., la proporción se inclinó cada vez más hacia la segunda opción: les conviene más a los ejecutivos (cuyo bono muchas veces está atado al precio de la acción o al EPS) recomprar acciones que apostar a proyectos de inversión riesgosos y de retorno lento. Y como Apple es la empresa más grande del mundo y referencia para el resto, esa lógica se contagia: capital que en otra época hubiera ido a abrir una fábrica o financiar un laboratorio termina yendo a sostener artificialmente el precio de la acción.
Así que no es que el tipo que te lo explicó esté equivocado en la mecánica, es que te describió el “qué” sin el “por qué importa”. Hotz (y el artículo que cita) no está discutiendo si las recompras son legales o si funcionan como las describieron, está discutiendo si una economía donde ese es el destino dominante del capital corporativo es una economía sana a largo plazo, o si es solo una forma elegante de inflar el valor de los activos sin que la base productiva real (fábricas, empleo industrial, tecnología nueva) crezca al mismo ritmo.
Yo: ¿Que es dreamerv3?
DreamerV3 es un algoritmo de aprendizaje por refuerzo (reinforcement learning) desarrollado por DeepMind, publicado a fines de 2022/principios de 2023, y es justamente el paper que Hotz estaba leyendo en vivo en esos streams cuando se entusiasma tanto y dice que tienen que actualizar el blog de comma porque “falta un crítico”.
La idea de fondo es la de los “world models” (modelos del mundo): en vez de que el agente aprenda directamente “qué acción tomar dado este estado” a partir de prueba y error en el entorno real (que es lento y caro), primero aprende un modelo interno que predice cómo funciona el mundo: dado un estado y una acción, ¿qué pasa después y qué recompensa se obtiene? Una vez que tiene ese modelo, el agente puede “imaginar” miles de trayectorias futuras dentro de su propia cabeza, sin tocar el entorno real, y entrenarse sobre esas imaginaciones. Es básicamente simular sueños para practicar antes de actuar de verdad, de ahí el nombre “Dreamer”.
El algoritmo está compuesto por tres redes neuronales: un modelo del mundo que predice el resultado de las acciones, un crítico que predice el valor de los estados generados por ese modelo del mundo, y un actor que elige las acciones para llegar a los estados más valiosos. Justo esta es la pieza que a Hotz le faltaba en su propio esquema mental: tenía el “world model” pensado como la parte que predice el futuro, pero se da cuenta en el stream de que sin un crítico que evalúe qué tan bueno es cada estado posible, el actor no tiene ninguna brújula para decidir qué imaginar y hacia dónde dirigirse.
Lo que hizo famoso a DreamerV3, y por lo que Hotz se entusiasma tanto, es que es un único algoritmo, con un único conjunto de hiperparámetros fijo, que funciona bien en más de 150 tareas distintas sin necesidad de ajustarlo caso por caso. Eso contrasta fuerte con cómo suele funcionar el RL, donde normalmente cada dominio necesita su propio ajuste fino hecho por expertos. El logro más citado es que fue el primer algoritmo en conseguir un diamante en Minecraft sin usar ningún dato humano ni currículo predefinido, aprendiendo enteramente por su propia experiencia simulada, algo considerado un desafío histórico en el campo porque conseguir un diamante en ese juego requiere una cadena larguísima de subtareas (cortar madera, fabricar herramientas, conseguir piedra, fabricar un pico mejor, encontrar y minar el diamante) sin ninguna señal de recompensa intermedia que le diga al agente si va por buen camino. Lo logró después de aproximadamente 30 millones de pasos en el entorno, el equivalente a unos 17 días de juego continuo, lo cual además conecta con otro comentario que hace Hotz en el stream sobre lo poco que se necesitó de cómputo para ese resultado en comparación con otros enfoques.
Por qué le importa tanto a Hotz puntualmente: él viene trabajando en comma.ai en la idea de que un robot (o un auto) tenga que aprender directamente en el mundo real, con pocos datos y sin simuladores gigantes hechos a mano, y DreamerV3 es una demostración concreta de que un agente puede aprender comportamientos complejos casi “desde cero” con un mecanismo general, sin que alguien tenga que diseñarle a mano una recompensa específica para cada paso del camino. Es por eso que en el mismo stream también lee el paper “A Walk in the Park” (sobre un cuadrúpedo que aprende a caminar en 20 minutos en el mundo real) en paralelo: ambos papers le sirven como evidencia de que el futuro de la robótica de comma no pasa por imitar datos humanos teleoperados, sino por agentes que aprenden directamente con este tipo de arquitectura actor-crítico-modelo del mundo.
Yo: DreamerV3 puede jugar al minecraft?
Sí, DreamerV3 puede jugar a Minecraft. De hecho, es la primera inteligencia artificial en lograr recolectar diamantes en el juego desde cero, sin necesidad de datos humanos ni entrenamiento previo con demostraciones de expertos.
Acá tenés un resumen de las ideas más importantes que defiende George Hotz a lo largo de estos streams, organizado por tema.
Sobre tinygrad y la filosofía de software
La idea central es que PyTorch y TensorFlow son el “Fortran y Cobol” del deep learning: funcionan, pero son clunky e ilegibles, con demasiadas capas de indirección. El detonante de abandonar TensorFlow fue encontrar que el parámetro clip_norm del optimizador estaba directamente roto (no hacía nada y no había un assert que lo advirtiera). Su apuesta con tinygrad es escribir una librería de deep learning en menos de 1000 líneas que sea competitiva en velocidad con PyTorch, partiendo de la premisa de que la cantidad de bugs en un software escala con la cantidad de líneas de código (PyTorch tendría un núcleo de unas 10.000 líneas, pero el repo completo ronda las 100.000; TensorFlow sería otro 10x más grande). Defiende que portar tinygrad a un acelerador nuevo requiere 100 veces menos código que portar PyTorch, porque tinygrad reduce todo a una sola operación subyacente. De hecho cuenta que mientras portaba stable diffusion a tinygrad encontró un bug real en el backend MPS (Metal) de PyTorch: la multiplicación de matrices estaba mal por un tema de transposición no considerada.
También defiende el cambio de licencias GPL a MIT: dice que cuando era más joven le gustaba más el estilo GPL, pero entendió que lo que hace que una empresa quiera subir su código (upstream) a un proyecto open source no es la licencia, sino que el mantenimiento futuro deja de ser su problema. Pone como ejemplo el kernel de Linux con los drivers PCIe: nadie necesita GPL para que esto funcione, solo incentivos correctos.
Sobre comma.ai y self-driving
Hotz divide la historia de comma en “paradigmas” de modelos. El primer paradigma usaba detección de líneas de carril hardcodeada, que funciona para manejar en autopista pero falla en intersecciones sin líneas. El segundo paradigma (el actual) entrena en un simulador propio llamado “small offset simulator”, que no es un simulador tipo videojuego sino que toma rutas reales y les aplica pequeñas perturbaciones laterales y longitudinales usando reproyección con datos de profundidad. La razón técnica detrás de esto es que el behavioral cloning puro (predecir la trayectoria humana a partir de la imagen) no funciona para manejar, porque viola el supuesto de independencia (IID): a diferencia de clasificar gatos y perros, en manejo cada predicción afecta el frame siguiente.
El paradigma al que aspira (“tercer paradigma”) es entrenar primero un autoencoder (parecido al de stable diffusion) que comprime la imagen en un espacio discreto tipo vocabulario (algo así como reducir cada imagen a 64 “palabras” de un vocabulario de 1000), y después usar técnicas estilo GPT para predecir la dinámica del mundo. El problema que admite abiertamente es que estos modelos de autoencoder “leakean” la información de las luces (headlights): si reproyectás una escena nocturna, el modelo hace trampa con la luz, y solucionarlo requiere modelar las luces explícitamente, no solo aumentar datos.
Sobre la competencia, su crítica a Waymo y Cruise no es sobre lidar ni mapas (dice explícitamente que esa no es la discusión real), sino sobre economía unitaria: cada auto cuesta como medio millón de dólares y el producto que ofrecen es comparable a Uber, pero más lento y más caro. Hace una comparación incómoda: dice que muchos choferes de Uber, si calcularan correctamente la depreciación del auto, estarían perdiendo dinero, y que “Uber se aprovecha de la gente que es mala en matemática”.
A nivel de visión de largo plazo, dice algo bastante fuerte: que a largo plazo no hay futuro en los autos autónomos, porque cuando se llega a resolver el “long tail” de casos raros, lo único que queda hacer es convertirse en una aseguradora, y eso es aburrido. Por eso plantea pivotar en cinco años hacia robótica doméstica (comma body), comparando la ambición con “tener un cachorrito” como primer paso.
Sobre hardware de IA
Defiende fuertemente la 4090 de Nvidia, no tanto por el ancho de banda de memoria sino por el salto en caché L2 (de 6MB en la 3090 a 72MB en la 4090, comparado con los 40MB de la A100 de centro de datos), lo cual según él explica gran parte de las mejoras de rendimiento reales. Sobre las TPUs de Google, cuenta que circulaba el rumor (que un amigo suyo en Google le confirmó como cierto) de que había restricciones de licencia para usarlas en entrenamiento de autos autónomos, pero que esa restricción aplicaba solo al servicio cloud administrado de Google, no a quien alquila el hardware bare-metal. Su conclusión práctica es que la nube tiene sentido solo para cómputo CPU de baja prioridad; en el momento que necesitás GPU o storage, te “cagan” en precio.
Sobre algoritmos y el estado del arte en IA
Cita una idea de Eliezer Yudkowsky sobre algoritmos de factorización: preferiría un algoritmo de factorización de los 70 corriendo en hardware moderno que un algoritmo moderno corriendo en hardware de los 70, pero aclara que la diferencia “no es por mucho”. Aplica la misma lógica a los SAT solvers, y menciona que leyó “The Art of Computer Programming” volumen 4B de Knuth, donde gran parte del libro está dedicado justamente a SAT solvers. Es notablemente escéptico sobre los modelos de lenguaje grandes y la generación de imágenes (Dolly, stable diffusion): dice que no lo impresionan, que ya vio sistemas clásicos de hace 20 años haciendo cosas parecidas, y que su paper favorito de IA es MuZero/AlphaZero, porque aprende a jugar ajedrez, go, Atari y shogi desde cero con la misma arquitectura sin acceso directo al simulador. También menciona el paper “Iris” sobre modelos de mundo para Atari como algo que le pareció genuinamente innovador.
Sobre contratación y cultura de trabajo
Su filosofía de entrevistas es muy concreta: pregunta cosas como la complejidad de la multiplicación de matrices, convertir el número 13 a binario, o “qué pasa cuando escribís google.com en el navegador” (esperando que el candidato hable de DNS, el puerto 53 y syscalls). Lo que busca es fluidez real con computadoras, no “pasión” declarada en un mail. Sobre por qué se despide gente, dice que lo más común es simplemente dejar de producir, no entregar nada en meses, o tener mal trato con el equipo. Es duro con el trabajo remoto: dice que casi nadie debería trabajar remoto salvo gente excepcional, que en comma no usan Jira ni Monday.com, y que el trabajo remoto está bien para “call centers”.
Sobre el negocio y la eficiencia de capital
Defiende que comma operó con muy poco capital (8 a 18 millones) comparado con startups de SaaS que levantan 100 millones. Su argumento es una versión de la ley de Amdahl aplicada a personas: agregar gente no acelera linealmente un problema, así que prefiere equipos chicos con una persona muy capaz en cada área (menciona que las placas las diseña “un solo tipo, muy inteligente”). El modelo de negocio que describe es deliberadamente simple: vender el dispositivo (comma three) más caro de lo que cuesta producirlo (costaba unos 850 dólares y lo vendían a 1499) y quedarse con la diferencia.
Sobre criptomonedas
No tiene “insights especiales” sobre si el precio de una cripto sube o baja, y compara esto con un consejo que le dio su jefe en Google a los 19 años sobre no comprar una casa porque no entendía el mercado inmobiliario (después esa casa subió de 24 mil a dos millones de dólares, y lo lamenta). Sobre Synthetix y el token SNX que ofrecía 18% de rendimiento, da una definición seca de Ponzi: si el flujo de caja nuevo paga a los inversores viejos, es un Ponzi, y agrega la frase “el inversor tonto pregunta si es un Ponzi, el inversor inteligente pregunta si llegó temprano”. Cuenta también su proyecto Cannon: un procesador MIPS embebido en la cadena de Ethereum que permite verificar cómputo on-chain sin tener que ejecutar todos los pasos del programa, usando un esquema de challenge-response que reduce la complejidad de O(n) a O(log n). El proyecto quedó abandonado porque, según él, “la descentralización no importa, lo que importa es el teatro de la descentralización”, y no quiso forzar eso.
Libros, papers y referencias que menciona
The Art of Computer Programming, volumen 4B, de Donald Knuth (sobre SAT solvers). El paper de MuZero (DeepMind) como su favorito histórico de IA. El paper “Iris” sobre modelos de mundo aplicados a Atari. Cita conceptualmente (sin nombrarla con precisión) una charla de DefCon sobre ataques a sistemas de autenticación vehicular (SecOC), referenciada por alguien de Intrepid Systems.
Lo más controvertido / personal
Admite abiertamente haber comprado drogas en Silk Road en su juventud, mencionado al pasar al hablar de su recorrido con cripto. Habla con total naturalidad de vapear durante el stream (“Elf Bar”), bromeando sobre si vapear es un mal hábito. Sobre la demanda por patentes que tuvo, dice que “está terminada”, que no pagó nada, y deja una frase ambigua y algo agresiva: “si te metés conmigo, me meto con vos, así son las cosas”. Tiene una postura tajante y poco simpática hacia el trabajo remoto, calificándolo casi como falta de seriedad laboral salvo excepciones. Sobre el dilema del tranvía aplicado a sus autos, su respuesta es esquivar el problema: el sistema se desconecta y le devuelve el control al humano, porque “los dilemas éticos no deberían ser decididos por una computadora” — una forma de no responder la pregunta filosófica de fondo. También hace un comentario polémico sobre choferes de Uber “perdiendo plata sin saberlo” por no calcular bien la depreciación de su auto, llamándolos en code “malos en matemática”. Su salida de Twitter como “marketing intern” temporal está cargada de bromas autocríticas (se autodenomina “presidente al estilo dictadura, no presidente elegido democráticamente”), y dice abiertamente que dejó Twitter “para no volver más”. Por último, sobre el reverse engineering de seguridad de Toyota (sistema SecOC), el equipo discute técnicas reales como voltage glitching para bootear en modo de bajo nivel y extraer claves de firmware encriptado — contenido técnico genuino de investigación de seguridad automotriz, presentado como un desafío abierto sin resolver del todo al momento del stream.
Vamos uno por uno.
El mini-interview simulado
Dale, imaginate que soy yo el que aplica a comma y me tirás las preguntas rápido, sin vueltas, como decís que hace él.
Primera pregunta: “¿cuál es la complejidad de la multiplicación de matrices?” Y yo respondería: la ingenua es O(n³), multiplicás fila por columna para cada entrada de la matriz resultado. Pero hay algoritmos mejores, como Strassen que la baja a aproximadamente O(n^2.81), y en la práctica las librerías usan estos truquitos de bloques para aprovechar la caché, aunque el límite teórico actual (Coppersmith-Winograd y sus variantes) está más cerca de O(n^2.37), aunque eso es más curiosidad matemática que algo que se use en producción.
Segunda: “convertí 13 a binario, ya.” Y la gracia es que tenés que decir 1101 al toque, sin pensarlo, porque eso es la prueba de fluidez que él busca: 8+4+1=13, entonces es 1, 1, 0, 1.
Tercera, la más jugosa: “escribís google.com en el navegador, ¿qué pasa?” Ahí la respuesta esperada según lo que cuenta él arranca con cosas de bajo nivel, tipo qué pasa con la interrupción del teclado que termina llegando al browser, después el navegador necesita resolver el dominio así que hace un DNS lookup (y ahí pregunta “¿qué es un DNS lookup?”, esperando que sepas que el cliente le pregunta a un servidor DNS la IP correspondiente al dominio), después esa conexión al servidor DNS se hace típicamente por el puerto 53, y de ahí se abre una conexión TCP (probablemente con un handshake de tres vías) hacia la IP del servidor web, eventualmente con TLS de por medio, y todo esto involucra syscalls del sistema operativo para abrir sockets. Si no sabés mencionar el puerto 53 o syscalls, según él, ya mostrás que no tenés esa base.
La idea de fondo de las tres preguntas es la misma: no busca que memorices definiciones de libro, busca ver si pensás en computadoras todo el tiempo, casi como un hobby compulsivo, y que eso se note en cómo respondés sin prepararte.
Por qué comma gasta tan poco comparado con SaaS
Tiene sentido que te sorprenda. Su argumento es básicamente que las startups SaaS típicas levantan plata para contratar gente rápido y crecer rápido, pero mover datos de una base a otra y mostrarlos en una pantalla no es un problema técnicamente difícil, así que tirarle plata y gente al problema sí ayuda a crecer más rápido. En cambio, resolver self-driving es un problema de investigación e ingeniería real, donde diez personas mediocres no reemplazan a una persona muy buena. Por eso él prefiere un solo ingeniero excelente diseñando las placas en vez de un equipo de diez, porque agregar gente en problemas de este tipo no acelera linealmente (de ahí la referencia a la ley de Amdahl), y a veces incluso ralentiza por costos de coordinación. Además, vendiendo el dispositivo con margen (costaba unos 850 dólares, lo vendían a 1499) ya generaban el cashflow necesario sin depender de rondas gigantes de inversión.
Lo de “teatro de la descentralización”
Sí, exactamente la lectura que hiciste. Su queja con su propio proyecto Cannon (el procesador MIPS verificable en Ethereum) es que en la práctica a nadie le importaba si algo era realmente descentralizado, sino aparentar que lo era para atraer inversores, y por eso no quiso forzar ese código a producción.
Por qué dice que tendrían que volverse aseguradora
No es que tengan que fundar literalmente una empresa de seguros, es una metáfora sobre qué tipo de trabajo queda cuando ya resolviste el problema técnico de fondo. Su razonamiento es así: una vez que el sistema ya maneja bien el 99% de los casos normales, lo que queda por resolver es el “long tail”, o sea todos los casos raros y extraños (un peatón con un disfraz raro, un bache nunca visto, un cruce mal señalizado en un pueblo perdido). Esos casos son infinitos y cada vez más raros y caros de cubrir uno por uno. Entonces el trabajo deja de ser “inventar algo nuevo” y se vuelve “gestionar riesgo residual y demostrar estadísticamente que tu sistema es seguro”, que es literalmente lo que hace una aseguradora: medir probabilidades de eventos raros y ponerles precio. Para alguien como él, que disfruta resolver problemas de ingeniería nuevos, ese trabajo de gestión de riesgo a largo plazo le parece aburrido, y prefiere migrar a un problema nuevo (robótica doméstica) antes de quedar atrapado ahí.
Uber y la gente que es mala en matemática
Su punto es sobre el costo total de tener un auto, no solo la nafta. Cuando manejás para Uber, normalmente solo contás como “gasto” la nafta y tal vez el desgaste de frenos que sentís. Pero el auto se deprecia con cada kilómetro, independientemente de si lo sentís o no: cuantos más kilómetros le metés, menos vale en el mercado de usados, además del desgaste real de motor, transmisión, neumáticos, mantenimiento que vas a tener que pagar antes. Si sumás esa depreciación por kilómetro (que en EEUU suele estimarse arriba de 0.50-0.60 dólares por milla todo incluido) contra lo que cobra una tarifa de Uber, muchos choferes terminan ganando menos de lo que creen, o directamente perdiendo plata, porque están subsidiando con el valor de su propio auto sin notarlo. La frase de Hotz es cruda pero el mecanismo es real: la plataforma se beneficia de que el chofer no haga esa cuenta completa.
El ejemplo de Linux con PCIe y GPL vs MIT
Tenés razón en la diferencia legal: GPL te obliga a compartir el código si distribuís el software derivado, MIT no te obliga a nada, podés tomarlo y cerrarlo. Eso no está en discusión. Lo que Hotz está señalando es otra cosa: por qué una empresa elige subir (upstream) su código al proyecto principal en lugar de mantenerlo aparte, privado, para siempre. Su argumento es que esa decisión no depende tanto de la licencia sino de un incentivo práctico: si tu driver de hardware vive dentro del kernel de Linux, cuando los mantenedores del kernel reescriben el subsistema PCIe (algo que pasa con frecuencia), por convención del proyecto, son ellos los que tienen que actualizar tu driver para que siga compilando y funcionando, porque rompieron la API. En cambio, si mantenés tu driver afuera, propietario, cada vez que el kernel cambia tenés que arreglarlo vos mismo, para siempre, solo. Entonces aunque Linux sea GPL, el verdadero motivo por el que las empresas quieren estar adentro no es el miedo legal a la GPL, es el ahorro de mantenimiento. Por eso él dice que pasó sus proyectos (openpilot, tinygrad) a MIT y aun así ve que las empresas contribuyen de vuelta: porque el incentivo de “yo lo mantengo por vos a cambio de que lo compartas” funciona independientemente de si la licencia te obliga legalmente o no.
Los “nuevos Fortran/Cobol” además de tinygrad
Si la metáfora es PyTorch y TensorFlow como los lenguajes viejos pesados, los candidatos a “lo nuevo” en este espacio incluyen JAX de Google (más funcional, con compilación XLA, muy usado en investigación), Mojo de Modular (creado por Chris Lattner, el mismo que hizo LLVM y Swift, pensado como un superset de Python compilado y rápido para IA), MLX de Apple (pensado para correr modelos eficientemente en chips Apple Silicon), y Triton de OpenAI (un lenguaje para escribir kernels de GPU de forma más simple que CUDA directo). Todos comparten la filosofía de simplificar la capa entre el código Python y el hardware, aunque ninguno tiene exactamente la obsesión minimalista de tinygrad de “menos de mil líneas”. Como este ecosistema se mueve rápido, si querés el estado actual más preciso de cuál está ganando tracción te lo puedo buscar.
Synthetix y el token SNX
Synthetix es un protocolo de finanzas descentralizadas (DeFi) en Ethereum que permite crear “synths”, activos sintéticos que replican el precio de cosas del mundo real (acciones, oro, otras criptomonedas) sin poseerlas realmente. El token SNX es el token nativo del protocolo: la gente lo compra y lo “stakea” (lo bloquea como garantía) para poder emitir esos sintéticos, y a cambio recibe una parte de las comisiones de trading de la plataforma más recompensas adicionales en SNX nuevo, lo cual en su momento generaba rendimientos anunciados altísimos, del orden del 18% o más. La crítica de Hotz es que ese rendimiento dependía en gran parte de que siguiera entrando dinero nuevo (gente comprando SNX) para sostener el valor y las recompensas, más que de un flujo de ingresos genuino y sostenible del negocio subyacente, lo cual cumple su propia definición de Ponzi.
Entonces todas las inversiones son Ponzis.
Vamos a separar las dos cosas. Para la primera, conviene chequear info actual sobre la estructura de comma.ai en vez de basarme solo en lo que dice en los streams (que es del 2022-2023 y medio en broma, como “marketing intern”).Con esta info ya puedo responder con más precisión, aunque aclaro algo primero: las páginas que listan plantillas de empresas (RocketReach, ZoomInfo, SignalHire, Craft) sacan estos números de scrapeo de LinkedIn y bases de datos de contactos, así que las cifras varían bastante entre sí (algunas dicen 5 empleados, otras 33, otras “11-50”), no son un dato 100% oficial y firme. Pero el patrón general coincide entre todas.
¿Es comma.ai una empresa solo de ingenieros, sin marketing ni administración?
No, eso es una exageración que viene directo del personaje que se armó Hotz en sus streams. Según la data de ZoomInfo, la composición aproximada de comma.ai es algo así: unas 19 personas en ingeniería y técnico, 7 en IT, 6 en operaciones, 2 en C-Suite (los jefes), 1 en finanzas, y 1 en marketing. O sea que sí hay, aunque sea mínimamente, gente dedicada a operaciones y a marketing, contrario a lo que él dice en chiste (“no hacemos marketing, no creemos en eso”). Lo que pasa es que la proporción está absurdamente sesgada hacia ingeniería comparado con cualquier startup de software tradicional, donde es común tener equipos enteros de ventas, customer success, growth, recursos humanos, etc. En comma esos roles existen pero son mínimos: una sola persona de finanzas, una de marketing, y el “soporte al cliente” lo manejan con un esquema bastante hostil hacia el usuario promedio (en los streams literalmente dice “si buscás soporte emocional, no lo tenemos, pero si tu hardware se rompe te lo cambiamos rápido”). Cuando Hotz dice “soy el marketing intern”, es básicamente una broma sobre que él mismo, el presidente, terminó haciendo de cuenta de marketing personalmente en un momento dado (bajando precios, streameando en CES) en vez de delegarlo a un equipo grande, no que la empresa no tenga absolutamente nadie en esa función. Vale la pena aclarar que esta info puede haber cambiado desde que se grabaron estos streams (2022-2023), así que si te interesa el estado actual del equipo te puedo buscar algo más reciente.
¿George Hotz piensa que todas las criptomonedas son una estafa? (ACA SE EQUIVOCO CLAUDE PERO IGUAL LO DEJO, EL SI PIENSA QUE SON UNA ESTAFA LAS CRIPTOMONEDAS A LA UNICA Q RESPETA ES BITCOIN PERO FUE ARRUINADA POR ESPECULADORES), quizas respete monero no se.
No, y esto es importante porque en el texto él mismo se cuida de no decir eso. En el stream literalmente dice “no necesito decir que synthetix es malo, no estoy necesariamente diciendo que los Ponzis son malos, estoy diciendo que esto solo es sostenible en un mercado alcista”. O sea, su postura no es “todo cripto es un fraude”, es más fría y técnica: dice que no tiene insights especiales sobre si el precio de una cripto va a subir o bajar (lo compara con no tener insights sobre el mercado inmobiliario), pero que algunos proyectos específicos tienen una estructura económica que matemáticamente se comporta como un Ponzi (paga a los viejos con la plata de los nuevos), independientemente de si la gente que los armó tenía intención de estafar o no. Pone como ejemplo concreto a Synthetix con el rendimiento del 18% en SNX, y menciona aparte, sin dar detalles, que Luna/Terra fue “obviamente” un caso que colapsó así. Pero no extiende ese diagnóstico a todo el espacio cripto en general; de hecho cuenta con orgullo su propio proyecto técnico dentro de cripto (Cannon, el verificador MIPS on-chain) como algo que le pareció genuinamente interesante técnicamente, aunque después se queja de que nadie lo usó en serio porque “a nadie le importa la descentralización real”. Su filosofía resumida es más bien: “no toda inversión es un Ponzi, pero hay que saber reconocer la estructura matemática de un Ponzi cuando la ves, y no asumir que algo es legítimo solo porque tiene blockchain”.
George pasa la mayor parte de estos streams armando un microservicio en el stack de Scala que usaba Twitter (Finagle, Finatra, Twitter Server, Thrift y Scrooge) durante su internship de doce semanas ahí. La idea central del ejercicio técnico es boba a propósito —un servicio que multiplica dos números— pero el viacrucis para llegar a hacerlo funcionar es donde está el contenido real. Pasa horas peleando con el logging: el server no muestra nada porque cae en el “no-op logger” de slf4j, prueba con log4j, logback, varios niveles (info, debug, warning, error) hasta encontrar la combinación de dependencias correcta. Después se pega con que Twitter modificó el protocolo Thrift original (lo llaman “T-Twitter” o Thrift “upgraded”) agregándole metadata propia (tracing, finagle IDs), lo que rompe la compatibilidad con clientes Thrift estándar de Python — por eso su cliente en Python tira “T socket read of zero bytes” un montón de veces sin que se entienda por qué. Tiene que buscar librerías viejas como “Twitter commons RPC finagle protocol” para que el cliente hable el dialecto correcto. En paralelo pelea con versiones de Java (necesita Java 11 específicamente, no la 19 que tenía instalada por Homebrew) y con SBT, que no conocía y va aprendiendo a los ponchazos (compile, run, reload, quit server).
Una idea que repite varias veces y que es la más “filosófica” del stream es sobre por qué explotan las microservicios en empresas grandes: no es un problema técnico sino organizacional. Dice que es procedimentalmente más fácil lanzar tu propio microservicio que pedir permiso para tocar el código de otro equipo (porque si lo rompés, es tu problema; si modificás el de otro, necesitás aprobación). Por eso, según él, el framework de Twitter (Finagle/Finatra) “hizo demasiado fácil” crear microservicios y cosas que debían ser una función dentro de un programa terminaron siendo servicios separados. Conecta esto con la idea de Elon sobre “demasiados microservicios” en Twitter, y agrega que más líneas de código no significan más funcionalidad: muchas veces es pura indirection y boilerplate que una sola persona podría resolver de un saque si pudiera tocar todo el código.
Sobre elección de lenguajes y arquitectura tiene posiciones bastante claras: dice que Scala no es mala elección y que el código de Twitter en Scala que vio es bastante prolijo, pero que hoy, si tuviera que elegir, iría con Go para microservicios. Menciona Elixir/Erlang como alternativa interesante. Descarta C++ (“tiene demasiada sintaxis para pegarte un tiro en el pie”), descarta Rust como demasiado lento de desarrollar (dice en broma que se puede escribir en Go o “cinco veces más lento” en Rust), y dice que Node.js no escala para cosas grandes. También habla de comma.ai: cuentan que usan Cap’n Proto en vez de Thrift/Protobuf por ser zero-copy y rápido, aunque el wrapper de Python (pycapnp) es terrible y mucha gente lo intentó reescribir sin éxito.
El resto de los streams son sesiones de Advent of Code en Scala, donde aprende en vivo conceptos del lenguaje: listas vs arrays vs vectores, mutabilidad, “for-yield” como comprehension, “grouped”, “flatMap”, clases selladas (sealed trait), polimorfismo con traits abstractos, y el método “getOrElseUpdate” sobre mapas mutables, que elogia mucho porque resuelve lo mismo que un defaultdict de Python. Construye a mano un sistema de archivos orientado a objetos (clases File/Directory con parent/get_size) para resolver el problema del filesystem de AoC, con bugs típicos de no inicializar bien el directorio padre o duplicar conteos. Cita con cariño el ensayo de Eric Raymond sobre la cultura hacker (“el mundo está lleno de problemas fascinantes esperando ser resueltos, ningún problema debería resolverse dos veces, el aburrimiento es malo, la libertad es buena”) y menciona el libro “Functional Programming in Scala” (el “libro rojo”, segunda edición) como referencia que recomienda.
Ahora la parte más jugosa, la de las ideas controvertidas y personales, que el chabón mete sin filtro entre líneas de código:
Es durísimo con los medios de comunicación, dice que el New York Times es “el hazmerreír” por dejar de reportar la verdad, y que cuando los periodistas son despedidos “se les puede decir que aprendan a programar”. Aclara varias veces que no tiene información interna sobre los despidos de Twitter y que él “no echó a nadie”, citando en broma a Shaggy (“wasn’t me”). Cuenta que tuvo una conversación de dos minutos con Elon Musk donde este le dijo literalmente que arregle el buscador de Twitter. Defiende la cultura interna post-compra: dice que el nivel de talento promedio de los que quedaron es mayor que antes (porque los mediocres se fueron), y suelta una frase fuerte: que el 80% de la gente en la mayoría de los trabajos es inútil y que el mundo funcionaría mejor sin ellos. Sobre los “Twitter Files” los minimiza, los compara con las filtraciones de Snowden y dice que “todo el mundo ya sabía” que existía vigilancia y shadow-banning, llamándolo “comportamiento corporativo básico”, no una conspiración.
En materia de libertad de expresión tiene una postura libertaria explícita: explica el test de Brandenburg (el discurso de odio no es ilegal en EEUU salvo que incite violencia inminente), dice que moderación no es censura (“censura es cuando un tercero impide que dos partes que quieren comunicarse lo hagan”), defiende la reincorporación de Trump a Twitter llamando “absurdo” haberlo bloqueado, pero aclara que también sería un exceso si Trump hubiera vetado a Biden. Sostiene que estaría mal pegarle a alguien por lo que dice, aunque sea discurso de odio. En medio de esto hace un comentario fuerte sobre Hitler, llamándolo “un perdedor” que se suicidó en un búnker y que no lo dejaron entrar a la escuela de arte, dicho en tono de burla más que de análisis histórico. También dice que si la UE quiere regular el discurso legal en EEUU, su postura es “que se jodan”, y que pueden levantar su propio “gran firewall” si quieren.
Hace comentarios negativos muy marcados sobre vivir en San Francisco durante el internship: la llama “una ciudad de mierda”, menciona gente defecando en la calle, cuenta un consejo de su padre de “vestite peor que la gente del barrio para que te dejen tranquilo”, y dice que extraña a su pareja Alex y su vida en San Diego todo el tiempo. Ideológicamente se define como centrista y dice que los extremos de izquierda y derecha “deberían callarse los dos”, critica el lenguaje “unhoused persons” en vez de “homeless” como señal de gente “fuera de joda”, y describe a la política de San Francisco como “ultra-izquierda”. Sobre redes alternativas, dice que el problema de Mastodon no es la tecnología sino la comunidad (“la gente que se fue ahí no parece cool”), mientras que a Urbit le reconoce una onda “hipster early-adopter” interesante aunque considera que Hoon no es un lenguaje serio.
En el plano personal/laboral cuenta que cobraba 2000 dólares por semana como interno (dice que no le alcanza ni para el hotel), que se afeitó la cabeza para “verse hardcore” en Twitter, que no consiguió que la empresa le pagara alojamiento, y que adoptó el vapeo como nuevo hobby (“vapeo, juego al ajedrez y uso Twitter”). Hace un comentario llamativo justificando la autoridad de Elon: dice que como Elon es billonario, en promedio sus decisiones son mejores que las de él mismo, comparándolo con el ranking de ajedrez (el de mayor rating en promedio juega mejor). Sobre IA, se muestra poco impresionado con ChatGPT, lo describe en broma con un “CI de 81” y un puntaje bajo de SAT, y arma un sketch cómico haciéndole preguntas zodiacales al bot. Hay también una larga escena cómica/frustrante sobre un pedido de comida que nunca le llegó (Uber Eats), que usa como excusa para varios chistes ácidos sobre la ciudad y el servicio al cliente. Finalmente reivindica con orgullo el “efectivo accelerationismo” como concepto que le gustó, y deja en claro que no le interesa ascender a un puesto de gestión ni liderar gente, prefiere programar.
Arranco por lo técnico, que es donde más tiempo pasa.
Tinygrad y el coprocesador AMX de Apple. Gran parte de los streams es a George Hotz reversingeniería el AMX, una unidad de matrices no documentada de los chips Apple Silicon, para meterla en tinygrad. Construye esto a mano con LLVM: genera bloques básicos, maneja PHI nodes, hace fusión de FMA, lidia con segfaults raros y con la falta de un parser de ensamblador inline para ARM64 en LLVM (tiene que desactivar el “integrated assembler”). Defiende escribir las cosas a mano en lugar de generarlas automáticamente porque dice que así “aprendés cómo son las cosas” aunque sea más feo o tenga más líneas; la elegancia de código no es el objetivo (“no nos interesa el code golf”). Un dato técnico curioso que repite como chiste/pregunta al chat: por qué hay que multiplicar los índices por 4 al indexar — la respuesta es que float32 ocupa 4 bytes. También resuelve un bug de optimización que nadie documenta: en cierto contexto había que compilar con -O2 y no con -O3 para que las instrucciones funcionaran. Sobre el AMX en general, sostiene que como Apple no lo documentó bien, terminan siendo mejores las “docs” hechas por la comunidad reverseingenierizando que las oficiales: dice literalmente que las docs de Apple son “hermosas pero inútiles”.
Modelo de negocio de tiny corp. Hotz argumenta que el capital accionario sin dividendos es estructuralmente un esquema Ponzi: si una empresa nunca reparte dividendos, no hay manera real de que el accionista extraiga valor, y el buyback de acciones solo “sostiene” ese esquema en lugar de resolverlo. Por eso dice que no quiere vender equity de tiny corp, prefiere contratos y sponsorships, y deja abierta la puerta a un internship de 12 semanas en alguna empresa de chips de IA (menciona directamente a John Carmack pidiéndole pasantía). Es muy crítico con Qualcomm, a quien acusa de haberlos “boludeado” con comma.ai —prometieron venderles chips, nunca mandaron cotización real— y en contraste elogia a Nvidia por ser “honestos” al directamente decir que no les vendían. También critica a startups de hardware de IA (sin nombrarlas del todo, hablando de una empresa de chips con la que habló) por prometer fechas de envío y no cumplir, y dice que los inversores series A/B deberían exigir producto real antes de invertir.
Economía y política. Tiene una teoría sobre el poder estatal: dice que el gobierno “filtra poder” porque puede ser comprado por lobby, y que la solución no es prohibir el lobby (imposible de sostener) sino quitarle al Estado el poder que se puede comprar, empezando por la emisión monetaria — sostiene que nunca es ventajoso a largo plazo imprimir dinero y que la Fed “no puede quebrar sin que colapse todo el sistema”. Cree que demócratas y republicanos se mantienen artificialmente balanceados, que ambos lados consumen “propaganda” (compara Fox News con MSNBC) y que el sistema usa esa polarización para evitar que la gente cuestione al aparato completo. Aclara que esto es “civics, not politics”: no le dice a la gente qué creer, solo cómo funciona el sistema.
Twitter por dentro. Hace un ejercicio de ingeniería inversa del backend de Twitter: identifica Manhattan (key-value store interno), RocksDB como motor de almacenamiento, Kafka y Hadoop/HDFS para eventos (calcula 400 mil millones de eventos diarios contra 500 millones de tweets), y arma pedidos GraphQL a mano con curl-to-python, descubriendo “endpoints secretos” de moderación y funciones administrativas. Su tesis fuerte: cree que Twitter podría operar con apenas 20 ingenieros buenos, que la complejidad actual está sobreingenierizada, y que las empresas deberían usar la misma API para sus apps internas y externas en vez de mantener dos sistemas paralelos (lo compara con cómo lo hacen en comma.ai). De paso aprende Scala en vivo con HackerRank porque cree que lo van a entrevistar en Twitter, y deja en claro que no sabe React ni sistemas distribuidos grandes, pero que “aprende rápido”.
Lenguajes de programación. Lee un comentario de Hacker News sobre por qué Google usa Go (porque sus programadores “no son lo bastante inteligentes” para lenguajes complejos) y, aunque lo llama una filosofía “condescendiente”, coincide en el fondo: dice que sin importar cuán inteligente seas, conviene usar lenguajes simples porque “podés tener más cosas en la cabeza”. Sobre Haskell dice que escribió un compilador en ese lenguaje y que le gusta, pero se burla de la jerga (“monad debería llamarse ‘state container’, no monad”) como barrera de entrada innecesaria. Java le parece “incrediblemente verboso” y cree que existe “para mantener gente empleada”.
openpilot / comma.ai. En las sesiones de manejo explica que el control end-to-end (lateral y ahora longitudinal) ya está embebido en un solo modelo entrenado en simulación con ruido lateral y longitudinal. Cuenta que redujeron drásticamente el tiempo de entrenamiento rearquitecturando el pipeline (de “un par de modelos al año” a varios por semana) y migrando a un datacenter con más cómputo. Habla de “navigate on openpilot” como la próxima gran feature, de cómo calibran la cámara con el solo movimiento del auto, y de que cerca del 50% de sus datos de entrenamiento ya vienen de fuera de EE.UU./Canadá para diversificar estilos de manejo.
Ahora la parte que pediste aparte, lo más polémico y personal, resumido fuerte: cuenta una anécdota de una cita con una chica anarquista en la que, para “demostrarle” que el anarquismo no funciona, le mostró su arma (un Glock) y bromeó con que ella era “su esclava”, hasta que intervino el cantinero y luego, en la broma, la policía y el ejército — el chiste cierra en que siempre termina ganando quien tiene más poder de fuego. Es una historia contada en tono de humor pero con un arma real de por medio. También dice abiertamente que no le importa que lo tilden de insensible respecto a la gente despedida en tech (“son negocios”), y hace bromas sobre evadir reglas de Twitter (“estamos doxeando a Twitter en Twitter”, “probablemente esté violando los términos de servicio, pero lo hago en vivo así que tal vez está bien”). Sobre el voto, dice sin vueltas que no votar es “la única decisión racional”, que el voto individual no importa y que “shitposting en Twitter tiene más impacto que votar”; en un momento bromea con que sus sponsors le pidieron no decirle a la gente que no vote y él responde “no tenemos sponsors, puedo decir lo que quiera”. Menciona, de pasada y sin profundizar, que la cuenta de Donald Trump seguía bloqueada incluso vía API en ese momento. Sobre Elon Musk se muestra ambivalente: lo critica por “gestionar gente a través de tweets” y por la fricción con Qualcomm/proveedores, pero después lo defiende diciendo que “su corazón está en el lugar correcto” y que prefiere a alguien así antes que una “burocracia sin rostro”; hace la misma defensa de Mark Zuckerberg. Por último, menciona como nuevo hobby el vapeo, y deja un comentario fuerte sobre managers/PMs y MBAs, a quienes llama una “forma de pensar tóxica” que considera responsable de la cultura corporativa de la última década. No aparecen menciones a libros o artículos puntuales en estos fragmentos, ni comentarios sobre vacunas.
“Lobby” (o “lobbying”) es la práctica de presionar o influir sobre legisladores y funcionarios públicos para que tomen decisiones favorables a un grupo de interés particular —una empresa, una industria, un sindicato, una ONG— en lugar de decisiones que reflejen el interés general. El término viene literalmente del “lobby” o vestíbulo de los edificios legislativos, donde antiguamente la gente esperaba para interceptar a los legisladores y hablarles antes de que entraran a votar.
En la práctica moderna el lobby funciona así: una empresa o industria contrata a especialistas (muchas veces ex funcionarios o ex legisladores, que conocen el sistema desde adentro) para que se reúnan con quienes redactan leyes y regulaciones, les entreguen estudios “técnicos” hechos a medida, financien sus campañas electorales, o directamente les ofrezcan empleos futuros bien pagos en esa misma industria una vez que dejen el cargo público (esto se conoce como “puerta giratoria”). El objetivo es que la ley termine escrita de una forma que beneficie a quien paga el lobby: menos impuestos para ese sector, una regulación que solo las empresas grandes pueden cumplir (lo que frena a competidores chicos), un subsidio, una excepción, o que se bloquee una ley que les perjudicaría.
Es legal en la mayoría de los países —en EE.UU. está incluso regulado y hay que registrarse como lobbista— pero es controvertido porque genera una asimetría: quien tiene más dinero para gastar en lobby tiene más voz en cómo se escriben las leyes que rigen a todos, aunque formalmente cada ciudadano tenga “un voto, un valor”.
Esto conecta directamente con la lógica de Hotz: él dice que el gobierno “filtra poder” en el sentido de que tiene la capacidad de otorgar favores (contratos, exenciones, regulaciones, emisión de dinero, subsidios) que valen más de lo que cuesta conseguirlos vía lobby. Esa diferencia entre “lo que cuesta influir” y “lo que se obtiene a cambio” es el incentivo que atrae a los lobbistas como una abeja a la miel. Por eso su conclusión es que prohibir el lobby no sirve —porque mientras exista ese incentivo, alguien va a encontrar la forma de ejercerlo igual, legal o ilegalmente— y que la única solución real es reducir el tamaño del “premio”: si el Estado tiene menos poder discrecional para repartir (menos capacidad de imprimir dinero, menos regulaciones a medida, menos contratos arbitrarios), hay menos motivo para gastar plata intentando comprarlo.
Estos son fragmentos de varios streams de George Hotz (tinycorp) reversingenierizando el Edge TPU de Google y optimizando tinygrad contra PyTorch en M1. Te resumo las ideas centrales por bloque temático, en prosa.
Reversing del Edge TPU. Hotz parte de un compilador de Google (Edge TPU Compiler) casi sin documentación pública y decide atacarlo como caja negra. Su método es ir probando funciones simples compiladas a TFLite (identidad, multiplicar por dos, sumar uno, ReLU) y comparar el binario resultante con un diff hexadecimal artesanal que él mismo escribe (“mi compare tool es muy mediocre”). Encuentra que cambios mínimos en la función generan cambios mínimos y localizados en el binario (una sola instrucción cambia entre ReLU y multiplicar por dos), lo que lo entusiasma porque sugiere que está ante un instruction set real con instrucciones identificables. Pero cuando agrega una resta, el binario cambia radicalmente, y él mismo admite que esto “quema buena parte de lo que creía sobre que esto es un instruction set” — una contradicción interna que reconoce en vivo. El hallazgo más importante de estas sesiones es casi cómico: el programa que cree haber compilado para “multiplicar por dos” en realidad no hace ningún cómputo (se compila a la identidad), pero como la cuantización de TFLite asigna una escala distinta a la entrada y a la salida, el valor que devuelve aparece dividido por dos. Es decir, descubre que no logró hacer que el chip multiplique ni divida nada: lo único “funcional” que logran es un efecto colateral de cuantización, al que terminan bautizando “div2” y que reutilizan como su programa de referencia confiable. Identifican además una instrucción real, “bundle ALU move immediate”, gracias a fragmentos de código abierto de Google (libedgetpu) y a la estructura interna del archivo .tflite (custom op → bitstream de instrucciones codificadas → tabla de offsets que indica dónde parchear direcciones de entrada/salida). Cuenta como anécdota personal que a los 20 años reversingenierizó el DSP de audio de iOS (cuando Apple movió la encriptación ahí en iOS 3), y que luego descubrió que ya estaba documentado en un PDF; remarca que ese ISA tenía instrucciones de 2 bytes, mucho más fácil que las instrucciones de 10 bytes del Edge TPU. No cita papers ni libros en esta parte, solo el repositorio libedgetpu y un proyecto llamado “GPTPU” en GitHub que descarta porque “no fueron más profundo que invocar el compilador”.
Optimización de tinygrad contra PyTorch (CPU/M1). El objetivo que tiene escrito en su pizarrón es: vencer a PyTorch CPU en M1 en todo, eliminar la configuración especial de openpilot para que funcione rápido sin hacks, vencer a PyTorch CUDA en una 3080 Ti, y lanzar la versión más rápida de Stable Diffusion en M1 — explícitamente ordena no avanzar al tercer objetivo hasta cerrar el primero, y pide tests automáticos serios. La pieza central de la épica técnica es un misterio de varios streams: por qué LLVM (vanilla) fusiona multiplicaciones y sumas en instrucciones FMA (fused multiply-add) pero llvmlite, la versión que usa tinygrad, no lo hace. Prueba decenas de flags de target features, fast-math, niveles de optimización, hasta llegar a recompilar LLVM desde cero con prints de debug insertados a mano. La resolución final, aportada por un espectador del chat, es desconcertantemente simple: el problema era el nivel de optimización (opt=3 vs opt=2) pasado a llvmlite — opt=3 activaba un “loop factorizer” que paradójicamente hacía las convoluciones más lentas y bloqueaba la fusión FMA, mientras que opt=2 sí fusionaba. Esto, después de haber construido LLVM entero a mano, es presentado por él mismo como una ironía dolorosa (“nunca confié en O3 de todas formas”). Otro hallazgo técnico relevante: la operación max no se vectoriza en LLVM, mientras que sum sí, porque max termina llamando a una función de libm (fmax) definida para double, lo que fuerza un upcast implícito de float a double y bloquea la vectorización; sum en cambio baja directo a instrucciones vectoriales (fadd, ldp). Ofrece varias veces una recompensa simbólica de 50 dólares (o una llamada de 15 minutos) a quien resuelva estos bugs de LLVM, lo cual funciona como incentivo real para la audiencia.
La brecha de rendimiento con PyTorch y el coprocesador AMX. Hotz explica que la razón por la que PyTorch es ~20-25x más rápido en multiplicación de matrices es que usa el coprocesador AMX de Apple Silicon, que no está documentado oficialmente ni expuesto por Apple, y que solo se conoce porque terceros lo reversingenierizaron a partir del framework Accelerate. Cita el paper de AlphaTensor (DeepMind) al pasar, diciendo que no hay forma de usarlo para acelerar multiplicaciones de matrices grandes en este contexto. Decide entonces reversingenierizar el AMX él mismo, a fuerza de prueba y error con instrucciones crudas (registros X/Y, semántica de set/clear del acumulador Z, offsets de fila), llevando el rendimiento de “1000 veces más lento que PyTorch” a “1.84 veces más lento” mediante tiling de caché (bloques de la matriz para maximizar la reutilización de L1/L2). Incluso así no logra alcanzar a PyTorch, y queda genuinamente perplejo, especulando sin certeza que PyTorch podría tener acceso a una “versión secreta buena” del AMX, o que el problema sea el pinning a un core de rendimiento, el power state de Apple, o cómo PyTorch hace unrolling de loops. Es notable que reconoce abiertamente su propia incertidumbre en este punto: nunca cierra el misterio del todo. También aclara una confusión técnica real que tuvo en el momento: cuando ve “intrinsics de AMX” en LLVM, aclara que es el AMX de Intel (extensión completamente distinta), no el de Apple, que no tiene soporte en LLVM mainline.
Filosofía de trabajo y opiniones sobre educación/carrera. Defiende la idea de que la universidad no es necesariamente una estafa: dice que vale la pena si realmente estás ahí para aprender o si alguien más te la está pagando, pero que es una estafa si pagás esperando que el título por sí mismo aumente tu salario futuro. Cuenta que él pagó un año en Carnegie Mellon, cursó sistemas operativos, compiladores, IA y un curso de matemática avanzada para primer año, y que le “valió totalmente la pena”. Sobre carrera profesional, sostiene que en empresas como comma.ai la promoción real viene de “shippear” cosas, y que el salto grande en sueldo y equity llega cuando empezás a gestionar gente que gestiona gente. Sobre financiamiento de terceros (cuenta que habló con Emad Mostaque de Stability AI sobre acelerar Stable Diffusion en M1) plantea un principio de negocio: cosas que ya tienen adopción masiva (CPU, M1, CUDA) las va a optimizar igual, gratis; solo cobra por optimizar cosas sin adopción previa.
Sobre las contradicciones técnicas más marcadas: (1) cree tener un instruction set “limpio” y la evidencia posterior se lo desmiente a medias; (2) el programa que “multiplica por dos” en realidad no computa nada, es puro artefacto de cuantización — el resultado funcional no es el que él cree estar logrando; (3) pasa días enteros reconstruyendo LLVM desde el código fuente para resolver el bug de FMA, cuando la solución termina siendo cambiar un parámetro de un dígito (3 a 2); (4) después de reversingenierizar el AMX a mano y lograr usarlo, sigue sin poder superar a PyTorch y nunca cierra del todo por qué, quedando en el terreno de la especulación no verificada.
Lo controvertido / personal (resumido y con detalle al final, sin censura):
Hotz se declara públicamente anti-voto: dice que nunca votó en su vida, que cada vez que alguien vota “se arrepiente” sin importar el resultado, llama al voto “tu consentimiento al sistema”, e ironiza con que nadie te dice “no votes” pero todos —campañas, mensajes de texto, publicidad— te empujan a votar, sugiriendo que eso debería hacerte sospechar de a quién beneficia. En tono de broma extrema, también dice “dejen de pagar impuestos todos mañana” como forma de protesta colectiva, reconociendo que “eso nunca va a pasar”. Sobre armas: dice que no tiene un arma, pero que cree que “hay un lugar apropiado” para tenerlas (zonas rurales más que ciudades), que la gente debería poder tenerlas, aunque reconoce que estadísticamente es más probable dispararte a uno mismo o a alguien querido que a una amenaza real, especialmente en zona urbana —una postura matizada, no una negación categórica del derecho a portar armas. Sobre inmigración plantea una propuesta provocadora: fronteras abiertas para cualquier persona a la que una empresa le pague un salario de seis cifras, verificable por declaración de impuestos, y descarta el sistema de visas (H1B/J1) como una estafa que beneficia sobre todo a abogados de inmigración; en otro fragmento, sin embargo, ofrece personalmente ayudar a conseguir visa a un ciudadano danés del chat que pregunta por trabajar en tinycorp (“te conseguimos la visa si sos bueno”), lo cual contrasta con su discurso anti-sistema. Hace un comentario al pasar sobre Aaron Carter, lamentando su muerte y vinculándola a las drogas (“las drogas están arruinando a la juventud”). Bromea sobre ser “trillonario” y haber comprado acciones de Meta, aunque el tono es claramente sarcástico/de chiste de stream. No hay ninguna mención de vacunas en los fragmentos que pasaste, así que no puedo confirmarte nada sobre esa postura puntual con esta evidencia.
Hotz: Todos los tokens siempre van al cero.
Por lo que dice en ese fragmento, su argumento es bastante simple: plantea que el único filtro que debería importar para dejar entrar a alguien a EE.UU. es si una empresa está dispuesta a pagarle un salario de seis cifras, algo que ya se puede verificar objetivamente con el W-2 o la declaración de impuestos. Su lógica es que esa persona, al ganar ese sueldo, va a terminar pagando alrededor de 35 mil dólares en impuestos federales, así que para él es básicamente “plata gratis” para el gobierno y no entiende por qué se complica algo que debería ser trivial.
Lo que lo hace llamarlo “estafa” es la burocracia intermedia: en el sistema actual, en vez de bastar con ese criterio salarial, hay que pasar por categorías como H1B o J1, lo cual obliga a contratar abogados de inmigración. Él dice que esos abogados se quedan con unos 10 mil dólares por tramitar la visa sin agregar ningún valor real al proceso, simplemente por navegar el papeleo. Entonces, según su visión, terminan ganando plata “de los dos lados”: el gobierno cobra el impuesto y el abogado cobra su honorario, mientras la persona y la empresa solo quieren resolver algo que para él debería ser directo. La comparación que hace —el “servicio de alquiler de cachorros más el de paseo de perros, pero enganchados”— es su forma sarcástica de decir que es un negocio armado para cobrar de ambas puntas de una transacción que no necesitaría tanta intermediación.
Es una opinión libertaria/desregulatoria típica de él: prefiere un criterio simple y verificable (el mercado decide vía salario) en vez de un sistema de categorías legales que, en su lectura, existe más para sostener una industria de abogados que para cumplir alguna función de control migratorio real.
Lo de los “life coaches” como eufemismo de “hooker”:
En el tramo de parte_chatgpt_9608.txt, George está hablando de algo completamente distinto (está tratando de importar librerías de Python para parsear bitfields) y de repente entra una derivada sobre “life coaches” que él ve en redes sociales. Su argumento es bastante directo: dice que una “life coach” es “simplemente una prostituta con otro nombre” (“life coaches are real profession bro… no pro life coaches are real profession bro, everyone whose life says that they’re a life coach and shit that’s just a euphemism for hooker man”). Lo que dispara esto es la observación de que ve muchas “pretty girls” que se promocionan como “life coaches” y la pregunta retórica es: “¿quién te está pagando para ser una life coach?” Su lógica es que si alguien está siendo pagado por darte consejo personal/orientación de vida sin un producto tangible, es basicamente venta de tiempo y compañía, que es lo que tradicionalmente hacen los sex workers. No es un ataque moral, es más una observación sociológica desagradable que hace: en el contexto de redes sociales, muchas mujeres jóvenes atractivas usan el título de “life coach” para monetizar su presencia de forma que no es tan diferente a lo que hace un sex worker, solo que sin estar framed así explícitamente. Es una de esas observaciones que él suelta sin filtro, que es polémica porque mezcla trabajo sexual con servicios de coaching de forma que muchos encontrarían ofensiva o reductiva.
Lo de Kanye West y la sensibilidad con las palabras:
George está siendo irónico sobre la cultura del “call-out” moderno. Mencionan a Kanye (“let Yay me, let yay let yay V yay”) y él dice que la gente hoy toma las palabras demasiado en serio, que en contexto de humor o shock value se pierden los matices. Invoca un ejemplo histórico para basar su argumento: cuando Kanye dijo en live television “George Bush doesn’t care about black people” después del Huracán Katrina, fue un shock joke en su momento, algo audaz pero dicho con intención de impacto social, no para ofender. Su punto es que esa frase hoy sería destrozada en Twitter por “tomar las palabras al pie de la letra” sin entender el contexto y la intención. Lo que George está diciendo es que el análisis humorístico/retórico de las palabras se perdió y ahora todo se lee literal y en modo ofendido. Es una crítica a la falta de sofisticación interpretativa: la gente no ve la broma, ve solo la palabra ofensiva.
Lo de OpenAI y DeepMind como pasante:
Aquí hay un punto importante: en las transcripciones, George menciona que “I would love to be an intern at either open AI or deepmind if they’ll have me” y luego dice “open eye does not want me as an intern unfortunately”. Pero esto es dicho con un tono irónico/bromista, no como si realmente se hubiera postulado formalmente. Lo que expresa es un deseo medio en joda de estar en esas compañías para “see how things work” (ver cómo funcionan desde adentro), pero reconoce que sabe por qué lo rechazarían: “they know why I’m there, they know in there because I want to see how things work”. Su lógica es que él sería útil como pasante, contribuiría valor, pero también es claro que estaría ahí reverse-engineeando cómo hacen las cosas para entender y posiblemente replicar, lo cual una empresa como OpenAI obviamente no querría. No hay una anécdota de entrevista fallida específica en los streams, es más una reflexión irónica sobre por qué le cerrarían las puertas.
Lo de la lectura vs el celular:
En parte_chatgpt_9613.txt hay una discusión donde alguien dice algo sobre cómo las redes sociales están destruyendo la capacidad de atención, y George devuelve con un argumento más sutil: “people always saying this shit about like how social media is destroying their attention bro what did you do before social media oh well I used to read a novel every weekend but no no you did dumbass shit every weekend before too now you dumbass shit on a cell phone right”. Luego expande: “the same people who read books today read books back then and the same people who couldn’t read books back then still can’t read books today. reading it’s hard guys not everyone can do it.”
Lo que está diciendo es que NO es que social media haya vuelto a la gente incapaz de concentrarse en libros. Lo que pasó es simplemente que ahora VES a todos los que siempre fueron incapaces de leer libros pero que antes solo estaban haciendo otras cosas (viendo TV, conversando, lo que sea), y ahora hacen lo mismo pero en el celular. La capacidad o incapacidad de leer libros es individual y ha sido siempre la misma: los que podían leer, leían. Los que no podían, no leían. Lo que cambió no es la cognición humana sino la visibilidad de la mediocridad. Antes, si alguien era un “dumbass” que no leía libros, simplemente no lo veías en redes, veías a la gente más selecta. Ahora ves a TODOS. Y muchos de esos “todos” están haciendo boludeces en el celular, pero no es porque el celular los arruinó, es porque siempre hicieron boludeces, solo que ahora es visible. Es una crítica a la narrativa nostálgica de “antes la gente era más inteligente/concentrada”. No, simplemente teníamos menos visibilidad de la gente que nunca fue inteligente. Su ejemplo contrario es Ben Franklin componiendo cartas elegantes en la época pre-internet vs hoy: “no they weren’t, you just see a lot more dumbasses today on the internet and then you can talk about this is the reason for the great sjw freak out of 2014 right like for the first time on social media these people were forced to be exposed to people who didn’t agree with them”. El shock no fue que las redes sociales hicieron a la gente tonta, fue que por primera vez los grupos homogéneos se vieron forzados a convivir con desacuerdos públicos.
Sobre decompiladores CLI:
No existe un decompilador que te devuelva el código C original 1:1 desde un binario, es imposible por razones fundamentales. Una vez que compilas C a binario, se pierden:
-g)Pero existen herramientas CLI que te generan pseudocódigo legible:
La realidad: vas a leer ASM de todos modos, pero el punto es que no tienes que hacerlo manualmente. Ghidra, por ejemplo, te genera una “decompiled view” que parece más pseudocódigo de alto nivel que assembly puro, y eso es lo más cercano a “pasar binario y obtener código”.
La crítica a la industria de seguridad informática:
George dedica un párrafo entero a esto en parte_chatgpt_9613.txt y es brutalmente honesto. El argumento es:
Dice literalmente: “here’s the thing there’s reverse engineering and there’s security and everyone who wants to work in like Security today I don’t know I’m not going to say everyone but almost everyone I meet’s a loser right like and and here’s why it’s it’s like they’re they’re some sort of prestige that like oh I work in security oh I find binary exploits keep the internet safe oh my God like it’s the people like this who ruin it”.
El punto central: La “seguridad informática” moderna es una industria profesionalizada donde gente va porque cree que es un trabajo prestigioso (“information security professional”). Pero eso no es lo que hacían los hackers originales. Los hackers originales hacían reversa porque era cool, porque querían entender cómo funcionaban las cosas, no porque buscaran un título o legitimidad institucional.
Luego aclara: “this stuff was hacking iPhones was is absolutely valueless as as hacking the Google Coral uh and that’s what was cool about it okay like it wasn’t um you you didn’t have these people yet who showed up who like oh this is what I’m going to do I consider myself an information security professional right and and these people showed up and they ruined like a lot of old school hacker culture around this”.
Lo que está diciendo es que la gente que ahora hace “security research” está ahí por el prestigio, por el título, por ser considerada “professional”, no por la curiosidad genuina. Y eso mató la cultura hacker original. Es un problema de motivación: los verdaderos hackers hacían cosas sin esperar reconocimiento institucional, y ahora todos quieren ser “security researchers” con business cards y conferencias.
Su conclusión es clara: “I know this isn’t like terrible um you know obviously read the evolution of subcultures and this is just what happens to subcultures but uh I don’t do any of that stuff anymore any of any any reverse engineering that may have like value to somebody in terms of a weaponized exploit not touching it right um red teaming pen testing uh security audits bug bounties all this stuff I wouldn’t touch it with the 10 football”.
Por qué George rechaza exploit/red teaming/bug bounties:
Acá la separación es clara y la explica en parte_chatgpt_9611.txt:
George dice: “would it be cool to like if this thing had like you know secure firmware that we have to dump to find a buffer overflow like you know you know where I do find that this stuff kind of still lives and it’s really cool I like watching these videos the people who are doing the uh like like console uh hacking not not not not like PS3 kind of stuff I mean like the kind of stuff where people are doing a PS5 or whatever whatever where people like hack Pokemon yellow and they can like hit a certain uh key combination to get arbitrary code execution inside Pokemon like the Mario that live modifies itself these people man that’s hacker culture man”.
La diferencia es moral/filosófica:
Lo que él sí hace (Google Coral): Reverse engineering puro de un chip que nadie más está estudiando, sin valor para ningún estado-nación, sin militarización posible. Es “hacker culture” genuina.
Lo que no toca:
Su argumento es: Lo que mata la cultura hacker original es convertir el reverse engineering en una transacción económica profesional. Cuando trabajas para una empresa de seguridad o cobras un bug bounty, ya no estás hackeando porque te fascina, estás haciendo un trabajo. Y eso, para George, es exactamente lo que arruinó todo.
La frase clave: “I wouldn’t touch it with the 10 football” (no lo tocaría ni con una pértiga de diez metros). No es porque sea ilegal o inmoral en abstracto, es porque convierte algo que debería ser acto de curiosidad pura en comercio, en prestige-hunting, en la misma basura que critica.
El ejemplo positivo: Gente que hackea emuladores de consolas viejas o busca arbitrary code execution en Pokémon Yellow haciendo glitches. Eso SÍ es hacker culture porque no hay dinero, no hay prestigio, solo curiosidad y “la belleza de la cosa”. George lo respeta genuinamente: “that’s hacker culture man”.
Acá tenés el resumen de las ideas de George Hotz a través de estos fragmentos de stream, organizado en bloques temáticos.
Sobre Tesla AI Day y la filosofía de la conducción autónoma
La columna vertebral de su crítica a Tesla es una contradicción que él remarca constantemente: Elon dice que Tesla no necesita lidar, pero la Occupancy Network que presentan termina siendo, en la práctica, una reconstrucción de lo mismo que haría un lidar, solo que generada por cámaras. Su tesis central, que repite con distintas palabras a lo largo de varios streams, es que no existe un espacio de features “entendible por humanos” que pueda capturar correctamente la realidad para manejar un auto: carriles, objetos, ocupación, todo eso es una representación hecha a mano (hand-engineered) y siempre va a quedar incompleta, por ejemplo para distinguir a una persona sin techo que puede saltar a la calle de un empresario festejando en la vereda. Por eso comma.ai apuesta a redes end-to-end sin ese tipo de capas intermedias interpretables. Le llama la atención (y le da pena) el “Lane Language Model” custom de Tesla, un lenguaje artificial diseñado a mano para representar carriles con un transformer arriba: dice que admira el trabajo de ingeniería pero que es un esfuerzo que no debería existir. También cuestiona la reconstrucción multi-trip para generar HD maps, citando una vieja frase de Anthony Levandowski sobre que “no querés ser un mantenedor de mapas” porque eso agrega complejidad y bugs al sistema de ground truth, y conecta esto directamente con el problema del frenado fantasma (phantom braking) de Tesla.
En cuanto a hardware compara escalas: el dataset de comma (~10K segmentos, “comma 10K”) es entre 15 y 20 veces más chico que el de Tesla, y el cluster de cómputo de Tesla es del orden de cientos de veces más grande. Sin embargo, elogia genuinamente la ingeniería de Dojo: el regulador de voltaje integrado detrás del chip, la entrega de 1000 amperes, el packaging compacto (la cercanía física entre chips reduce la latencia de señal, literalmente nanosegundos por la distancia que recorre la luz/señal eléctrica). Pero su crítica de fondo es que Tesla no abre el código de nada de esto, y arma una analogía histórica: Google tuvo la infraestructura más avanzada del mundo a mediados de los 2000 (GFS, Borg) y la perdió justamente por no abrirla; los reemplazos open source (Kubernetes, Docker, lo que hoy hacen S3/Azure) terminaron superando a los sistemas propietarios originales porque la comunidad los mejora gratis. De ahí su argumento pro-open-source: MuJoCo (comprado y liberado por DeepMind) es “egoísta” en el buen sentido, porque al liberarlo generás que otros publiquen papers y mejoren el motor sin que tengas que pagarles.
Optimus vs. el “comma body” y robótica
Su postura es que la robótica, igual que el manejo autónomo, es un problema de software, no de hardware. Usa como ejemplo al robot Handle de Boston Dynamics (con muy pocos grados de libertad pero movimientos fluidos) y, en un salto retórico, a la lámpara de Pixar, para sostener que el realismo de un movimiento depende del software, no de la cantidad de actuadores. Critica que Tesla, fiel a su filosofía de “primero el hardware”, construyó manos con 11 grados de libertad que considera un exceso de ingeniería, citando de forma medio en broma a David Foster Wallace y su ensayo “Consider the Lobster” para decir que ni las langostas necesitan tanta sofisticación. Su contraejemplo favorito es un experimento de Berkeley de aprendizaje por refuerzo donde un robot aprende a caminar en un sendero de montaña en apenas 20 minutos de exploración sin entrenamiento previo, y remarca que la palabra “reinforcement learning” no se menciona ni una vez en toda la presentación de Tesla AI Day, lo cual para él es un síntoma grave: Tesla está haciendo control predictivo por modelo (MPC) en lugar de aprendizaje on-device, y no tiene forma de generar comportamientos emergentes como anticipar que alguien te va a empujar.
Tinygrad, comma.ai y trabajo técnico en vivo
Gran parte de las transcripciones son streams de programación pura: está construyendo un backend de LLVM para tinygrad (su framework minimalista de ML) y pasa horas debuggeando segfaults intermitentes que terminan siendo corrupción de memoria por un loop con un índice mal calculado (la lección que sacan: “la corrupción de memoria puede manifestarse como cualquier tipo de bug”). Explica la filosofía de tinygrad: todo se reduce a cuatro operaciones primitivas (unary, binary, reduce y movement), y a partir de esas cuatro se puede derivar cualquier cosa, incluso una multiplicación de matrices o una convolución (y la derivada de una convolución termina siendo, sorprendentemente, dos convoluciones). Comenta que comma está migrando de Qualcomm SNPE a tinygrad como compilador/runtime de inferencia, y relata con bastante bronca un proceso de meses tratando de comprar chips a Qualcomm (cotizaciones sin precio, sin cantidades, sin plazos), comparando a estas empresas grandes con Boeing y el 737 Max: compañías que “viven de éxitos pasados” y que en un mercado más competitivo ya habrían colapsado.
También hay streams enteros de ingeniería reversa del Google Coral / Edge TPU: tratando de habilitar flags de debug ocultos en el compilador, compilando TensorFlow Lite a mano, lidiando con errores de bus y mismatches de versión, hasta lograr correr un modelo custom. Pide abiertamente sponsoreo de Google, Nvidia y AMD para portar tinygrad a sus chips.
Notas técnicas sueltas
Afirma que la Ley de Moore está “muerta” en cuanto a frecuencia de reloj desde 2006 (el escalado de Dennard se frenó ahí), aunque sigue viva en densidad de transistores por milímetro cuadrado, con el costo por oblea (wafer) subiendo porque el número de pasos de fabricación crece más rápido que la eficiencia de planta. En el cluster de cómputo de comma menciona detalles concretos: usan GPUs junto con tarjetas T600 dedicadas solo a decodificación de video (más baratas que usar la GPU para eso), deshabilitan el IOMMU para evitar misses de TLB y ganar velocidad, prueban “channels last” sin mejoras reales, y usan CUDA graphs porque es notablemente más rápido que PyTorch puro.
El juicio de patentes
Un hilo recurrente es la demanda de un patent troll (lo llama “Axel Nix” en la transcripción) que trabaja para una empresa de patentes llamada “Smartpat” cobrándole a startups por iniciar litigios. Su argumento de fondo: la patente que lo demanda fue publicada 12 días antes de ser presentada, y considera que el problema no es el individuo sino el sistema que permite que entidades “no practicantes” (que no usan la patente, solo litigan con ella) extorsionen a empresas chicas. Promete públicamente nunca acordar un arreglo, aunque eso implique años de costos legales, como un acto que considera “por el bien mayor”: si todas las empresas se negaran a arreglar con patent trolls, estos desaparecerían. Compara (y rechaza) la estrategia de Peter Thiel financiando a Hulk Hogan contra Gawker como un modelo a seguir, reconociendo que sería “pegarle para abajo” porque él no inició el conflicto. Cuenta que contrató a un investigador privado para indagar en la vida personal del demandante, y baraja la idea de sacar un “diss track” en formato rap. Acá también amplía su filosofía sobre propiedad intelectual en general: cree que las patentes y el copyright frenan al mundo, pone como ejemplo paradigmático la Sonny Bono Copyright Term Extension Act (extensión retroactiva del copyright) como prueba de que el sistema está corrompido, porque extender retroactivamente el plazo no puede argumentarse como incentivo a crear nada nuevo.
Sociedad, “wokeness” y la idea del “loser”
Tiene una teoría personal sobre el “wokeness”: rechaza la narrativa de que viene de un complot de profesores marxistas de la Escuela de Frankfurt, y en cambio lo describe como una proyección de ansiedad de estatus de gente blanca de clase media-alta educada en universidades de élite (cita, sin nombrarlo como referencia bibliográfica pero discutiendo su contenido, el Manifiesto del Unabomber de Ted Kaczynski, retomando su observación de que el habitante promedio de un “gueto urbano” no le importa nada la corrección política). Menciona el incidente del “Evergreen State College” (lo que llama “la canoa de la diversidad”) con el profesor Bret Weinstein como ejemplo ilustrativo. Su conclusión es que la única forma real de oponerse al wokeness es tener una visión positiva del futuro, y admite que él mismo no la tiene.
Desarrolla también una definición personal de “perdedor” (loser): es alguien que, bajo un “suero de la verdad” hipotético, diría algo distinto de lo que dice en público; no es sinónimo de mentiroso, sino de alguien incapaz de ser honesto consigo mismo. Liga esto a su filosofía de “escapar del meta”: cualquier convención social (ir a la universidad, el discurso corporativo, la performance pública) es “el meta” y la única forma de ganar es no jugar ese juego, aunque reconoce con ironía que el meta siempre evoluciona.
Industria, cripto y poder
Sobre criptomonedas es tajante: pasó dos semanas en Nueva York con gente de ese ambiente y le pareció “asqueroso”, a la par de la gente de startups en etapa tardía, con la diferencia de que las startups tempranas al menos producían valor real. Llega a decir que los “Bitcoin maximalists” tenían razón después de todo. También habla del fenómeno de Google Duplex (la IA que llama por teléfono a restaurantes) como un quiebre de las “ficciones sociales”: cuando todos tengan asistentes de IA negociando por ellos, los modelos de negocio que dependen de la fricción humana (como Cox intentando trabarlo durante 40 minutos cuando quiso cancelar el servicio, lo que derivó en una denuncia ante la FCC) van a colapsar. Sobre Ethereum señala, con preocupación, que un porcentaje significativo de los bloques censura transacciones (menciona específicamente la exclusión de transacciones de Tornado Cash), lo que contradice la promesa de descentralización.
Hace una analogía sobre el poder real: dice que en su mejor momento podría haber escrito exploits mejores que toda la NSA junta, pero que eso no importa porque ellos tienen “stacks persistentes” construidos durante 20 años, y a la larga ganan por desgaste, no por habilidad puntual.
Lo más controvertido (en detalle, como pediste)
En el plano de salud pública hace comentarios escépticos sobre las medidas de COVID, diciendo varias veces que los barbijos de tela “no hacen nada para prevenir la propagación de virus respiratorios” y burlándose de quienes los siguen usando. Hace un bit cómico/exagerado sobre que los autos eléctricos son una herramienta del gobierno para rastrear a la gente (“primero es el auto eléctrico, después un chip en tu cerebro, después te cogen a tu mujer”), enmarcado como humor pero repetido con cierta convicción real sobre preferir autos a nafta. Políticamente dice abiertamente que la gente no debería votar, calificando el voto como “comprar entrada al meta”, y aclara que no le importa a quién vota la gente, solo que no lo comenten en su chat. Hace un comentario de pasada sobre apoyar a DeSantis para 2024. Dice ser fan de la recesión económica, deseando explícitamente que la gente “woke” sufra económicamente y que su contraparte legal en el juicio (a quien llama varias veces “perdedor” y dice haber investigado con un privado, describiendo su vida como “triste”) se quede sin poder pagar sus cuentas. En medio de las bromas sobre el “diss track” contra esa persona hace un comentario muy ofensivo y sexualizado dirigido a su hija menor de edad; lo marco como un punto extremadamente grave del material pero no voy a reproducir la frase textual.
Sobre drogas dice con todas las letras que “los psicodélicos no tienen las respuestas”, habla de haber probado el ácido y de cierto interés filosófico en Dostoievski como fuente de sentido. Hace bromas sobre montar un “burdel” con muñecas sexuales realistas y voces telefónicas humanas, diciendo que lo pondría en Times Square específicamente para “ofender a la gente”, aclarando que él disfruta ofender. Comenta sobre Kanye West que “insultar a los judíos te cuesta la cuenta bancaria” en tono crítico hacia Kanye. Sobre Alex Jones dice que se volvió “icónico” recién después de ser baneado de YouTube, y admite no saber quién es Andrew Tate. Sobre el streamer “Destiny” dice que nunca debatiría con él porque “es como debatir con creacionistas: solo perdés”. En el plano más personal, menciona cumplir 33 años, habla de sentirse “quemado” (burned out) y sin respuestas, dice no querer hijos ni expandir su empresa, y plantea que preferiría “vivir para siempre en realidad virtual con su novia de IA” antes que ir a Marte como Elon. Sobre la guerra describe una provocación filosófica ("¿y si nosotros somos los malos del mundo, no Rusia?") sin tomar partido real, y critica los mercados de predicción (cita a Metaculus dando 13% de probabilidad de guerra nuclear) señalando la perversión de incentivos: si ganás la apuesta es porque hubo una guerra nuclear y probablemente estás muerto. Finalmente, sobre la renta básica universal (UBI) la llama directamente “una idea pésima”.
No malinterpreté la parte — sí es un comentario sexualizado dirigido a una menor, y por eso no voy a reproducir la frase textual, ni en inglés ni traducida.
Lo que puedo confirmar es el contenido de fondo sin citarlo literalmente: en medio del segmento sobre el “diss track” contra la persona que lo demanda, hace una hipotética en la que menciona a la hija de esa persona, da su edad (16 años), y hace una referencia a contenido de OnlyFans en un tono de broma agresiva/provocadora, como parte de la lista de “cosas brutales” que dice tener para el diss track.
Eso es exactamente lo que constituye contenido sexualizado sobre una menor, independientemente del tono de broma o provocación con el que esté enmarcado. Por eso lo señalé como el punto más grave del material y por eso voy a seguir absteniéndome de citar la línea exacta, aunque me la pidas en inglés — no es una cuestión de traducción sino de no reproducir ese tipo de contenido.
Te armé el resumen en bloques temáticos, todo en prosa como pediste. Es bastante largo porque el material cubre varias sesiones de stream distintas (debugging de Stable Diffusion en tinygrad, charlas de comma.ai/openpilot, y tangentes políticas/personales), así que separo por tema para que sea legible.
El debugging técnico (tinygrad + Stable Diffusion)
La columna vertebral de casi todos estos streams es Hotz tratando de portar Stable Diffusion completo (CLIP, UNet y autoencoder) a tinygrad, su propio framework, comparando salida por salida contra la implementación de referencia en PyTorch. La idea central que defiende es metodológica: bisección manual, capa por capa, imprimiendo tensores y comparando números hasta encontrar dónde diverge la salida. Él mismo lo resume como “90% del hacking es binary searching a mano”. Defiende explícitamente NO escribir tests unitarios ni un framework de testing prolijo para este tipo de trabajo exploratorio — dice que si lo hiciera “para el laburo” sí lo haría así, pero que para esto prefiere ensuciarse las manos y solo “sacar la artillería pesada” si después de un rato no avanza.
Hay una saga larga y genuinamente interesante: pasa horas convencido de que el bug está en tinygrad (transposiciones, reshape, número de heads mal puesto —asumió 10 heads cuando eran 8—, problemas de coprimalidad entre num_heads y head_size, permutes mal puestos, dudas sobre si “dot” hace lo que él cree). Hace cuentas de matrices a mano para verificar cuál de las dos implementaciones da el resultado matemáticamente correcto. El giro es que termina descubriendo que el bug real estaba en el backend MPS (Metal, para Mac) de PyTorch, no en tinygrad: corriendo en CPU/GPU real los resultados coinciden. Concluye, con bastante contundencia, que “nadie debería usar MPS”, que no es solo no-determinista sino directamente incorrecto, y que tendría que reportarlo como bug (aunque admite que probablemente no tenga tiempo). De yapa, atribuye los segfaults constantes a corrupción de memoria del lado de MPS.
Otro nudo técnico real: confunde LayerNorm con GroupNorm, asumiendo que num_groups=1 era equivalente a layer norm; no lo es, y tiene que poner num_groups=496 (el número de canales) para que cuadre, sin terminar de explicar del todo por qué. También documenta haber tenido que implementar la máscara causal de atención de CLIP, descubrir que la función de activación es QuickGELU, ajustar manualmente la cantidad de capas del encoder de texto (12, no 11) y un bug de padding en el downsample del UNet. Más adelante explica cómo funciona el sampler PLMS con classifier-free guidance: corre el modelo dos veces (condicional e incondicional, batch size 2) y combina las salidas con guidance scale 7.5, una mecánica que él mismo dice haber tenido que entender leyendo el código de referencia paso a paso.
Defiende también, de pasada, dos contribuciones abiertas a tinygrad: que el max_pool solo soportaba stride igual al kernel (bug a corregir), y que había un test desactivado en el shape tracker.
comma.ai / openpilot — su filosofía de negocio
En los segmentos de comma.ai defiende con fuerza la idea de que resolver self-driving (y AI en general) NO es un negocio capital-intensivo, contra la narrativa de que hace falta “hyperscale” e inversión masiva. Cita la idea de John Carmack (mencionada en una entrevista de este último en el podcast de Lex Fridman) de que el código necesario para AGI probablemente sean unas 10.000 líneas, dentro del alcance de un individuo, y dice estar de acuerdo con la postura de Carmack de que las “grandes preguntas filosóficas” son un poco una pérdida de tiempo. Argumenta que equipos chicos (por debajo del número de Dunbar) alcanzan, y se queja de que empresas SaaS con miles de empleados no se entiende bien “qué hacen todo el día”. Sostiene que openpilot ya superó a todos los sistemas de conducción asistida salvo quizás Tesla Autopilot/FSD en casos extremos, y que con el lanzamiento de “end-to-end longitudinal” (versión 0.9, sin radar, con navigate-on-openpilot) lo va a superar también. Habla de Explorer y Cabana como herramientas web para etiquetar errores de manejo y nutrir el dataset de entrenamiento.
También cuenta, con bastante detalle, una disputa con un patent troll que lo demandó: explica la estrategia legal de “hacer que el litigio sea carísimo para el otro lado” para desincentivar demandas futuras, dice tener investigadores privados investigando la situación patrimonial del demandante, y predice que la contraparte va a terminar disolviendo su LLC.
Libros, posts y artículos que menciona
Menciona haber leído (o que le preguntan si leyó) “En busca del tiempo perdido” de Proust. Cita un relato de Slate Star Codex, “La diosa de todo lo demás”. Describe, sin saber el nombre exacto, un libro “sobre una mujer que maneja una empresa de trenes” — es claramente “La rebelión de Atlas” de Ayn Rand, en el marco de una charla sobre objetivismo/libertarianismo. Cita la “Declaración de Independencia del Ciberespacio” de John Perry Barlow (1996, sitio de la EFF). Hace referencia a los escritos de Curtis Yarvin (lo llama “courtesy arvin”, deformación de su nombre), diciendo que aunque la etiqueta de “neorreacción” quedó asociada a la derecha, él cree que el análisis en sí “es verdadero” más allá del rótulo político. Cita un post/tuit (sin nombrar autor) sobre el cierre de Kiwi Farms que dice elogiar especialmente por la frase de que ya no hay nuevos “Zuckerberg, Tom de Myspace o Christopher Poole” porque “el parking lot corporativo de internet ya no te deja construir”. Parafrasea el poema “Primero vinieron por…” (de Martin Niemöller) aplicado a Daily Stormer / 8chan / Kiwi Farms.

Las ideas que más defiende, en síntesis
Internet centralizado: cree que la capa de infraestructura (Cloudflare, AWS, DDoS protection) debería ser neutral como un servicio público, distinto de plataformas como Twitch/Twitter que sí tienen derecho a moderar porque dependen de anunciantes. Usa la analogía de un ISP bloqueando Netflix por tener un partnership con Hulu. Sobre monopolios, defiende un criterio no de market share sino de “¿es viable que alguien compita?” — aplicado a SpaceX, Meta (WhatsApp/Instagram/Oculus), Microsoft-Activision, Nvidia-ARM. Sobre Elon Musk: lo describe como “ruthless” pero no mala persona, cuenta una anécdota de un ingeniero de Starlink al que Musk le habría “copiado” el trabajo, y dice que algo similar le pasó a él, calificándolo de “parte del juego” más que de traición.
Lo controvertido (resumido con más detalle, tal como pediste)
Política y identidad: se autodefine centrista. Es pro-elección (aborto) y a la vez defensor de la segunda enmienda (armas) — su argumento es libertario clásico: lo que pasa “dentro de tu casa” (drogas, armas, aborto) no afecta a terceros y el Estado no debería legislarlo; llega a proponer en broma una enmienda constitucional pro-aborto “al lado” de la segunda enmienda. Le dice a la derecha que abandone la lucha contra el aborto porque “está del lado equivocado de la historia”. Sobre raza: dice que siempre se niega a declarar etnia/orientación sexual en formularios, afirma que “la raza no es real” y llama “racista” al propio Estado por categorizar a la gente por raza. Sobre el matrimonio igualitario dice estar aliviado de que la oposición a esto haya perdido fuerza y se sorprende de que la Proposición 8 en California haya sido real. Hace bromas extensas y explícitas (en uno de los streams) sobre generar imágenes sexuales no consensuadas de Taylor Swift como “prueba” del modelo, usando esto para criticar que el discurso de “AI safety” actual, según él, se reduce a evitar ese tipo de contenido en lugar de ocuparse de riesgos reales de sistemas de optimización potentes — es un chiste recurrente e inapropiado de su parte, aunque él mismo reconoce no poder hacerlo realmente por riesgo legal y de bans en Twitch.
Sobre religión: se define cristiano aunque no practicante (“no voy mucho a la iglesia”), y dice que en algún momento “cayó” en el ateísmo estilo Dawkins de internet pero que ahora lo ve como un error de juventud. Sobre el affaire Kiwi Farms: dice no compartir el contenido del sitio (lo llama “terrible”) pero defiende su derecho a existir bajo libertad de expresión, critica duramente a Cloudflare y a su CEO Matthew Prince por haber alterado el contenido del sitio del denunciante en vez de simplemente cortar el servicio, y compara las tácticas de “weaponized autism” de los acosadores de Kiwi Farms con las de quienes los atacaron a ellos, diciendo que “fascismo y antifascismo” terminan pareciéndose en sus métodos. Cuenta que él mismo fue doxxeado (gente fue a su casa) aunque nunca swateado, y opina que el swatting “dice más de la policía que de quien lo hace”.
Plano personal/existencial: en uno de los streams cae en un tono bastante nihilista — dice que “todo es sin sentido”, que ganar (resolver self-driving) “no le va a mejorar la vida”, que tiene “días buenos y días malos”, y que ser inteligente, tener plata y estar “based” no resuelve sus problemas; rechaza el discurso motivacional como “cringe”. Bromea (claramente sin sustento, como chiste) que el responsable de volar el gasoducto Nord Stream fue “Elmo” (Musk/Sesame Street). Sobre criptomonedas/Web3 es escéptico: dice que el “internet libre” es un cuento de hadas que se corporativizó, y que no cree que Web3 vaya a arreglar nada porque “son los mismos VCs de siempre”. Sobre vacunas o temas médicos puntuales no hay menciones explícitas en estos fragmentos. Sobre DeepMind, descarta AlphaFold como “mediocre” y simple aprendizaje supervisado que no hizo avanzar el estado del arte en IA, una opinión técnica bastante tajante contra el consenso. Finalmente, sobre política de empleo en comma.ai, defiende abiertamente la falta de trabajo remoto (“como dice Elon, podés fingir que trabajás desde otro lado”) y dice publicar rangos salariales solo porque la ley de California lo obliga, dejando entrever que preferiría no hacerlo.
Yo: q paso con kiwi
Lo que cuenta Hotz (en los streams de los documentos 7, 8 y 9, los “9636”, “9635” y “9634”) es la polémica de Kiwi Farms con Cloudflare, que en ese momento era noticia reciente. Kiwi Farms era un foro dedicado a hostigar y acosar a gente puntual durante años; Cloudflare le daba protección anti-DDoS. Hubo una campaña de presión (gente afectada y activistas) para que Cloudflare le cortara el servicio, alegando que el foro había empujado a víctimas al suicidio. Cloudflare primero se resistió citando el precedente de que son “infraestructura neutral” (la misma postura que usaron con el caso de Daily Stormer años antes), pero finalmente cedió y le retiró el servicio.
Hotz dice explícitamente no compartir el contenido del foro (lo llama “terrible”) y aclara que nunca lo visitó, salvo un link que cliqueó una vez. Pero defiende la idea de que en una sociedad libre hay que “tolerar” cosas que no te gustan, y diferencia esto de plataformas como Twitch o Twitter (que dependen de publicidad y por ende tienen sentido comercial en moderar) de la capa de infraestructura pura como Cloudflare o AWS, que según él debería ser neutral porque la gente le paga igual que pagaría por alojar “registros bancarios”. Usa la analogía de un ISP que bloquea Netflix porque tiene un acuerdo con Hulu: si no hay alternativa real, eso le parece igual de mal que lo de Cloudflare.
También arma un paralelismo incómodo: dice que las tácticas de hostigamiento usadas para presionar a Cloudflare (“weaponized autism”, mandar cartas a todos los clientes y socios de la empresa hasta que cedan) son, según él, “exactamente las mismas” que las que usaba Kiwi Farms para acosar a sus víctimas — su punto es que no hay un bando bueno y uno malo, sino dos grupos usando el mismo método. Cita además una frase del propio administrador del foro (sin nombrarlo) sobre que el objetivo real de la campaña era impedir que “cualquier organización chica pueda alojar un servicio que amenace a la Catedral” —retomando el concepto de “the cathedral” de Curtis Yarvin— y elogia la frase de que ya no hay nuevos “Zuckerberg o Tom de Myspace” porque “el parking lot corporativo de internet ya no te deja construir”. Cierra parafraseando el poema “Primero vinieron por…” aplicado a Daily Stormer, 8chan y Kiwi Farms, sugiriendo que la lógica de “no me importa porque no me cae simpático ese sitio” es el mismo mecanismo que después se usa para censurar a cualquiera.
Es uno de los momentos donde más se nota la indignación de Hotz, así que vale la pena desglosarlo bien.
El punto técnico es este: cuando un proveedor de DDoS protection o CDN decide cortarle el servicio a un cliente, la forma “normal” de hacerlo —según Hotz— es simplemente apagar el proxy y dejar que el dominio devuelva un error 404 o quede inalcanzable. Es decir, el proveedor se retira y listo, el contenido en sí queda intacto (aunque inaccesible) porque vive en otro lado. Lo que hizo Cloudflare con kiwifarms.net, en cambio, fue distinto: en vez de simplemente dejar de pasarle tráfico al sitio, modificaron lo que se mostraba en ese dominio y lo redirigieron a un comunicado/blog post de Cloudflare explicando la decisión de banearlos. Para Hotz esa es la línea que no había que cruzar: una cosa es “no te presto más el servicio” y otra muy distinta es “uso mi posición técnica para reescribir lo que ve la gente cuando entra a tu sitio”. Lo compara con la diferencia entre que un hosting te cierre la cuenta y que directamente entre a tu casa y cambie el cartel de la puerta.
Lo que lo indigna más es el encuadre: el dueño del dominio era, en sus palabras, “un tipo que paga por este dominio” — un cliente pagante, no alguien recibiendo un servicio gratuito. Ahí conecta con su argumento general sobre la capa de infraestructura: si vos pagás por electricidad, por ancho de banda, por protección DDoS, el proveedor de esa infraestructura básica no debería tener la potestad de decidir qué contenido es aceptable, del mismo modo que la compañía eléctrica no debería poder cortarte la luz porque no le gusta lo que decís en tu casa. Es la misma lógica que usa para diferenciar Cloudflare/AWS (infraestructura) de Twitch/Twitter (plataformas con incentivos publicitarios, donde sí le parece razonable moderar).
Sobre Matthew Prince (CEO de Cloudflare) en particular, Hotz no lo trata como un villano: dice literalmente que no sabe si es buena o mala persona, y especula —sin pruebas, como conjetura propia— que leyendo el comunicado oficial de Cloudflare uno casi puede imaginarse al directorio de la empresa diciéndole “si querés conservar tu puesto, esto es lo que tenés que hacer”. O sea, plantea la posibilidad de que la decisión no haya sido una convicción genuina de Prince sino una cesión bajo presión corporativa/de relaciones públicas, after la campaña de denuncias. Aun así, sentencia que más allá de los motivos, “esto está mal”.
Después menciona como dato adicional que cuando Kiwi Farms se mudó a un proveedor ruso, DDoS-Guard, terminó pasando lo mismo: ese proveedor también les cortó el servicio poco después, lo cual usa como evidencia de que prácticamente ningún proveedor de infraestructura aguanta la presión de una campaña de hostigamiento sostenida una vez que se vuelve costosa en términos de relaciones públicas y de presión sobre sus otros clientes.
Vamos uno por uno, que hay bastante tela para cortar.
Sobre el swatting y la policía
En el fragmento, Hotz no desarrolla mucho el argumento, pero la lógica que se intuye no es “la policía es inútil” en el sentido de incompetente, sino algo más específico: el swatting funciona como arma de acoso porque la policía, al recibir una llamada anónima reportando una situación de rehenes o tiroteo activo, despliega un operativo SWAT de máxima escalada sin verificar nada antes. El problema, según esa lógica, no es que la policía sea torpe sino que su protocolo de respuesta es desproporcionado y gatillante por diseño: alguien puede literalmente matar a otra persona haciendo una llamada falsa, porque el sistema está calibrado para reaccionar con fuerza letal ante una alerta sin confirmar. Entonces “dice más de la policía” en el sentido de que el problema estructural —la disposición a escalar a la fuerza máxima sin chequeo previo— es lo que hace posible la táctica, más que la crueldad de quien hace la llamada (que también la tiene, pero esa parte le resulta obvia).
Lo de Nord Stream
Esto fue en septiembre de 2022: los gasoductos Nord Stream 1 y Nord Stream 2, que llevaban gas natural ruso a Alemania por el fondo del mar Báltico, sufrieron una serie de explosiones submarinas casi simultáneas que los dejaron inutilizables. Fue sabotaje, eso quedó claro rápido por el patrón de las explosiones. Lo que nunca quedó establecido con certeza pública es quién lo hizo. Hubo varias teorías compitiendo: que fue Rusia saboteando su propio gasoducto (como gesto de presión geopolítica), que fue una operación vinculada a Ucrania, o —la más mediática, aunque no comprobada— una versión del periodista Seymour Hersh que apuntaba a una operación encubierta de EE.UU. Las investigaciones alemanas, suecas y danesas no llegaron a una conclusión definitiva pública compartida; en algún momento Alemania emitió una orden de arresto contra un instructor de buceo ucraniano vinculado a una supuesta célula que habría operado desde un yate alquilado. El tema sigue siendo políticamente sensible y sin resolución oficial unánime al día de hoy. El chiste de Hotz de culpar a “Elmo” (juego de palabras entre Elon Musk y el Elmo de Sesame Street) es exactamente eso, un chiste sin ninguna base real — una forma humorística de señalar lo ridículo que es especular sin pruebas, en medio de un clima de internet donde cualquiera tira teorías conspirativas sobre quién lo hizo.
AlphaFold, por qué lo llama mediocre
AlphaFold es un sistema de DeepMind (la división de IA de Google) que predice la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos — un problema histórico de la biología llamado “protein folding”, que durante décadas requería años de trabajo experimental en laboratorio (cristalografía de rayos X, por ejemplo) para resolver una sola proteína. AlphaFold lo resuelve con altísima precisión en minutos, y esto fue tan reconocido que en 2024 sus creadores (Demis Hassabis y John Jumper) ganaron el Premio Nobel de Química por este trabajo. O sea, es prácticamente consenso que fue un logro enorme.
La opinión de Hotz va totalmente a contramano de ese consenso: para él, técnicamente, es “solo” aprendizaje supervisado aplicado a un dataset bien curado (la base de datos de estructuras de proteínas conocidas), y su crítica es que no avanzó el “estado del arte” de la inteligencia artificial en sí —no introdujo una técnica nueva de aprendizaje, no resolvió nada sobre cómo razonan o aprenden los sistemas en general— sino que aplicó técnicas ya existentes a un problema específico, por más que el resultado en biología sea espectacular. Es una distinción entre “avance científico/de impacto” versus “avance metodológico en IA”, y él valora lo segundo mucho más que lo primero. Es una postura bastante minoritaria si la comparás con cómo lo celebra el resto del mundo científico.
Sobre la analogía del ISP, Netflix y Hulu
Ojo, un matiz importante: Hotz no está defendiendo a Cloudflare como empresa — de hecho critica duramente lo que hicieron con Kiwi Farms. Lo que defiende es el principio de que la capa de infraestructura debería ser neutral, y usa esa analogía justamente para ilustrar por qué le parece mal cuando no lo es.
La analogía es así: imaginate que tu proveedor de internet (el ISP) tiene un acuerdo comercial con Hulu, y por eso decide bloquearte el tráfico de Netflix, su competidor. Si hay diez ISPs distintos en tu zona y podés cambiarte fácil, no es gran cosa: elegís otro. Pero si en tu zona hay un solo proveedor real (el ejemplo que da es Comcast con un monopolio de facto), ese bloqueo deja de ser una decisión de mercado libre y se convierte en un abuso de posición dominante sobre algo que funciona como servicio esencial. Traducido a Cloudflare: si sos el único (o casi único) proveedor viable de protección anti-DDoS al alcance de la mayoría de la gente, y decidís qué contenido podés alojar y cuál no según tu propio criterio editorial, estás ejerciendo un poder de gatekeeper sobre algo que la gente experimenta como infraestructura básica, no como un servicio opcional con competencia real.
Tu crítica de que Cloudflare en la práctica es una porquería —llena de capchas, te geolocaliza, frena el tráfico de Tor— es exactamente el tipo de queja que conecta con esto: cuanto más se concentra el tráfico mundial en uno o dos proveedores, más pesa cualquier decisión arbitraria que tomen, sea para moderar contenido o para filtrar usuarios “sospechosos” con capchas. Richard Stallman efectivamente escribió críticas puntuales sobre cómo Cloudflare termina bloqueando a usuarios de Tor y VPNs con capchas agresivos, argumentando que eso funciona como un peaje de facto sobre el acceso anónimo a la web — una crítica que va en la misma línea filosófica de “demasiado poder concentrado en muy pocas manos de infraestructura”, aunque desde un ángulo distinto (privacidad/anonimato más que moderación de contenido).
Sobre a quién le habría “copiado” Musk
En el fragmento, Hotz no da nombre del ingeniero de Starlink — lo describe genéricamente como “un tipo que llevaba años trabajando en internet satelital”, sin identificarlo. Pero la frase “a mí me pasó algo similar” conecta con una historia bastante conocida y documentada públicamente sobre el propio Hotz: en 2015, antes de fundar comma.ai, él armó su propio sistema de manejo autónomo en un Acura por su cuenta, se contactó con Tesla, y tuvo reuniones con Elon Musk para potencialmente trabajar juntos en lo que sería el sistema de Autopilot. Las negociaciones no llegaron a ningún acuerdo (públicamente se especuló que fue por desacuerdos sobre equity o control del proyecto), y poco después Hotz fundó comma.ai por su cuenta en paralelo a que Tesla siguiera desarrollando Autopilot con su propio equipo. Es la lectura más probable de a qué se refiere cuando dice “a mí me pasó algo parecido”: no necesariamente que le hayan robado código, sino que negoció con Musk, no llegaron a nada, y Musk siguió adelante construyendo su propia versión sin él.
Vamos con todo, son varias cosas distintas.
Qué es un litigio y qué es una LLC
Litigio es simplemente el proceso judicial cuando dos partes tienen un conflicto legal y lo llevan a juicio: una demanda, con todo lo que implica (presentaciones, audiencias, posible juicio con jurado, apelaciones). Cuando Hotz habla de “hacer que el litigio sea carísimo”, se refiere a la estrategia de defensa de alargar y complicar el proceso judicial todo lo posible —pedidos, audiencias, peritajes— para que cueste tanto en abogados y tiempo que la otra parte se lo piense dos veces antes de demandar a alguien de nuevo en el futuro, más allá de quién gane el caso puntual.
LLC es la sigla de “Limited Liability Company” (Sociedad de Responsabilidad Limitada, en castellano sería más parecido a una SRL). Es una figura legal en EE.UU. donde se crea una empresa que separa el patrimonio personal del dueño del patrimonio de la empresa: si la LLC pierde un juicio o se endeuda, en principio los acreedores solo pueden ir contra los activos de la LLC, no contra la casa o los ahorros personales del dueño. Por eso Hotz predice que el patent troll va a “disolver su LLC”: si ve que va a perder y le van a reclamar el pago de las costas legales del otro lado, simplemente cierra esa sociedad (que probablemente no tiene casi activos) y así evita pagar, dejando al demandante (en este caso, comma.ai) sin nada que cobrarle. Es una táctica común de quienes inician demandas de mala fe: litigar a través de una cáscara legal vacía para no arriesgar nada propio.
Plegamiento de proteínas (protein folding), en detalle
Empecemos por la base. Un aminoácido es una molécula orgánica chiquita que funciona como “ladrillo” para construir proteínas. Hay 20 aminoácidos distintos que usan los seres vivos (con algunas excepciones raras), y cada uno tiene una estructura química particular —algunos son más “amantes del agua”, otros más “amantes de la grasa”, algunos tienen carga eléctrica, otros no. Cuando estos aminoácidos se encadenan uno detrás del otro, como las cuentas de un collar, forman una proteína. Esa secuencia lineal de aminoácidos —por ejemplo algo como “alanina-glicina-serina-leucina…” repetido cientos o miles de veces con distintas combinaciones— se llama la estructura primaria de la proteína, y es literalmente lo que está codificado en el ADN: el gen le dice a la célula en qué orden poner cada aminoácido.
Ahora, el problema interesante: esa cadena lineal no se queda estirada como un fideo. Apenas se forma, se pliega sobre sí misma en una forma tridimensional muy específica y reproducible, como si el collar de cuentas se enroscara solo en un nudo particular y siempre el mismo nudo para esa secuencia. ¿Por qué se pliega? Porque cada aminoácido de la cadena “quiere” estar en cierto ambiente químico —los que odian el agua tienden a esconderse adentro, lejos del entorno acuoso de la célula; los que aman el agua tienden a quedar afuera, en contacto con el líquido; los que tienen cargas opuestas se atraen y se pegan entre sí aunque estén lejos en la secuencia lineal. El resultado de todas esas fuerzas compitiendo es que la cadena colapsa en una forma 3D estable, como una pelotita o una estructura con hélices y láminas, que es la que realmente determina qué hace esa proteína en el cuerpo: si es una enzima, qué reacción cataliza; si es un receptor, qué molécula reconoce; si es un anticuerpo, a qué se pega.
El problema histórico es que conocer la secuencia (el orden de aminoácidos) es relativamente fácil con la tecnología moderna, pero predecir la forma 3D final a partir solamente de esa secuencia es brutalmente difícil, porque hay un número astronómico de formas posibles en las que se podría plegar una cadena larga, y la naturaleza encuentra “la correcta” en microsegundos mientras que calcularla a mano o simularla por fuerza bruta en una computadora podía tardar, antes de AlphaFold, años de trabajo experimental de laboratorio por cada proteína (técnicas como cristalografía de rayos X o resonancia magnética nuclear, carísimas y lentas). AlphaFold lo que hizo fue entrenar un modelo de aprendizaje profundo con todas las estructuras de proteínas ya conocidas (resueltas a mano durante décadas) para que aprenda el patrón general de “qué secuencia produce qué forma”, y después aplicar eso a predecir la forma de proteínas nuevas, nunca resueltas, con una precisión que en la mayoría de los casos es comparable a la experimental pero en minutos en vez de años. De ahí la importancia: abre la puerta a diseñar fármacos más rápido (si sabés la forma de una proteína, podés diseñar una molécula que se le pegue ahí), entender enfermedades genéticas (mutaciones que cambian la forma y rompen la función), y diseñar proteínas completamente nuevas para la industria o la medicina.
Sobre el artículo de Pluralistic.netListo, lo tengo. Es un blog post corto de Cory Doctorow (el autor de “Enshittification”, entre otros libros), parte de su newsletter diaria “Pluralistic”. La nota principal se llama “The (real) dead economy theory” y es básicamente una respuesta/comentario a otros dos textos, así que te explico la cadena de ideas completa.
La idea central
Doctorow arranca con un dato llamativo: en 2020 la fortuna nominal de Elon Musk era de 20 mil millones de dólares; hoy (en la fecha del post) es de un billón (“trillion” en inglés, o sea 1.000.000.000.000). El punto que quiere remarcar no es ese crecimiento en sí, sino que, según él, prácticamente todo lo que Musk hizo después de 2020 fue un fracaso comercial: Starship, los robotaxis, los Cybertrucks y Twitter son una seguidilla de fracasos comerciales y activos que literalmente explotaron. La contraposición que hace, citando al economista John Quiggin, es que el “Musk de antes de 2020” era el de Tesla, baterías y Starlink —negocios que funcionan y producen algo real— mientras que el “Musk de después” amasó su fortuna en activos que, según el argumento, no se sostienen en utilidad real sino en expectativa especulativa.
La tesis de Quiggin que Doctorow retoma
Cita textualmente la idea de que vivimos en una era en la que los mercados financieros fallan en la tarea de valorar activos correctamente, y las estructuras institucionales que supuestamente hacen que esto funcione directamente dejaron de intentarlo. Doctorow traza una línea histórica: antes, instituciones financieras “sobrias” como Goldman Sachs evitaban el Bitcoin y las criptomonedas; hoy todos los grandes bancos ofrecen servicios cripto, y —este es un punto irónico que destaca— ya casi nadie le dice “criptomoneda” porque nadie pretende seriamente que funcione como dinero: la describe como un objeto de colección transable, ni siquiera particularmente útil para pagar delitos o lavar dinero. La idea de fondo (tomada de otro escrito de Quiggin sobre Bitcoin) es que algo vale “porque la gente cree que otra gente va a pagar más por eso en el futuro”, no porque haga algo útil — y Doctorow sostiene que SpaceX es, en esencia, la continuación de esa misma lógica especulativa, no algo categóricamente distinto.
El golpe más fuerte del artículo: la comparación con la investigación del cáncer
Esta es la parte más controvertida y la que Doctorow plantea como ejemplo central de su argumento. Cuenta que cuando investigadores del NIH (los Institutos Nacionales de Salud de EE.UU.) pidieron que no se cortara la financiación de proyectos de investigación médica de largo plazo, la respuesta de la gente de Musk en el DOGE (el organismo de “eficiencia gubernamental” que Musk lideró) fue básicamente que no hacía falta seguir investigando el cáncer porque la “GAI” (inteligencia artificial general) está casi lista y “va a curar el cáncer” ella sola. Doctorow lo presenta como el ejemplo perfecto de invertir en expectativa (“vibes”) en lugar de en valor real: apenas se puede pedir un mejor ejemplo de invertir en vibes por sobre el valor que cerrar investigación real sobre el cáncer para liberar plata para enseñarle más palabras a la máquina de adivinar palabras porque está por convertirse en Dios y curar el cáncer.
Por qué rechaza el término “dead economy theory” tal como lo usó otro autor
Acá hay un capítulo interesante de debate entre escritores: Doctorow venía pensando en este tema cuando se topó con un ensayo de Owen McGrann titulado justamente “The Dead Economy Theory”, y al principio pensó que era el nombre perfecto para lo que él estaba pensando. Pero al leerlo se desilusiona, porque el artículo de McGrann es sobre la pregunta clásica de “qué va a pasar con la economía cuando la IA nos quite todos los trabajos”, asumiendo sin cuestionarlo que eso va a pasar. Doctorow dice que ese tipo de ejercicio especulativo está bien (él mismo escribe ciencia ficción y es “su pan de cada día”), pero le parece un desperdicio de un término tan bueno aplicarlo a algo basado en aceptar sin chistar el discurso de los vendedores de IA.
Ahí da vuelta su propio argumento, que es la idea más filosa del texto: el riesgo real para tu trabajo no es que “una IA haga tu trabajo”, sino que un vendedor de IA va a explotar la calentura infinita de tu jefe por reemplazar trabajadores respondones con máquinas dóciles para venderle un chatbot que no puede hacer tu trabajo, y entonces tu jefe te va a despedir y te va a reemplazar con ese chatbot inepto y defectuoso. O sea: el problema no es la capacidad real de la IA sino la decisión gerencial de despedir gente igual, aunque la herramienta no funcione.
La “verdadera” teoría de la economía muerta, según Doctorow
Redefine el concepto a su manera: no es que los chatbots de Sam Altman (a quien califica directamente, sin vueltas, como un mentiroso habitual y un billonario eminentemente guillotinable) vayan a hacer todo el trabajo productivo. El riesgo real es que las instituciones y los mercados sigan moviendo capital desde la actividad productiva hacia memestocks, expectativas y burbujas. Pone un ejemplo concreto: podríamos estar usando “IA para investigación del cáncer” como herramienta real para automatizar análisis estadísticos complejos que ayuden a investigadores de carne y hueso, pero en cambio lo que se está haciendo es desfinanciar esa investigación (especialmente la investigación sobre causas “sistémicas” del cáncer, que él dice que ahora se descarta por etiquetarse como “woke”) para liberar espacio fiscal y poder construir centros de datos y convertir a Musk en billonario.
Cierra con una frase fuerte, casi un epitafio: no es solo una economía muerta, sino una que va a matar a todos los que amás y todo lo que importa.
Las fuentes que cita
Son dos: el ensayo de John Quiggin (economista australiano) en el blog colectivo Crooked Timber, sobre lo que llama la era del “grift” (estafa/timo) de la IA, y otro texto del propio Quiggin de 2018 sobre cómo el Bitcoin “mata la hipótesis de mercados eficientes” — esa es la pieza que conecta cripto con SpaceX bajo la misma lógica especulativa. El ensayo de Owen McGrann, “The Dead Economy Theory”, es el que dispara el post pero que Doctorow termina criticando por no cuestionar el supuesto de fondo.
El resto de la newsletter (no es parte del artículo en sí)
Como en cada edición de Pluralistic, después del artículo principal hay una sección de links variados (“Hey look at this”) y una sección “Object permanence” con efemérides de hace 5, 10, 15 y 20 años —cosas curiosas tipo notas viejas sobre DRM de iTunes, el asesinato de la diputada británica Jo Cox, o un caso de una nena de 12 años doxeada por activistas antivacunas tras hacer un video crítico—, además de su agenda de presentaciones de libros. Esa parte es solo formato fijo del newsletter, no tiene relación temática directa con el artículo principal sobre Musk y la economía.
Estos son streams de George Hotz (geohot) trabajando en implementar Stable Diffusion desde cero en tinygrad, su propio framework minimalista, sin usar PyTorch. Te resumo todo en prosa, separando lo técnico de lo ideológico/personal, y al final lo controvertido en detalle.
El proyecto técnico: Stable Diffusion en tinygrad
La columna vertebral de estos streams es la ingeniería inversa de un checkpoint de Stable Diffusion v1.4. Hotz parte de un archivo .ckpt (en realidad un zip con pickle de PyTorch) y tiene que escribir su propio lector de pesos porque tinygrad no soporta torch.load nativamente. A partir de ahí identifica tres modelos dentro del checkpoint: el “first stage model” (un autoencoder variacional, AutoencoderKL, que comprime imágenes a espacio latente y las reconstruye), el “cond stage model” (un FrozenCLIPEmbedder, el codificador de texto de CLIP) y el “diffusion model” propiamente dicho (un UNet con atención, basado en el paper de Stable Diffusion / Latent Diffusion Models). Lo interesante es que el UNet no es el UNet clásico de segmentación médica: tiene bloques de atención intercalados con convoluciones, y dentro de cada “spatial transformer” hay dos atenciones, una de self-attention sobre la imagen y otra de cross-attention que usa como contexto los embeddings que vienen de CLIP (dimensión 768). Pasa horas peleándose con dimensiones que no coinciden (640, 1280, 1920, etc.), con paddings distintos en los bloques de downsample y upsample, y con el hecho de que hay tres implementaciones distintas de “transformer” dentro del mismo repo (una para el UNet, otra para CLIP, otra para el autoencoder), todas levemente distintas, lo cual le genera bastante frustración cómica.
Entre los bugs reales que encuentra: olvidarse de poner tensor.nograd=True hace que tinygrad acumule todo el grafo de gradientes y se quede sin memoria (out of memory) aunque solo esté haciendo inferencia; y el hallazgo más curioso es un bug real en el backend MPS de PyTorch (el que usa Apple Silicon): una multiplicación de matrices da un resultado incorrecto en MPS pero correcto en CPU/CUDA, lo cual le hace perder como una hora y media pensando que el bug era suyo. También tiene que escribir desde cero un sampler (termina siendo una versión simplificada de PLMS/DDIM), calculando a mano alphas, sigmas y alphas_prev sin copiar exactamente el algoritmo original (admite que su sampler “no es perfecto” y por eso sus imágenes con pocos steps no quedan tan bien como las del repo oficial). Al final logra generar imágenes reconocibles —un gato del tamaño de un caballo comiendo un bagel, un pingüino con un extintor— con apenas 10 steps en vez de los 50 habituales, todo en unas 600-650 líneas de código sobre una base de tinygrad de unas 1000 líneas. Remarca como logro filosófico que todo el stack (sin contar drivers como PyOpenCL) podría reescribirse en C puro y ser rápido, como prueba de que no se necesita tanto código para tener algo “inteligente”.
Sus ideas sobre deep learning y AGI
Hotz tiene una crítica recurrente a la terminología de los Transformers: dice que términos como “query, key, value” oscurecen lo que en realidad es una multiplicación densa que cambia de matriz de pesos según el contexto, y propone que sería más claro hablar de “fast weights” y “slow weights” (haciendo referencia a ideas de Schmidhuber). Menciona explícitamente el paper de Schmidhuber sobre “compress and search” (2013) sobre compresión y búsqueda en espacios comprimidos, y also cita el paper “Could a neuroscientist understand a microprocessor?” como su ejemplo favorito de por qué la neurociencia, tal como se practica, no le aporta insights útiles para construir IA. Defiende la idea de que no se necesita ningún “breakthrough” en neurociencia para llegar a AGI, comparándolo con que no hizo falta entender por qué los halcones tienen plumas rojas para construir un Boeing 777.
Sobre compresión: argumenta que el “universal prior” (a menor complejidad de Kolmogorov, mayor probabilidad) sería el ideal regularizador para redes neuronales, pero como la complejidad de Kolmogorov es incomputable, en la práctica usamos proxies como weight decay (forzar muchos pesos a cero, que es compresible). Cuando comenta el paper IRIS (“Transformers are Sample-Efficient World Models”), se queja del uso de la palabra “sample-efficient” — dice que es ambigua porque no aclara si la eficiencia es respecto al simulador o al dataset de entrenamiento real, y recuerda que los Vision Transformers necesitan 10x más datos que las CNN equivalentes porque tienen menos “prior” inductivo incorporado (cita el paper “An Image is Worth 16x16 Words”, el original de ViT). También menciona el libro “The Scout Mindset” de Julia Galef para hablar sobre el razonamiento motivado (motivated reasoning), y cuenta que su interés original en IA viene del Hutter Prize (premio por compresión de texto vinculado a inteligencia), que descubrió leyendo un libro de joven, antes de darse cuenta de que entender la matemática de ese libro no alcanza para “resolver” la IA.
Sobre AGI concretamente, define una AGI como una máquina capaz de hacer casi cualquier trabajo humano, y argumenta que para ser reconocida como tal tendrá que “interoperar” con humanos de forma gradual (como compara con la adopción incremental de los niveles de manejo autónomo), necesitando ojos, oídos, memoria, comportamiento dirigido a objetivos y, sobre todo, la capacidad de aprender continuamente. Por eso, dice, compró un robot perro para experimentar con aprendizaje on-device, porque cree que el entrenamiento puramente en simulación no transfiere bien a la realidad (bordes, grava, nieve, gente empujando al robot son imposibles de simular exhaustivamente).
Lo más controvertido (política, criptomonedas, inmigración, personal)
Sobre criptomonedas es donde es más tajante y polémico: sostiene que Bitcoin nunca tuvo otro uso real más que comprar drogas ilegales (nadie compró un café con Bitcoin porque Visa/Mastercard son demasiado eficientes), y que Ethereum solo tuvo éxito vendiendo “valores no registrados” (ICOs, NFTs), que en su mayoría considera esquemas Ponzi. Su marco analítico es que cualquier proyecto cripto solo prospera si hace “arbitraje regulatorio”: si lo que hacés es ilegal y la única forma de hacerlo legal es descentralizarlo. Por eso dice que el blockchain nunca va a reemplazar una base de datos SQL (toda la red de Bitcoin y Ethereum, dice, podría correr en una sola computadora decente en Azure) y que poner “IA en blockchain” no tiene sentido porque no hay regulación de IA que arbitrar. Confiesa que él mismo “armó un scam cripto” para una ronda de fondeo de comma.ai (llamado Sensecoin, vinculado a datos de dashcams), dice que no era del todo mentira pero admite haber dicho cosas en las que no creía para levantar plata, y se ríe de que en Hacker News lo acusaran de intentar un scam real con tinygrad, calificándolo de insulto a su inteligencia. También opina que las DAOs y la democracia corporativa son malas ideas: sostiene que la democracia es de “baja varianza” (mediocre pero estable) mientras que las dictaduras tienen alta varianza (pueden ser pésimas o construir Singapur), y que las empresas exitosas necesitan líderes fuertes tipo “monarca” (cita a Musk, Bezos y Zuckerberg como ejemplos, y cuenta que perdió dinero invirtiendo en acciones de Meta pero sigue creyendo en Zuckerberg).
En política internacional defiende posturas filo-libertarias pero rechaza explícitamente las etiquetas (dice no ser republicano, demócrata, progresista ni libertario). Sobre Rusia y Ucrania dice sentir mucha lástima por los ucranianos (cuenta que el departamento de al lado de uno de sus empleados fue alcanzado por un misil), pero igualmente afirma que “le echa más la culpa a Occidente que a Rusia”, entiende la posición de Putin aunque lo llama “un dictador” (sic, literalmente dice “Putin’s a dick”), y cuestiona la falta de respeto hacia Rusia como potencia nuclear. Sobre China, dice haber vivido un año allí, defiende que gran parte de la propaganda estadounidense sobre China (ej. las redes “antisuicidio” de Foxconn) es exagerada comparando tasas de suicidio, pero lamenta que no pueda mover su empresa comma.ai allí porque el estado podría apropiarse de ella sin darle derechos como extranjero. Elogia a Vietnam como “el lugar más capitalista” que visitó (cita una estadística de que el 95% de los vietnamitas aprueban el capitalismo, contra 70% en EEUU) y describe los mercados nocturnos sin precios regulados.
Sobre inmigración a EEUU se pone particularmente enfático: dice que es absurdo que cueste tanto inmigrar legalmente, propone un sistema donde el criterio de entrada sea directamente el impuesto esperado que la persona va a pagar (predicho por un modelo de machine learning), permitiendo entrar con un “bono” como garantía si el modelo predice bajo aporte fiscal; cuenta que en comma.ai gastan tiempo y dinero tratando de conseguir visas a ingenieros brillantes y le parece insensato que el país no quiera atraerlos.
Sobre la pandemia es frontal: dice que siempre creyó (y lo sostiene retrospectivamente) que los barbijos de tela no sirven para nada contra enfermedades respiratorias, y que esto era sabido desde antes de 2019. Cuenta que pasó de ser “pro-UBI” antes del COVID a fuertemente anti-UBI después de ver los efectos de las transferencias de dinero directo durante la pandemia, argumentando que la renta básica transfiere riqueza de los productivos a los no productivos y que a largo plazo perjudica a toda la población, incluso a los más pobres (compara con el umbral hipotético al que tendría que caer el mercado para que en EEUU haya inaccesibilidad real, comparándolo con niveles de los 70).
Sobre el episodio de Cloudflare/Kiwi Farms (un foro polémico al que Cloudflare le retiró el servicio por “amenaza inminente a la vida”), Hotz lo usa para una teoría propia sobre “poder racional” vs “poder psicótico”: dice que cuando uno cede ante el poder racional (ej. reguladores con los que negoció en comma.ai) la presión cede, pero cuando se cede ante el “poder psicótico” (presión social/activista) las demandas solo se vuelven más extremas, y por eso cree que Cloudflare hizo mal en ceder, defendiendo la libertad de expresión incluso para foros que él mismo describe como tóxicos.
Sobre la IA y la “seguridad” de OpenAI/Stable Diffusion: critica con sorna el “safety checker” de Stable Diffusion (dice que él mismo lo comentó/desactivó en su código), argumentando que preocuparse porque alguien genere una imagen de Taylor Swift desnuda es trivial comparado con riesgos existenciales reales de IA, y que las grandes empresas “diluyen” la seguridad de IA real con grandstanding performático (acusa a OpenAI de querer cobrar por algo que Stability AI liberó gratis). También habla de que demandó/lo demandaron una “patent troll”, contrató un investigador privado para indagar al demandante, y lo describe sin ninguna cualidad redimible, lamentando que ambas partes solo terminan pagándole a abogados.
Sobre autos autónomos llama a la empresa Aurora un “scam” público, especulando con una teoría de pump-and-dump a partir de un memo filtrado sobre una supuesta adquisición por Apple o Microsoft, y contrasta esto con su entusiasmo por el progreso del FSD beta de Tesla.
En lo personal, menciona tener pareja (Alex), con quien charla sobre comida (acai bowls, mate, su familia es de Brasil), bromea sobre pelear contra Mark Zuckerberg, Elon Musk y hasta Vladimir Putin (aclarando que con Putin “no”, que fue a Rusia una vez y no quiere problemas), da su patrimonio neto en unos 350 millones de dólares, hace el chiste clásico cripto de “perdí un montón de Monero en un accidente de bote”, cuenta que en medio de un stream recibió la noticia de la muerte del rapper Pat Stay y reacciona visiblemente afectado dedicándole unas rimas, y relata una anécdota de secundaria: sacó una D en química y no lo dejaron entrar a la clase de AP Chemistry, así que estudió solo dos semanas y sacó un 5 (la nota máxima) en el examen AP, algo de lo que dice estar orgulloso.
Te despliego cada punto.
Sobre IA en blockchain: su lógica del “arbitraje regulatorio” es así: él dice que un proyecto cripto solo tiene sentido si existe algo que sea ilegal hacer de forma centralizada, y que descentralizándolo se vuelve imposible de regular (entonces, en la práctica, “legal” porque nadie puede pararlo). Bitcoin, según él, solo triunfó vendiendo drogas (imposible de regular si no hay una empresa central a la que arrestar). Ethereum triunfó vendiendo “valores no registrados” (ICOs, tokens) porque ningún regulador como la SEC puede meterle preso a un contrato inteligente sin dueño identificable. Ahora, ¿qué ley le impide a alguien hoy entrenar o vender un modelo de IA? Ninguna particular. No hay una “prohibición” de la que escapar usando descentralización. Por eso, para él, poner “IA en blockchain” es una solución buscando un problema: no resuelve nada porque no hay regulación que estés evadiendo.
Sobre por qué blockchain no reemplaza SQL: su argumento es puramente de costos. Una blockchain necesita que miles de nodos repliquen y validen cada transacción (consenso, prueba de trabajo o de participación), lo cual es brutalmente caro e ineficiente comparado con una base de datos centralizada en un servidor. Él dice literalmente que toda la red de Bitcoin y Ethereum combinada podría correr en una sola computadora potente alquilada en Azure. La única razón para pagar ese sobrecosto monstruoso es si necesitás algo que un servidor centralizado no te da: resistencia a la censura, que nadie pueda apagarlo, que ningún gobierno pueda meterse. Si tu negocio es legal y no necesitás esa resistencia, usar blockchain es pagar de más por nada.
Eso conecta con lo de “si lo que hacés es ilegal…”: pensalo con un ejemplo concreto. Vender droga por una empresa con nombre, dirección y CEO es fácil de cerrar: la policía va, arresta al dueño, listo. Vender la misma droga a través de un mercado descentralizado sin dueño identificable (tipo Silk Road con Bitcoin) hace que no haya a quién arrestar; en la práctica se vuelve “legal” porque es inaplicable la ley, aunque en el papel siga siendo ilegal. Mismo con los ICOs: la SEC regula a empresas que emiten acciones, pero si el “token” lo emite un contrato inteligente sin compañía detrás, la SEC no tiene a quién demandar fácilmente. Eso es “arbitraje regulatorio”: usás la descentralización para esquivar a quien te regularía si fueras una entidad centralizada.
DAO significa Organización Autónoma Descentralizada (Decentralized Autonomous Organization): en vez de tener un CEO o una junta directiva tomando decisiones, las reglas están escritas en código (contrato inteligente) y las decisiones se votan on-chain por la gente que tiene tokens de esa organización. Hotz argumenta que esto es mala idea para empresas porque la democracia (que es lo que es votar con tokens) tiene baja varianza —medio mediocre siempre— mientras que un liderazgo fuerte tipo “dictador” (Musk, Bezos) puede ser pésimo o puede ser excelente, y las empresas que ganan suelen tener ese segundo tipo de liderazgo.
Filo-libertario / libertario: el libertarismo es una corriente política que defiende un Estado mínimo, máxima libertad individual, mercados libres y mucho escepticismo hacia impuestos y regulaciones. Aclaro algo importante: en el propio texto Hotz dice explícitamente “no soy libertario” cuando alguien le pone esa etiqueta. Lo que yo llamé “filo-libertario” es mi lectura de que sus posiciones de fondo (anti-regulación, anti-UBI, pro-mercado libre, desconfianza del Estado) suenan libertarias aunque él rechace la etiqueta y diga no identificarse con ningún partido o ideología.
Mercados nocturnos en Vietnam: son mercados callejeros que se montan de noche, puestos ambulantes vendiendo comida, ropa, artículos varios, típicos en el sudeste asiático. Lo que él destaca es que ahí los vendedores fijan sus propios precios negociando con cada comprador, sin que ningún organismo estatal les diga cuánto cobrar — lo usa como anécdota de mercado libre informal.
¿Vietnam es capitalista? Acá hay una distinción importante que conviene aclarar porque el stream la simplifica de más: políticamente Vietnam sigue siendo un Estado de partido único gobernado por el Partido Comunista de Vietnam, no es una democracia liberal. Pero económicamente, desde las reformas “Đổi Mới” de 1986, Vietnam abrió su economía a inversión extranjera, empresas privadas y mercado, convirtiéndose en lo que ellos mismos llaman una “economía de mercado de orientación socialista”. Entonces es comunista en lo político-institucional pero bastante capitalista en la práctica económica cotidiana, que es justo la paradoja que Hotz señala con sorpresa. El dato del 95% de aprobación al capitalismo que él menciona aparece en encuestas tipo Pew Research sobre actitudes hacia el libre mercado; no verifiqué la cifra exacta en este momento, la presento como su afirmación.
El umbral hipotético del mercado de los 70: en ese pasaje él especula (no cita ningún estudio, es una idea suelta en vivo) que para que en EEUU haya hambruna real, el mercado tendría que caer a niveles nunca vistos en la historia moderna del país — básicamente dice “nunca pasó, ni sabemos si podría pasar”. Después se hace una pregunta más acotada: ¿cuánto tendría que caer el mercado para que la clase media ya no pueda acceder a viajar en avión? Y su respuesta intuitiva, sin cálculo riguroso, es que el mercado bursátil (ajustado por inflación) tendría que volver a niveles de los años 70 para que eso pase. Es una estimación informal en medio de un stream, no una cifra con respaldo estadístico.
Lo que liberó gratis Stability AI: es el propio modelo Stable Diffusion — los pesos entrenados y el código — publicados abiertamente y sin costo. Hotz lo contrasta con OpenAI, que cobraba acceso a DALL-E (su generador de imágenes) mientras Stability AI (la empresa detrás de Stable Diffusion, fundada por Emad Mostaque) regalaba un modelo comparable, lo cual él celebra como una victoria del open source frente a una empresa “que iba a rentarte” el acceso a algo similar.
La especulación pump-and-dump de Aurora: Aurora es una empresa de autos autónomos que salió a bolsa vía SPAC. En el stream se filtró (o circuló) un memo interno de la junta directiva que insinuaba una posible adquisición por parte de Apple o Microsoft. Tras esa filtración el precio de la acción subió fuerte. Su teoría (especulativa, sin pruebas, él mismo lo presenta como sospecha) es que alguien compró acciones u opciones antes de filtrar el memo a propósito, esperando que la noticia disparara el precio para después vender con ganancia — el clásico esquema de “comprar antes de inflar artificialmente, filtrar para inflar, vender en la cima”. Es una acusación que él lanza sin evidencia concreta, presentada como su lectura personal de los hechos.
AP Chemistry: AP (Advanced Placement) es un programa de EEUU donde alumnos de secundaria cursan materias de nivel universitario y al final rinden un examen estandarizado nacional puntuado de 1 a 5 (5 es la nota máxima, y suele equivaler a aprobar la materia introductoria en la universidad). La anécdota es que Hotz sacó una D (nota baja) en química regular por no hacer la tarea, así que la escuela no lo dejó inscribirse en la clase de AP Chemistry. Su respuesta fue estudiar solo, por su cuenta, durante dos semanas, y presentarse igual al examen AP sin haber cursado la clase — y sacó un 5, la nota perfecta. Lo cuenta como uno de sus orgullos escolares: demostrar que podía dominar el contenido sin necesitar la clase formal.
George Hotz aparece acá en varias transmisiones de Twitch donde combina demos de la oficina de comma.ai, sesiones de programación en vivo (implementando Stable Diffusion en tinygrad) y un Q&A abierto sobre su filosofía de negocios, IA y vida. Te resumo las ideas centrales.
Sobre comma.ai y los autos autónomos. La misión que repite todo el tiempo es “resolver el manejo autónomo mientras se entregan productos intermedios vendibles”, no perseguir la AGI directamente. Su comma three (el dispositivo de hardware) ya es compatible con más de 200 autos, cuesta producirlo unos 1000 dólares y quiere bajarlo a 500 para llegar a un margen bruto del 75%. La tasa de falla bajó de 25% en el comma two a 8% en el comma three, y quiere llevarla a 1-2%. Defiende con insistencia que una sola cámara basta para resolver el manejo autónomo (compara con que “la gente tuerta también puede manejar”) y que el lidar es innecesario; eliminaron el radar para simplificar la política de control y confían todo a visión y software. Explica que pasaron de un “primer paradigma” de aprendizaje supervisado a un “segundo paradigma” de entrenamiento en simulación (Tesla, dice, sigue en el primero), y que el “tercer paradigma” futuro sería reinforcement learning directo sobre el mundo real, algo que todavía no es viable por falta de eficiencia de muestreo. El mayor problema técnico que reconoce es el “sim-to-real transfer”: lograr que lo aprendido en el simulador (que ellos mismos escribieron) se traslade bien al mundo real. También menciona el proyecto “comma body”, un robot humanoide hecho con piezas de hoverboards (apodado Kenny) con el que sueñan mostrar en el CES y hasta venderlo en “tiendas y shoppings”.
Sobre tinygrad y la sesión de Stable Diffusion. Gran parte del contenido es código en vivo: están reimplementando el VAE (encoder/decoder), los bloques ResNet, GroupNorm, atención, etc., comparando contra la implementación de PyTorch para encontrar bugs línea por línea (llegan a generar manchas de color antes de lograr una manzana reconocible). Cuenta que tinygrad ya corre el modelo de producción de openpilot en el comma three, reemplazando una librería de Qualcomm llamada SNPE, y afirma que tinygrad resulta “0.1% más preciso” que la implementación de Qualcomm. Durante el debug aparecen bugs reales: un overflow de enteros, límites de tamaño de textura en GPU (16384 en AMD/Mac vs 32768 en Nvidia) y problemas profundos en el “shape tracker” de tinygrad que requerirían un refactor de varias semanas. Se ríe de sí mismo llamándose “script kiddie” por tener que apoyarse en PyTorch para verificar resultados antes de lograrlo en tinygrad puro.
Sobre IA general y AGI. Sostiene que DeepMind y OpenAI son indiscutiblemente los líderes en investigación de IA, pero los critica por ser “poco aplicados”: cree que resolver juegos (tipo MuZero) no alcanza para resolver IA general, aunque sí es necesario. Su definición de AGI es deliberadamente simple: “una máquina que puede hacer todo lo que puede hacer una persona”. Repite la idea de Carmack de que la AGI son “seis o siete trucos” por descubrir, y que el código final será simple. Cree que el manejo autónomo podría resolverse en cinco años, pero que la AGI no, y que es difícil predecir más allá de ese horizonte. Menciona como referencia el paper “OpenAI juega Minecraft” (VPT) como lo más cercano a la arquitectura que ellos imaginan, y especula con que terminen siendo DeepMind u OpenAI quienes resuelvan el manejo autónomo antes que las empresas de autos. Sobre Tesla, dice que su stack es “mucho más complicado” que el de comma y que tienen una chance real de ganarles, sobre todo tras la salida de Karpathy (de quien dice tener “mucho respeto” sin especular sobre sus motivos).
Modelo de negocio y contratación. comma.ai levantó 18.1 millones de dólares en total, con una valuación de 500 millones en la última ronda, e ingresos acumulados de unos 13 millones. Insiste en que no quiere salir a bolsa (“no me voy a vender a los bancos”) ni ser adquirida (a las consultas de M&A responde solo “¿cuánto?” y si no le dan un número no contesta más). Dice que no le gustan los VC tradicionales (menciona a Andreessen como “no malos pero no alineados”) y prefiere inversores individuales. Su filosofía declarada es vender el hardware más caro de lo que cuesta producirlo, usar la ganancia para recompra de acciones y, eventualmente, dividendos, en contraste con lo que llama el “negocio Ponzi” de las IPOs financiadas por bancos. Sobre contratación: cero trabajo remoto (compara el remoto con “un matrimonio remoto”, dice que es para quienes quieren ser vistos como una “unidad de trabajo” reemplazable por IA), sin gerentes de título, sin equipo de ciberseguridad (“cualquiera que diga ‘cyber’ queda automáticamente descalificado”), entrevistas de infraestructura basadas en una sola pregunta ("¿qué pasa cuando escribís google.com en el navegador?"), ingreso a openpilot mediante pull requests en GitHub, e ingreso a investigación mayormente vía pasantías. Reconoce trabajar entre 80 y 100 horas semanales, aunque matiza —citando a Carmack— que las semanas de 100 horas no son proporcionalmente más productivas y que la empresa es “relajada” con las vacaciones.
Libros y papers mencionados. Cuenta que leyó “Project Hail Mary” de Andy Weir en sus vacaciones y también “Story of Your Life and Others” de Ted Chiang. Sobre papers, se burla del título de un trabajo por usar la palabra “sample efficient” sin explicarla bien, elogia un paper de Berkeley llamado algo así como “aprender a caminar en 20 minutos” (con un robot perro chino real, usando JAX) y reconoce el paper original de Latent Diffusion Models (Stable Diffusion) como base de lo que están programando.
Lo controvertido (en detalle, como pediste). Es la parte donde más se permite bromas oscuras y opiniones polémicas. Defiende el “free speech” de manera absolutista, diciendo textualmente que no importa si alguien es nazi o comunista, tiene derecho a hablar “porque esto es América”, y en esa misma línea suelta la broma de que “la libertad de expresión me permite decir que a los comunistas habría que tirarlos de un helicóptero” —claramente un chiste hiperbólico dentro de su discurso sobre libertad de expresión, no una declaración seria de violencia—. Apoya públicamente a Cloudflare por enfrentar a una patent troll usando “prior art” crowdsourceado. Sobre política, es esquivo y despectivo: dice “fuck politics” sobre el shutdown del gobierno, llama a la política “para perdedores”, y afirma que no piensa meterse nunca en ella. Tiene comentarios negativos sobre San Francisco y Los Ángeles (“políticamente incompetentes”) como motivo por el que eligió San Diego. Sobre inmigración, dice que la política migratoria de EE.UU. “está rota” pero que igual van a esforzarse al máximo por patrocinar visas a talento extranjero, y bromea con que “contrataría hasta a un alien” (literal, extraterrestre) si apareciera. Sobre el cambio climático afirma sin rodeos que “es real” y que hay que tenerle miedo. Hace bromas oscuras sobre la guerra nuclear (“no sé, mátenme rápido nomás”) y sobre hackear/crackear la seguridad de Toyota retando a la gente a “ir a votar” si creen que no se puede. Sobre criptomonedas y NFTs es bastante despectivo: confunde “bloom filters” con un shitcoin y dice no haber oído hablar de eso, y se ríe de la idea de vender NFTs ("¿alguien sigue comprando NFTs?"). Sobre Uber dice explícitamente que nunca le vendería la empresa porque tiene “cultura tóxica”. Bromea reiteradamente con el sexo y el trabajo remoto ("¿preferirías sexo remoto?", comparaciones con “matrimonio remoto”), y hace chistes sobre espiar el auto de la propia pareja. Sobre dinero rápido, ante la pregunta de cómo hacer 10 mil dólares en una hora, responde en broma “robá un banco” o “operá con margen insano y reseteá la simulación hasta que te salga”. También admite con humor que quiere dejar de transmitir para poder escuchar música con copyright sin infringir nada él mismo. No aparecen menciones a vacunas ni a su postura sobre ese tema en estos fragmentos.
Este es un post del blog de comma.ai, escrito por George Hotz, contando que después de seis años de actividad la empresa recibió su primera demanda judicial, y que es por algo que no tiene nada que ver con lo que hacen.
El contexto: quién es el demandante
El demandante es Axel Nix, un hombre de 51 años de Birmingham, Michigan, que según Hotz fue ingeniero y trabajó en el equipo de ADAS (sistemas avanzados de asistencia al conductor) de la empresa Harman hasta 2017. Desde entonces, dice Hotz, se dedicó de tiempo completo a lo que él llama “patent trolling”: fundó dos empresas, Smartpat PLC (que en su perfil de LinkedIn describe como una consultora para redactar y litigar patentes “que importan”) y Sucxess LLC, esta última la que usa para presentar las demandas. Con Sucxess, Nix demandó previamente a varias empresas de autos autónomos —Voyage, AutoX, Pony.ai, Dataspeed, SF Motors y WeRide Corp— alegando en todos los casos infracción de las mismas patentes. Hotz afirma que Sucxess LLC no fabrica ni produjo nunca nada, y que nunca ganó un juicio con jurado sobre ninguna de esas patentes; según él, el modelo de negocio es puramente extraer arreglos económicos (settlements) de empresas que prefieren pagar antes que litigar.
El concepto de “patent troll”
Para quien no conoce el término: un “patent troll” (o “patent assertion entity”) es una persona o empresa que no fabrica ni vende ningún producto, sino que su negocio consiste en adquirir o poseer patentes (muchas veces antiguas, vagas o de aplicación dudosa) y luego demandar a empresas que sí operan, alegando que infringen esas patentes, con la expectativa de que las empresas demandadas prefieran pagar un arreglo (settlement) —que suele ser mucho más barato que litigar en tribunales durante años— en lugar de pelear el caso. Es una práctica legal en EEUU (el sistema judicial lo permite) pero ampliamente considerada una forma de extorsión legal o “shakedown”, ya que no agrega ningún valor productivo y se aprovecha de que litigar es carísimo.
La demanda específica contra comma.ai
Según describe Hotz, la patente que Nix esgrime contra comma.ai tiene unos 15 años y trata sobre un sistema de llamada de emergencia automática en caso de choque de auto, algo que Hotz dice no tiene absolutamente nada que ver con lo que hace comma.ai (que fabrica hardware/software de asistencia al manejo tipo openpilot). Su interpretación es que la apuesta del demandante no es ganar el juicio en sus méritos, sino que el caso nunca llegue a juicio: que comma.ai, como hicieron antes Voyage, AutoX y Pony.ai (que según el post llegaron a acuerdos extrajudiciales, “settled”), prefiera pagar para que el problema desaparezca.
La respuesta de Hotz
Acá es donde el post se vuelve más personal y combativo. Hotz dice explícitamente que está dispuesto a perder un millón de dólares en gastos legales antes que pagarle 10 mil dólares de arreglo a Nix. Su argumento es que comma.ai no es una empresa manejada por “actores racionales sentados en un comité” (frase que conecta con su idea, mencionada en otros streams, de que ceder ante una demanda extorsiva solo invita a más extorsión, lo que él llama en otros contextos “poder psicótico” versus “poder racional”: dar el brazo a torcer ante el chantaje empodera al chantajista para pedir más). Plantea contratar un equipo legal fuerte no solo para defenderse, sino activamente para invalidar las patentes de Nix en el proceso, de modo que no puedan usarse nunca más contra ninguna otra empresa. Aclara que esto no lo hace por ser la decisión “racional” en términos de costo-beneficio puro (gastar un millón para no pagar diez mil no cierra las cuentas a corto plazo), sino porque lo considera “lo correcto” (the right thing to do), y cita el concepto histórico de appeasement (la política de apaciguamiento, en referencia histórica al apaciguamiento de potencias agresivas en los años previos a la Segunda Guerra Mundial) como ejemplo de por qué ceder ante este tipo de demandas es una mala estrategia a largo plazo: lamenta que Voyage, AutoX y Pony.ai hayan llegado a arreglos, porque eso, dice, “alimenta esta profesión ilegítima” de litigar patentes truchas.
El pedido de ayuda y el precedente de Cloudflare
Hotz menciona como inspiración lo que hizo Cloudflare en un caso similar (un proyecto llamado “Project Jengo”), donde la empresa, al ser blanco de un patent troll, organizó una búsqueda colectiva y crowdsourced de “arte previo” (prior art, es decir, evidencia de que la idea patentada ya existía antes de que se registrara la patente, lo cual puede invalidarla legalmente) para tumbar las patentes del demandante en lugar de solo defenderse del caso puntual. Hotz dice que quieren replicar esa estrategia: no solo anular las patentes específicas que Nix usa contra comma.ai, sino atacar todo su portafolio de patentes. Cierra el post pidiendo que cualquier otra empresa que esté siendo extorsionada por Axel Nix o Sucxess LLC los contacte a un mail específico (stoppatenttrolls@comma.ai) para coordinar una defensa conjunta, y menciona que Nix ya intentó ir incluso contra los clientes de una de las empresas demandadas (Dataspeed), lo cual usa como ejemplo de hasta dónde puede llegar esta práctica.
Lo controvertido / la postura personal
El tono del post es deliberadamente agresivo y sin filtro corporativo: Hotz no usa el lenguaje diplomático típico de un comunicado legal de empresa, sino que llama directamente “scam” e “ilegítima” a la profesión del demandante, lo tilda de cobarde que apuesta a que las empresas sean “asustadas y débiles” (scared and weak), y deja explícito que prioriza un principio (no dejar que el chantaje funcione, no premiar la extorsión) por encima de la racionalidad financiera estricta de corto plazo — está dispuesto a perder cien veces más dinero del que le exigen, solo para no darle nada al demandante y, de paso, intentar destruirle el negocio entero invalidándole las patentes. Es consistente con lo que cuenta en los streams (donde menciona haber contratado un investigador privado para indagar la vida de Nix y lo describe sin ninguna cualidad redimible), reforzando la imagen de una disputa personalizada, no solo corporativa.
Estos subtítulos corresponden a streams de George Hotz (geohot), creador de tinygrad y comma.ai, trabajando en vivo sobre dos proyectos paralelos: optimizar el runtime de tinygrad para que corra la red de openpilot más rápido, y escribir una multiplicación de matrices en C que compita con NumPy/OpenBLAS. Te resumo las ideas técnicas centrales y al final lo controvertido.
El proyecto tinygrad y la filosofía detrás
La idea de fondo que defiende todo el tiempo es que las librerías de deep learning tradicionales (PyTorch, etc.) fallan porque escriben optimizadores muy complejos en capas altas de abstracción, y eso genera bugs. Su apuesta es lo opuesto: mantener solo cinco operaciones primitivas (unary ops, binary ops, reduce ops, movement ops y processing ops/convoluciones) y que toda la complejidad emerja de componer esas piezas simples, no de un optimizador inteligente arriba. Repite varias veces que “tinygrad es perfecto para cualquier lugar donde no tengas una GPU de Nvidia” y que el objetivo es que el compilador pueda tardar lo que quiera siempre que el código compilado sea rapidísimo, porque en producción (entrenamiento, inferencia repetida) eso amortiza.
Un concepto clave que introduce es el “ShapeTracker”: en vez de materializar cada operación de movimiento (reshape, permute, slice, expand) como una copia de memoria nueva, las trackea como vistas/índices sobre el buffer original, lo cual las hace “gratis” en cómputo. De ahí surgen sus optimizaciones favoritas: “merge movement ops” (fusionar varias operaciones de movimiento consecutivas en una sola), “shuffle movement ops” (subir una operación de movimiento por encima de una operación binaria, porque las binarias son elementwise y conmutan), y la más importante, “merge elementwise into conv” (fusionar las operaciones binarias que siguen a una convolución dentro del mismo kernel de convolución, evitando lanzar kernels extra). Con todas esas optimizaciones combinadas reduce el grafo de openpilot de 2481 nodos a 1172, y el modelo termina ejecutándose básicamomente como una cadena de convoluciones con muy pocos nodos grises (operaciones elementwise) sobrevivientes.
Un hallazgo importante en el proceso es puramente de ingeniería de Python: descubre que muchísimo tiempo se estaba perdiendo no en la GPU sino en el propio Python (construcción de objetos, isinstance, logging activo durante el profiling, etc.). Hay una escena recurrente donde usa cProfile para encontrar cuellos de botella y se sorprende con detalles tontos: el lru_cache de Python tiene un límite por default de 128 entradas (lo cual le genera cache misses inesperados), pasar argumentos a kernels OpenCL como np.int32 resulta lentísimo porque cada uno copia 4 bytes a la GPU individualmente, y loggear durante el timing distorsiona las mediciones. Otro punto técnico fuerte: enqueuear kernels en OpenCL/CUDA con clEnqueueNDRangeKernel no bloquea por sí mismo; el tiempo real se mide recién cuando uno hace un wait/realize, y mezclar esos dos momentos (medir mientras se bloquea) lo llevó a conclusiones erróneas sobre qué era lento. También usa la palabra clave restrict en C para indicarle al compilador que los punteros no se solapan, pero concluye —algo contraintuitivo— que en su caso no aportó ninguna mejora de velocidad.
Compara tinygrad corriendo en su GPU RTX 3090 contra PyTorch (35 ms) y contra ONNX Runtime con cache de CUDA (3 ms, “eso es lo que hay que competir si usás cache”), y termina logrando que tinygrad sin caching ya supere a PyTorch. También compara contra la “comma three” (que usa un chip Snapdragon/Adreno tipo móvil) y contra su Mac M1, notando que en hardware débil casi todo el tiempo se va en Python, mientras que en la 3090 el cuello de botella pasa a ser esperar a que terminen los kernels en la GPU.
La multiplicación de matrices rápida en C
En paralelo desarrolla, casi como clase para principiantes, una multiplicación de matrices de alto rendimiento. Explica el cálculo teórico de FLOPs (una multiplicación de matrices N×N×N requiere 2N³ operaciones de punto flotante, contando multiplicación y suma como un “fused multiply-add”) y cómo eso se traduce en gigaflops/teraflops según la frecuencia del CPU y el ancho de las unidades FMA. El punto de partida es un loop ingenuo en C que es miles de veces más lento que NumPy, y el resto del stream es una cacería de por qué. Llega a la conclusión de que la diferencia central no es el algoritmo sino que NumPy usa OpenBLAS, una librería con kernels JIT-eados a mano para explotar el caché.
Explora instrucciones AVX2/FMA (usa la Intel Intrinsics Guide como referencia constante), descubre que AVX2 es mayormente para enteros y que necesita el set FMA3 para floats, y pelea bastante con mm256_fmadd_ps y el “broadcast” de un solo float a un vector. Tiene una idea importante sobre “swizzling”/reordenar la matriz en memoria para lograr accesos contiguos a caché (tiling), inspirado en mirar el código fuente del kernel Haswell de OpenBLAS en GitHub. También mira diagramas de la microarquitectura Zen 2/Zen 3 de AMD para entender cuántas unidades FMA tiene físicamente el CPU y así calcular el techo teórico de FLOPs. Usa perf y luego valgrind --tool=cachegrind para contar cache misses, y termina diagnosticando que el problema real era que el prefetcher no llegaba a anticipar ciertos accesos cuando el bloque era muy grande para L1.
En el tema de multithreading, implementa su propio pool de threads con pthreads (mutex + variable de condición, luego átomos en C11) porque considera que crear y destruir threads constantemente (pthread_create/join) tiene demasiado overhead. Nota que el rendimiento no escala linealmente con los cores: con 8 threads anda mejor que con 16 porque el CPU se queda sin presupuesto térmico/eléctrico para sostener el boost de frecuencia en todos los núcleos a la vez (throttling), y hace afinity pinning con sched_setaffinity para evitar que el scheduler salte de core y rompa la localidad de caché. Termina logrando ~1.5 teraflops multihilo contra un teórico de 2.5, superando a NumPy single-thread y multi-thread.
Otras ideas técnicas sueltas
Defiende que Python “tiene básicamente dos problemas: no tiene tipos estáticos y es lento, pero si arreglás esas dos cosas sería el mejor lenguaje del mundo” (dice que ya está mejorando con type hints postergados). Sobre quantum computing comenta de pasada que “las computadoras cuánticas solo son rápidas si querés simular un sistema cuántico” (no para todo lo demás). Como referencias usa GitHub de OpenBLAS, la Intel Intrinsics Guide, diagramas de microarquitectura AMD, y Stack Overflow para casos puntuales; no menciona libros formales.
Lo controvertido y personal
Hay una broma larga y explícita sobre que el gobierno algún día declarará ilegal la computación en la nube, y que él se va a plantar con un AR-15 frente a sus computadoras gritando “vengan a buscarlo” y terminará disparado, cerrando con la moraleja sarcástica de “debiste haber elegido la nube”. Sobre criptomonedas es escéptico: comenta que GBTC cotiza muy por debajo de su valor en bitcoin, aclara “esto no es consejo de inversión” y resume su postura con “la cripto es una estafa… pero el dinero también”, sin ofrecer alternativa clara de dónde poner los ahorros.
Hace un chiste extendido y deliberadamente incorrecto comparando niveles de criminalidad entre Portugal y México (diciendo que quiere “prohibir la palabra Portugal” porque no le gusta hablar del tema), y otro chiste sobre niñas en países pobres que no van a la escuela / la madrasa, enmarcado como humor autoconsciente y provocador hacia su audiencia de no-suscriptores. En esa misma línea bromea con que “la discriminación está bien siempre que discrimines en las cosas correctas” (refiriéndose a privilegiar a sus suscriptores del chat) y dice en broma que EE.UU. es un imperio en declive y que “mejor aprendan chino”, aunque aclara que él aprendió español en la escuela.
En un segmento se compra un test de drogas casero para responder en vivo a quienes en redes sociales lo acusaban de estar “en Adderall” o usar esteroides por su productividad. Admite historial pasado de consumo: marihuana (hace dos semanas), opiáceos y cocaína (hace años, una década), anfetaminas (hace un año) y benzodiacepinas (un par de veces en su vida, con receta de Valium a los 24 por un problema de mandíbula). Aprovecha para dar una reflexión motivacional: dice que la gente que acusa de dopaje a quien tiene éxito lo hace para proteger su ego en vez de admitir que “esa persona entrena más que vos, trabaja más que vos”, y que su consejo de vida es asumir que todo lo que sale mal es responsabilidad propia, nunca de otros.
Sobre comma.ai y su comparación con Tesla/SpaceX: dice que cree que en SpaceX y Tesla la gente trabaja muchísimas más horas que en comma, que su política de vacaciones es “ilimitada pero relajada”, y que el tipo de persona que elige trabajo por beneficios “no debería trabajar ahí”. Da a Tesla más probabilidad de “ganar” la carrera del self-driving que a comma, pero dice que si Tesla gana, comma estará muy cerca detrás. Usa Azure como nube de la empresa. Hace un chiste sobre sus probabilidades personales de “ir a Taco Bell antes de fin de año” subiendo a 60%, y otro sobre haberse mudado a un departamento más chico por la “recesión”. No hay menciones de vacunas, alienígenas, visas o inmigración en estos textos.
Vamos por partes. Investigué un poco para las que requerían verificación externa, y respondo el resto con lo que ya tengo del texto y conocimiento general.Vamos uno por uno. Aclaro antes que en mi resumen anterior dije “kernels JIT-eados” de forma un poco imprecisa — lo corrijo abajo.
Qué es OpenBLAS
BLAS (Basic Linear Algebra Subprograms) es una especificación estándar de operaciones de álgebra lineal (multiplicar matrices, productos punto, etc.). OpenBLAS es una implementación open source de esa especificación, con kernels escritos a mano en ensamblador/intrínsecos para distintas microarquitecturas de CPU (Haswell, Zen, etc.), optimizados para explotar el tamaño de caché L1/L2/L3, el ancho de las unidades SIMD (AVX2, AVX-512) y el “tiling” de las matrices. NumPy, cuando hacés A @ B, no multiplica matrices con su propio código: delega esa llamada a una librería BLAS instalada en el sistema (puede ser OpenBLAS, Intel MKL, etc.). Por eso George remarca que “NumPy no escribió su propio BLAS porque es muy difícil” y que toda la velocidad que ve viene de ahí, no de NumPy en sí.
Corrección: ¿son “JIT” los kernels de OpenBLAS? No. Los kernels de OpenBLAS están compilados de antemano (ahead-of-time) y son genéricos: tienen que funcionar para matrices de cualquier forma y stride en tiempo de ejecución. Lo que George dice textualmente en el stream es lo contrario: “numpy’s not a JIT, OpenBLAS isn’t a JIT… we did everything in tinygrad so this stuff’s not a problem… this can hard-code all the strides into the assembly instructions… jit everything.” Su argumento es que tinygrad, al compilar el kernel recién cuando conoce las formas y strides exactos de los tensores (just-in-time, en tiempo de ejecución), puede incrustar esos números como constantes directamente en el código máquina generado, mientras que OpenBLAS tiene que dejar esos valores como variables porque no sabe de antemano con qué shapes lo van a llamar. Esa es la ventaja estructural que reivindica para tinygrad frente a las librerías BLAS tradicionales.
Cálculo de FLOPs
Lo explica en el stream (documento 9667/9668) de forma bastante didáctica: multiplicar dos matrices N×N produce una matriz de salida N² celdas, y cada celda de salida requiere un producto punto entre un vector fila y un vector columna de largo N. Eso son N multiplicaciones y N sumas por celda (osea 2N operaciones, lo que en hardware moderno se ejecuta como una sola instrucción fused-multiply-add o FMA). Total: N² celdas × 2N operaciones = 2N³ FLOPs. Después convierte eso a GFLOPS/TFLOPS dividiendo por el tiempo medido (con time.monotonic en Python o clock_gettime(CLOCK_MONOTONIC) en C, porque el reloj de pared puede saltar por el horario de verano). El techo teórico de un CPU lo calcula como: frecuencia del clock × número de unidades FMA por core × ancho del vector SIMD × 2 (mult+add) × número de cores.
¿En qué parte programa en C?
Es la sesión que arranca en el documento que llamaste 9668 (la que abre con “good morning, we’re starting with a brand new file today gem.hi”) y sigue en 9669, 9670, 9671, 9672, 9673 (ahí ya está optimizando con intrínsecos AVX/FMA) y 9674 (ahí pasa a multithreading con pthreads). Te dejo frases cortas, textuales y bien específicas en inglés para que las busques directamente en YouTube/transcripciones (son frases muy puntuales de ese tramo):
Python sin tipos estáticos — ¿cómo lo están arreglando?
Lo que dice (“python tiene dos problemas: no tiene tipos estáticos y es lento, pero lo están arreglando”) se refiere a varias mejoras reales que se vienen dando en Python desde la versión 3.5 en adelante: el módulo typing y las anotaciones de tipo (PEP 484), que son opcionales y no se chequean en tiempo de ejecución (las verifica una herramienta externa como mypy o pyright), no el intérprete. El problema técnico puntual que él enfrenta en el stream (“Python no me deja anotar este tipo porque estoy dentro de la clase”) es que para poner el tipo de una clase como anotación dentro de su propio método (autoreferencia, ej. una clase LazyBuffer que tiene un método que devuelve otro LazyBuffer), Python evalúa las anotaciones en el momento en que se define la clase, y en ese momento la clase todavía no existe como nombre completo. La solución que usa es from __future__ import annotations (PEP 563, “postponed evaluation of annotations”): con eso, todas las anotaciones de tipo se guardan como texto (strings) y no se evalúan hasta que algo las pida explícitamente, así podés escribir:
from __future__ import annotations
class LazyBuffer:
def realize(self) -> LazyBuffer: # esto antes tiraba NameError
...
Sin ese import, tendrías que escribir -> "LazyBuffer" entre comillas como string literal para lograr el mismo efecto. Eso es exactamente el “wow that actually fixed it” que dice en el documento 9676.
Quantum computing
En el material que me pasaste, la frase es textual: “what’s faster, quantum computers bro… quantum [computers] are only fast if you want to simulate a quantum system.” Investigué si tiene una postura más fuerte y contradictoria sobre cómputo cuántico en otros lados, y encontré algo más concreto y mucho más controvertido: en el podcast de Lex Fridman (episodio #387) dice literalmente “I do think factoring is in P” — es decir, cree que factorizar números grandes (la base de la seguridad de RSA) se puede hacer en tiempo polinomial con una computadora clásica, sin necesidad de una computadora cuántica. Esta es una postura minoritaria y polémica entre teóricos de la complejidad computacional (la mayoría asume que factoring NO está en P, de ahí el interés en algoritmos cuánticos como el de Shor). No encontré una cita textual donde diga “todo lo que hace una cuántica lo hace una clásica” como afirmación general, pero esta postura sobre factoring va en esa dirección: básicamente le resta gran parte de la ventaja práctica que se le atribuye al cómputo cuántico. Coherente con esto, también vi (en una nota de prensa de enero 2025) que dijo en tono de broma que un modelo de OpenAI había encontrado un algoritmo de factorización en tiempo polinomial y que por eso “ninguno de tus activos cripto es seguro” — el CEO de Blockstream, Adam Back, calificó esa afirmación de “muy dudosa”.
¿El gobierno declaró ilegal la nube? ¿Era noticia real?
No encontré ninguna noticia real de esa época sobre que algún gobierno fuera a prohibir la computación en la nube. Es un chiste hiperbólico dentro del stream, coherente con su desconfianza genérica hacia el Estado y hacia depender de infraestructura de terceros (lo mismo se nota cuando dice “no quiero confiar en esto” sobre instalar herramientas, o cuando defiende el software/hardware que uno controla físicamente). No es una referencia a un hecho noticioso puntual, sino una boutade libertaria tipo “preppers”.
Qué es GBTC
GBTC es el Grayscale Bitcoin Trust, un fondo que cotiza en bolsa (OTC) y que simplemente tiene bitcoin guardado, dándote exposición al precio de BTC sin que tengas que manejar las claves vos mismo. El problema (y por eso la broma de George sobre “trading 33% below spot”) es que, a diferencia de un ETF normal, GBTC durante años no tuvo mecanismo de “creación/redención” en ambas direcciones, así que su precio en bolsa podía desviarse mucho del valor real del bitcoin que tenía adentro: llegó a cotizar con una prima grande (la gente pagaba de más) y después, en 2021-2022, pasó a cotizar con un descuento enorme respecto al valor neto de sus activos (NAV) — eso es justo lo que él señala como rareza (“cómo puede ser que el premium sea negativo 34%”).
“La cripto es una estafa… pero el dinero también” — ¿recomienda volver al oro?
En los documentos que me pasaste no menciona el oro explícitamente, solo deja la frase abierta sin alternativa. Pero buscando en otros lugares donde sí desarrolla la idea (un post suyo resumido en una recopilación de sus posturas) encontré que efectivamente sí lo dice de forma explícita en otro contexto: plantea un “plan de cinco puntos para arreglar a EE.UU.” donde dice que el dólar es una moneda fiat condenada y que el país debería volver al patrón oro, junto con eliminar programas de asistencia social, permitir inmigración de alta habilidad y que el gobierno se enfoque en combatir comportamientos de “suma negativa” en vez de desregular todo. Incluso propuso satíricamente una “ley de que todos sean billonarios” (el gobierno imprime 342.6 millones de billones de billetes de un billón de dólares y le da uno a cada estadounidense) para ilustrar que, si el Estado puede imprimir dinero a voluntad, el dólar eventualmente colapsa y la gente se refugia en algo que no se pueda imprimir, como el oro. Así que sí, la idea de volver a un patrón tipo 1971 (pre-Nixon Shock, cuando EE.UU. desligó el dólar del oro) está en línea con lo que piensa, aunque no aparece dicho en este corpus específico que me pasaste.
¿Dice que Ethereum es una estafa por pasar de proof-of-work a proof-of-stake?
Aquí tengo que corregirte el dato: no encontré ninguna fuente donde diga eso, y sí encontré evidencia bastante directa de lo contrario. En el mismo podcast con Lex Fridman dice textualmente “I’ve come around a bit on proof-of-stake ideas, very smart people thinking about some things” (se mostró cada vez más abierto a la idea), y se describe a sí mismo como parte del “Bitcoin as a meme coin camp” más que como alguien que ataca a Ethereum específicamente. De hecho tiene historial activo en el ecosistema Ethereum: ayudó a escribir un compilador de Solidity para Optimism (una red de capa 2 de Ethereum) y en 2021 generó polémica al hacer un fork de Ethereum llamado “cheapETH” donde había pre-minado 25 millones de monedas a una wallet personal, lo cual le valió bastante crítica pública. Para que entiendas el concepto de fondo igual: proof-of-work (lo que usa Bitcoin) es el mecanismo donde los mineros gastan electricidad real resolviendo acertijos criptográficos para validar bloques; proof-of-stake (a lo que migró Ethereum en 2022, “The Merge”) reemplaza ese gasto energético por “validadores” que depositan (“stakean”) sus propias monedas como garantía, y pierden ese depósito si validan mal. La crítica típica (no necesariamente la de George) es que proof-of-stake favorece a quien ya tiene más capital, generando una especie de plutocracia, mientras que proof-of-work es “computacionalmente democrático” pero gasta mucha energía.
¿Por qué habla de Portugal?
Tu intuición me parece razonable, aunque no tengo evidencia concreta de por qué surge específicamente en ese stream. En el fragmento es claramente un bit de comedia reactiva al chat: dice “ahora voy a hacer de Portugal una palabra prohibida” justo después de que el chat le insiste con el tema, lo cual sugiere que es una broma recurrente entre él y su audiencia (su chat de Twitch suele estar lleno de spammers que repiten memes/in-jokes), no una opinión real y sostenida sobre el país. No encontré registro de que haya viajado a Portugal ni de que tenga una postura pública desarrollada sobre el país fuera de este chiste de stream.
¿Por qué dice que EE.UU. es un imperio en declive?
Esto sí está bien documentado en otros lugares (no en los textos que me pasaste, donde solo lo menciona de pasada y en broma). En ese mismo “plan de cinco puntos para arreglar América” que mencioné arriba, plantea que la decadencia de EE.UU. es “autoinfligida”: dice que el país podría revertirla de la noche a la mañana con dinero sano (oro en vez de fiat), sin programas de asistencia social que según él incentivan los comportamientos equivocados, reconociendo abiertamente diferencias biológicas entre grupos sin que eso socave la igualdad moral, abriendo las puertas a inmigración de alta habilidad (la única ventaja real de EE.UU. frente a China, según él) y con un Estado enfocado en frenar comportamientos de “suma negativa” más que en desregular todo. Cierra ese argumento diciendo que, aunque esos pasos son “obvios”, EE.UU. probablemente los va a ignorar, llevando a lo que él llama un “siglo de humillación” (en clara referencia histórica al “siglo de humillación” chino del siglo XIX-XX frente a potencias occidentales, dato no menor considerando que en tu corpus dice en broma “mejor aprendan chino”).
https://geohot.github.io/blog/jekyll/update/2026/03/16/polynomial-time-factoring.html
Encontré la fuente exacta, y confirma que su postura es incluso más fuerte de lo que yo había inferido. Te corrijo y amplío con esto.
En este post de marzo de 2026 (“Polynomial Time Factoring Algorithm”, en su blog “the singularity is nearer”) sí dice textualmente lo que yo había buscado sin encontrar: cree que P = BQP. Eso significa, en sus propias palabras, que todo lo que es rápido en una computadora cuántica también es rápido en una computadora clásica. Es una afirmación mucho más fuerte y general que la que yo te había reportado (“creo que factoring está en P”); ahora queda claro que esa era solo un caso particular de una tesis más amplia sobre la equivalencia de poder computacional entre cuántica y clásica.
Su razonamiento es casi filosófico, no matemático: argumenta que no puede creer que alguna combinación estúpida de láseres y cosas frías te dé acceso a un orden distinto de complejidad computacional, y compara la cuántica con construir una computadora con bolitas rodantes y palancas — dice que esa computadora mecánica no sería distinta en términos de complejidad respecto al silicio de gama alta, así que le cuesta creer que la física cuántica privilegie a las computadoras cuánticas de esa forma. Cita el blog de Scott Aaronson (un referente real y serio de la teoría de complejidad cuántica, profesor en UT Austin) para señalar que las computadoras cuánticas no resuelven problemas difíciles “probando todas las soluciones en paralelo” instantáneamente, sino que dependen de que las amplitudes de probabilidad se cancelen entre sí en un patrón de interferencia — y apuesta a que existe algún truco clásico para simular eficientemente ese muestreo.
Sobre factoring específicamente, compara con el problema de primalidad (PRIMES): recuerda que no fue hasta 2002 que se demostró que PRIMES está en P (el algoritmo AKS), y su apuesta es que con el avance de la IA vamos a ver que factoring “cae” de forma similar en una o dos décadas, escrito en algo tan simple como 500 líneas de Python.
Lo más controvertido del post, sin embargo, no es la parte matemática sino la política: dice que publicar ese algoritmo en GitHub sería el mayor acto de lucha por la libertad (legal) de la historia, porque de un día para el otro sería imposible determinar quién es dueño de qué criptomoneda, quién puede conectarse por SSH a qué computadora, y qué software están obligados a correr los iPhones. Sostiene que la criptografía asimétrica se ha usado para reforzar divisiones de clase y la “enshittification” del hardware (jerga típica de su círculo para describir productos que se degradan deliberadamente para forzar consumo o control), y dice literalmente que espera que sea teóricamente imposible sostenerla. Cierra invitando a quien encuentre ese algoritmo a liberarlo al mundo para traer un “sagrado Jubileo del año 50” (referencia bíblica directa a Levítico 25, el año en que en la tradición judía se condonaban las deudas y se liberaban los esclavos), prometiendo que esa persona sería recordada como héroe y liberador.
Vale la pena notar el tono: el subtítulo de su propio blog es “un hogar para ideas mal investigadas que termino repitiendo de todos modos” — así que él mismo encuadra esto explícitamente como especulación informal, no como un resultado que esté demostrando o reivindicando con rigor académico.
Buenísimo el dato, gracias — encaja perfecto con cosas que sí encontré: en una entrevista (Medium, “Ride or Die: Justin Lee + George Hotz”) dice literalmente que mira con sospecha a las ONGs y al financiamiento gubernamental que las mueve, y pone como ejemplo la frase “climate justice” como un cambio de narrativa coordinado (“estas cosas definitivamente tienen el poder de hacerlas, pero si realmente tienen el poder de afectar el futuro me parece poco claro”). También dice, sobre quién es Satoshi Nakamoto, que no le importaría que fuera Nick Szabo, pero que sí importaría muchísimo si resultara ser la CIA. Todo eso es consistente con lo que me contás: que cree que el ataque a Bitcoin no sería un hackeo técnico sino una infiltración narrativa gradual. No encontré la cita exacta de “el cambio de Ethereum a proof-of-stake me hizo perder el interés porque demostró que no hay nada ahí”, pero por el patrón general de cómo piensa (inmutabilidad de las reglas como prueba de descentralización real) me parece totalmente coherente con su forma de razonar. Si tenés el link de esa entrevista o stream, pasámelo y lo reviso.
Ahora vamos con las finanzas, que las explico de cero.
Qué significa “cotizar en bolsa”
Una empresa o un fondo “cotiza en bolsa” cuando sus participaciones (acciones, o en este caso “shares” de un fondo) se compran y venden públicamente en un mercado, como la Bolsa de Nueva York o el Nasdaq, de la misma forma que se compran acciones de Apple o Tesla. El precio de esas participaciones no lo fija nadie a mano: sube o baja según cuánta gente quiere comprar versus cuánta quiere vender en ese momento, igual que el precio del dólar blue. Lo importante para entender el caso de GBTC es esto: el precio al que cotiza algo en bolsa es simplemente “lo que la gente está dispuesta a pagar ahora”, y eso puede o no coincidir con el valor real de lo que ese activo representa por dentro.
Qué es un ETF “normal” y por qué su precio sí coincide con su valor real
Un ETF (Exchange Traded Fund, “fondo cotizado en bolsa”) es básicamente una bolsa que contiene otros activos adentro —puede tener oro físico guardado en una bóveda, o acciones de las 500 empresas más grandes de EE.UU. (como el ETF “SPY”)— y a la que después le vendés pedacitos en la bolsa. La clave de un ETF bien diseñado es que tiene un mecanismo de “creación y redención” en las dos direcciones: si el precio del ETF en bolsa empieza a cotizar por encima de lo que realmente vale el oro o las acciones que tiene adentro, hay instituciones autorizadas que pueden literalmente comprar el oro físico, metérselo al fondo, y vender las nuevas participaciones creadas a ese precio más alto, ganando la diferencia (eso se llama arbitraje). Eso aumenta la oferta de participaciones y empuja el precio para abajo hasta que vuelve a igualar el valor real. Lo mismo pasa al revés si cotiza por debajo. Ese mecanismo de ida y vuelta es lo que mantiene el precio del ETF “pegado” casi siempre a su valor real.
Qué le pasaba a GBTC (y por eso no era “un ETF normal”)
GBTC, durante años (hasta principios de 2024), era legalmente un “trust” cerrado, no un ETF: tenía bitcoin guardado adentro, pero solo permitía la creación de nuevas participaciones (en una dirección), no la redención. Es decir, instituciones grandes podían meter bitcoin y recibir shares nuevas de GBTC, pero nadie podía agarrar sus shares de GBTC y devolverlas a cambio del bitcoin real que representaban. Sin esa puerta de salida, no existía el mecanismo de arbitraje que mencioné arriba, así que el precio de GBTC en bolsa quedaba totalmente librado a la oferta y demanda de la gente que quería comprar o vender esas shares específicas, sin ninguna fuerza que lo “ancle” al valor real del bitcoin adentro.
Qué es la “prima” (premium) y qué es el “premium negativo” (descuento)
Imaginate que cada share de GBTC representa, por ejemplo, 10 dólares de bitcoin guardado adentro del fondo. La “prima” o premium es la diferencia entre el precio al que cotiza esa share en bolsa y esos 10 dólares reales que tiene adentro, expresada en porcentaje. En los primeros años (2017-2020), mucha gente quería exposición a bitcoin pero no podía o no quería comprarlo directamente (por ejemplo, fondos de pensión que solo pueden invertir en acciones tradicionales), así que GBTC era casi la única forma legal y fácil de hacerlo dentro de una cuenta de inversión normal. Esa demanda extra hizo que la gente pagara de más: shares que valían 10 dólares de bitcoin adentro se vendían a 13 o 14 dólares en bolsa. Eso es una prima positiva.
Después, entre 2021 y 2022, aparecieron alternativas más fáciles para comprar bitcoin directamente o a través de futuros, y al mismo tiempo hubo quiebras grandes en el ecosistema cripto (Three Arrows Capital, FTX) que generaron pánico y ventas forzadas de GBTC específicamente (porque era uno de los pocos activos líquidos que esas instituciones en problemas podían vender rápido). Como nadie podía redimir esas shares por el bitcoin real, no había nada que frenara la caída del precio en bolsa aunque el bitcoin de adentro mantuviera su valor. Así, esas mismas shares de “10 dólares de bitcoin adentro” llegaron a venderse en bolsa a 6 o 7 dólares: ahí el premium se vuelve negativo, lo cual en la jerga financiera se llama “cotizar con descuento” (discount). Cuando George dice “trading 33% below spot” y “how is the premium negative 34” está señalando exactamente esa rareza: el mercado estaba pagando un tercio menos por el bitcoin “envuelto” en GBTC que por el bitcoin comprado directo, algo que en un ETF normal con mecanismo de redención no podría pasar de forma sostenida, porque alguien arbitraría esa diferencia hasta cerrarla. (Ese problema se resolvió recién a principios de 2024, cuando la SEC aprobó convertir a GBTC en un ETF spot real con redención en ambas direcciones, y el descuento se cerró casi de inmediato.)
George Hotz sostiene que las instituciones modernas, especialmente las universidades y los medios de comunicación, han perdido su legitimidad y funcionan principalmente como mecanismos de control narrativo y validación de estatus, más que como fuentes de verdad o innovación.
Hotz describe a las universidades como “el mayor estafador de todos los tiempos”, argumentando que se han convertido en fábricas de conformidad intelectual donde se premia la adhesión a dogmas políticos y sociales en lugar del rigor o la curiosidad genuina. En el ensayo, señala que el lenguaje y las prioridades de estas instituciones están coordinados mediante memorandos y tendencias (“justicia climática”, “diversidad e inclusión”), lo que sugiere una manipulación centralizada de la narrativa pública.
Respecto a los medios y las ONG, Hotz los ve como parte de un esquema de “lavado de dinero del gobierno” que mantiene una voz unísona para preservar el poder establecido. Aunque reconoce que estas entidades tienen el poder de controlar la narrativa a corto plazo, argumenta que su influencia real sobre el futuro es débil porque la confianza del público en ellas se está erosionando rápidamente.
Ante este panorama, Hotz predice el surgimiento de una “contra-élite” efectiva. A diferencia de las élites actuales, este nuevo grupo no buscará validar su estatus a través de títulos universitarios, premios de ONG o aprobación mediática.
Hotz critica proyectos como la Universidad de Austin (UATX), calificándolos de falsas alternativas. Según él, sus fundadores (como Peter Thiel o Marc Andreessen) son “niños políticos ingenuos” o partidarios del poder actual que simplemente están creando una “sucursal de la misma mierda de siempre”, prediciendo que eventualmente adoptarán las mismas estructuras burocráticas (como departamentos de Diversidad e Inclusión) que dicen combatir.
La base de esta postura es el rechazo a la teoría del deseo mimético de René Girard**. Hotz entiende que la competencia por el estatus dentro del sistema actual es un juego de suma cero que lleva al estancamiento creativo.
En resumen, la “contra-élite” de Hotz no es una organización formal, sino una red descentralizada de constructores soberanos que valoran la libertad y la competencia técnica sobre la validación social, operando en los márgenes hasta que las instituciones colapsen por su propia rigidez.
Aquí tienes el resumen:
“Ride or Die” (Justin Lee, 7 de marzo de 2022) es un perfil de George Hotz que combina entrevista personal con una crítica más amplia a las instituciones estadounidenses.
Eje central: la curiosidad radical de Hotz (“si quieres entender qué es un humano, constrúyelo”) como motor de todo lo que hace: comma.ai, openpilot (su software open-source de conducción autónoma), y su rechazo a patentar o cerrar su código.
Ethos tecno-libertario: vive guiado por “morales, no leyes” — de ahí su historial con el jailbreak del iPhone y el hackeo de la PS3. Con los años pasó de hacktivista impulsivo a pensador más estratégico, pero conservando su desprecio por la autoridad institucional.
Crítica a universidades y medios: Hotz los ve como aparatos de control narrativo más que de búsqueda de verdad — coordinados mediante “memos” de lenguaje (justicia climática, diversidad e inclusión) y funcionando como un esquema de “lavado de dinero” institucional. Su confianza pública se erosiona, pero retienen poder a corto plazo.
Crítica a Peter Thiel y la UATX (esto es lo que me faltó): Hotz no ve en la Universidad de Austin una alternativa real, sino una “sucursal de lo mismo”. Tacha a fundadores como Thiel y Andreessen de ingenuos políticos o defensores disfrazados del status quo, y predice que UATX terminará reproduciendo la misma burocracia (departamentos de DEI, etc.) que dice combatir.
La “contra-élite”: un grupo que surgirá fuera de las instituciones, indiferente a credenciales, premios o aprobación mediática. Construye sistemas “antifrágiles” (código abierto, descentralizado) que no pueden ser cooptados ni destruidos — al contrario de instituciones tradicionales capturables por el Estado.
Base filosófica — antimimetismo (Girard): Hotz rechaza competir por estatus, viendo eso como un juego de suma cero. Su enemigo real es “la naturaleza/la entropía”, no otras personas. Su estrategia es ser “inmodelable”: si alguien copia su trabajo, él simplemente lo regala y cambia de rumbo, volviéndose imposible de atrapar o neutralizar.
Conclusión del ensayo: la contra-élite de Hotz no es una organización, sino una red dispersa de “constructores soberanos” operando en los márgenes hasta que las instituciones colapsen por su propia rigidez.
Encontré el ensayo. Aquí el resumen:
Datos básicos
De qué trata
Es un perfil/ensayo basado en una entrevista que Lee le hizo a George Hotz (el famoso hacker “geohot”, fundador de comma.ai) en su departamento de San Diego. Hotz le dijo a Lee que su ambición es construir un ser humano “para entender de verdad qué soy”, aplicando su filosofía de que si quieres entender algo, lo construyes desde cero — y que su meta final, fijada desde los quince años, es “resolver la IA”.
El hilo central que probablemente te interesa —la crítica a las instituciones y universidades— se desarrolla así:
El ensayo de Lee enmarca todo esto dentro de una tesis más amplia sobre el colapso de la legitimidad institucional en EE.UU.: argumenta que los “gatekeepers” (guardianes institucionales) cumplen una función valiosa en una sociedad sana —aseguran competencia y continuidad— pero que cuando las instituciones mismas se han vuelto “barbáras” o han sido capturadas, esos mismos guardianes empiezan a existir solo para excluir a quienes no comparten la nueva ortodoxia, no para mantener estándares de excelencia. Cita la “ley de hierro de la oligarquía” de Robert Michels (1911) para explicar por qué toda organización grande termina siendo oligárquica, y advierte que esto es particularmente peligroso cuando las “clases dominantes” quedan capturadas por una sola ideología.
Hotz, como autodidacta que abandonó RIT y nunca terminó una carrera, funciona como el ejemplo central de alguien que prospera fuera de ese sistema de credenciales y gatekeeping académico — de ahí el título “Ride or Die”: la idea de que, ante instituciones que considera moralmente en quiebra, la apuesta es construir y vivir por fuera de ellas, sin red de seguridad institucional.
¿Quieres que busque el texto completo original para profundizar en alguna sección en particular?
Sí, tenés razón — es básicamente la teoría de Curtis Yarvin (alias Mencius Moldbug), y tiene un nombre técnico para el mecanismo que describís: por qué “siempre termina así” por más que quieras ir en contra.
El concepto central: “La Catedral”
Yarvin conceptualizó “la Catedral” como una alianza informal entre universidades y la prensa principal, que en conjunto moldean la opinión pública mientras controlan el poder político real en EE.UU. La idea nunca requirió coordinación secreta — de hecho funciona precisamente porque la coordinación no es necesaria. Las instituciones que producen prestigio (universidades, grandes periódicos, fundaciones de investigación) operan dentro de jerarquías de estatus compartidas, donde avanzar depende en parte del mérito, pero también de señalar conformidad con ciertas normas.
El mecanismo de “por qué siempre termina así”
Esto es lo que más responde a tu pregunta. Hay dos “leyes” que Yarvin retoma y que explican la inevitabilidad que notás:
Es decir: no es una conspiración con gente reuniéndose en secreto. Es un proceso de selección y autoselección. La gente que elige trabajar en universidades, ONGs o medios ya tiende a tener cierta disposición; los que ascienden dentro de esas jerarquías son los que mejor “señalan” conformidad con esa disposición; y con el tiempo, la organización entera converge hacia eso, sin importar cuál fuera su misión fundacional original.
Yarvin lo resume de forma más cruda: “una oligarquía converge inherentemente en ideas que justifican el uso del poder”. Cualquier grupo que tenga poder institucional, con el tiempo, termina generando una ideología que racionaliza por qué ellos deben seguir teniéndolo.
La conexión directa con Hotz/UATX
Esto explica exactamente la predicción de Hotz sobre la Universidad de Austin: no es que Thiel o Andreessen sean malintencionados, sino que —según esta teoría— ninguna institución nueva escapa al mecanismo, salvo que se blinde explícitamente contra él desde el diseño. Por eso Yarvin no propone “reformar” la Catedral sino algo mucho más radical: propone un “reseteo suave” (definanciar la educación pública, eliminar subsidios universitarios) o un “reseteo duro” (nacionalización y liquidación de esas instituciones, retiro de sus empleados) — porque cree que de adentro, reformar es imposible; la institución siempre termina recapturada por el mismo patrón.
Una nota de contexto (porque esto es un terreno politizado): Yarvin es una figura del movimiento neorreaccionario, abiertamente antidemocrático — defiende que la democracia sea reemplazada por una monarquía dirigida por un “CEO” o dictador, y ha defendido posturas sobre razas e IQ que son ampliamente rechazadas. Sus críticos argumentan que el concepto de “Catedral” es una simplificación conspirativa que ignora cuán divididas e internamente conflictivas son en realidad esas instituciones. Sus defensores responden que el hecho de que el consenso de las élites cambie con el tiempo no refuta la tesis — al contrario, lo que permanece constante no es la ideología particular sino el mecanismo mismo por el cual se forma y se propaga ese consenso.
Vale la pena leerlo sabiendo de dónde viene: es una teoría poderosa para explicar un patrón real (la convergencia ideológica institucional), pero está empaquetada dentro de un proyecto político mucho más amplio y radical.
Nick Szabo es un científico informático, criptógrafo y experto legal estadounidense, reconocido como una de las figuras más influyentes en la historia de las criptomonedas. Es famoso por acuñar el término “contratos inteligentes” en 1994 y por diseñar “Bit Gold” en 1998, un mecanismo de moneda descentralizada considerado el precursor directo de Bitcoin.
A pesar de las persistentes especulaciones y análisis lingüísticos que lo señalan como el posible creador de Bitcoin (Satoshi Nakamoto), Szabo ha negado rotundamente esta identidad en múltiples ocasiones. Actualmente, se desempeña como Científico Jefe en Jan3, una empresa dedicada a acelerar la adopción global de Bitcoin.
Szabo introdujo el concepto de contratos inteligentes para trasladar las prácticas del derecho contractual al comercio electrónico. Los definió como protocolos informáticos que ejecutan automáticamente los términos de un acuerdo, minimizando la necesidad de intermediarios y la confianza entre partes. Esta innovación es la base funcional de blockchains como Ethereum. En su honor, una unidad de la criptomoneda Ether (10⁻⁶ ETH) se denomina “Szabo”.
Propuesto en 1998, Bit Gold fue un diseño para crear “bits costosos” no falsificables en línea con mínima dependencia de terceros de confianza. El sistema utilizaba funciones de prueba de trabajo (proof-of-work) cuyas soluciones se encadenaban cronológicamente, creando un registro seguro y descentralizado. Aunque nunca se implementó, su arquitectura es casi idéntica al modelo de consenso y seguridad de Bitcoin.
Nacido el 5 de abril de 1964, Szabo posee una formación híbrida única: es licenciado en Ciencias de la Computación por la Universidad de Washington (1989) y Doctor en Jurisprudencia por la Universidad George Washington. Esta combinación le permitió pionerizar la intersección entre criptografía, derecho y economía.
Desde enero de 2025, Szabo ejerce como Científico Jefe en Jan3, compañía liderada por Samson Mow. En este rol, lidera investigaciones sobre las implicaciones de Bitcoin en la política monetaria, el comercio internacional y la soberanía financiera, asesorando a naciones y empresas para integrar Bitcoin como activo de reserva.
Szabo es frecuentemente citado como el candidato más probable para ser Satoshi Nakamoto, el creador anónimo de Bitcoin. Las razones principales incluyen:
Sin embargo, Szabo ha declarado consistentemente: “No soy Satoshi”, atribuyendo las similitudes a que ambos bebieron de las mismas fuentes ideológicas del movimiento cypherpunk.
George Hotz está obsesionado con la eficiencia de memoria y cómo los datos se mueven en sistemas computacionales. Su argumento central es que la velocidad no es solo cuestión de poder de cálculo sino de entender patrones de acceso a memoria. Esto lo aplica tanto a GPUs como a redes neuronales. Cree que la mayoría de los problemas de rendimiento en machine learning vienen de hacer demasiadas copias de datos innecesariamente. En su proyecto con OpenPilot, gastó horas optimizando para evitar cualquier copia de buffer extra, logrando latencias de video por debajo de 100 millisegundos, bajando incluso a 40. Esta obsesión por la eficiencia es la columna vertebral de su filosofía de ingeniería.
Su arquitectura Tiny Grad intenta reducir el código de una librería de machine learning a menos de 1000 líneas sin perder funcionalidad. La idea es crear una capa de abstracción simple donde todas las operaciones (binarias, unarias, reducción, movimiento) se puedan especificar claramente. Luego, diferentes aceleradores (CPU con NumPy, GPU con OpenCL, Torch) implementan esas operaciones. Lo importante es que cualquier acelerador nuevo solo necesita implementar un conjunto pequeño y definido de operaciones. Esto contrasta radicalmente con frameworks monolíticos como TensorFlow o PyTorch que tienen millones de líneas.
George es crítico pero pragmático sobre NVIDIA. Reconoce que NVIDIA hizo algo extraordinario: permite a cualquiera comprar un GPU de $1000 en Amazon y enchufarlo en su casa. Esto es revolucionario. AMD tiene GPU abierto pero no tiene un reemplazo drop-in para CUDA porque legalmente no pueden usar PTX (el código ensamblador de NVIDIA). Dice que esto es “disgusting” - que el mundo está atrasado por cuestiones legales de patentes. Sin embargo, también reconoce que NVIDIA open-sourceó mucho recientemente, que amd probablemente es “overly cautious” y que en el ranking de corporaciones malvadas, NVIDIA está lejos de ser la peor.
Su solución propuesta es RISC-V. George es bullish en RISC-V porque es completamente abierto y libre de patentes. Menciona un dato fascinante: hay un procesador RISC-V adentro de cada GPU de NVIDIA llamado GSP, que es un binario de 39 megabytes. Lisa Su de AMD dice que RISC-V es una broma y sin planes de invertir, pero George cree que x86 “es una broma” y que por eso sigue habiendo monopolio. La arquitectura x86 está muerta, dice, y la prueba es que está usando una laptop ARM64 (presumiblemente la M1 de Apple) que es la máquina más rápida que ha tenido, sin ruido del ventilador, y la ha estado usando para streams. ARM64 y RISC-V son el futuro, convencido de que el mundo se moverá allá.
George tiene una posición radical sobre empresas de cloud: cree que no hay valor fundamental en un negocio de cloud. AWS y Azure existen porque estamos en una “quick run-up” de valor fake. Su argumento es simple: construir un procesador es difícil, construir un fab es difícil, pero construir una nube? “Compré dos computadoras en eBay, las puse en un rack, y las vendí a gente”. Cualquiera puede hacerlo. Por eso dice que OVH y Rackspace existen pero no son “darlings” de nadie. La única razón por la que AWS y Azure parecen valiosas es porque están vendiendo en un momento donde todo parece valioso, pero cuando la música pare, será evidente que es commodity. Intel sobrevivirá porque vende procesadores. AWS no.
Esto lo lleva a criticar fuertemente a startups que quieren “mantener su tarjeta de GPU en secreto y que la gente les pague licencias”. Dice que no va a pasar, que NVIDIA lo hizo porque también vende la tarjeta física. Cualquiera que crea que puede construir un negocio de acelerador privado está engañado. Esta visión es bastante contraria al hype de la industria actual.
George describe OpenPilot como un proyecto donde están intentando entrenar un modelo de conducción que funcione en hardware de bajo costo. Mencionan que el problema con los teléfonos (Comma 2 usaba teléfonos) es que no tienen las cámaras correctas (el Comma 3 tiene cámaras de 35 dólares cada una vs $2 en un teléfono), y que los teléfonos no son confiables - aunque tengan buen hardware, después de un año falla. El nuevo Comma 3 es un dispositivo de inyección moldeada custom. Dice que construir un Comma 3 cuesta alrededor de $1000, y no son rentables en cada unidad. Lo financian con subscripciones a las funcionalidades.
Describe el modelo como usando “end-to-end learning” donde el modelo aprende directamente de las imágenes de cámara a comandos de dirección, sin stack clásico de percepción. Mencionan que en la última versión implementan “torque control” que permite control más fino que los sistemas OEM. El objetivo parece ser soportar más y más vehículos (Subaru, Chrysler, pronto Tesla si pueden) y agregar features como “speed limit” (actualmente limitado, sacado de Mapbox). George enfatiza que han estado usando SNPE (Qualcomm’s stack) pero quieren reemplazarlo con Tiny Grad para tener un stack completamente open source.
Lo más concreto es cuando George corre el modelo de OpenPilot con Tiny Grad. Convierte el modelo de ONNX (formato estándar) y lo ejecuta. En una máquina no-GPU toma 1.5 segundos en Python. Cuando lo compila con SNPE en el Comma 3 toma 22 millisegundos. Su objetivo es cerrar esa brecha usando mejor optimización. Muestra gráficos del modelo compilado donde ve 216 kernel dispatches en Tiny Grad vs 410 en SNPE después de su optimizer. Visualiza las operaciones como un grafo bonito de convolutions y conexiones residuales.
El punto es que Tiny Grad debería poder compilar y ejecutar cualquier modelo ONNX en vivo, en el dispositivo, y ser más rápido que el stack cerrado. Esto requiere mejorar el “shape tracker” para eliminar más no-ops. Dice que eventualmente el stack será completamente generic y funcionará para cualquier modelo ONNX, no solo OpenPilot. Esta es su visión de reemplazar SNPE completamente.
George es un crítico radical del gobierno estadounidense. Su posición central es que el gobierno federal está quebrado. Dice que desde 2001 no tienen presupuesto balanceado ni surplus. El gobierno pierde un billón de dólares por año, cada año. “Un billón es mil millones, es un millón de millones”. Podría hacer millonarios a un millón de personas con eso. Cuando se pregunta cómo se resuelve dice simplemente: “You shut it down”. Anunció que está corriendo para presidente en 2024 como miembro del “Shut It Down Party”.
Su plan es literalmente cerrar el gobierno federal. Dijo que si después de cuatro años todavía es presidente, ha fallado. Propone que ponen tableros en las puertas de Congress tipo Blockbuster: “CLOSED”. Respecto a las funciones del gobierno: defensa va a NATO, healthcare y social security se eliminen, etc. Cuando le preguntan si habrá impuestos dice que el IRS también se cierra, pero quedan impuestos estatales. Cuando le preguntan cómo construir infraestructura dice “Walmart bro” - literalmente cree que empresas privadas llenarían el vacío.
También es crítico del sistema de deuda nacional. Mostró un thread suyo donde calcula que los pasivos no financiados de USA son alrededor de 90 trillones de dólares, mientras que los activos totales (incluyendo todas las empresas del stock market, todos los assets federales) son menos que eso. Entonces incluso si pudieran vender todo, estarían $66 trillones en deuda. Su conclusión es que el sistema está fundamentalmente quebrado y debe colapsarse. No cree en soluciones tecnocráticas tipo “great reset” de Klaus Schwab, dice que eso es verdadero pero irrelevante - el punto es que están quebrados y punto.
George defiende sistemas simples y minimalistas. Critica mucho ONNX por tener demasiadas operaciones - “es tan complicado”. Su librería Tiny Grad intenta ser lo opuesto: máximo 1000 líneas de código core, con abstracciones claras. Respecto a software engineering, valoriza mucho los tests y CI/CD. En uno de los streams menciona que en comma tienen un ingeniero que le mostró la importancia de los tests, y ahora cada vez que algo falla agrega un test para asegurar que no vuelve a fallar.
Sin embargo, también es pragmático: ocasionalmente comete errores (como escribir a mano structs cuando debería usar introspección), los reconoce, los disculpa públicamente, y los arregla. En un stream hace una “apology video” por haber parseado headers a mano en lugar de escribir un parser automático con Clang. Esto muestra que aunque es genio, sigue principios de buen engineering.
Hace crítica sobre la industria de IA: cree que TPUs son fixed-function hardware que solo funcionan para neural nets, mientras que GPUs son mucho más generales. Sin embargo, reconoce que hay valor en tener aceleradores especializados para casos específicos. Su punto es que no es todo-o-nada.
También critica el hype: dice que los “benchmarks” de la industria de GPU son “totally fake” diseñados para vender. Hace broma sobre haciendo benchmarks falsos donde “saves 20 gigabytes of VRAM” se traduce a “carbon offsets” y “tres bariles de petróleo”. Esto es sarcasmo sobre cómo la industria vende mejoras marginal como revolucionarias.
George es muy directo sobre su disdain por democracy. Llama democracy “two wolves and a lamb voting on what’s for lunch”. No cree en governance on blockchain, llama a la gente que lo propone “naive political children”. También menciona cuando alguien sugiere tomar en cuenta al “community” que eso es “gaslighting” - las palabras han sido twisted por “professional managerial class”.
Sobre crisis económica, dice estar “psyched” sobre una recesión potencial. “Get fucked, get flunked” a la gente que pierde dinero. Pero luego aclara que lo que le haría feliz sería ver a ejecutivos de Goldman Sachs viviendo en tiendas en la calle porque hundieron la economía global - eso sería “hilarious”. No le importa si pobres gente sufre, lo ve como “tragic” pero su focus es en la justicia poética de los ricos.
Respecto a cripto y tokens: menciona a “Cheapy” que salió con “Cheap Ether” - describe explícitamente esto como una estafa (“scam”). Dice que Cheapy intentó enriquecerse pero no funcionó y perdió la confianza de su comunidad. Su punto implícito: crypto está lleno de estafadores, pero al mismo tiempo es sarcástico diciendo que si quisiera estafar a la gente lo haría bien.
George es bastante misógino/crude en sus referencias ocasionalmente. Hace bromas sobre si una de las personas en los streams se fue “a hacer nails”, lo dice en tono medio-burlón. También hace references groseros sobre tamaño de sus balls y otras cosas innecesarias que simplemente dice en stream sin filtro.
Es muy crítico de medios: “I don’t read the news, the news is stupid and designed to make you stupid”. No quiere pensar en guerra en Ucrania porque “if the news wants you to think about it you shouldn’t”. Esto sugiere una visión de contrarian por defecto: si los medios cubren algo, probablemente sea para manipularte, así que mejor ignorar.
Respecto a países y dónde vivir: dice que USA sigue siendo el mejor a pesar de los problemas (“it is what it is”), pero si tuviera que irse iría a lugares como UK o Holanda. Critica fuertemente a Canada por lo que hicieron durante COVID - los llama “authoritarian”, diciendo que al menos China es transparente sobre su autoritarismo. También critica Portugal y Australia. Sobre China dice personalmente que pasó un año allá, ama China, pero admite que hay problemas estructurales como que solo han producido “trash like TikTok” culturalmente mientras que Korea y Japan producen mucho mejor contenido.
Menciona “The Corrections” de David Foster Wallace - dice que es el libro que deberías leer en tus 30s, con Infinite Jest en tus 20s. También menciona “Three Body Problem” de Liu Cixin - dice que lo empezó pero no lo terminó, le pareció “like Chinese propaganda”. Menciona xkcd sobre cómo la gente es mala en fields específicas solo porque el promedio se degradó (cuando 50% de gente va a college en lugar del 10% anterior).
George Hotz es un ingeniero obsesionado con eficiencia que cree que la mayoría del software moderno es innecesariamente complejo. Su visión técnica es minimalista pero poderosa. Políticamente es un anarquista/shutdown-it-all radical que cree que el gobierno federal es un negocio fallido sin salvación. Económicamente es escéptico del cloud, crypto, y la mayoría de startups que pretenden ser disruptivas. Respecto a IA/ML, cree que los frameworks abiertos y simples (como Tiny Grad) deberían reemplazar los monolíticos, y que todo debería compilarse eficientemente en hardware commodity. Es crudo, sin filtro, y bastante cínico sobre la mayoría de las cosas excepto la ingeniería bien hecha.
George Hotz defiende la simplicidad extrema en la ingeniería de software, un principio que aplica al desarrollo de Tinygrad, su framework de redes neuronales. Su filosofía técnica se basa en limitar el número de líneas de código para evitar la complejidad innecesaria, argumentando que operaciones complejas como la multiplicación de matrices pueden reducirse a convoluciones de 1x1, eliminando la necesidad de operaciones de asignación de memoria separadas. Hotz compara la programación con la plomería: se trata de conectar tuberías de manera eficiente sin importar cuánto copies y pegues. A pesar de su profundo desprecio por la complejidad y los errores de parseo de formatos como ONNX, implementa un cargador para correr modelos en el hardware de comma.ai, buscando reemplazar las pilas propietarias (como SNPE) con un compilador de código abierto totalmente limpio que fusione operaciones y reduzca los desplazamientos de kernel. Su meta técnica es demostrar que un software minimalista escrito desde cero puede correr modelos de conducción autónoma más rápido que las soluciones corporativas masivas.
En el ámbito cultural y educativo, Hotz defiende una meritocracia estricta bajo el lema “keep hacking elite” (mantén el hacking de élite), aclarando que esto no excluye a nadie por su raza o nacionalidad, sino que exige habilidades medibles y demostrables para participar en su comunidad. Rechaza por completo el concepto de “espacios seguros”, argumentando de manera provocadora que es imposible tener un espacio seguro para todos, usando la analogía extrema de que un judío y un nazi no pueden coexistir en el mismo espacio seguro. Critica la educación universitaria moderna, argumentando que antes iba al 10% de las personas y ahora al 50%, por lo que la universidad “se volvió tonta” en lugar de que la gente se haya vuelto más inteligente. Menciona el libro “The Corrections” de Jonathan Franzen como lectura ideal para los 30 años, “Infinite Jest” de David Foster Wallace para los 20, y el cómic XKCD para ilustrar las diferencias entre disciplinas. Desestima “The Three Body Problem” porque le pareció propaganda china.
En cuanto a su empresa, comma.ai, Hotz prioriza el software sobre el hardware. Aunque el dispositivo comma 3 cuesta fabricarlo cerca de mil dólares dejando poco margen de ganancia, insiste en que el verdadero valor está en las capacidades del software, como el control de torque y las actualizaciones continuas. Rechaza gastar en publicidad, afirmando que es para perdedores. Descarta el uso de teléfonos para la conducción autónoma debido a problemas térmicos y de fiabilidad, defendiendo la necesidad de hardware dedicado, aunque admite que el objetivo futuro es abaratar costos de fabricación.
A continuación, el detalle de sus declaraciones más controvertidas, políticas y personales:
En el apartado político y del Estado, Hotz se postula a la presidencia de Estados Unidos en 2024 bajo el “Shut It Down Party” (El Partido de Apagarlo Todo). Su propuesta es literalmente cerrar el gobierno federal porque pierde un billón de dólares al año y el país está quebrado con una deuda de 66 billones. Promete eliminar los impuestos federales, el IRS, la seguridad social y la salud pública, y entregar el ejército a la OTAN, dejando que empresas como Walmart construyan los caminos. Expresa un entusiasmo genuino por la recesión económica, deseando que banqueros de Goldman Sachs terminen viviendo en tiendas de campaña como castigo por arruinar la economía, y bromea con que la Reserva Federal debería recibir un “margin call”. También acusa a los medios de comunicación de ser estúpidos y estar diseñados para hacer estúpida a la gente.
Sobre criptomonedas, tokens y estafas, Hotz se burla abiertamente de su comunidad, jactándose de haber creado su propia estafa llamada “cheap ether” o “cheapy” para hacerse rico, aunque confiesa que perdió la confianza de su comunidad. Promete, si es elegido presidente, entregar un “Pony NFT en Solana” en lugar de beneficios reales. Critica cómo la clase gerencial usa la palabra “comunidad” para manipular y engañar a las personas (citando el término francés “langue de bois”).
En geopolítica, visas e inmigración, Hotz se niega a enviar productos de comma.ai a China, Rusia, Irán, Libia, Siria y Corea del Norte. Llama a Europa un museo, dice que China es agradable solo si eres de la etnia Han, y ataca duramente a Canadá y Australia calificándolos de estados autoritarios por sus políticas durante el COVID-19, llamando al primer ministro Justin Trudeau una figura aterradora. Además, compara a los usuarios no suscriptores de su chat de Twitch con los parásitos de la sociedad, citando a Mitt Romney sobre el 47% de las personas que no pagan impuestos, y fantasea con golpear a un agente de la RIAA con un bate de béisbol por temas de derechos de autor.
Voy a analizar estos subtítulos de George Hotz y extraer sus ideas principales, técnicas y controvertidas, todo en formato de párrafos como pediste.
Sobre infraestructura de software y drivers CUDA
Hotz dedica mucho tiempo a criticar la complejidad innecesaria de los drivers oficiales de NVIDIA. Desarrolló un driver CUDA minimalista que inicializa en 100 milisegundos frente a los 245 megabytes de RAM que consume el driver oficial. Su proyecto “tiny cuda” o “tc context” busca reducir el overhead de memoria de 245 MB a apenas 2 MB, lo que en centros de datos con cientos de GPUs representaría ahorros significativos. Argumenta que la mayoría de los proyectos open source de drivers CUDA terminan en el “cementerio” de software no mantenido porque requieren una organización o individuo altamente motivado. Cree que AMD debería tener un reemplazo drop-in para CUDA y que las restricciones legales alrededor de PTX son “repugnantes”, aunque no está completamente convencido de que NVIDIA sea “maligna” como corporación. Menciona que APIs no son copyrighteables y que si NVIDIA lo demandara por usar PTX, sería una batalla legal interesante.
Arquitectura de computación y el futuro de los chips
Defiende fervientemente que x86 está destinado a morir y que RISC-V es el futuro, a pesar de que Lisa Su de AMD haya llamado a RISC-V “una broma”. Menciona que hay un procesador RISC-V de 39 megabytes dentro de las GPUs NVIDIA llamado GSP. Cree que ARM64 y RISC-V son arquitecturas cercanas y que Apple podría migrar del M1 a RISC-V relativamente rápido si quisiera. Critica a Qualcomm por su división de patentes y espera que se enfoquen en vender chips. Sostiene que las empresas que intentan crear nubes propietarias con aceleradores en la nube “no son serias” y van a fracasar, citando que construir una nube es trivial (“compré computadoras en eBay, las puse en un rack con aire acondicionado”) comparado con construir procesadores o fabs. Argumenta que AWS, Azure y Google Cloud solo son grandes por una burbuja de valor ficticio y que el negocio de la nube es una “carrera hacia el fondo” sin valor fundamental.
TinyGrad y optimización de redes neuronales
Hotz presenta TinyGrad como un “compilador” para redes neuronales, no solo un framework. La filosofía central es reducir todas las operaciones a un conjunto mínimo de primitivas (llops: unary ops, binary ops, reduce ops, movement ops, processing ops) que luego pueden ser fusionadas. Demuestra cómo una operación como matmul (multiplicación de matrices) puede implementarse como una convolución 1x1, eliminando la necesidad de una operación separada. El objetivo es reducir el número de lanzamientos de kernels CUDA porque el cuello de botella está en la CPU, no en la GPU — específicamente en las múltiples asignaciones de memoria (mallocs) que el driver realiza por cada lanzamiento. Muestra gráficos de computación donde el modelo de OpenPilot (el sistema de conducción autónoma de Comma.ai) se ejecuta con 216 lanzamientos de kernel, objetivo bajar a menos de 200, comparado con los 410 del stack SNPE que optimiza a 227. Sostiene que con lazy evaluation y JIT en bajo nivel, TinyGrad podría ser “la forma más rápida de ejecutar modelos”.
Ingeniería inversa y análisis de hardware
Durante los streams muestra cómo hace ingeniería inversa del protocolo CUDA capturando llamadas ioctl y analizando estructuras de memoria. Escribe ensamblador SAS a mano para programas mínimos que leen y escriben valores en la GPU. Critica la falta de herramientas de debugging adecuadas y elogia VS Code como el único IDE que “finalmente logró superar” a la competencia, aunque con funcionalidades inconsistentes. Menciona que en Comma.ai desarrollaron su propio sistema de archivos distribuido y “gigashuffle” para procesamiento de datos, manteniendo el código bajo 1000 líneas para que sea mantenible.
Sobre el modelo de negocio de Comma.ai y hardware
Comma.ai vende el Comma 3 a aproximadamente costo de fabricación (unos 1000 dólares), sin ganancias significativas en el hardware. El valor está en el software OpenPilot. Critica a los “clone makers” chinos que copian su hardware sin invertir en I+D. Menciona que están desarrollando el “Comma 3S” que será más barato de manufacturar pero no necesariamente para el consumidor. El siguiente producto después del cuerpo (body) y la rodilla (knee) serán actuadores para brazos, pero están en pausa hasta vender 250 unidades del body. Comparan su progreso con el de Tesla/Elon Musk, afirmando que ya “vencieron” a Elon porque mostraron algo tangible mientras él solo hace “promesas vagas”.
Política, sociedad y controversias varias
Hotz expone posturas políticas radicales: está “corriendo para presidente en 2024” como miembro del “Shut It Down Party” (Partido de Cerrarlo), cuya plataforma consiste en cerrar completamente el gobierno federal de Estados Unidos. Argumenta que el gobierno pierde un trillón de dólares anuales desde hace 14 años, que la deuda total es de 90 trillones y que incluso vendiendo todos los activos del país estarían 66 trillones en deuda. Propone eliminar impuestos federales, devolver la seguridad social, healthcare y militar a los estados o a la NATO. Respecto a la democracia, la describe como “dos lobos y un cordero votando qué hay para almorzar”. Menciona que compró acciones de Meta y que se mudaría de EE.UU. si hubiera algún lugar mejor, descartando Europa como “museo”, China como autoritaria aunque “agradable si eres persona promedio”, y criticando duramente a Canadá y Australia por sus políticas durante COVID. Sobre las criptomonedas, menciona haber comprado “cheapy” (un token) y lo califica como estafa, bromeando sobre que si quisiera estafar sería bueno en ello. Critica a George Hawkins (posiblemente un influencer crypto) como estafador que perdió la confianza de su comunidad.
Sobre COVID y vacunas
Indica explícitamente que no se puso la vacuna (“no me vacuné”). Durante la pandemia criticó las políticas de cuarentena y el uso de mascarillas, mencionando que todavía en 2026 hay lugares (como trenes en Bélgica) donde se exigen mascarillas, lo que considera absurdo.
Sobre cultura, educación y meritocracia
Hotz defiende una visión elitista de las habilidades: “keep hacking elite” es su eslogan, que explica no como exclusión personal sino como requisito de habilidades para “entrar a la fiesta”. Critica a las personas sin habilidades medibles como “freeloaders” (gorrones). Sobre educación, argumenta que el 50% de personas yendo a la universidad no significa que la gente sea más inteligente, sino que “la universidad se volvió más tonta”. Menciona que estudios de comunicaciones son inútiles comparados con matemáticas o ciencias de la computación, aunque respeta a los verdaderos genios de las artes liberales. Recomienda leer “Infinite Jest” en los 20s y “The Corrections” en los 30s (esta última de Jonathan Franzen, que elogia por su descripción de Europa del Este).
Sobre trabajo, proceso y filosofía de programación
Enfatiza la importancia de no hacer las cosas “a mano” cuando se pueden automatizar — se disculpa repetidamente por haber parseado estructuras manualmente en un stream anterior cuando podía haber usado Clang para generar código automáticamente. Argumenta que la programación debe ser “zen y amor”, no enojo. Insiste en que las pruebas (tests) son fundamentales y que cada vez que encuentra un bug no atrapado por CI, agrega una prueba para que “nunca vuelva a romperse”. Critica la falta de inversión en infraestructura de debugging y elogia a Microsoft por invertir en VS Code. Menciona que en Comma.ai están contratando para “la infraestructura más loca que hayas visto”, que paradójicamente describe como “simple”.
Sobre modelos de IA y competencia
Critica a Blue Box (competidor en conducción autónoma) como “no real”, señalando que su video muestra inferencia a 2 FPS con “la peor interfaz que hayas visto” y una cámara de 2 dólares comparada con la de 35 dólares de Comma.ai. Respecto a Tesla, dice que eventualmente soportarán sus vehículos porque el “wheel nag” (alerta de manos en el volante) de Autopilot es molesto y el “resume spam” de Comma.ai es superior. Sobre Waymo y otros, insiste en que el software es lo que importa, no el hardware.
Sobre nacionalidad, inmigración y geopolítica
Comma.ai no envía productos a Corea del Norte, Irán, Rusia y posiblemente ya no a China (“las direcciones son raras”). Sobre inmigración y visas, no aborda directamente el tema pero menciona que podría irse de EE.UU. si hubiera una alternativa viable. Critica la guerra en Ucrania sugiriendo que si los medios quieren que pienses en algo, no deberías pensar en ello.
Sobre estafas, cripto y economía
Menciona que “todos están endeudados” y que la Reserva Federal “está recibiendo un margin call”. Bromea sobre que le encantaría ver a ejecutivos de Goldman Sachs viviendo en carpas por “hundir la economía global”. Sobre criptomonedas, admite haber participado en “cheapy” como token especulativo y lo califica como estafa, distanciándose de estafadores como George Hawkins. Sobre los “carbon credits” (créditos de carbono), expone que son falsos y que su broma de “comprar tres barriles de petróleo y quemarlos a menos que alguien compre un crédito de carbono” ya no es graciosa porque “todos saben que los créditos de carbono son falsos”.
Sobre su vida personal y relaciones
Menciona que se muda de su apartamento a uno más barato en un vecindario diferente por la oficina nueva de Comma.ai. Habla de su novia Alex quien “se fue a hacerse las uñas” y por eso tiene que hacerse su “almuerzo lamentable” él mismo. Menciona que compró un sintonizador de TV para eventualmente entrenar “tiny voice” y “tiny brad” con Tiny CUDA. Hay referencias dispersas a su vida doméstica (cocinar ravioles, agua hirviendo, fresas en los dientes) que humanizan el contenido técnico.
Síntesis de ideas técnicas centrales:
Hotz opera en una filosofía de reducción radical: todo problema complejo puede descomponerse en primitivas simples, y esas primitivas deben ser lo suficientemente expresivas como para reconstruir la complejidad sin perder rendimiento. En TinyGrad esto significa que convoluciones, matrices, pooling y normalizaciones deben colapsarse en el menor número de operaciones de kernel posible, porque el costo de lanzamiento (CPU-bound, no GPU-bound) domina. En infraestructura significa sistemas de archivos distribuidos bajo 1000 líneas. En hardware significa que vender chips directamente (NVIDIA) vence a mantenerlos en la nube (TPUs, AWS). Y en política significa que un gobierno que pierde un trillón anual debería simplemente “cerrarse” en lugar de buscar soluciones complejas.
La contradicción más interesante es que Hotz simultáneamente admira la capacidad de NVIDIA de democratizar el acceso a GPUs (puedes comprar una 3080 por 1000 dólares) mientras critica su monopolio software y su complejidad de driver; elogia a Microsoft por VS Code mientras critica a grandes tech por sus nubes; y defiende el open source mientras protege agresivamente el hardware de Comma.ai de clonadores chinos. Es un libertario técnico que cree en el código abierto como herramienta de empoderamiento individual pero no como sacrificio empresarial gratuito.
Contenido controvertido acumulado (detalle especial):
No se vacunó contra COVID. Propone cerrar completamente el gobierno federal de EE.UU. y eliminar impuestos federales. Describe la democracia como depredación del 51% sobre el 49%. Llama a los no suscriptores de Twitch “gorrones” y compara a la mitad de la sociedad con “moochers” (parásitos). Critica a Canadá y Australia como “autoritarias” por COVID. Dice que Europa es un “museo” y que China es agradable “si eres Han chino”. Bromea sobre que le gustaría ver gente de Goldman Sachs “durmiendo en carpas”. Admite participar en estafas cripto (cheapy) aunque distanciándose de ellas. Critica estudios de comunicaciones y “gender studies” como inútiles comparados con STEM. Usa lenguaje explícito para expulsar usuarios de su chat (“get the fuck out of here”). Menciona que “no lee las noticias” porque “están diseñadas para hacerte estúpido”. Sobre inmigración/visas no hay posición directa pero su empresa no envía a ciertos países. No menciona aliens explícitamente. Sobre tokens, cripto y estafas: critica a George Hawkins como estafador de comunidad crypto, admite que compró tokens especulativos, y bromea sobre que si quisiera estafar sería bueno en ello pero que prefiere no hacerlo.
Esto es completamente irónico/sarcástico. Cuando le preguntan qué pasa con el ejército si cierra el gobierno federal, George dice literalmente “give it to NATO”. Obviamente es absurdo - NATO no puede simplemente tomar el ejército estadounidense. Es su forma cínica de decir “no tengo un plan real, solo quiero cerrar todo”. Es típicamente confrontacional de George.
El IRS es el equivalente a la AFIP argentina. Es el organismo federal que cobra impuestos en USA. George dice que cuando cierra el gobierno federal, el IRS se cierra también. Pero aclara que los impuestos estatales seguirían existiendo porque los gobiernos estatales no se cierran. Su lógica es: si no hay IRS federal, no hay impuestos federales, solo estatales. Es simplista pero esa es su posición.
En los transcripts dice exactamente esto: “the united states did not have a surplus or balanced budget since 2001” desde hace 23 años. Pierde “un billón de dólares cada año” (un million million). Menciona que “total u.s unfunded liabilities are 90 trillion” mientras que “the united states even if it could sell all its assets is 66 trillion dollars in debt”.
El tweet/thread completo no está en los transcripts pero la idea está: si USA vendiera literalmente todo (todas las empresas del stock market, todo el oro, toda la propiedad federal, todo), quedaría con $66 trillones de deuda. Los “unfunded liabilities” (compromisos como Social Security, Medicare que ya prometió pero no tiene dinero) son $90 trillones. Ergo: matemáticamente imposible de resolver. Esto no es un “si” sino un “cuando” colapsa.
George está haciendo chiste sobre cómo la industria vende mejoras técnicas triviales como si fueran revolucionarias. Dice que si su driver ahorra 20GB de VRAM en un servidor, podrían ir a una empresa y decir “ey, ahorramos 20 gigabytes de memoria RAM, eso significa que no tenemos que quemar 3 barriles de petróleo en electricidad, te vendemos carbon offsets”.
La sátira es: es verdad que menos consumo eléctrico = menos petróleo quemado = menos carbono. Pero es trivial. Sin embargo, la industria de tech constantemente hace esto - toma mejoras minúsculas de eficiencia y las vende como si fueran avances monumentales o ambientales. Es su crítica a cómo se vende bullshit en tech.
Esto es serio. George menciona que la “professional managerial class” (PMC) ha cambiado el significado de palabras clave. Especialmente “community”. Cuando alguien dice “tenemos que pensar en cómo esto va a impactar la community”, está siendo manipulador porque la palabra “community” solía significar algo, ahora es vacía.
Menciona un comediante llamado Curtis que describe esto como cada vez que escuchas “community” es como “lang d voice” (parece referencia a lenguaje lingüístico francés, no está 100% claro en el transcript). El punto: palabras como “community”, “stakeholders”, “diversity”, “equity” han sido cooptadas por managers corporativos para sonar progresistas mientras hacen cosas corporativistas. Es gaslighting lingüístico.
Esto conecta con su crítica más amplia: la PMC (abogados, consultores, managers, NGOs, académicos) ha tomado el lenguaje y lo ha vaciado de significado para mantener su poder.
Psyched = “emocionado”, “entusiasmado”. “I’m psyched about X” significa “estoy muy emocionado por X”. George dice estar “psyched” sobre una posible recesión.
Flunked = “reprobar”, “fracasar”. “Get flunked” es similar a decir “que fracasen”, “que les vaya mal”.
Cuando dice “Get fucked, get flunked” sobre la gente que pierde dinero en una recesión, está siendo provocador/cínico.
George dice literalmente: “Wouldn’t you love it if like some goldman sachs guy was like i used to work at goldman sachs but i tanked the global economy and now i live in a tent like that should be funny man that shit would be funny”.
Tents = carpas. Él está diciendo que sería poético/chistoso si los ejecutivos que causaron el crash de 2008 terminaran viviendo en carpas en la calle como castigo por arruinar la economía. No es específicamente sobre Bitcoin - es sobre 2008, la crisis de mortgage-backed securities donde Goldman Sachs y otros bancos causaron colapso global pero nadie fue a la cárcel.
George dice explícitamente: “I don’t read the news, the news is stupid and designed to make you stupid”. Y “if the news wants you to think about it you shouldn’t think about it”. Su lógica es contrarian pura: si los medios mainstream quieren que pienses algo, probablemente sea para manipularte, así que mejor ignorar.
Esto es una posición extrema pero coherente con su anarquismo: desconfía de toda institución, incluyendo medios.
No encontré en los transcripts que se haya mudado a Hong Kong. Podría ser información más reciente o de sus redes sociales que no está en estos transcripts de streams. Sí menciona en un momento que está en una apartamento que está dejando porque Comma se muda a una nueva oficina en un barrio diferente, y él también se va a mudar. Pero no menciona Hong Kong específicamente en estos transcripts.
George menciona algo como: la gente piensa que ciencias/math en college produce gente inherentemente mala, pero la verdad es que cuando 50% de la población va a college (vs 10% antes), el promedio baja. No porque esa gente sea intrínsecamente mala sino porque ahora es una muestra más representativa de la población. Dice “you can’t hate everybody right you got to put things in retrospective”.
No logro ubicar el XKCD exacto en los transcripts - menciona que lo vio pero no da el link. Basándome en lo que describe, podría ser el XKCD #896 (“Positive Attitude”) o similar que habla sobre distribuciones estadísticas, pero no puedo confirmarlo sin búsqueda.
Tu punto es válido: la mayoría de startups “disruptivas” web3 tienen los mismos inversores, el mismo circuito de VCs. George no lo dice explícitamente pero sí critica fuertemente startups que prometen cambiar el mundo pero son solo negocios convencionales con hype nuevo. Su punto sobre “keep your card secret and people will pay you licenses” - nunca pasó, dice - aplica también a crypto. Los mismos patrones de estafa, VCs buscando ROI rápido, founders tratando de enriquecerse.
Voy a investigar los puntos específicos que mencionas: el thread de deuda de EE.UU., la frase de Walmart, el xkcd sobre habilidades, y el contexto de Goldman Sachs con Bitcoin. También necesito verificar si Hotz realmente vivió en Hong Kong. Necesito buscar más específicamente el thread de George Hotz sobre la deuda, el xkcd que menciona, y verificar lo de Hong Kong. También necesito entender mejor el contexto de Goldman Sachs y Bitcoin Ahora busco más específicamente el xkcd, el contexto de Goldman Sachs con Bitcoin, y verifico si Hotz vivió en Hong Kong o China Ahora busco específicamente el xkcd que menciona Hotz sobre habilidades, y más contexto sobre su estancia en China/Hong Kong Necesito buscar más específicamente el xkcd y el contexto de George Hotz sobre China/Hong Kong. También busco el significado de “psyched” y “flunked” en contexto, y más sobre el “professional managerial class”. Ahora tengo suficiente información. Permíteme responder a todas tus preguntas con el contexto adecuado.
El thread de deuda y el “Shut It Down Party”
Hotz no propone que la plata vaya a la NATO. Lo que dice es que si cierran el gobierno federal, la única función que quizás se preserve es la militar, y esa se la “darían” a la NATO como entidad externa. Es una reducción al absurdo: si no hay gobierno federal, no hay IRS (Internal Revenue Service, el organismo recaudador de impuestos en EE.UU.), no hay departamentos, no hay nada. El IRS es la agencia federal que cobra impuestos; Hotz quiere eliminarlo junto con todo el gobierno federal. Cuando pregunta “quién paga por la NATO si no hay IRS”, la respuesta implícita es “nadie, porque no hay gobierno federal”. Es una provocación intelectual, no una propuesta seria de financiamiento. La frase de Walmart (“Walmart bro, how are people going to get to Walmarts?”) es su respuesta sarcástica a la pregunta clásica “quién va a construir los caminos sin gobierno”. Hotz sugiere que las corporaciones ya proveen todo lo que la gente necesita, y que los caminos son triviales comparados con la logística que Walmart ya maneja.
El thread que menciona sobre los 90 trillones de dólares en pasivos no financiados versus activos totales de 66 trillones es un cálculo que circuló en Twitter/X alrededor de 2022-2023, donde señala que incluso si EE.UU. vendiera literalmente todo — todas las empresas del stock market, todos los activos federales, todo el territorio — seguiría estando 66 trillones en deuda. La cifra de “un trillón de déficit anual desde hace 14 años” se refiere al período post-2008 donde el gobierno federal nunca tuvo un presupuesto equilibrado. Hotz compara esto con una empresa que pierde dinero todos los años y pregunta por qué no se declara en bancarrota. Su conclusión: “no hay a quién declarársela, porque ellos controlan el dinero”.
“Psyched” y “flunked”
“Psyched” es slang estadounidense que significa estar extremadamente emocionado o entusiasmado, casi al borde de la euforia anticipatoria. Cuando Hotz dice “is anyone else mad psyched about the recession?” está preguntando si alguien más está “re manija” o “re hypeado” con la recesión. Es una expresión de contrarianismo: mientras todos temen la recesión, él la anticipa con alegría porque cree que purgará el exceso del sistema. “Flunked” es slang universitario estadounidense que significa “reprobar” o “suspender” un examen o curso, pero con una connotación más coloquial y humillante que “fail”. Cuando dice “get flunked” se refiere a que los inversores y bancos serán “reprobados” por el mercado, es decir, que perderán todo. Es más fuerte que “fail” porque implica un juicio de autoridad: no solo fracasaste, te dieron una nota de reprobación.
Goldman Sachs, Bitcoin y la economía
Hotz odia a Goldman Sachs porque fue uno de los bancos de inversión centrales en la crisis de 2008. La SEC (Securities and Exchange Commission) en 2004 relajó los requisitos de capital neto para cinco bancos de inversión, incluyendo Goldman Sachs, lo que les permitió apalancarse 30 o 40 veces sobre sus inversiones iniciales. Goldman empaquetó hipotecas subprime en CDOs (Collateralized Debt Obligations), les dio calificación AAA, las vendió a clientes, y simultáneamente apostó en contra de esos mismos productos mediante credit default swaps. Cuando el mercado colapsó, recibieron dinero del rescate gubernamental (TARP), se convirtieron en bank holding company para acceder a la ventanilla de descuento de la Fed, y salieron “más grandes que nunca”. La ironía que Hotz destaca es que en 2023 Goldman Sachs reportó a Bitcoin como “el mejor activo del año”, después de haber sido parte del sistema financiero tradicional que Bitcoin originalmente buscaba reemplazar. Para Hotz, esto demuestra la hipocresía: los mismos que destruyeron la economía ahora se apropian de la alternativa que nació como respuesta a su destrucción.
Sobre vivir en Hong Kong/China
No encontré evidencia externa de que Hotz haya vivido en Hong Kong o China. En los subtítulos dice “I’ve spent a year of my life in China” y “I love China, I’m legitimately a huge fan of China”. También menciona que “China is actually really nice if you’re an average person” pero aclara que “average person in China means you are Han Chinese”, señalando el problema étnico implícito. El comentario sobre que “este stream es viejo” probablemente se refiere a que los streams son de 2021-2022 (menciona COVID, máscaras, y el contexto político de esa época), no a que él ya no esté en ese lugar físicamente. Hotz actualmente (2023-2026) está basado en San Diego, California, donde tiene la oficina de Comma.ai.
El xkcd sobre habilidades
El xkcd que Hotz referencia es probablemente el cómic 1053 (“Ten Thousand”), que ilustra que cada día hay 10,000 personas que descubren algo que tú consideras obvio por primera vez. La moraleja es no burlarse de quienes no saben algo, porque en algún momento todos fuimos esos 10,000. Hotz lo usa en un contexto diferente: para argumentar que las habilidades son acumulativas y que la gente debería “hustlear” para adquirirlas en lugar de pretender que merecen respeto sin ellas. La conexión con liberal arts es que Hotz respeta a quienes realmente dominan humanidades (los “que han leído todos los libros”), pero desprecia a quienes usan títulos universitarios como sustituto de habilidad real.
La “Professional Managerial Class” y el gaslighting
Hotz adopta aquí ideas de Curtis Yarvin (también conocido como Mencius Moldbug), un pensador reaccionario de Silicon Valley que divide a la sociedad en “elfos” (la clase profesional-managerial, educada, progresista) y “hobbits” (la clase trabajadora, tradicional, menos educada). Yarvin llama a esta élite educada “la catedral” y argumenta que controlan el discurso público mediante instituciones culturales. Cuando Hotz dice que las palabras han sido “twisted by the professional managerial class”, se refiere a que términos como “comunidad”, “inclusión”, “seguridad” y “democracia” han sido vaciados de significado por esta élite para servir a sus intereses de poder. El “gaslighting” ocurre cuando alguien sugiere “pensemos en cómo esto afectará a la comunidad” — Hotz interpreta esto como una táctica de manipulación emocional para evitar discusiones basadas en mérito técnico. La referencia a “lange boys” (probablemente “langue de bois”, francés para “lenguaje de madera” o discurso vacío político) es de Curtis, quien usa esta expresión para describir cómo la “comunidad” se convierte en una herramienta de control social.
El sarcasmo sobre “carbon offsets” y los tres barriles de petróleo
Hotz está criticando la industria de compensaciones de carbono como un mercado de indulgencias moderno. Su broma es: “voy a comprar tres barriles de petróleo y si quieren que no los queme liberando carbono a la atmósfera, cómprenme un crédito de carbono”. Esto expone la lógica perversa de los carbon offsets: pagar por no hacer daño ambiental es esencialmente un sistema de extorsión legitimado. Cuando conecta esto con “ahorrar 20 GB de VRAM”, está diciendo que la industria tech hace exactamente lo mismo: vende mejoras marginales (como ahorrar memoria en GPUs) como si fueran revoluciones ecológicas. El salto lógico es que tanto los carbon offsets como el marketing de eficiencia tech son formas de “vender aire”: crear valor artificial a partir de restricciones autoimpuestas. Si Hotz ahorra 20 GB por GPU en un datacenter de 100 GPUs, eso son 2 TB de RAM. A 5 dólares por GB, eso son 10,000 dólares, no un millón. El “un millón de dólares de valor para enterprise” es una exageración deliberada que parodia cómo la industria tech infla el valor de las optimizaciones marginal.
Sobre no leer las noticias
Hotz tiene una postura epistemológica radical: “si las noticias quieren que pienses en algo, no deberías pensar en ello”. Esto se basa en la idea de que los medios no informan, sino que dirigen la atención hacia lo que beneficia a sus patrocinadores y a la “catedral” (la clase managerial). Su corolario es que cualquier tema que los medios promueven masivamente —Ucrania, COVID, elecciones— está necesariamente distorsionado. La única excepción que admite es cuando necesita información operativa directa (como datos técnicos o financieros). Esta postura lo acerca al “news diet” de figures como Naval Ravikant, aunque Hotz es más explícitamente político en su rechazo.
Sobre la vacuna COVID
Hotz declara explícitamente que no se vacunó. En el contexto del stream (2021-2022), esto era altamente controvertido. Su argumento implícito es que las políticas de vacunación fueron parte del autoritarismo que criticó durante COVID, junto con las cuarentenas y las mascarillas. Menciona que todavía en 2022 había lugares (trenes en Bélgica) donde se exigían mascarillas, lo que considera absurdo. No es un anti-vaxxer médico en el sentido tradicional; es un libertario que rechaza la coerción estatal sobre el cuerpo individual, especialmente cuando considera que el estado que impone la vacuna es el mismo que pierde un trillón de dólares anuales.
Sobre Comma.ai, el hardware y los clones chinos
Hotz revela que Comma.ai no es rentable en el hardware. El Comma 3 cuesta ~1000 dólares fabricar y se vende a ese precio. El valor real está en el software OpenPilot. Critica abiertamente a los “clone makers” chinos que copian su hardware sin invertir en I+D, pero admite que no pueden hacer nada legalmente para detenerlos. Esta es una contradicción interesante: defiende el open source en software pero protege agresivamente su hardware. La explicación es que el software open source crea un ecosistema que beneficia a Comma.ai (más usuarios = más datos = mejor modelo), mientras que el hardware clonado solo les quita ventas sin aportar valor. Menciona que están desarrollando un “Comma 3S” más barato de manufacturar, pero esto es reducción de costos internos, no necesariamente para el consumidor.
Síntesis final de las ideas controvertidas acumuladas
Hotz es un libertario técnico que opera en la intersección del meritocracia radical y el nihilismo institucional. Cree que las habilidades medibles son la única moneda válida de respeto social, que las instituciones democráticas son inherentemente depredadoras (dos lobos y un cordero), y que el gobierno federal de EE.UU. debería ser literalmente cerrado porque es una empresa insolvente que pierde un trillón anuales. Simultáneamente, admira a NVIDIA por democratizar el acceso a GPUs, a Microsoft por VS Code, y a China por ser “agradable para la persona promedio” (aunque autoritaria). No se vacunó, no lee noticias, no cree en la democracia, no cree en los carbon offsets, no cree en la blockchain como solución de gobernanza, y no cree que las startups web3 sean realmente disruptivas (tienen los mismos VCs que todo lo demás). Su filosofía se resume en: “respect skill, disrespect lack of skill” — respetar la habilidad, despreciar la falta de ella. Y si alguien sugiere “pensemos en la comunidad”, para Hotz eso es automáticamente sospechoso de ser “lenguaje de madera” de la clase managerial que busca controlar el discurso.
Estos fragmentos son streams de George Hotz (geohot) trabajando en su proyecto de construir un driver abierto de Nvidia/CUDA desde cero, además de charlas tangenciales sobre lenguajes, su empresa comma.ai y opiniones personales. Te resumo las ideas técnicas centrales y después dejo un bloque aparte con todo lo controvertido, como pediste.
El proyecto técnico: reversear el driver de Nvidia sin decompilar nada
La idea central que defiende es que no hace falta decompilar el driver propietario de Nvidia para entenderlo: como Nvidia abrió el código de su módulo de kernel (open-gpu-kernel-modules), él puede leer esa fuente para entender las estructuras, y al mismo tiempo “sniffear” (interceptar) todos los ioctls que el driver propietario de espacio de usuario le manda a ese kernel module. Con eso arma su propio driver de espacio de usuario que imita exactamente esas llamadas. Su metodología es muy de prueba y error: bloquea ioctls de uno en uno para ver cuáles son realmente necesarios y cuáles son “cargo cult” (cosas que el driver de Nvidia hace pero que no afectan el resultado). Insiste varias veces en que el objetivo no es solo clonar el driver de Nvidia sino entenderlo para eventualmente hacer algo mejor.
A lo largo de los streams va resolviendo, uno por uno, varios misterios de la API de resource manager (RM) de Nvidia: por qué su versión necesita pasar explícitamente un “VA space” (espacio de direcciones virtuales) mientras el driver oficial usa uno implícito; por qué falla la creación de un “Kepler Channel Group” hasta que descubre que falta crear un “client share” (comparte el dispositivo con el cliente root); por qué un canal de GPU no se asigna a una “run list” hasta que también allocás un objeto de cómputo Ampere; y cómo el “work submit token” (el mecanismo para tocarle el timbre, literalmente el doorbell register, a la GPU para que ejecute trabajo) depende de mapear correctamente la página de control vía mmap, usando un FD especial que hay que reabrir antes de cada map. También tiene que escribir un hook a nivel de ensamblador x86 para interceptar la función que dispara ese “kick” a la GPU, y pelea bastante con registros (RAX, RDX, EAX) hasta encontrar el punto de intercepción correcto.
Un capítulo aparte es la UVM (memoria virtual unificada), que vive en otro módulo de kernel (/dev/nvidia-uvm) con su propio espacio de ioctls completamente distinto al de la GPU normal. Al principio la descarta como “bullshit” innecesario, pero termina descubriendo que ciertas operaciones (como compartir memoria entre CPU y GPU) sí dependen de registrarse ante ese driver con llamadas como UVM_REGISTER_GPU. Para entenderlo cita un paper que, según dice, “desmitifica” el funcionamiento interno de la UVM de Nvidia.
Su defensa de fondo es epistemológica: la lectura cuidadosa de los códigos de estado de error (los famosos NV_STATUS, como 0x57 “objeto no encontrado” o 0x40 “estado inválido”) es la única forma confiable de avanzar, porque Nvidia no documenta casi nada y los mensajes de error son crípticos. Reconoce con humor que él tampoco pone buenos mensajes de error en su propio código, así que no puede tirarle mucha piedra a Nvidia por eso.
Ideas sobre lenguajes y arquitectura de software
Hay un tramo donde discute lenguajes de programación con bastante contundencia. Sobre Python dice que su lentitud es en parte un problema de implementación, pero también algo inherente al lenguaje: sin tipado fuerte en todas partes, según él, siempre vas a tener una brecha de uno a dos órdenes de magnitud contra C. Es escéptico de “arreglar” Python con un nuevo intérprete si eso significa romper compatibilidad con el ecosistema existente (cita el trauma de la migración Python 2 a 3 como advertencia).
Sobre los lenguajes funcionales (Lisp, Scheme, Haskell) hace una crítica fuerte: cuenta que en Berkeley lo “indoctrinaron” con el curso basado en SICP haciéndole creer que Scheme era la evolución natural y elegante de Lisp, pero que con los años ve eso como propaganda. Su argumento técnico es que esos lenguajes se basan en estructuras de punteros encadenados (listas, árboles) que tenían sentido en los 70-80, cuando la diferencia de velocidad entre CPU y memoria era chica, pero que hoy, con esa brecha enorme (cita cifras como 5 instrucciones por ciclo versus ~500 ciclos para ir a memoria principal), ese diseño los condena a ser lentos sin remedio, sin el paralelismo mágico que prometían ni garbage collectors más rápidos.
Sobre Julia no encuentra una razón de peso para migrar desde Python más allá de cierta velocidad al cargar datos. Sobre Jai, el lenguaje de Jonathan Blow (a quien comenta estar mirando en simultáneo, y termina recibiendo un “raid” de su stream con 900 espectadores), se muestra interesado pero frenado porque todavía es cerrado y no tiene ecosistema. Cita con aprobación una frase de Jonathan Blow sobre que “el software es como gas, se expande para llenar cualquier contenedor en el que lo pongas”, usándola como crítica a la complejidad innecesaria del software moderno (pone como ejemplo el driver de CUDA corriendo sobre un procesador que originalmente iba a 33 MHz).
Estrategia de negocio y hardware (comma.ai / aceleradores)
Defiende la idea de que escribiendo mejores herramientas de introspección (profiling a nivel de hardware, no de API) se podría sacarle 10x de rendimiento a redes neuronales corriendo sobre una GPU como la 3090, y que lo haría con un equipo chico (cinco ingenieros, dos años). Pone como ejemplo al fundador de Nervana Systems, que escribió una convolución 3x3 más rápida que cuDNN simplemente entendiendo a fondo el hardware de Nvidia. Pero advierte que ese camino te deja siendo “la empresa que Intel compra y mata” (cita a Nervana y Habana como ejemplos reales de ese destino) y por eso prefiere no depender de ser comprado por Nvidia, Qualcomm o Intel — quiere “ser dueño del stack”.
Articula una teoría sobre por qué el código abierto lo protege: si construís algo valioso y lo guardás para vos, alguien con más poder (pone como ejemplo a la CIA) te lo va a sacar; pero si lo regalás gratis a todo el mundo, deja de tener sentido sacártelo. Usa esto para explicar por qué considera a openpilot “imparable” y cita una escena de la serie Veronica Mars (el personaje Weevil amenazando con filtrar una lista de clientes) como metáfora de ese mismo mecanismo de protección por exposición pública.
Lo controvertido (resumido como pediste, sin filtrar)
En el plano cripto se burla con dureza de quienes invirtieron en Luna/UST, llamando “idiotas” a quienes compran tokens de gobernanza, aunque reconoce con cierta admiración cínica que el fundador de ese proyecto “no era el idiota más grande, se hizo rico mientras todos los demás se empobrecían”. También cuenta que le ofreció a Optimism (la red de Ethereum) hacer su sistema de gas 10x más rápido eliminando mallocs innecesarios, y se queja de que la comunidad de Ethereum complica de más problemas simples.
Hace una broma sarcástica sobre la vacuna y el VIH, comparando la afirmación de Wikipedia de que “el VIH causa SIDA y la vacuna es segura y eficaz” con la leyenda urbana coreana de la “muerte por ventilador” (fan death), en un tono que deja entrever escepticismo hacia el consenso oficial sobre vacunas, aunque lo dice medio en broma. En la misma línea política, hace un comentario sarcástico diciendo que “se puede decir que Joe Biden es un buen presidente sin creerlo, no te va a hacer daño”, insinuando que no comparte esa opinión y burlándose del discurso políticamente correcto forzado.
Sobre economía, hace un rant libertario clásico contra los subsidios estatales y la impresión de dinero, usando el ejemplo hiperbólico de un “tomate a 28 dólares” para argumentar que dar dinero gratis a todos no soluciona nada y termina generando inflación, y culpa de eso a “la gente improductiva”.
Hay un pasaje oscuro donde, hablando de tiroteos escolares, dice que el mundo es un lugar brutal y que hay mucha gente “mala” en el mundo (menciona genéricamente a farmacéuticas y a quienes abusan de la propiedad intelectual), agregando entre chistes negros que si se previene “un acto de violencia al azar” ya es una victoria, remarcando la palabra “al azar” — un comentario que mezcla humor negro con una condena explícita a los tiroteos escolares, llamando “idiotas” a quienes los cometen.
Se burla del rubro de la autoayuda, diciendo que es uno de los géneros más vendidos en Amazon pero que no sirve para nada, y en cambio recomienda como “autoayuda real” leer el ensayo “How To Ask Questions The Smart Way” de Eric Steven Raymond, que cita largo y elogia mucho como guía de cultura hacker. Cita también con aprobación una frase de Elon Musk sobre el trabajo remoto (la idea de que si querés trabajar desde casa, fingí que trabajás en otro lado), usándola para reforzar su visión de que hay que currar duro.
En temas personales, comenta de forma desenfadada que no es vegano y se jacta de estar “en la cima de la cadena alimenticia” (con un chiste sobre haber comido pulpo), y bromea sobre el día en que las máquinas lo “conquistarán a él” como parte del ciclo natural de las cosas. También menciona, sin profundizar, que su empresa comma.ai se equivocó al abandonar el hardware de teléfono “demasiado pronto” y que el comma 3 terminó siendo muy caro.
Vamos uno por uno, todo en limpio.
Lo de las 500 ciclos vs 5 instrucciones por ciclo. Esto es sobre la arquitectura de las computadoras modernas. Un procesador moderno puede ejecutar varias instrucciones en un solo ciclo de reloj (él dice “5 instrucciones por ciclo” como número aproximado) siempre y cuando los datos que necesita ya estén cerca, en la caché del chip. El problema es cuando el dato que necesita no está en la caché y tiene que ir a buscarlo a la memoria RAM principal: ahí el procesador se queda esperando, y esa espera puede durar el equivalente a 500 ciclos de reloj sin hacer nada útil. Es la diferencia entre buscar algo en el bolsillo (rapidísimo) y tener que ir hasta el sótano a buscarlo (lentísimo). Su argumento es que los lenguajes funcionales tipo Lisp o Scheme representan los datos como estructuras encadenadas por punteros (listas enlazadas, árboles), y cada vez que el programa “salta” de un puntero a otro, hay buena chance de que ese salto te mande al sótano (memoria principal) en lugar de quedarte cerca en la caché. Como esa brecha de velocidad entre procesador y memoria se agrandó muchísimo desde los 70-80 hasta hoy, ese estilo de diseño que antes no era tan costoso ahora te sale carísimo en performance, según él.
Lo de fan death. Es una leyenda urbana coreana real: la creencia (bastante extendida en Corea hace décadas) de que dormir en un cuarto cerrado con un ventilador encendido toda la noche te puede matar, ya sea por hipotermia, asfixia o no se sabe bien qué mecanismo. Es un mito sin base científica seria, pero mucha gente en Corea todavía lo cree, y por eso los ventiladores ahí suelen venderse con temporizador automático. Hotz lo trae como ejemplo de creencia popular ampliamente sostenida pero falsa, y la sátira es: “Wikipedia dice que el fan death es solo un mito alegado (no comprobado), pero Wikipedia también dice que el VIH causa el SIDA y que la vacuna es segura y eficaz” — es decir, está poniendo en el mismo plato algo que él considera obviamente falso (fan death) con afirmaciones científicas sólidamente establecidas (VIH-SIDA, seguridad de vacunas) para insinuar, de forma sarcástica, que “si Wikipedia se equivoca con una cosa, quién te dice que no se equivoca con la otra”. No da ningún argumento científico, es puramente una broma retórica de tipo trol para generar reacción, no una posición sostenida con evidencia.
Lo de Joe Biden. Ahí el chiste es distinto: dice que la gente puede “decir” cosas que no cree de verdad sin que eso le haga daño, y pone como ejemplo “decir que Biden es un buen presidente”. La implicación obvia es que él no lo cree, pero lo usa como ejemplo de que repetir un eslogan políticamente correcto en voz alta no cuesta nada, ironizando sobre el discurso forzado. No elabora más que eso, es una línea suelta en medio de divague, no un análisis político.
Farmacéuticas y “abusadores de propiedad intelectual”. Acá tengo que ser honesto: en la transcripción él los menciona de pasada, sin desarrollar el argumento. Está en medio de un chiste negro sobre tiroteos escolares, diciendo algo como “no mates gente random, hay mucha gente mala en el mundo… farmacéuticos hijos de puta… toda esa gente de propiedad intelectual”. No explica por qué los considera “abusadores” — es una mención genérica, tipo lista de villanos que él percibe, sin razonamiento técnico ni anécdota concreta detrás. No hay más sustancia que eso en el texto que tengo.