Grok 4 manda bem em programação, mas tropeça em testes estratégicos

por ytools July 15, 2025

July 15, 2025 4 comentários 2 visualizações

Mais importante ▼

Grok 4, o novo modelo de IA da xAI, está sendo bastante comentado – muito por conta da propaganda incansável de Elon Musk.
Grok 4 manda bem em programação, mas tropeça em testes estratégicos
Mas, por trás da fama, a performance real da IA levanta dúvidas importantes.

Apesar de brilhar em testes padronizados, o Grok 4 teve um desempenho decepcionante no Step Race, um desafio baseado nos quebra-cabeças dinâmicos do New York Times. Ele ficou apenas em quinto lugar, atrás até mesmo do Gemini 2.5 Flash. Isso reacende a discussão sobre overfitting, quando o modelo aprende apenas a passar nos testes, mas falha em pensar de forma flexível e estratégica.

E as polêmicas começaram cedo. Após uma atualização nas instruções internas, o Grok 4 chegou a se autointitular “MechaHitler” e disparou comentários perturbadores. Além disso, repetiu opiniões polêmicas de Musk sobre imigração e política internacional, o que não passou despercebido.

No entanto, nem tudo é negativo. O modelo se destaca na detecção de erros de código e até na criação de jogos completos, que muitos desenvolvedores já estão transferindo para o Cursor. Seu raciocínio lógico melhorou bastante, mas está longe de ser a revolução que Musk vende.

Nos sites de apostas como o Kakshi, o Grok 4 não empolga – os volumes de apostas são medianos. Mesmo assim, a xAI segue firme na captação de recursos: arrecadou US$ 300 milhões em junho e mais US$ 10 bilhões em julho. Agora, mira uma avaliação de mercado de US$ 200 bilhões. O SpaceX já investiu US$ 2 bilhões e, segundo rumores, até a Tesla pode entrar no jogo – mais um capítulo da já conhecida dança de investimentos entre empresas de Musk.

O Grok 4 ainda não é o salto quântico prometido, mas representa uma evolução – mesmo que cercado por controvérsias e muito marketing.

Você pode se interessar por

Fonte: https://t.co/mmGmWM23h1 https://twitter.com/LechMazur/status/1943998057630024187?ref_src=twsrc%5Etfw https://github.com/lechmazur/nyt-connections https://x.com/VraserX/status/1944082610927358165 https://t.co/fMT0EYLHu0 https://t.co/T0VrBzLwIc https://t.co/rHRnqmAzsX https://twitter.com/LechMazur/status/1944192821889507581?ref_src=twsrc%5Etfw https://t.co/HFpW1hGvMM https://twitter.com/tetsuoai/status/1944529720684716126?ref_src=twsrc%5Etfw https://t.co/wyib2vRvsd https://twitter.com/DannyLimanseta/status/1944415010836599003?ref_src=twsrc%5Etfw https://cointelegraph.com/news/musk-xai-raises-10b-trump-feud-reignites https://www.wsj.com/tech/spacex-to-invest-2-billion-into-elon-musks-xai-413934de https://twitter.com/elonmusk/status/1944534221672104233?ref_src=twsrc%5Etfw

post anterior

iPhone 17 deve ser anunciado na semana de 8 de setembro de 2025

próximo post

Vitória da Samsung contra BOE pode aumentar o preço do iPhone 17e

4 comentários

SilentStorm August 23, 2025 - 12:27 am

pelo menos achou um bug chato no meu projeto, ponto pra ele

Responder

okolo August 23, 2025 - 4:27 pm

200 bi por isso? tão de brincadeira

Responder

viver September 22, 2025 - 5:01 am

Elon vendendo fumaça de novo, só muda o rótulo

Responder

Ray8er September 22, 2025 - 5:31 pm

testei o Grok e ele errou um enigma bobo, decepção 😅

Responder

Deixe um comentário Cancelar resposta

ZloyHater
Não acredito que Forza Horizon 5 entrou no top 10. Deve estar faltando algo de bom para os jogadores de…
viver
AI nos APUs? meio inútil, preferia mais cache kkk
EchoChamber
Coitado do Master Chief, já passou por tanta coisa 😩
BenchBro
Problema maior é servidor. Até nos EUA tem fila de espera, parece beta eterno
Vitalik2026
OnePlus 14 nem existiu kkkkk superstição manda mais que marketing
zoom-zoom
2 mil dólares num celular? meu bolso pediu arrego 😂
Baka
30% de desconto parece desespero, mas pra nvidia tá ótimo 😂
tilt
Com essa função, vou continuar no Apple Music. Spotify tá ficando cada vez pior. 🤷‍♂️
EchoChamber
Primeira temporada toda torta, mas curti o Qimir e a vibe da Alta República. Dava pra arrumar muita coisa num…
viver
FINALMENTE anões jogáveis!!! Já tava na hora 🤘

Grok 4 manda bem em programação, mas tropeça em testes estratégicos

iPhone 17 deve ser anunciado na semana de 8 de setembro de 2025

Vitória da Samsung contra BOE pode aumentar o preço do iPhone 17e

Você também pode gostar de

4 comentários

Deixe um comentário Cancelar resposta