NoFinn
Posts
Meta mirando investimento de US$ 10bi em startup de dados para IA 💰

Meta mirando investimento de US$ 10bi em startup de dados para IA 💰

A EleutherAI lança dataset de IA com 10 trilhões de tokens vindos de fontes legais e públicas, OpenAI detecta operações chinesas de influência usando ChatGPT massivamente & mais

Finn Puklowski
9 de junho de 2025

E aí curioso, seja bem vindo a Nofinn, sua newsletter diária sobre IA!

Aqui está o seu resumo de hoje 👇

🏃TLDR⌚

💰 A Meta negocia investir mais de US$ 10 bilhões na Scale AI para garantir acesso estratégico a dados de alta qualidade para seus modelos LLaMA, sinalizando que a nova guerra da IA está nos bastidores: quem controla os dados, controla o futuro dos modelos…

📊 A EleutherAI lançou o Common Pile, um dos maiores datasets de IA abertos e rastreáveis do mundo, com 10 trilhões de tokens provenientes de fontes legais e públicas, uma tentativa de democratizar o acesso a dados de qualidade e enfrentar as big techs com transparência…

👀 OpenAI detectou que grupos estatais chineses estão usando o ChatGPT para campanhas de influência online, criando conteúdo em massa e traduzido com IA, embora o impacto ainda seja pequeno, o caso alerta para os riscos geopolíticos e a urgência de mecanismos de controle e transparência…

🤖 Há uma ilusão pública de que IAs como ChatGPT realmente "pensam", mas Tyler Austin Harper argumenta que esses sistemas apenas imitam linguagem sem consciência ou entendimento, e que essa ilusão, reforçada por grandes empresas, serve para mascarar interesses econômicos e políticos. A verdadeira ameaça, segundo o autor, não está na IA em si, mas no analfabetismo tecnológico da sociedade, que impede decisões éticas, regulatórias e democráticas sobre seu uso e impacto…

O que aconteceu na semana passada

Segunda-Feira: Perplexity Labs é lançado para o desenvolvimento de agentes de IA. OpenAI apresenta O Stargate UAE, Nvidia vai vender Chips Blackwell mais barato para a China.

Terça-Feira: Sakana AI lança nova arquitetura baseada na evolução Darwiniana. Samsung pretende integrar Perplexity em seus smartphones da linha Galaxy, Microsoft apresenta modelo de criação de vídeos do Bing com tecnologia Sora.

Quarta-Feira: DeepSeek usando Gemini em seus novos modelos? Claude é quem escreve os blogs da Anthropic agora, Yoshua Bengio fundou um laboratório sem fins lucrativos para desenvolver IAs mais honestas.

Quinta-Feira: Brasil em Destaque: Como o Brasil quer se diferenciar no desenvolvimento de IA. Mistral lança o ‘Code’ seu agente de código projetado para rodar em dispositivos locais, OpenAI revela integrações com apps empresariais como Google Drive, Dropbox.

Sexta-Feira: Anthropic traz Claude para uso no governo dos EUA. Google fala que Gemini 2.5 Pro é melhor com codificação, Amazon cria equipe focada em pesquisas de agentes de IA.

Além disso, olha o que você verá hoje:

🛠 Caixa de Ferramentas
🇧🇷 Novidade do setor para o Brasil
🆕 Novidades ao redor do mundo
📚 Conteúdos Extras

Bora lá?

🛠 Caixa de Ferramentas 🛠

Aqui estão as ferramentas que separei para você iniciar a semana:

Cursor 1.0 - Com revisão de código automatizada para detectar e corrigir bugs, memórias para aprender com sua base de código, instalações MCP com 1 clique e Agente em Segundo Plano.
Eleven v3 - O modelo de conversão de texto com fala mais expressiva. Suporte para mais de 70 idiomas, diálogos com vários falantes e tags de áudio como [animado], [suspiros], [rindo] e [sussurros].
Vertical AI - Plataforma sem código para ajuste fino de modelos de IA utilizando poder computacional descentralizado.
ChatBetter - Acesse modelos da OpenAI, Anthropic, Google e outros, ,tudo em um só lugar. Selecione automaticamente os melhores modelos para cada tarefa, visualize-os lado a lado para comparar e combine-os em uma resposta abrangente.

Meta negocia mega-aposta de US$ 10 bi na Scale AI para dominar dados

A Meta está em negociações para um possível investimento superior a US$ 10 bilhões na Scale AI, uma startup especializada em curadoria e rotulagem de dados para treinar modelos de IA. O acordo, ainda em fase inicial, colocaria a Meta como uma das maiores investidoras privadas no ecossistema de IA em 2025, e marcaria uma aposta agressiva na preparação de dados como diferencial competitivo frente à OpenAI, Google e Anthropic. O objetivo seria garantir acesso exclusivo ou prioritário a grandes volumes de dados de alta qualidade para alimentar os modelos LLaMA e outras iniciativas internas de IA. A Scale AI, que já trabalha com o governo dos EUA e gigantes da tecnologia, tornou-se referência na preparação de dados com precisão e velocidade.

A movimentação indica que a Meta enxerga a infraestrutura de dados como pilar estratégico para liderar a corrida da IA, especialmente no desenvolvimento de agentes multimodais e modelos generalistas. Embora os detalhes financeiros ainda não estejam finalizados, a escala do possível investimento revela uma tendência: as big techs não estão mais apenas competindo por modelos, mas por cadeias inteiras de valor, desde chips até curadoria de dados. Se concretizado, o acordo consolidaria a Scale como um player essencial no backstage da IA global e ampliaria o alcance da Meta em áreas críticas como alinhamento, testes e mitigação de viés algorítmico, algo vital para seu novo ciclo de produtos baseados em IA generativa.

Common Pile: EleutherAI lança megabase legal e aberta para redefinir o treino de LLMs

A EleutherAI revelou o Common Pile, um novo megaconjunto de dados que reúne cerca de 10 trilhões de tokens de textos com licença ou domínio público, tornando-se um dos maiores datasets abertos e legalmente reutilizáveis disponíveis para o treinamento de modelos de linguagem. A iniciativa nasce como sucessora do The Pile (2020), mas agora com foco em transparência legal, curadoria ética e traçabilidade de fontes, algo essencial diante da crescente pressão sobre IA generativa e direitos autorais. O Common Pile é composto por fontes como Stack Exchange, Wikipedia, arXiv, livros da Gutenberg, artigos acadêmicos e partes licenciadas de livros e web, organizadas com metadados ricos que permitem filtragem e controle detalhado sobre o conteúdo usado.

Além de transparência, o projeto visa nivelar o campo de jogo entre laboratórios abertos e big techs como OpenAI, Google e Meta, que têm acesso a dados fechados e privados. Ao democratizar o acesso a dados de treinamento com rastreabilidade clara, a EleutherAI fortalece as bases da pesquisa em IA responsável e reduz o risco de que modelos sejam treinados em dados obtidos de forma opaca ou ilegal. A iniciativa pode beneficiar laboratórios independentes, universidades e startups que enfrentam barreiras legais e econômicas para treinar LLMs. Também reforça uma tendência: os dados são a nova infraestrutura crítica, e a curadoria transparente é agora tão importante quanto a arquitetura do modelo.

Guerra fria digital: OpenAI encontra operações chinesas usando ChatGPT

OpenAI divulgou um relatório revelando que grupos ligados ao governo chinês vêm utilizando o ChatGPT em operações coordenadas de influência, com o objetivo de manipular a opinião pública internacional.

A investigação detectou contas falsas usando LLMs para redigir textos em múltiplos idiomas, criar comentários em redes sociais e até gerar interações aparentemente legítimas em sites como Reddit e X. Dois desses grupos, denominados “Spamouflage” e “Greenhorn”, usaram o ChatGPT para traduzir conteúdos e aprimorar mensagens antes de distribuí-las por meio de perfis automatizados. Apesar do uso intensivo da IA, OpenAI afirma que a eficácia dessas campanhas ainda é limitada, com baixo engajamento real do público.

A empresa anunciou que derrubou contas envolvidas nos esquemas e está monitorando novas tentativas de abuso da plataforma. Este caso acende alertas sobre o uso de modelos de linguagem em campanhas de desinformação e guerra de narrativas, especialmente em anos eleitorais. A NPR destaca que, embora o conteúdo gerado seja tecnicamente moderado, sua escala e personalização via IA podem superar a capacidade atual de checagem de fatos e resposta em tempo real. A situação também reacende debates sobre a responsabilidade das empresas de IA em contextos geopolíticos sensíveis, e sobre a necessidade de padrões globais para o uso ético de LLMs em ambientes abertos e sociais.

🇧🇷 Novidade do setor para o Brasil 🇧🇷

Brasil e IA: Investimento, desafios e caminhos possíveis.
Lula diz que Brics discutirá regulação de inteligência artificial.
A Century, empresa de software e tecnologia da informação, vai investir R$ 150 milhões em novo data center na Região Metropolitana de Belo Horizonte.
Especialistas alertam Senado sobre desafios ambientais e regulatórios dos data centers para IA no Brasil.

Mais notícias ao redor do mercado de IAs

Mais detalhes sobre o Modo de IA do Google.
Chefe do programa de robôs humanóides Optimus da Tesla deixará a empresa.
Google Research: Otimizando o planejamento de viagens baseado em LLM.
MIT revela avanço de IA na descoberta de medicamentos com novo modelo.
Aplicativos populares de IA ficam na mira da Anthropic e da OpenAI.
Por que estamos discutindo a inteligência artificial do jeito errado?
Como a OpenAI está respondendo às demandas de dados do The New York Times para proteger a privacidade do usuário.

O que acontece quando as pessoas não entendem como a IA funciona

O artigo publicado na The Atlantic questiona o mito central da IA, que aborda a crença de que sistemas como ChatGPT ou Claude realmente “pensam” ou compreendem o mundo. A partir de reflexões sobre os livros Empire of AI e The AI Con, o autor Tyler Austin Harper argumenta que a sociedade, influenciada pelo marketing das big techs, passou a enxergar fluência linguística como sinônimo de cognição. Mas, na prática, esses modelos apenas reproduzem padrões estatísticos de linguagem, sem possuir consciência, intenção ou entendimento real. Isso gera uma falsa sensação de inteligência, amplamente explorada por empresas que se beneficiam do desconhecimento técnico da maioria das pessoas.

O texto também destaca como essa ilusão serve a interesses corporativos e políticos, alimentando expectativas exageradas sobre o potencial da IA e desviando o debate de questões essenciais, como precarização do trabalho, exploração de mão de obra barata e centralização de poder em poucas empresas. Modelos de linguagem são apresentados como ferramentas neutras, mas sua produção envolve custos sociais e ambientais elevados, além de dependência de dados e decisões opacas. Ao venderem essas IAs como entidades quase-humanas, as empresas criam um ambiente em que o questionamento técnico e ético se torna mais difícil, e em que regulação eficaz é constantemente adiada sob o pretexto de “não frear a inovação”.

Por fim, Harper defende que a principal ameaça não é a IA em si, mas o analfabetismo em torno dela. Se a sociedade não entende como a IA funciona, quem a constrói, e com quais propósitos, torna-se impossível fazer escolhas políticas e regulatórias responsáveis. Em vez de se maravilhar com máquinas que escrevem poemas, é necessário perguntar quem está se beneficiando com essa tecnologia, e às custas de quem. A crítica de fundo é clara: enquanto a narrativa dominante idolatra máquinas que “sabem tudo”, estamos nos afastando de um debate público realista, informado e democrático sobre o futuro da inteligência artificial.

Conteúdos extras para você

📄 Demis Hassabis, CEO do Google DeepMind, diz que a IA rivalizará com os humanos em apenas 5 anos | Acesse o conteúdo completo aqui.
🧠 Desenvolvimento e validação de um agente autônomo de inteligência artificial para tomada de decisão clínica em oncologia | Acesse o conteúdo completo aqui.
ℹ️ Robô humanóide recebe impulso de IA | Acesse o conteúdo completo aqui.
🧠 A IA 'alucina' constantemente, mas há uma solução | Acesse o conteúdo completo aqui.
ℹ️ O que são agentes de IA? Tudo o que você precisa saber sobre agentes de inteligência artificial | Acesse o conteúdo completo aqui.
📄 IA no ensino superior: à medida que as universidades navegam na revolução digital, um novo campo de batalha está surgindo, com questões de integridade, ambição e o futuro do aprendizado | Acesse o conteúdo completo aqui.
ℹ️ Guia Visual da Inovação Global em IA | Acesse o conteúdo completo aqui.
▶️ Democratizando a IA: a visão do Google Cloud para o desenvolvimento de agentes acessíveis | Acesse o conteúdo completo aqui.
▶️ Um mergulho profundo na segurança e ética da IA com Databricks e ElevenLabs | Acesse o conteúdo completo aqui.
▶️ Construindo seu mecanismo de IA: como o OpenAI funciona com startups | Acesse o conteúdo completo aqui.

Isso é tudo por hoje

Me conta: o que você achou do conteúdo de hoje?

Faça Login ou Inscrever-se para participar de pesquisas.

Não perca nada!

Para mais notícias sobre IA, fique atento na sua caixa de entrada todos os dias!

Caso tenha interesse, tenho outros conteúdos já publicados. Dê uma olhada.

Reply

or to participate.