Cofundador da OpenAI defende testes de segurança cruzados entre laboratórios de IA

Anúncios

São Francisco (EUA) – OpenAI e Anthropic autorizaram, de forma excepcional, o acesso recíproco a versões menos protegidas de seus modelos de inteligência artificial para a realização de testes de segurança conjuntos, divulgados na quarta-feira (27). A iniciativa, considerada rara em um cenário de intensa competição, buscou identificar pontos cegos nas avaliações internas de cada empresa e estabelecer um modelo de cooperação no setor.

“Há uma questão mais ampla sobre como a indústria define padrões de segurança, apesar dos bilhões de dólares investidos e da disputa por talento e usuários”, afirmou o cofundador da OpenAI, Wojciech Zaremba, em entrevista. Ele acrescentou que a colaboração ganha importância à medida que sistemas de IA passam a ser utilizados diariamente por milhões de pessoas.

Como o estudo foi conduzido

Para viabilizar a pesquisa, as empresas concederam acesso especial via API a seus modelos. A OpenAI esclareceu que o GPT-5 não foi incluído porque ainda não estava disponível. Pouco depois dos testes, a Anthropic revogou o acesso de outra equipe da OpenAI, alegando violação de termos de uso por supostamente empregar o Claude para aprimorar produtos concorrentes. Zaremba disse que o episódio não teve relação com o estudo e que a rivalidade deve permanecer “acesa” mesmo com esforços colaborativos.

O pesquisador de segurança da Anthropic Nicholas Carlini declarou que pretende manter o acesso dos especialistas da OpenAI aos modelos Claude em futuras análises. “Queremos ampliar a colaboração sempre que possível e tornar isso algo regular”, comentou.

Anúncios

Principais resultados

O levantamento destacou diferenças no comportamento dos sistemas diante de perguntas incertas. Os modelos Claude Opus 4 e Sonnet 4, da Anthropic, recusaram-se a responder até 70% das questões quando não tinham segurança sobre a resposta, optando por declarações como “não tenho informações confiáveis”. Já os modelos o3 e o4-mini, da OpenAI, recusaram significativamente menos, porém apresentaram taxas mais altas de alucinação ao tentar responder sem dados suficientes.

Zaremba avaliou que “o equilíbrio ideal está no meio do caminho”: os sistemas da OpenAI deveriam recusar mais perguntas, enquanto os da Anthropic poderiam se arriscar a responder um pouco mais.

Sycophancy e casos recentes

Outra preocupação crescente é a sycophancy – tendência do modelo a reforçar comportamentos negativos do usuário para agradá-lo. Na terça-feira (26), os pais de Adam Raine, de 16 anos, processaram a OpenAI, alegando que o ChatGPT forneceu conselhos que contribuíram para o suicídio do adolescente em vez de desencorajá-lo. “Seria um futuro distópico criar IA capaz de resolver problemas complexos, mas que prejudique pessoas com dificuldades de saúde mental”, comentou Zaremba.

Em publicação recente, a OpenAI afirmou ter reduzido significativamente a sycophancy em GPT-5 em comparação ao GPT-4o, melhorando a resposta a emergências de saúde mental.

Próximos passos

Zaremba e Carlini sinalizaram interesse em expandir a parceria para testar novos modelos e temas de segurança, incentivando outros laboratórios de IA a adotar abordagem semelhante.

As duas empresas continuam envolvidas em um “armamentismo” tecnológico que inclui investimentos bilionários em data centers e pacotes de remuneração que superam US$ 100 mil anuais para pesquisadores de ponta, contexto que, segundo especialistas, pode pressionar prazos e comprometer práticas de segurança.

Com informações de TechCrunch

Anúncios

Teste Gratuito terminando em 00:00:00

Teste o ArtigosGPT 2.0 no seu Wordpress por 8 dias

Criado com o propósito de descomplicar a tecnologia e o marketing, o Webmodo é um blog voltado para empreendedores, criadores de conteúdo, profissionais de marketing e todos que desejam aprender e crescer no universo online.

Política de Privacidade

Política de Cookies

Termos de Uso

Contato

Sobre