Mais previsões: Weather Sao Paulo 30 days

Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs

Para quem está habituado aos recursos dos vários chatbots que ganharam popularidade nos últimos anos, uma das funções que mais ajudam é certamente a de carregar e resumir documentos e textos, que podem ser arquivos simples e curtos ou um livro inteiro.

Contudo, ainda há quem tenha ceticismo quando a esta capacidade das IAs. Isto é, os chatbots entendem realmente o que estão lendo? O Washington Post resolveu testá-los para tirar a prova.

Em uma competição, os cinco mais populares chatbots do momento foram desafiados. ChatGPT, Claude, Copilot, Meta AI e Gemini leram quatro tipos de textos muito diferentes e, em seguida, testaram sua compreensão.

A leitura abrangeu artes liberais, incluindo um romance, pesquisa médica, acordos legais e discursos do presidente Donald Trump. Um painel de especialistas, contendo até mesmo os autores originais do livro e dos relatórios científicos, ficou encarregado de julgar as IAs.

Ao todo, foram feitas 115 perguntas sobre as leituras atribuídas aos cinco chatbots. Algumas das respostas da IA foram surpreendentemente satisfatórias, mas outras continham desinformação.

Todos os bots, exceto um, inventaram — ou “alucinaram” — informações, um problema persistente da IA. A invenção de fatos era só uma parte do teste, já que as IAs também foram desafiadas a fornecer análises, como recomendar melhorias nos contratos e identificar problemas factuais nos discursos de Trump.

Chatbots alternaram entre análises precisas e respostas com alucinações – Imagem: Rokas Tenys/Shutterstock

Abaixo, o desempenho dos chatbots em cada tópico, seguido pelo campeão geral e pelas conclusões dos jurados.

Em literatura, nenhum convenceu

Literatura foi o tema em que as IAs tiveram a pior performance, e apenas o Claude acertou todos os fatos sobre o livro analisado, “A Amante do Chacal”, de Chris Bohjalian.
O Gemini, por exemplo, forneceu respostas muito curtas, e foi o que mais frequentemente cometeu o que Bohjalian chamou de leitura imprecisa, enganosa e desleixada.
O melhor resumo geral do livro, veio do ChatGPT, mas mesmo a IA da OpenAI deixou a desejar, já que, segundo Bohjalian, a análise discutiu só três dos cinco personagens principais, ignorando o importante papel dos dois personagens ex-escravizados.

Desempenho razoável ao analisar contratos jurídicos

No teste sobre questões de direito, Sterling Miller, advogado corporativo experiente, avaliou a compreensão dos chatbots sobre dois contratos jurídicos comuns.

Meta AI e o ChatGPT tentaram reduzir partes complexas dos contratos a resumos de uma linha, o que Miller considerou “inútil”.

As IAs também deixaram perceber nuances significativas nesses contratos. A Meta AI pulou várias seções completamente e não mencionou conteúdos cruciais. O ChatGPT esqueceu de mencionar uma cláusula fundamental em um contrato de empreiteiro.

Leia Mais:

O Claude venceu no geral, oferecendo as respostas mais consistentes, e sendo o mais capacitado no desafio mais complexo, de sugerir alterações em um contrato de locação.

Miller aprovou a resposta do Claude que captou as nuances e expôs as coisas exatamente como ele faria. Ele reconheceu que foi a IA da Anthropic que chegou mais perto de substituir um advogado, mas ressaltou: nenhuma das ferramentas obteve nota 10 em todos os aspectos.

Bom desempenho em medicina

Todas as ferramentas de IA obtiveram melhor pontuação na análise de pesquisas científicas, o que pode ser explicado pelo acesso a vários artigos científicos que os chatbots possuem em seus dados de treinamento.

O pesquisador Eric Topol, jurado neste tema, atribuiu nota baixa ao Gemini, pelo resumo de um estudo sobre a doença de Parkinson. A resposta não apresentou alucinações, mas omitiu descrições importantes do estudo e por que ele era importante.

O Claude, contudo, recebeu a nota máxima e venceu nessa categoria. Topol atribuiu nota 10 ao resumo de seu artigo sobre covid longa.

Na política, resultados mistos

Cat Zakrzewski, repórter da Casa Branca do Washington Post, avaliou se a IA conseguiria decifrar discursos do presidente Donald Trump.

Enquanto o Copilot cometeu erros factuais ao responder questões, o Meta AI conseguiu analises mais precisas. Mas o melhor neste tema foi o ChatGPT, que foi capaz de citar corretamente até mesmo quais políticos democratas seriam contrários ao que Trump propôs nos discursos.

Zakrzewski ainda pontuou como a análise do ChatGPT “checa com precisão as falsas alegações de Trump de que ele venceu as eleições de 2020”.

Os robôs tiveram mais dificuldade em transmitir o tom de Trump. Por exemplo, o resumo do Copilot sobre um discurso não alucinou fatos, mas não capturava a natureza explosiva das falas do presidente americano. “Se você apenas ler este resumo, pode não acreditar que Trump fez este discurso”, diz Zakrzewski.

O Claude obteve a melhor pontuação final entre os competidores (Imagem: gguy/Shutterstock)

Quem venceu no geral?

Na pontuação geral, considerando todos os assuntos, o Claude foi eleito o melhor chatbot, além de ter sido a única IA que não alucinou em nenhum momento.

Em um sistema de pontuação que ia de 0 a 100, o Claude ficou com 69.9, um pouco acima do ChatGPT e seus 68.4. A distância foi considerável para o desempenho dos outros três chatbots: Gemini (49.7), Copilot (49.0) e Meta AI (45.0).

Em conclusão, nenhum dos robôs obteve pontuação geral superior a 70%, apesar de alguns resultados do Claude e do ChatGPT terem sido capazes de impressionar os jurados.

Além das alucinações, uma série de limitações ficaram evidentes nos testes. E a capacidade de uma ferramenta de IA em uma área não necessariamente se traduzia em outra. O ChatGPT, por exemplo, pode ter sido o melhor em política e literatura, mas ficou quase no último lugar em direito.

A inconsistência dessas IAs é motivo para usá-las com cautela, segundo os jurados. Os chatbots podem ajudar em determinadas situações, mas não substituem ajuda profissional de advogados e médicos, nem mesmo que você mesmo faça a leitura de um documento importante.

Uso de chatbots pode ser útil, mas há assuntos em que se deve ter cautela com as respostas obtidas (Imagem: LookerStudio/Shutterstock)

O post Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs apareceu primeiro em Olhar Digital.

Leandro Costa Criscuolo

Matérias desse autor

Deixe um comentário Cancelar resposta

Encontre o profissional certo para você

Os melhores profissionais das mais diversas áreas a para poder atender a qualquer demanda que você precisar, seja você um profissional ou alguem que precisa de um serviço específico, VEM PRA WEB

Sou um Profissional

Quero um Profissional

Adquira

Parceiros

Categorias

Economia

Login

Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs

Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs

Em literatura, nenhum convenceu

Desempenho razoável ao analisar contratos jurídicos

Bom desempenho em medicina

Na política, resultados mistos

Quem venceu no geral?

Leandro Costa Criscuolo

Deixe um comentário Cancelar resposta

Encontre o profissional certo para você

Ausência de Neymar é motivo de alívio para o técnico do Grêmio

FOTO: torcida do Palmeiras protesta após eliminação e pede a volta de Felipão

Atlético-MG x Vasco: ingressos à venda

São Paulo dá última cartada, oferece mais, e acerta contratação de Fernandão

Premier League fatura mais que a NBA e fica atrás apenas da NFL e MLB

Maior 'garçom' do 1º turno, Cleiton Xavier faz a alegria dos atacantes palmeirenses