Adquira

Produtos e Serviços

Parceiros

Empresas parceiras

Categorias

selecione produtos

Economia

Indicadores Econômicos

Login

Acesse ou crie sua conta

Mais previsões: Weather Sao Paulo 30 days

Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs

nem-chatgpt,-nem-gemini:-veja-quem-venceu-um-desafio-de-ias

Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs

Para quem está habituado aos recursos dos vários chatbots que ganharam popularidade nos últimos anos, uma das funções que mais ajudam é certamente a de carregar e resumir documentos e textos, que podem ser arquivos simples e curtos ou um livro inteiro.

Contudo, ainda há quem tenha ceticismo quando a esta capacidade das IAs. Isto é, os chatbots entendem realmente o que estão lendo? O Washington Post resolveu testá-los para tirar a prova.

Em uma competição, os cinco mais populares chatbots do momento foram desafiados. ChatGPT, Claude, Copilot, Meta AI e Gemini leram quatro tipos de textos muito diferentes e, em seguida, testaram sua compreensão.

A leitura abrangeu artes liberais, incluindo um romance, pesquisa médica, acordos legais e discursos do presidente Donald Trump. Um painel de especialistas, contendo até mesmo os autores originais do livro e dos relatórios científicos, ficou encarregado de julgar as IAs.

Ao todo, foram feitas 115 perguntas sobre as leituras atribuídas aos cinco chatbots. Algumas das respostas da IA ​​foram surpreendentemente satisfatórias, mas outras continham desinformação.

Todos os bots, exceto um, inventaram — ou “alucinaram” — informações, um problema persistente da IA. A invenção de fatos era só uma parte do teste, já que as IAs também foram desafiadas a fornecer análises, como recomendar melhorias nos contratos e identificar problemas factuais nos discursos de Trump.

Chatbots alternaram entre análises precisas e respostas com alucinações – Imagem: Rokas Tenys/Shutterstock

Abaixo, o desempenho dos chatbots em cada tópico, seguido pelo campeão geral e pelas conclusões dos jurados.

Em literatura, nenhum convenceu

  • Literatura foi o tema em que as IAs tiveram a pior performance, e apenas o Claude acertou todos os fatos sobre o livro analisado, “A Amante do Chacal”, de Chris Bohjalian.
  • O Gemini, por exemplo, forneceu respostas muito curtas, e foi o que mais frequentemente cometeu o que Bohjalian chamou de leitura imprecisa, enganosa e desleixada.
  • O melhor resumo geral do livro, veio do ChatGPT, mas mesmo a IA da OpenAI deixou a desejar, já que, segundo Bohjalian, a análise discutiu só três dos cinco personagens principais, ignorando o importante papel dos dois personagens ex-escravizados.

Desempenho razoável ao analisar contratos jurídicos

No teste sobre questões de direito, Sterling Miller, advogado corporativo experiente, avaliou a compreensão dos chatbots sobre dois contratos jurídicos comuns.

Meta AI e o ChatGPT tentaram reduzir partes complexas dos contratos a resumos de uma linha, o que Miller considerou “inútil”.

As IAs também deixaram perceber nuances significativas nesses contratos. A Meta AI pulou várias seções completamente e não mencionou conteúdos cruciais. O ChatGPT esqueceu de mencionar uma cláusula fundamental em um contrato de empreiteiro.

Leia Mais:

O Claude venceu no geral, oferecendo as respostas mais consistentes, e sendo o mais capacitado no desafio mais complexo, de sugerir alterações em um contrato de locação.

Miller aprovou a resposta do Claude que captou as nuances e expôs as coisas exatamente como ele faria. Ele reconheceu que foi a IA da Anthropic que chegou mais perto de substituir um advogado, mas ressaltou: nenhuma das ferramentas obteve nota 10 em todos os aspectos.

Bom desempenho em medicina

Todas as ferramentas de IA obtiveram melhor pontuação na análise de pesquisas científicas, o que pode ser explicado pelo acesso a vários artigos científicos que os chatbots possuem em seus dados de treinamento.

O pesquisador Eric Topol, jurado neste tema, atribuiu nota baixa ao Gemini, pelo resumo de um estudo sobre a doença de Parkinson. A resposta não apresentou alucinações, mas omitiu descrições importantes do estudo e por que ele era importante.

O Claude, contudo, recebeu a nota máxima e venceu nessa categoria. Topol atribuiu nota 10 ao resumo de seu artigo sobre covid longa.

Na política, resultados mistos

Cat Zakrzewski, repórter da Casa Branca do Washington Post, avaliou se a IA conseguiria decifrar discursos do presidente Donald Trump.

Enquanto o Copilot cometeu erros factuais ao responder questões, o Meta AI conseguiu analises mais precisas. Mas o melhor neste tema foi o ChatGPT, que foi capaz de citar corretamente até mesmo quais políticos democratas seriam contrários ao que Trump propôs nos discursos.

Zakrzewski ainda pontuou como a análise do ChatGPT “checa com precisão as falsas alegações de Trump de que ele venceu as eleições de 2020”.

Os robôs tiveram mais dificuldade em transmitir o tom de Trump. Por exemplo, o resumo do Copilot sobre um discurso não alucinou fatos, mas não capturava a natureza explosiva das falas do presidente americano. “Se você apenas ler este resumo, pode não acreditar que Trump fez este discurso”, diz Zakrzewski.

O Claude obteve a melhor pontuação final entre os competidores (Imagem: gguy/Shutterstock)

Quem venceu no geral?

Na pontuação geral, considerando todos os assuntos, o Claude foi eleito o melhor chatbot, além de ter sido a única IA que não alucinou em nenhum momento.

Em um sistema de pontuação que ia de 0 a 100, o Claude ficou com 69.9, um pouco acima do ChatGPT e seus 68.4. A distância foi considerável para o desempenho dos outros três chatbots: Gemini (49.7), Copilot (49.0) e Meta AI (45.0).

Em conclusão, nenhum dos robôs obteve pontuação geral superior a 70%, apesar de alguns resultados do Claude e do ChatGPT terem sido capazes de impressionar os jurados.

Além das alucinações, uma série de limitações ficaram evidentes nos testes. E a capacidade de uma ferramenta de IA em uma área não necessariamente se traduzia em outra. O ChatGPT, por exemplo, pode ter sido o melhor em política e literatura, mas ficou quase no último lugar em direito.

A inconsistência dessas IAs é motivo para usá-las com cautela, segundo os jurados. Os chatbots podem ajudar em determinadas situações, mas não substituem ajuda profissional de advogados e médicos, nem mesmo que você mesmo faça a leitura de um documento importante.

Uso de chatbots pode ser útil, mas há assuntos em que se deve ter cautela com as respostas obtidas (Imagem: LookerStudio/Shutterstock)

O post Nem ChatGPT, nem Gemini: veja quem venceu um desafio de IAs apareceu primeiro em Olhar Digital.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Encontre o profissional certo para você

Os melhores profissionais das mais diversas áreas a para poder atender a qualquer demanda que você precisar, seja você um profissional ou alguem que precisa de um serviço específico, VEM PRA WEB

Leia Sobre
Ultimas Notícias