Hot News
Hoje estamos anunciando um Soneto Claude 3.5 atualizadoe um novo modelo, Claude 3.5 Haiku. O Claude 3.5 Sonnet atualizado oferece melhorias generalizadas em relação ao seu antecessor, com ganhos particularmente significativos na codificação – uma área em que já era líder. O Claude 3.5 Haiku iguala o desempenho do Claude 3 Opus, nosso maior modelo anterior, em muitas avaliações pelo mesmo custo e velocidade semelhante à geração anterior do Haiku.
Também estamos introduzindo um novo recurso inovador na versão beta pública: uso do computador. Disponível hoje na API, os desenvolvedores podem orientar Claude a usar os computadores da mesma forma que as pessoas: olhando para uma tela, movendo o cursor, clicando em botões e digitando texto. Claude 3.5 Sonnet é o primeiro modelo de IA de fronteira a oferecer uso de computador em versão beta pública. Nesta fase, ainda é experimental – por vezes complicado e sujeito a erros. Estamos liberando o uso do computador antecipadamente para receber feedback dos desenvolvedores e esperamos que a capacidade melhore rapidamente com o tempo.
Asana, Canva, Cognition, DoorDash, Replit e The Browser Company já começaram a explorar essas possibilidades, realizando tarefas que exigem dezenas, e às vezes até centenas, de etapas para serem concluídas. Por exemplo, a Replit está usando os recursos do Claude 3.5 Sonnet com uso de computador e navegação de interface do usuário para desenvolver um recurso importante que avalia aplicativos à medida que são criados para seu produto Replit Agent.
O Soneto Claude 3.5 atualizado agora está disponível para todos os usuários. A partir de hoje, os desenvolvedores podem construir com a versão beta do uso do computador na API Anthropic, Amazon Bedrock e Vertex AI do Google Cloud. O novo Claude 3.5 Haiku será lançado ainda este mês.
Claude 3.5 Sonnet: Habilidades de engenharia de software líderes do setor
O Soneto Claude 3.5 atualizado mostra amplas melhorias nos benchmarks do setor, com ganhos particularmente fortes em tarefas de codificação de agentes e uso de ferramentas. Na codificação, ele melhora o desempenho no SWE-bench Verified de 33,4% para 49,0%, pontuando mais alto do que todos os modelos disponíveis publicamente – incluindo modelos de raciocínio como OpenAI o1-preview e sistemas especializados projetados para codificação de agentes. Também melhora o desempenho no banco TAU, uma tarefa de uso de ferramenta de agência, de 62,6% para 69,2% no domínio do varejo, e de 36,0% para 46,0% no domínio mais desafiador das companhias aéreas. O novo Claude 3.5 Sonnet oferece estes avanços ao mesmo preço e velocidade que o seu antecessor.
Os primeiros comentários dos clientes sugerem que o Claude 3.5 Sonnet atualizado representa um salto significativo para a codificação baseada em IA. O GitLab, que testou o modelo para tarefas DevSecOps, descobriu que ele fornecia um raciocínio mais forte (até 10% em todos os casos de uso) sem latência adicional, tornando-o uma escolha ideal para potencializar processos de desenvolvimento de software em várias etapas. A Cognition usa o novo Claude 3.5 Sonnet para avaliações autônomas de IA e obteve melhorias substanciais na codificação, planejamento e resolução de problemas em comparação com a versão anterior. A The Browser Company, ao usar o modelo para automatizar fluxos de trabalho baseados na Web, observou que o Claude 3.5 Sonnet superou todos os modelos testados antes.
Como parte do nosso esforço contínuo de parceria com especialistas externos, os testes conjuntos de pré-implantação do novo modelo Claude 3.5 Sonnet foram conduzidos pelo US AI Safety Institute (US AISI) e pelo UK Safety Institute (UK AISI).
Também avaliamos o Soneto Claude 3.5 atualizado para riscos catastróficos e descobrimos que o Padrão ASL-2, conforme descrito em nossa Política de Escalabilidade Responsável, continua apropriado para este modelo.
Claude 3.5 Haiku: O estado da arte encontra acessibilidade e velocidade
Claude 3.5 Haiku é a próxima geração do nosso modelo mais rápido. Pelo mesmo custo e velocidade semelhante ao Claude 3 Haiku, o Claude 3.5 Haiku melhora todos os conjuntos de habilidades e supera até mesmo o Claude 3 Opus, o maior modelo da nossa geração anterior, em muitos benchmarks de inteligência. Claude 3.5 Haiku é particularmente forte em tarefas de codificação. Por exemplo, obteve uma pontuação de 40,6% no SWE-bench Verified, superando o desempenho de muitos agentes que usam modelos de última geração disponíveis publicamente, incluindo o Claude 3.5 Sonnet original e o GPT-4o.
Com baixa latência, acompanhamento aprimorado de instruções e uso de ferramentas mais preciso, o Claude 3.5 Haiku é adequado para produtos voltados ao usuário, tarefas especializadas de subagentes e geração de experiências personalizadas a partir de grandes volumes de dados, como histórico de compras, preços ou estoque. registros.
O Claude 3.5 Haiku será disponibilizado ainda este mês em nossa API própria, Amazon Bedrock e Vertex AI do Google Cloud — inicialmente como um modelo somente de texto e com entrada de imagem a seguir.
Ensinando Claude a navegar em computadores com responsabilidade
Com o uso do computador, estamos tentando algo fundamentalmente novo. Em vez de criar ferramentas específicas para ajudar Claude a concluir tarefas individuais, estamos ensinando-as em geral conhecimentos de informática – permitindo-lhe usar uma ampla gama de ferramentas padrão e programas de software projetados para pessoas. Os desenvolvedores podem usar esse recurso nascente para automatizar processos repetitivos, criar e testar software e realizar tarefas abertas, como pesquisa.
Para tornar possíveis essas habilidades gerais, construímos uma API que permite ao Claude perceber e interagir com interfaces de computador. Os desenvolvedores podem integrar esta API para permitir que Claude traduza instruções (por exemplo, “usar dados do meu computador e online para preencher este formulário”) em comandos de computador (por exemplo, verificar uma planilha; mover o cursor para abrir um navegador da web; navegar até o páginas da web relevantes; preencher um formulário com os dados dessas páginas e assim por diante). No OSWorld, que avalia a capacidade dos modelos de IA de usar computadores como as pessoas fazem, Claude 3.5 Sonnet obteve 14,9% na categoria somente captura de tela – notavelmente melhor do que a pontuação do segundo melhor sistema de IA de 7,8%. Quando foram oferecidas mais etapas para concluir a tarefa, Claude obteve 22,0%.
Embora esperemos que esta capacidade melhore rapidamente nos próximos meses, a capacidade atual de Claude de usar computadores é imperfeita. Algumas ações que as pessoas executam sem esforço – rolar, arrastar, aplicar zoom – atualmente apresentam desafios para Claude e incentivamos os desenvolvedores a começar a exploração com tarefas de baixo risco. Como o uso do computador pode fornecer um novo vetor para ameaças mais conhecidas, como spam, desinformação ou fraude, estamos adotando uma abordagem proativa para promover sua implantação segura. Desenvolvemos novos classificadores que podem identificar quando o uso do computador está sendo utilizado e se estão ocorrendo danos. Você pode ler mais sobre o processo de pesquisa por trás dessa nova habilidade, juntamente com uma discussão mais aprofundada sobre medidas de segurança, em nossa postagem sobre o desenvolvimento do uso do computador.
Olhando para frente
Aprender com as implementações iniciais desta tecnologia, que ainda se encontra nas suas fases iniciais, ajudar-nos-á a compreender melhor o potencial e as implicações de sistemas de IA cada vez mais capazes.
Estamos entusiasmados por você explorar nossos novos modelos e a versão beta pública do uso do computador – e convidamos você a compartilhar seus comentários conosco. Acreditamos que esses desenvolvimentos abrirão novas possibilidades de trabalho com Claude e estamos ansiosos para ver o que você criará.
Siga-nos nas redes sociais:
Hotnews.pt |
Facebook |
Instagram |
Telegram
#hotnews #noticias #AtualizaçõesDiárias #SigaHotnews #FiquePorDentro #ÚltimasNotícias #InformaçãoAtual