A lucidez sintético se tornou a tecnologia maravilhosa deste ano. Mas porquê vem em muitos sabores diferentes, de muitas empresas diferentes, pode ser realmente confuso. Você não tem somente o bot ChatGPT criado pela OpenAI, mas também os três grandes – Google, Apple e Microsoft – criando suas próprias versões.
A última tentativa do Google se labareda Gemini e não é menos confusa que as outras.
Quando comecei a pesquisar o Gemini, fiz uma pesquisa no Google por “versões do Google Gemini”. No topo da pesquisa, recebi um resumo gerado por IA que começava:
“O Google Gemini tem três versões: Ultra, Pro e Nano. Ultra é o maior padrão e foi projetado para tarefas complexas, enquanto o Pro é o melhor padrão para escalar uma ampla gama de tarefas e o Nano é o padrão mais eficiente para tarefas no dispositivo.”
Ok, bom o suficiente. Mas não é a história completa.
O que é Gêmeos?
Gêmeos é o terceiro signo do zodíaco, associado aos gêmeos Castor e Pólux da mitologia grega.
OK, desculpe. Eu não pude resistir. Gemini é um chatbot criado pelo Google que substituiu seu chatbot anterior chamado Bard. É fundamentado em um tanto chamado padrão de linguagem grande (ou LLM), também chamado Gemini, que foi desenvolvido pela DeepMind, uma segmento do Google.
Logo Gêmeos é uma caixa de bate-papo e um LLM? Quantos tipos de Gêmeos existem?
Quanto tempo você tem? Sério, vamos nos limitar aos tipos de Gemini que você pode encontrar porque o número de iterações parece infinito.
Originalmente, quando foi lançado em dezembro de 2023, o Gemini oferecia três versões diferentes (conhecidas porquê modelos): Nano porquê uma versão Android ligeiro, Pro para uso quotidiano e Ultra para uso mercantil/empresarial pesado.
Logo, em 14 de maio, durante seu evento I/O 2024, o Google apresentou o Gemini 1.5 Pro, o primeiro no que a empresa chamou de “padrão multimodal de médio porte”. De pacto com o Google, a novidade versão do Pro é tão poderosa quanto a versão anterior do Ultra e tem porquê objetivo aprimorar os aplicativos existentes e fabricar novos para o uso quotidiano.
Sustentar. Multimodal?
Em outras palavras, ele pode concordar avisos em todos os diferentes modos de informação: texto, imagens, áudio e vídeo.
Logo é isso para os modelos, evidente?
Muito, não exatamente. Há também o Gemini 1.5 Flash, que é uma versão mais rápida do Gemini para desenvolvedores que poderão usá-lo em aplicações específicas. Em outras palavras, a menos que você seja um desenvolvedor, não é um tanto com o qual trabalhará.
Logo, só para reiterar, agora temos quatro modelos Gemini para os desenvolvedores trabalharem: Ultra, Pro, Flash e Nano. (Diremos porquê você pode galhofar com isso em um momento.)
Assisti ao evento do Google e eles continuaram falando sobre 1 milhão de tokens, 2 milhões de tokens. Sobre o que era tudo isso?
Isso é o que você ganha por testemunhar a um evento que significa mais para desenvolvedores do que para pessoas comuns porquê nós. Mas realmente não é tão difícil.
Tokens são os elementos de palavras usados para treinar modelos de IA porquê o Gemini. Quanto mais tokens um padrão de IA for capaz, mais informações você poderá nutrir a IA e melhor ela entenderá o que você precisa e o que pode lhe oferecer.
Ok, de volta ao Gemini 1.5 Pro. O que posso fazer com isso?
Muito, se você é um desenvolvedor, pode usá-lo para aditar ou fabricar vários novos aplicativos. Caso contrário, o Google o adicionará a muitos de seus aplicativos existentes e criará novos.
Porquê?
Muito, somente porquê exemplo, vamos inaugurar com o Google Fotos. Um novo recurso esperado neste verão, chamado Ask Photos, permitirá pesquisar usando consultas mais complexas. Em vez de somente encontrar todas as fotos da sua avó, por exemplo, você deve poder pedir para “Encontrar todas as fotos da minha avó ao longo dos anos que a mostram trabalhando em seus projetos de carpintaria”.
Há também o aplicativo Lens existente, que usa texto e fotos para ajudá-lo a identificar e pesquisar coisas. O Lens agora também poderá encontrar informações usando vídeos. O Google demonstrou isso gravando um vídeo de um toca-discos com comportamento inadequado e usando um vídeo para desenredar por que o braço não estava em contato com o disco.
Você conhece aquela barra lateral do Documentos, Planilhas, Apresentações, Drive e Gmail? Aquele onde agora você pode acessar vários outros aplicativos do Google? Muito, ele será assumido pelo Gemini, que será usado para unificar – ou, pelo menos, conectar – uma variedade de aplicativos do Google para que você possa, digamos, referenciar facilmente um Documento Google em um e-mail. ou vice-versa. Deve ser lançado para assinantes no próximo mês.
Até a pesquisa básica do Google foi afetada: as visões gerais da IA agora abrem os resultados da pesquisa, fornecendo um resumo gerado pela IA do que o Google pensa que você está procurando. (Embora tenha havido muita resistência a isso e alguns usuários querendo se livrar dele.)
Esses são aplicativos existentes. Que tal novos?
Muitos deles. Atualmente, alguns incluem:
Projeto Astra, que é essencialmente o Google Assistant com a capacidade suplementar de ver (por meio da câmera do seu telefone) e responder e com a linguagem falada. Isso ainda está em seus primeiros dias, portanto você provavelmente não o verá por um tempo.
AprendaLM, que ajudará os alunos a encontrar respostas para suas dúvidas utilizando fontes educacionais; segundo a empresa, já está integrado em alguns produtos e está sendo apresentado aos educadores.
Eu vejo, um “padrão de vídeo de IA generativo”. Generativo, pois irá gerar vídeos em 1080p que você solicitar para fabricar. Quer um vídeo de um gato de camisola e cartola pulando na Lua? Veos é o que você deseja usar. Muito, quando você puder – porquê o Projeto Astra, ele ainda está sendo testado e não estará disponível ao público em universal por um tempo.
Tudo isso parece interessante. Porquê posso me inscrever? E é gratuito?
Você pode inaugurar a trabalhar com o chatbot Gemini 1.0 agora mesmo e cá mesmo. No entanto, se você quiser jogar com o Gemini 1.5 Pro – que é mais rápido e oferece mais recursos – você precisará assinar o Gemini Advanced, que custará US$ 20 por mês depois um teste de dois meses. (Gemini Advanced é considerado segmento de uma assinatura do Google One, portanto você também terá 2 TB de armazenamento de dados e outros benefícios do Google One.)
Se você é uma empresa que usa o Google Workspace e deseja testar os níveis mais sofisticados de IA (também a partir de US$ 20 por mês), pode encontrar mais informações cá.
Mais alguma coisa que eu preciso saber?
Somente os cuidados habituais. Porquê todas as aplicações de IA, as respostas do Gemini podem ser duvidosas – em outras palavras, totalmente erradas. A tecnologia está definitivamente em seus estágios iniciais e, embora possa ser uma instrumento útil, você também deve verificar todos os dados obtidos. Chegou a tal ponto que as informações erradas geradas pelos motores de IA ganharam seu próprio nome: alucinações, porque ao acessar informações erradas, as IAs estão criando sua própria verdade. Logo, comprador, zelo.
Dito isto, parece que as IAs estarão conosco por muito tempo. Não é uma má teoria praticar um pouco para se familiarizar com eles e porquê funcionam. Além do ChatGPT e do Gemini, existem os próximos PCs CoPilot Plus da Microsoft, que virão com hardware integrado com capacidade de IA, sem mencionar o recém-anunciado e horizonte conjunto de recursos da Apple chamado Apple Intelligence. Portanto, dependendo do seu sistema operacional predilecto, sem mencionar o seu nível de curiosidade, você pode testar uma variedade de chatbots de IA, aplicativos aprimorados e outros recursos.