Tecnologia multimodal: família de ferramentas para manipular áudio, imagens, vídeos e textos em diferentes idiomas. Laboratórios: DeepMind, Google Research. Capacidades: geração nativa de imagens, benchmarking, equações matemáticas, Python códigos, leitura comprehension, general knowledge, Google Workspace, text e email writing, planilhas e apresentações.
Recentemente disponibilizado como aplicativo e assistente pessoal para smartphones Android no Brasil e em diversas regiões, o Gêmeos, a Inteligência Multimodal Google, é o destaque da big tech para o ano de 2024.
Com o objetivo de revolucionar a interação entre usuários e tecnologia, o Gemini, fruto do avanço da Inteligência Multimodal Google, promete abrir novas possibilidades no campo da IA. A aposta da Google em ampliar o alcance e a eficiência de suas tecnologias mostra como a empresa está investindo pesado no futuro da interação homem-máquina.
Inteligência Multimodal Google; potencializando a inovação
Contudo, sua integração com o ecossistema da empresa, suas funções e as diferenças entre seus modelos, apps, serviços e preços podem gerar uma grande confusão – algo que não é novidade, se tratando dos produtos Google. Abaixo, explicamos tudo o que você precisa saber sobre o Gemini, suas ramificações, preços e capacidades.
O que é o Gemini?
O Gemini é a família de modelos de IA generativa do Google. Desenvolvido pelos laboratórios de pesquisa em IA da empresa, DeepMind e Google Research, o Gemini se destaca por sua capacidade de entender e gerar conteúdo multimodal, incluindo áudio, imagens e vídeos.
É um processo diferente do ChatGPT, por exemplo, que embora seja capaz de fazer transcrições de áudio, falar e ouvir, só entende nativamente texto e código. Os aplicativos do Gemini são uma interface pela qual modelos da IA podem ser acessados.
Ou seja, o Gemini não é apenas o app ou site com funções de chatbot e assistente que você baixa pela PlayStore ou acessa pela web, mas sim, um conjunto de modelos com diferentes capacidades e aplicações, apresentado em três versões: Ultra, Pro e Nano.
Qual a diferença do Gemini para o ChatGPT e outras IAs generativas?
Segundo o Google, o Gemini é ‘nativamente multimodal’, capaz de trabalhar com áudio, imagens, vídeos e textos em diferentes idiomas. Isso significa que, em vez de alimentar prompts para um gerador de imagens (como o DALL-E 3, no caso do ChatGPT), o Gemini gera imagens ‘nativamente’, sem uma etapa intermediária.
Além disso, o Gemini 1.0 (sua versão mais poderosa) também é superior ao GPT-4 em inúmeros testes de benchmark, como equações matemáticas, geração de códigos Python, compreensão de leitura e conhecimentos gerais, de acordo com o Google.
O que é possível fazer com o Gemini?
Devido sua estrutura multimodal, o Gemini, em teoria, é capaz de solucionar uma série de problemas distintos, dos mais simples aos mais complexos, incluindo transcrições de vídeos, gerar imagens e gráficos, apontar erros em uma planilha de dados, analisar textos acadêmicos, entre outras coisas.
Além disso, sua integração com a suite de produtividade do Google, o Google Workspace, permite que você faça uso dele na redação de textos e e-mails, criação de planilhas, apresentações e mais. Contudo, nem todas as capacidades do Gemini estão disponíveis em sua versão gratuita, na forma de app ou site da web.
As diferentes versões do Gemini
É preciso conhecer suas diferentes versões para entender qual se encaixa melhor àquilo que você deseja fazer:
Gemini Ultra
Disponível na versão 1.0, o Gemini Ultra é a versão mais avançada e completa da IA, que melhor faz uso de sua multimodalidade, de acordo com o Google. A companhia afirma que o Gemini Ultra é capaz de identificar artigos científicos relevantes para um determinado problema, extrair as informações mais relevantes desses textos e atualizar um gráfico pré-existente, gerando as fórmulas necessárias para recriar o gráfico com os dados mais recentes.
Além disso, o Google também afirma que, em sua versão mais avançada, o
Fonte: @ Mercado e Consumo
Comentários sobre este artigo