- La cerca per vídeo de Google Lens permet obtenir respostes contextuals en temps real gràcies a la IA.
- Es pot consultar tant per veu com per text mentre s'enregistra el vídeo, ampliant les possibilitats d'interacció.
- La funció es recolza en el model Gemini per interpretar imatges, àudio i context multimodal de cada consulta.
Lent de Google s'ha convertit en una eina imprescindible de Google per cercar informació des del mòbil, integrant ara una actualització revolucionària: la cerca mitjançant vídeos i preguntes en veu alta gràcies a la intel·ligència artificial. Aquesta funció marca un salt respecte a la cerca per imatges clàssica i canvia radicalment la manera com interactuem amb el món que ens envolta. Aquí descobriràs com funciona, per a què serveix, com la pots fer servir pas a pas, avantatges, limitacions i tots els seus secrets, amb explicacions detallades i consells útils.
Què és Google Lens i la seva evolució cap a la cerca per vídeo multimodal
Des del seu llançament, Google Lens ha destacat per permetre la identificació d'objectes, texts, animals, plantes, productes o monuments simplement apuntant amb la càmera del mòbil. Entre les seves funcions més populars figuren la traducció instantània de textos, la solució de problemes matemàtics, l'escaneig de codis QR i la comparació de productes a botigues tant físiques com en línia.
Amb el pas el temps, Google Lens va anar integrant noves tecnologies com el reconeixement de veu i la cerca multimodal, podent-se utilitzar en altres apps de l'ecosistema Google com Maps, Fotos o Chrome. El seu funcionament no es limita a imatges fetes al moment, sinó també a fotos guardades, textos seleccionats i ara vídeos gravats directament des de l'app.
El principal avenç actual rau en la capacitat d'analitzar vídeos curts, interpretant l'escena i permetent fer preguntes per veu o text, obtenint respostes precises i contextuals a l'instant. Això supera la barrera principal de la cerca per imatge, on una foto puntual no sempre és suficient per donar context complet a la consulta.
Com utilitzar la cerca per vídeo i veu a Google Lens pas a pas
- Obre l'app de Google Lens des del mòbil Android o iOS, o des de la icona de la lupa a la barra de cerca de Google.
- Seleccioneu «Cerca amb la vostra càmera». Apunta la càmera cap a l'objecte, escena o situació que vulguis consultar.
- Mantingueu pressionat el botó de captura per gravar un vídeo curt (normalment fins a 20 segons). Durant l'enregistrament, podeu afegir una pregunta en veu alta sobre el que esteu veient. Alternativament, podeu escriure la pregunta després de gravar el vídeo.
- En acabar, la intel·ligència artificial de Google analitzarà tant el vídeo com l'àudio de la vostra consulta, seleccionant els fotogrames més rellevants i responent en qüestió de segons.
Durant l'enregistrament, el sistema mostra el missatge «Parla ara per preguntar sobre aquesta escena». Aquest procés fa l'experiència molt més natural, ja que pots precisar allò que vols saber, desambiguant detalls que una sola imatge o una cerca textual no podrien identificar.
Quins tipus de respostes s'obtenen i usos pràctics avançats
La varietat i precisió de les respostes supera àmpliament la cerca per imatges clàssica, perquè la IA té accés a més context i pot correlacionar detalls visuals i orals al vídeo. Alguns exemples d'usos i casos pràctics destacats:
- Identificació dobjectes i animals en moviment: Ideal per gravar mascotes actives, animals al seu entorn natural o vehicles en acció i consultar espècie, marca o característiques que en una foto estàtica podrien passar desapercebuts.
- Reconeixement de llocs i monuments: Enregistra una panoràmica d'una plaça o edifici i pregunta sobre la seva història, arquitectura o curiositats. La IA pot rastrejar ressenyes, informació històrica i dades clau.
- Obtenció d'informació sobre productes a les botigues: Veus alguna cosa interessant i vols saber preu, opinions o alternatives? Enregistra el producte i pregunta en veu alta. El sistema proporciona enllaços de compra, comparatives i experiència daltres usuaris.
- Consultes sobre vídeos de tercers: Enregistra la pantalla del televisor, ordinador o tablet per identificar cançons, actors, llocs, restaurants o qualsevol element visual o audible a l'escena.
- Assistència en educació i solució de problemes: Enregistra un experiment, una operació matemàtica, o el funcionament d'un electrodomèstic avariat i demana solució, explicació o guia pas a pas.
- Exploració d'art i natura: Consulta sobre una obra artística, planta exòtica, formació geològica, tipus de núvol, etc., obtenint explicacions detallades i recursos per ampliar la informació.
- Traducció instantània en moviment: Per a viatgers, permet gravar rètols, rètols o subtítols en moviment i rebre traduccions sense importar si el cartell està desenfocat o és difícil de capturar en foto.
- Manualitats i projectes DIY: Pots gravar els materials i el procés, formulant dubtes sobre el pas següent o demanant instruccions detallades adaptades al context del teu vídeo.
- Receptes de cuina: Mostra ingredients o el procés d'una recepta i de pregunta sobre preparació, temps de cocció o alternatives d'ingredients.
No cal escriure llargs textos ni perdre temps en descripcions tècniques. Només cal gravar, mostrar i preguntar per accedir a una visió general precisa i adaptada al teu context, gràcies a la IA multimodal de Google.
Gemini i AI Overviews: la intel·ligència artificial darrere de la màgia
El motor que fa possible aquesta funció és Gemini, el model avançat d'intel·ligència artificial de Google capaç de comprendre imatges, textos, àudio i ara vídeos complets. Com funciona? Quan enregistres un vídeo i fas una consulta, Gemini analitza el material fotograma a fotograma, identifica els fragments visuals clau i travessa aquesta informació amb la teva pregunta, sigui parlada o escrita.
El resultat apareix en forma de Visió general de l'IA, la característica experimental que processa la informació disponible a la web, la resumeix de manera clara i la mostra a la pantalla del dispositiu en segons. multimodal: la IA combina imatge, veu i context, permetent resoldre dubtes que abans requerien múltiples cerques o descripcions difícils de detallar.
Per a alguns usuaris, especialment on la funció encara és experimental, cal activar l'opció Search Labs i habilitar AI Overviews i més des de l'app de Google. Si bé el desplegament ha començat a regions de parla anglesa, l'expansió a altres idiomes i països progressa ràpidament.
Exemples reals i demostracions: com respon Google Lens per vídeo i veu
El potencial pràctic s'ha vist en proves gravades per experts com Mishaal Rahman, que va documentar el reconeixement de smartwatches, plats de menjar o escenes urbanes en segons. Per exemple, en gravar un plat amb nabius i preguntar quants n'hi havia, Gemini va tornar el compte precís en temps real. En una altra prova, gravant un rellotge intel·ligent i preguntant sobre el model i sistema operatiu, la IA va identificar correctament la majoria de detalls, fins i tot si el model concret podia variar mínimament.
En experiments addicionals, s'han aconseguit identificar espècies d'ocells en vol, vehicles en moviment, comptar objectes en una escena i oferir explicacions educatives complexes. El nivell d'encert depèn de la qualitat del vídeo i la nitidesa, però la velocitat i la utilitat de les respostes supera àmpliament la cerca en imatge fixa.
Integració amb l'ecosistema Google i noves formes de cerca
L'evolució de Google Lens no només millora l'app principal, sinó que potencia noves funcions a tot l'ecosistema Google. Algunes de les integracions i beneficis més destacats són:
- Cerca directa a YouTube: Identifica elements en vídeos dins de l'app, com ara llocs, cançons, actors o productes, simplement gravant la pantalla.
- Experiència enriquida a Chrome: Permet seleccionar fragments de vídeo, imatge o text de les pàgines web i consultar informació sense abandonar el navegador.
- Traducció en moviment: Utilitza la càmera i la funció de vídeo per traduir rètols o subtítols en moviment durant viatges o situacions canviants.
- Compra intel·ligent: En gravar productes, obtens enllaços directes a botigues, comparatives de preus, ressenyes i disponibilitat en temps real, optimitzant la compra en línia i offline.
Limitacions, requisits d'ús i privadesa
la funció encara es troba en desplegament progressiu, de manera que la vostra disponibilitat depèn de la regió, l'idioma i si l'experimentació AI Overviews està habilitada al vostre compte.
- Durada màxima del vídeo: El vídeo sol estar limitat a entre 10 i 20 segons per garantir l'eficiència de l'anàlisi d'IA.
- Qualitat recomanada: Es recomana gravar amb bona llum i enfocar correctament l'escena, ja que la precisió de la resposta depèn de la nitidesa, l'enquadrament i la claredat de l'entorn.
- Privacitat: Per defecte, la IA evita el reconeixement facial i centralitza l'anàlisi en objectes, accions i contextos, no en persones. Això no obstant, és recomanable evitar gravar dades personals o persones sense consentiment.
- Respostes imprecises: En vídeos confusos, poc nítids o molt ràpids, la IA pot oferir respostes aproximades o suggeriments en lloc de solucions exactes. Tot i així, el nivell d'utilitat és, en la majoria dels casos, molt alt.
Gràcies a la cerca visual per vídeo a Google Lens, s'obre un horitzó de possibilitats que transformen la manera de resoldre dubtes, aprendre, comparar, comprar i explorar el món. Aquesta funció, impulsada per IA, permet obtenir informació adaptada a cada situació, unint veu, imatge, vídeo i context en un sol pas i apropant l'usuari al futur de la cerca intel·ligent. Estigues atent a l'evolució de Google Lens i no dubtis a aprofitar aquest avenç, que esborra els límits entre la realitat física i la digital al palmell de la mà.