Η Google φέρεται να παίζει με την ιδέα να χρησιμοποιήσει τα πιο πρόσφατα μοντέλα τεχνητής νοημοσύνης Gemini για να αναλύσει εικόνες από το Google Photos και κείμενο από το Search για να συνθέσει μια ιστορία ζωής για τους χρήστες.
Η τεχνολογία αυτή διερευνάται επί του παρόντος στο πλαίσιο του “Project Ellmann” και θα τροφοδοτείται από το νέο πολυτροπικό γλωσσικό μοντέλο μεγάλης κλίμακας Gemini της Google, που ανακοινώθηκε πρόσφατα. Η ιδέα είναι να συλλέγονται διαφορετικοί τύποι δεδομένων από πολλαπλές πηγές, όπως φωτογραφίες που είναι αποθηκευμένες στο Google Photos ή δημόσιες πληροφορίες που αντλούνται από το διαδίκτυο, για να δημιουργηθεί ένα πιο εξατομικευμένο chatbot.
Το προσωπικό που εργάζεται στην υπηρεσία Google Photos και στο Gemini παρουσίασε το Project Ellmann και περιέγραψε το πιθανό προϊόν ως εξής: “Φανταστείτε να ανοίγετε το ChatGPT αλλά να γνωρίζει ήδη τα πάντα για τη ζωή σας. Τι θα το ρωτούσατε;“.
Διαβάστε επίσης
Το Project Ellmann θα χρησιμοποιήσει τεχνητή νοημοσύνη για να δημιουργήσει μια βιογραφία των χρηστών από τα προσωπικά τους δεδομένα. “Δεν μπορούμε να απαντήσουμε σε δύσκολες ερωτήσεις ή να αφηγηθούμε καλές ιστορίες χωρίς να έχουμε μια εποπτική άποψη της ζωής σας“, ανέφερε η ομάδα στην παρουσίαση της. “Ψάχνουμε τις φωτογραφίες σας, εξετάζοντας τις ετικέτες και τις τοποθεσίες τους για να εντοπίσουμε μια σημαντική στιγμή. Όταν κάνουμε ένα βήμα πίσω και κατανοούμε τη ζωή σας στο σύνολό της, η όλη ιστορία σας αποκτά συνάφεια»
Πιθανότατα οι χρήστες με αμνησία μπορούν να ρωτήσουν το Ellmann Chat αν είχαν κατοικίδιο ή όχι, και αυτό θα κοιτάξει αν έχουν φωτογραφίες ζώων στα δεδομένα τους και θα εντοπίσει αν υπάρχουν άλλες φωτογραφίες μελών της οικογένειας που ήταν δίπλα, ας πούμε, σε ένα σκύλο ή μια γάτα, για να βρει την απάντηση.
Εκπρόσωπος της Google αρνήθηκε να απαντήσει ξεκάθαρα στις ερωτήσεις σχετικά με το τι είδους πρόσβαση θα πρέπει να δώσει ένας χρήστης στο μοντέλο για να συλλέξει τα προσωπικά του δεδομένα (π.χ. στο smartphone ή το laptop του).
Το Google Photos χρησιμοποιούσε πάντα τεχνητή νοημοσύνη για να βοηθήσει τους ανθρώπους να αναζητήσουν τις φωτογραφίες και τα βίντεό τους και είμαστε ενθουσιασμένοι με τις δυνατότητες των LLM που ξεκλειδώσουν ακόμα πιο χρήσιμες εμπειρίες
Πρόκειται για μια ιδέα που έχει μια ομάδα σε αρχικό στάδιο διερεύνησης. Όπως πάντα, θα αφιερώσουμε τον απαιτούμενο χρόνο για να διασφαλίσουμε ότι θα το κάνουμε με υπευθυνότητα, με την προστασία της ιδιωτικής ζωής των χρηστών να αποτελεί την πρώτη μας προτεραιότητα.
Το Gemini θα είναι σε θέση να εντοπίζει βασικά ορόσημα και σημαντικές στιγμές στη ζωή ενός ατόμου, εξετάζοντας πράγματα όπως φωτογραφίες αποφοίτησης ή διακοπών. Θα μπορούσε, θεωρητικά, να συνθέσει πληροφορίες σχετικά με το πανεπιστήμιο στο οποίο φοίτησε ή τα μέρη στα οποία πήγε, αναλύοντας πληροφορίες από το Google Search. Η Google περιέγραψε τη διαδικασία προσθήκης προσωπικών δεδομένων για τη δημιουργία μιας πιο λεπτομερούς εικόνας της ζωής κάποιου.
“Ένας από τους λόγους για τους οποίους ένα LLM είναι τόσο ισχυρό για αυτή την προσέγγιση, αποτελεί το γεγονός ότι είναι σε θέση να λάβει μη δομημένο περιεχόμενο από διάφορες πηγές και να το αξιοποιήσει για να βελτιώσει τον τρόπο με τον οποίο κατανοεί άλλες πτυχές της ζωής του χρήστη“, σύμφωνα με την παρουσίαση. “Αυτό το LLM μπορεί να συμπεράνει ότι αυτή είναι η γέννηση του Τζακ και ότι είναι το πρώτο και μοναδικό παιδί του Τζέιμς και της Τζέμα“, ανέφερε η Google σε ένα παράδειγμα.
Αναλύοντας σε βάθος τους χρήστες, το Project Ellmann θα μπορούσε επίσης να χρησιμοποιηθεί για να προβλέψει ποια προϊόντα μπορεί να ενδιαφέρονται να αγοράσουν οι άνθρωποι ή πού θέλουν να ταξιδέψουν, εξετάζοντας screenshots από εικόνες που έχουν αποθηκεύσει. Θα μπορούσε επίσης να προσδιορίσει τις κορυφαίες ιστοσελίδες και τις εφαρμογές που επισκέφθηκαν περισσότερο, κάτι που αποτελεί υλικό για το σερβίρισμα στοχευμένων διαφημίσεων.
[via]