Η Microsoft παρουσίασε την επόμενη έκδοση του ελαφρού μοντέλου τεχνητής νοημοσύνης (AI), που ονομάζεται Phi-3. Η ενημερωμένη σειρά περιλαμβάνει το Phi-3 Mini των 3,8 δισεκατομμυρίων παραμέτρων, το Phi-3 Small των 7 δισεκατομμυρίων παραμέτρων και το Phi-3 Medium των 14 δισεκατομμυρίων παραμέτρων.
Η έκδοση αυτή έρχεται μετά την παρουσίαση του μοντέλου Phi-2, που εμφανίστηκε τον Δεκέμβριο του 2023, το οποίο ξεπεράστηκε σε επιδόσεις από μοντέλα όπως η οικογένεια Llama-3 της Meta. Μπροστά στον αυξημένο ανταγωνισμό, το τμήμα Microsoft Research εφάρμοσε νεότερες τεχνικές στην προσέγγιση εκμάθησης προγραμμάτων.
Το νέο AI μοντέλο 3,8 δισεκατομμυρίων παραμέτρων βελτιώνει το προηγούμενο μοντέλο Phi-2, ενώ χρησιμοποιεί σημαντικά λιγότερους πόρους από τα μεγαλύτερα γλωσσικά μοντέλα. Με μόλις 3,8 δισεκατομμύρια παραμέτρους, το Phi-3 Mini ξεπερνά τόσο το Llama της Meta με 8 δισεκατομμύρια παραμέτρους όσο και το GPT-3 με 3,5 δισεκατομμύρια παραμέτρους της OpenAI, σύμφωνα με τα benchmarks της ίδιας της Microsoft.
Παρουσιάζουμε το phi-3-mini, ένα γλωσσικό μοντέλο 3,8 δισεκατομμυρίων παραμέτρων που εκπαιδεύτηκε σε 3,3 τρισεκατομμύρια tokens, του οποίου η συνολική απόδοση, όπως μετράται τόσο από ακαδημαϊκά benchmarks όσο και από εσωτερικές δοκιμές, ανταγωνίζεται εκείνη μοντέλων όπως το Mixtral 8x7B και το GPT-3.5 (π.χ. το phi-3-mini επιτυγχάνει 69% στο MMLU και 8,38 στο MT-bench), παρά το γεγονός ότι είναι αρκετά μικρό για να αναπτυχθεί σε ένα smartphone.
Παρέχουμε επίσης ορισμένα αρχικά αποτελέσματα κλιμάκωσης παραμέτρων με μοντέλα 7B και 14B που εκπαιδεύονται για 4,8T tokens, τα οποία ονομάζονται phi-3-small και phi-3-medium, και τα δύο σημαντικά πιο ικανά από το phi-3-mini (π.χ., αντίστοιχα 75% και 78% στο MMLU και 8,7 και 8,9 στο MT-bench).
Λόγω του μικρότερου μεγέθους της, η οικογένεια Phi-3 είναι βελτιστοποιημένη για συσκευές χαμηλής κατανάλωσης ενέργειας σε σύγκριση με τα μεγαλύτερα μοντέλα. Ο αντιπρόεδρος της Microsoft Eric Boyd δήλωσε ότι το νέο μοντέλο είναι ικανό για προηγμένη επεξεργασία φυσικής γλώσσας απευθείας σε ένα smartphone. Αυτό καθιστά το Phi-3 Mini κατάλληλο για νέες εφαρμογές που απαιτούν βοήθεια AI οπουδήποτε.
Ενώ το Phi-3 Mini ξεπερνά τους ανταγωνιστές στην κατηγορία του, δεν μπορεί να συγκριθεί με το εύρος των γνώσεων των μαζικών μοντέλων που εκπαιδεύονται στο Διαδίκτυο. Ωστόσο, ο Boyd σημειώνει ότι τα μικρότερα, υψηλής ποιότητας μοντέλα τείνουν να αποδίδουν καλύτερα, επειδή τα εσωτερικά σύνολα δεδομένων είναι συχνά πιο περιορισμένης κλίμακας.
[via]