Το DALL-E 2, το οποίο δημιουργεί εικόνες από εισαγόμενα κείμενα, είναι πλέον προσβάσιμο σε όλους

Μια από τις πιο συναρπαστικές εξελίξεις που σχετίζονται με την τεχνητή νοημοσύνη τα τελευταία χρόνια είναι η λεγόμενη τεχνολογία text-to-image, δηλαδή όταν το νευρωνικό δίκτυο δημιουργεί εντελώς ανεξάρτητα εικόνες που δεν υπήρχαν προηγουμένως από το εισαγόμενο κείμενο. Μέχρι σήμερα, αρκετές εταιρείες έχουν βρει τις δικές τους λύσεις, αλλά το OpenAI του Σαν Φρανσίσκο ξεχωρίζει μεταξύ τους, καθώς παρουσίασε τον πιο προηγμένο εκπρόσωπο της κατηγορίας με το πρόγραμμά τους που ονομάζεται DALL-E στις αρχές του 2021.

Η εταιρεία, η οποία συγκαταλέγει τον Elon Musk στα ιδρυτικά μέλη της, κατέληξε γρήγορα σε μια βελτιωμένη έκδοση του προγράμματος: Το DALL-E 2, που ανακοινώθηκε τον Απρίλιο του τρέχοντος έτους, είναι σημαντικά πιο προηγμένο από τον προκάτοχό του, καθώς παράγει τώρα εικόνες 1024×1024 pixel. εικόνων 256×256 pixel, και μπορεί επίσης να αντικαταστήσει ένα συγκεκριμένο μέρος των φωτογραφιών μας που ανεβάσαμε με κάτι άλλο (μπορεί να μην είναι απολύτως σαφές στην αρχή, αλλά θα σας δείξουμε ένα παράδειγμα σύντομα).

Κατά τη λειτουργία του DALL-E 2, πολλά διαφορετικά νευρωνικά δίκτυα συνεργάζονται, τα οποία παίζουν όλα σημαντικό ρόλο στο τελικό αποτέλεσμα: για την επεξεργασία φυσικής γλώσσας, δηλαδή για να μπορεί το πρόγραμμα να ερμηνεύει λέξεις που κατασχέθηκαν, το GPT-3 που παρουσιάστηκε από το OpenAI το 2020 μια ελαφρώς απλοποιημένη έκδοση, η οποία μπορεί να χειριστεί 3,5 ​​δισεκατομμύρια παραμέτρους, ενώ το νευρωνικό δίκτυο CLIP (Contrastive Language-Image Pre-training) διασφαλίζει ότι, με βάση τη βάση δεδομένων του, το DALL-E δημιουργεί πραγματικά εικόνες που ταιριάζουν με την περιγραφή, η οποία έχει διδαχθεί με περίπου 400 εκατομμύρια εικόνες και τις περιγραφές τους διαθέσιμες στο Διαδίκτυο.

Για μεγάλο χρονικό διάστημα, το DALL-E 2 ήταν διαθέσιμο μόνο σε λίγα επιλεγμένα άτομα, ακολουθούμενο από ένα πρόγραμμα beta που ξεκίνησε τον Ιούλιο, αλλά στα τέλη Σεπτεμβρίου η Ανακοινώθηκε από το OpenAIγια να γίνει η υπηρεσία προσβάσιμη σε όλους μετά από μια γρήγορη εγγραφή μπορούμε να σας φτάσουμε εδώ. Οι χρήστες λαμβάνουν 50 μονάδες δωρεάν στην αρχή, που σημαίνει ότι μπορούμε να τραβήξουμε φωτογραφίες 50×4 ελεύθερα και μετά από αυτό, παίρνουμε 15 μονάδες στην αρχή κάθε μήνα, που σημαίνει ότι το DALL-E μπορεί να χρησιμοποιηθεί με περιορισμένο τρόπο, αλλά εντελώς δωρεάν . Είναι σημαντικό να σημειωθεί ότι οι πιστώσεις δεν μπορούν να μεταφερθούν στον επόμενο μήνα, αλλά αν κάποιος χρειάζεται περισσότερες φωτογραφίες, μπορεί να αγοράσει επιπλέον μονάδες, 115 από τις οποίες κοστίζουν επί του παρόντος 15 $ ή περίπου 6.400 HUF.

Η εικόνα 50×4 βγαίνει με τέτοιο τρόπο ώστε το DALL-E να δημιουργεί τέσσερις διαφορετικές εικόνες για κάθε περιγραφή, από τις οποίες μπορούμε να επιλέξουμε αυτή που λειτούργησε καλύτερα. Σε προηγούμενες εκδόσεις, το πρόγραμμα δημιούργησε δέκα και στη συνέχεια έξι διαφορετικές εκδόσεις των εικόνων, αλλά φαίνεται ότι αυτό το όριο ήταν το τίμημα που έπρεπε να καταβληθεί για να γίνει το DALL-E προσβάσιμο στο ευρύ κοινό. Επιπλέον, το OpenAI έχει ορισμένους περιορισμούς, για παράδειγμα, δεν μπορούμε να δημιουργήσουμε εικόνες που απεικονίζουν βία ή σεξουαλικότητα, ενώ οι εικόνες διάσημων προσώπων αποκλείονται επίσης για να αποτρέψουν τους χρήστες από τη χρήση του συστήματος για τη δημιουργία deepfakes.

Όσοι έχουν ήδη δοκιμάσει το πρόγραμμα μάλλον δεν θα εκπλαγούν που εξαντλήσαμε τις 50 μονάδες μας σε μια στιγμή, επειδή το DALL-E είναι πραγματικά ένα ανεξάντλητο χρυσωρυχείο, το οποίο ανοίγει τη δυνατότητα ακόμη και σε όσους δεν έχουν επαγγελματικό σχέδιο ή εικόνα δεξιότητες επεξεργασίας. για να δημιουργήσετε οποιαδήποτε εικόνα για δημιουργία.

Οι δυνατότητες της τεχνητής νοημοσύνης περιορίζονται κυριολεκτικά μόνο από τη φαντασία μας, απλώς δεν μπορούσαμε να της ζητήσουμε να κάνει κάτι που δεν θα μπορούσε να δημιουργήσει τουλάχιστον όπως περίπου φανταζόμασταν.

Μια θωρακισμένη αρκούδα που καβαλάει έναν μονόκερο, εξωγήινοι που μοιάζουν με τον Αϊνστάιν, ο Αβραάμ Λίνκολν που παίζει ηλεκτρική κιθάρα – τίποτα από αυτά δεν αποτελεί πρόβλημα για τον DALL-E.


Εξωγήινοι που μοιάζουν με τον Άλμπερτ Αϊνστάιν φτάνουν με ποδήλατα στον Λευκό Οίκο μπροστά σε ένα μεγάλο πλήθος

Ο Αβραάμ Λίνκολν παίζει ηλεκτρική κιθάρα μπροστά σε κοινό (ψηφιακή τέχνη)

Μια αρκούδα με πανοπλία καβάλα σε έναν μονόκερο, ελαιογραφία σε στυλ Πικάσο

Για όσους είναι νέοι στην αγγλική γλώσσα, μπορεί να είναι τρομακτικό στην αρχή ότι το DALL-E καταλαβαίνει μόνο αγγλικές λέξεις, αλλά στην πράξη αυτό δεν θα πρέπει να αποτελεί πρόβλημα για κανέναν: οι περιγραφές λίγων λέξεων μπορούν να μεταφραστούν από τα ουγγρικά στα αγγλικά. με οποιαδήποτε μετάφραση. πρόγραμμα (π.χ. το εξαιρετικό Deepl), τότε μπορούμε απλώς να το αντιγράψουμε στο πεδίο κειμένου. Οι πιο περίπλοκες περιγραφές θα πρέπει να αποφεύγονται ούτως ή άλλως, γιατί από την εμπειρία μας, όσο πιο σύνθετα πράγματα ζητάμε, τόσο μεγαλύτερη είναι η πιθανότητα το DALL-E να αγνοήσει ορισμένα κριτήρια. Αξίζει επίσης να σημειωθεί ότι ενώ το DALL-E ήταν πράγματι ακόμα σε θέση να δημιουργήσει εικόνες που ταιριάζουν με την περιγραφή, όσο πιο μακριά απέχουμε από το πραγματικό πράγμα, τόσο πιο πιθανό ήταν ότι το τελικό αποτέλεσμα θα ήταν κάποιο είδος σχεδίου, δηλαδή για παράδειγμα , δεν μπορεί κανείς πραγματικά να περιμένει από μια καμηλοπάρδαλη που οδηγεί ένα φτυάρι χιονιού δύο σταδίων φωτορεαλιστικές εικόνες από το πρόγραμμα. Είναι επίσης εντυπωσιακό ότι το DALL-E δεν είναι ακόμη πολύ δυνατό στη ρεαλιστική αναπαράσταση των ανθρώπων, με τέτοιες εικόνες συνέβαινε συχνά τα πρόσωπα των ανθρώπων να είναι θολά ή απλά να μην μοιάζουν με πραγματικό ανθρώπινο πρόσωπο. .


Ο Φρόντο ως σκύλος στην ταινία του Άρχοντα των Δαχτυλιδιών (ψηφιακή τέχνη)

Ο David Bowie συναντά τον Άγιο Βασίλη (ψηφιακή τέχνη)

Ελαιογραφία γουρούνι καβαλώντας έναν δράκο

Το πρόγραμμα αναμφίβολα λειτουργεί καλύτερα όταν του ζητάμε να κάνει πράγματα κοντά στην πραγματικότητα. Τα μπλε μήλα σε ένα γυάλινο μπολ ή ένα λυπημένο μπουλντόγκ που φοράει ένα κουστούμι κουνελιού, για παράδειγμα, δημιουργούνται απόλυτα ρεαλιστικά, αν και είναι σημαντικό να σημειωθεί ότι αν και το πρόγραμμα έχει μάθει πώς μοιάζουν αυτά τα πράγματα από εικόνες από το διαδίκτυο, το τελικό αποτέλεσμα εδώ είναι επίσης 100% επινοημένο, δηλαδή το DALL-E δεν προσπαθεί να πουλήσει μια υπάρχουσα εικόνα ως δική του.


Μπλε μήλα σε ένα γυάλινο μπολ

Λυπημένο μπουλντόγκ με κουστούμι κουνελιού

Ένα καγκουρό κάνει βόλτες στη Βουδαπέστη, μπροστά από το Κοινοβούλιο

Δυστυχώς, οι 50 μονάδες είναι πολύ λίγες για να γνωρίζετε όλες τις δυνατότητες του προγράμματος, το οποίο μπορεί πραγματικά να ερμηνεύσει αυτό που θέλετε να δείτε με πολύ περίπλοκο τρόπο. Εκτός από το θέμα της φωτογραφίας, μπορούμε να καθορίσουμε, για παράδειγμα, το στυλ με το οποίο πρέπει να τραβηχτεί η φωτογραφία, είτε πρόκειται για ελαιογραφία, για φωτογραφία στυλ 8 bit ή για φωτογραφία, λήψη macro. Το DALL-E μπορεί να αναπαράγει το στυλ διάσημων ζωγράφων (για αυτό αρκεί να γράψουμε στο τέλος της περιγραφής ότι, για παράδειγμα, στο στυλ του Βαν Γκογκ), και δεν έχει πρόβλημα με την τρισδιάστατη απόδοση εικόνων. Ένα χρήσιμο κόλπο που μάθαμε κατά τη χρήση του προγράμματος είναι ότι εάν η εικόνα που προκύπτει δεν αντικατοπτρίζει ακριβώς αυτό που είχαμε στο μυαλό μας, η εισαγωγή του όρου “ψηφιακή τέχνη” πίσω από την περιγραφή συνήθως αποφέρει καλύτερα αποτελέσματα.


Παραλλαγές σε ένα θέμα: Sky Palace Revival και στυλ 8-bit

Ένα άλλο ενδιαφέρον χαρακτηριστικό του DALL-E 2 είναι ότι μπορούμε να χειριστούμε τις δικές μας εικόνες και φωτογραφίες με αυτό, για τις οποίες δεν χρειάζεται να κάνουμε τίποτα άλλο από το να ανεβάσουμε μια εικόνα κάνοντας κλικ στη γραμμή κάτω από το πλαίσιο κειμένου και στη συνέχεια για να επιλέξετε το μέρος που θέλουμε να τροποποιήσουμε. Στη συνέχεια, πρέπει να καθορίσουμε τι θέλουμε να δούμε στην εικόνα με τον ίδιο τρόπο που θα δημιουργούσαμε μια εντελώς νέα εικόνα, και πουφ… έχουμε ήδη αντικαταστήσει το τραμ του Σαν Φρανσίσκο με μια άμαξα.

Μία από τις κοινές ανησυχίες σχετικά με το DALL-E είναι ότι προγράμματα όπως αυτό θα αφαιρέσουν τη δουλειά των εικονογράφων, καθώς μπορούμε να δημιουργήσουμε σχεδόν οποιαδήποτε εικόνα με τη βοήθειά τους. Αν και δεν είναι αδύνατο να συμβεί αυτό αργά ή γρήγορα, στην τρέχουσα κατάστασή του, το DALL-E σίγουρα δεν αποτελεί απειλή για τους επαγγελματίες εικονογράφους και τους επεξεργαστές εικόνων. Παρόλο που μπορούμε να δώσουμε στο πρόγραμμα αυτό ακριβώς που θέλουμε να δούμε, και το γεμίζει με τη σειρά, στις περισσότερες περιπτώσεις μπορούμε αναμφίβολα να εξηγήσουμε σε ένα άτομο με πολύ μεγαλύτερη λεπτομέρεια τι ακριβώς πρωτοστατούσαμε, ενώ με το DALL-E το τέλος το αποτέλεσμα είναι πάντα λίγο στην τύχη. Ένα καλό παράδειγμα αυτού είναι η εικόνα με τίτλο «Ο Αριστοτέλης σκοράρει το νικητήριο γκολ στον τελικό του Παγκοσμίου Κυπέλλου του 2002», η οποία ήταν αναμφίβολα ευφάνταστη, αλλά αναμφίβολα θα ήμασταν λίγο απογοητευμένοι αν λαμβάναμε αυτό το έργο τέχνης για παραγγελία από έναν εικονογράφο.


Έλληνας φιλόσοφος φορώντας το Αριστοτέλειο τόγκα σκοράρει το νικητήριο γκολ στον τελικό του Παγκοσμίου Κυπέλλου FIFA 2002

Ταυτόχρονα, το DALL-E 2 μπορεί πραγματικά να είναι ένα ορόσημο καθώς μπορεί να ανοίξει τη δυνατότητα στις μάζες να αφήσουν τη φαντασία τους ελεύθερη στις εικόνες, με παρόμοιο τρόπο με τον τρόπο που τα smartphone εκδημοκρατοποίησαν την παραγωγή βίντεο τη δεκαετία του 2010. Το επόμενο μεγάλο ερώτημα για το OpenAI θα είναι σίγουρα πώς να κερδίσετε χρήματα με τόσο προηγμένη τεχνολογία, αλλά φαίνεται ότι προς το παρόν δεν βιάζονται να φέρουν το DALL-E στην αγορά: αν και όπως γράψαμε παραπάνω πρέπει να το πληρώσουμε πάνω από ένα ορισμένο περιορισμός στη δημιουργία νέων εικόνων, αλλά εκτός από αυτό το πρόγραμμα είναι δωρεάν και οι εικόνες που δημιουργούνται από AI μπορούν να χρησιμοποιηθούν ελεύθερα για οποιονδήποτε σκοπό.



Η τεχνητή νοημοσύνη της Google μπορεί να δημιουργήσει οποιαδήποτε εικόνα με λίγες λέξεις
Το Imagen δεν υπόσχεται λιγότερα ότι μπορείτε να δημιουργήσετε οποιαδήποτε εικόνα ακόμα και σε φωτορεαλιστική ποιότητα, ακόμη και χωρίς δεξιότητες επεξεργασίας εικόνας.


Petya Borisov

"Δημιουργός φιλικός προς τους hipster. μουσικός γκουρού. περήφανος μαθητής. λάτρης του μπέικον. άπληστος λάτρης του ιστού. ειδικός στα social media. Gamer."

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *