Advantage Play AlphaGo chess Dan Negreanu Doug Polk GTO Karpov Kasparov Lee Sedol poker bot

2020: Άνοδος των Μηχανών

από τον James Grosjean Μετρήστε ανάμεσα στα drones Netflix που αγαπούσαν το The Queen’s Gambit (2020), αλλά πάντα ήμουν ενθουσιώδης του σκακιού. Κατά τη διάρκεια των φοιτητικών μου χρόνων, έφαγα πιθανώς χίλια κρουασάν σοκολάτας, ενώ παρακολουθούσα τον περίεργο, υπέροχο Murray Turnbull (γνωστό και ως “The Chess Master”) να αναλάβει όλους τους συμμετέχοντες στην πλατεία της πόλης – “$ 2, επιστροφή χρημάτων αν κερδίσετε ή ισοπαλία.” Ήταν τιμή μου να τραβήξω μια φωτογραφία του μεγάλου Karpov που πλαισιώνεται από το βιτρό του Hall Hall όταν έκανε μια προσομοίωση 40 επιπέδων στην πανεπιστημιούπολη. Ήμουν μέρος του φοιτητικού Τύπου όταν ο Κασπάροφ έκανε την τότε αμφιλεγόμενη δήλωσή του ότι ένας υπολογιστής θα ήταν μεγάλος πρωταθλητής πριν γίνει γυναίκα. Αποθηκεύοντας τη συζήτηση για την πιθανή μισογυνία του Κασπάροφ για άλλο φόρουμ και μια άλλη μέρα, πήρα τη δήλωσή του ως απλή προβολή βασισμένη στην εμπειρική παρατήρηση της κοινότητας σκακιού. Η συμμετοχή των γυναικών ήταν πάντα χαμηλή, και δεν αυξήθηκε ουσιαστικά, ενώ οι υπολογιστές ήταν ήδη ισχυροί, και γρήγορα γίνονταν ισχυρότεροι. Οι μηχανές θα οδηγήσουν σε μια νέα ισότητα – όπου όλα τα φύλα συνθλίβονται σαν μυρμήγκια. Το Θεώρημα του Zermelo μας λέει ότι ένα παιχνίδι με πλήρεις πληροφορίες (και οι δύο παίκτες μπορούν να δουν όλα τα κομμάτια στην σκακιέρα), που είναι πεπερασμένο (το παιχνίδι θα τελειώσει μετά από αρκετές κινήσεις), έχει μια λύση και ότι αν και οι δύο πλευρές παίζουν αυτό βέλτιστη λύση, τότε κάθε παιχνίδι έχει το ίδιο αποτέλεσμα. Το σκάκι είναι αρκετά περίπλοκο που δεν είμαστε σίγουροι ποιο θα είναι το αποτέλεσμα, αλλά πιστεύουμε ότι ο Λευκός θα κερδίζει κάθε φορά, οπότε δεν υπάρχει Μαύρη απάντηση που μπορεί να αλλάξει το αποτέλεσμα. Το παιχνίδι του Connect Four εμπίπτει επίσης στο Θεώρημα του Zermelo και η ανάλυση έδειξε ότι σε αυτό το παιχνίδι, η ύπουλη sis κερδίζει πάντα αν πάει πρώτη και παίζει καλύτερα. Εάν είστε ένα AP που σας άρεσε το QGambit και λιμοκτονούσατε για περισσότερο περιεχόμενο κατά τη διάρκεια αυτής της ατελείωτης πανδημίας, τότε η επόμενη εργασία σας είναι να παρακολουθήσετε το AlphaGo, ένα ντοκιμαντέρ για την άνοδο των υπολογιστών στο αρχαίο παιχνίδι του Go, το οποίο είναι πιο περίπλοκο από σκάκι. Δεν αστειεύομαι, αυτή η ταινία είναι δακρυγόνα για άτομα που ενδιαφέρονται για αυτόν τον τομέα και εκτιμούν το έντονο συναισθηματικό δράμα για τον πρωταθλητή της ανθρωπότητας, Lee Sedol – το καλύτερο που το έκανε ποτέ. Η ταινία καταγράφει την αγωνία, το θάρρος, τη λαμπρότητα του Σεντόλ και μετά την ταπεινότητα, καθώς συνειδητοποιεί ότι αυτός ο αγώνας εναντίον του μηχανήματος δεν είναι απλώς ένα παιχνίδι, αλλά η εμφάνιση μιας νέας παγκόσμιας τάξης. Όχι προγραμματιστής, ο Σεντόλ δεν εκτιμούσε τι θα αντιμετώπιζε, αλλά ως ειδικός στην τέχνη του, στο ταμπλό θα μπορούσε να αισθανθεί το αδυσώπητο, αδιαπέραστο βάρος του αντιπάλου του. Αφού απολαύσετε το AlphaGo, σας προτείνω (στην πραγματικότητα, η Google συνιστά) να παρακολουθήσετε έναν από τους αγώνες πόκερ μεταξύ του παλιού σχολείου Dan Negreanu και του σύγχρονου υπολογιστή-κλώνος Doug Polk. Ο καλύτερος παίκτης στη γη είναι η μηχανή, οπότε ένας έξυπνος άνθρωπος όπως ο Polk μιμείται τη στρατηγική του μηχανήματος. Προσαρμόστε ή πεθάνετε. Κάποτε είχα μια σύντομη ανταλλαγή με τον Howard Lederer. Τον ρώτησα για τα bots στις τοποθεσίες πόκερ. Απέρριψε το ζήτημα λέγοντας: «Το πόκερ δεν είναι σαν το σκάκι. Το πόκερ είναι ένα παιχνίδι ελλιπών πληροφοριών. Οι υπολογιστές δεν είναι καλοί σε αυτό. ” Δεν μπορούσα να πω αν ήταν αφελής ανόητος ή conman shill για το Full Tilt Poker. Σε κάθε περίπτωση, δεν ήθελα να συνεχίσω αυτήν τη συζήτηση πριν από 15 χρόνια. Αλλά τώρα εδώ είμαστε, το 2021, και ήρθε η ώρα να συνεχίσουμε αυτήν τη συνομιλία, αντικρούοντας αυτήν την πρώτη πλάνη σχετικά με τους υπολογιστές GTO (βέλτιστη θεωρία παιχνιδιού), και όλες τις άλλες αλληλεπικαλυπτόμενες πλάνες που οι δεινόσαυροι του πόκερ και οι αυτοανακηρυχθέντες σαρωτές πόκερ είναι προσκολλώνται απεγνωσμένα στο: Fallacy # 1: Οι υπολογιστές δεν είναι καλοί σε παιχνίδια ελλιπών πληροφοριών. Αυτό είναι απλώς ανίδεο. Είναι αλήθεια ότι το θεώρημα του Zermelo δεν ισχύει για παιχνίδια όπως το πόκερ. Για το πόκερ, υπάρχουν ΑΛΛΑ θεωρήματα που βασικά λένε ότι υπάρχει μια λύση στο παιχνίδι, και μια λύση υπολογιστή θα περιλαμβάνει γενικά «μικτές στρατηγικές» που σημαίνει ότι υπάρχει κάποιο στοιχείο τυχαιοποίησης της στρατηγικής (όπως η κλήση ψαλιδιού με πιθανότητα 1/3 ). Οι υπολογιστές είναι αρκετά καλοί, καλύτεροι από τους ανθρώπους, στον υπολογισμό της προσδοκίας για πιθανά αποτελέσματα, ειδικά όταν οι κατανομές πιθανότητας είναι γνωστές με ακρίβεια, όπως συμβαίνουν στα παιχνίδια καρτών. Για παράδειγμα, ο υπολογιστής ξέρει ακριβώς ποια είναι η πιθανότητα σχεδίασης ενός backdoor Flush και ποιες πιθανότητες χρειάζεται για να δικαιολογήσει το κυνήγι. Αν και το πόκερ περιλαμβάνει ελλιπείς πληροφορίες, το heads-up no limit poker είναι ένα απλούστερο παιχνίδι από το Go, παρόλο που το Go περιλαμβάνει πλήρεις πληροφορίες (πληροφορίες κοινής γνώσης). Fallacy # 2: Η ανωτερότητα του υπολογιστή προέρχεται από την ικανότητα να θυμάμαι κάθε χέρι που έχω παίξει και να προσαρμόσουμε ανάλογα. Ενώ ένα «εκμεταλλευτικό bot» θα μπορούσε πράγματι να αναλύσει το παρελθόν παιχνίδι σας και να προσαρμοστεί στις αντιληπτές αδυναμίες, ένα τυπικό bot GTO (το οποίο κάποτε ονομάζουμε «Nash bot») είναι το ισοδύναμο πόκερ του BS στο blackjack. Η στρατηγική GTO δεν αλλάζει, ανεξάρτητα από τον τρόπο που παίζατε τα χέρια σας. Δεν χρειάζεται αυτές τις πληροφορίες και δεν με νοιάζει. Fallacy # 3: Η λύση GTO είναι “σωστή” μόνο αν παίζετε εναντίον άλλου bot GTO, γιατί αυτό υποτίθεται όταν αναπτύχθηκε το bot – το bot “έμαθε” παίζοντας εναντίον του. Αυτό είναι ψεύτικο. «Το bot που έπαιξε εναντίον του για να μάθει πόκερ» είναι ένας εσφαλμένος χαρακτηρισμός της διαδικασίας ανάπτυξης. Τα μέσα μαζικής ενημέρωσης αρέσουν να δηλώνουν το δόλωμα κλικ για να κάνουν κάθε αποτέλεσμα στον υπολογισμό ήχο σαν μια γενική ανακάλυψη, επικαλούμενη το HAL και το Skynet. Ένα bot GTO δεν γνωρίζει τίποτα για το πόκερ. Η εκπόνηση της στρατηγικής GTO είναι μια άσκηση υπολογισμού, η οποία κατέστη δυνατή χάρη στην τεράστια μνήμη και την ταχύτητα της CPU που είναι διαθέσιμοι στους σημερινούς υπολογιστές και την ανάπτυξη ενός αποτελεσματικού αλγορίθμου για τον υπολογισμό («μείωση ελαχιστοποίησης»). Ποτέ δεν περιγράψαμε τον αλγόριθμο ως “μηχανική μάθηση” ή “AI” – το λέγαμε απλώς “αναρρίχηση” ή “μεγιστοποίηση” ή “βελτιστοποίηση”. Σε κάθε βήμα του επαναληπτικού αλγορίθμου, ο υπολογιστής έχει την τρέχουσα στρατηγική υπό ανάπτυξη για κάθε θέση στο τραπέζι και αυτή η τρέχουσα στρατηγική θα μπορούσε να περιγραφεί ευρέως ως «ίδια», όπως στο: «Το PokerSnowie παίζει ενάντια στον εαυτό του». Αλλά είναι πραγματικά μια επανάληψη στο μονοπάτι της αναρρίχησης στο λόφο για σύγκλιση στην κορυφή – μια βέλτιστη στρατηγική για το πόκερ. Αυτό το βέλτιστο δεν αναλαμβάνει συγκεκριμένο αντίπαλο. Υπάρχουν άλλοι τρόποι με τους οποίους θα μπορούσαμε να υπολογίσουμε τη λύση (αν και ίσως όχι τόσο γρήγορη), και θα ήταν εξίσου έγκυρη. Αυτή η στρατηγική GTO είναι «Το βιβλίο» για το πόκερ, και δεν θα ήταν ποτέ σε μειονεκτική θέση, ανεξάρτητα από τον αντίπαλό του. Δεν υπάρχει στρατηγική που να μπορεί να ξεπεράσει. Fallacy # 4: Το bot GTO υποθέτει ότι θα παίξω με έναν συγκεκριμένο τρόπο, αλλά θα το ξεγελάσω παίζοντας το off-suit 72 μου εκτός θέσης. Λανθασμένος. Το bot GTO δεν αναλαμβάνει τίποτα σχετικά με τον τρόπο που παίζετε. Δεν με νοιάζει. Είναι ασυναγώνιστη εναντίον ΚΑΝΕΝΑΣ αντίθετης στρατηγικής. Φανταστείτε ότι έχετε έναν επερχόμενο αγώνα ενάντια στον Floyd Mayweather και λέτε: «Ο Floyd αναμένει να εμφανιστεί σε άψογη φυσική κατάσταση. Υποθέτει ότι θα προπονηθώ σκληρά για τους επόμενους έξι μήνες. Θα τον ξεγελάσω – απλά θα παρακολουθήσω το Netflix και θα φάω ντόνατς για τους επόμενους έξι μήνες. ” Ο Floyd δεν έχει ιδέα πόσο θα προπονηθείς. Ξέρει ότι αν ο ίδιος εμφανιστεί σε τέλειο σχήμα, τότε κανένας αντίπαλος δεν μπορεί να κερδίσει. Έχει νόημα να πούμε, «Το bot υποθέτει ότι θα παίξω καλά. Θα ξεγελάσω το bot παίζοντας κακό πόκερ! ” Ναι, σίγουρα τους δείξατε! Fallacy # 5: Βρήκα μια αδυναμία – όταν έχω τέτοια και τέτοια, από τέτοια και τέτοια θέση, τότε το bot πρέπει να κάνει X, αλλά κάνει Y. Λάθος. Το bot δεν έχει αδυναμία. Βλέπετε ένα συγκεκριμένο χέρι που κρατάει, και ένα συγκεκριμένο αποτέλεσμα, αλλά με βάση την πιθανότητα να βρίσκεστε σε αυτό το σενάριο και όλα τα πιθανά χέρια που θα μπορούσατε να κρατήσετε από την άποψη του bot, το παιχνίδι του είναι σωστό και μπορείτε δεν θα βρω μια τρύπα εκεί. Είναι πολύ επικίνδυνο να κοιτάς ένα παιχνίδι μεμονωμένα. Το bot κάνει κινήσεις για να εξισορροπήσει το εύρος του, έτσι ώστε να μην μπορείτε να σμίξετε σε άλλες καταστάσεις, ή εάν ήρθαν διαφορετικά φύλλα στο ποτάμι. Αν δεν το βλέπετε, τότε το ελάττωμα είναι στο δικό σας πόκερ και όχι στο bot. Fallacy # 6: Αν το παίξω για λίγο, θα καταλάβω πώς παίζει και θα βρω αδυναμία. Λανθασμένος. Δεν υπάρχει αδυναμία. Στην πραγματικότητα, θα μπορούσαμε να δημοσιεύσουμε τη στρατηγική του bot και δεν θα έκανε καμία διαφορά. Αν σας πω ότι θα παίξω ψαλίδι, ροκ και χαρτί με πιθανότητα 1/3 σε κάθε ένα, το γεγονός ότι γνωρίζετε τη στρατηγική μου δεν σας δίνει καμία δυνατότητα να κερδίσετε. Δεν υπάρχει φτέρνα του Αχιλλέα. Fallacy # 7: Τα bots Heads-Up Limit που εισήχθησαν στα καζίνο ήταν εξαιρετικά επιτυχημένα, οπότε πιθανώς και τα GTO bots είναι επίσης. Αυτή δεν είναι μια ουσιαστική σύγκριση. Μερικά από τα bots καζίνο έλαβαν οδηγίες να μην παίξουν το παιχνίδι τους A, επειδή ήταν πολύ ισχυρό ενάντια στους μέσους ανθρώπους. Εάν το καζίνο θέσει το bot να παίξει το παιχνίδι του B, για να επιτύχει, για παράδειγμα, ένα πλεονέκτημα 5% έναντι των περισσότερων παικτών, τότε ένας πραγματικά καλός άνθρωπος θα μπορούσε να έχει κερδίσει χρήματα από αυτό το bot GTSO (υπο-βέλτιστο bot θεωρίας παιχνιδιού). Αλλά αυτό είναι ένα διαφορετικό ζήτημα. Δεν με νοιάζει ποιος είσαι: Αν παίζεις ανοιχτά εναντίον του PokerSnowie, θα χάσεις. Fallacy # 8: Τα bots GTO μπορούν να νικήσουν τους αδύναμους παίκτες, αλλά τα bots θα έχουν πρόβλημα εναντίον κορυφαίων αντιπάλων όπως ο Phil Ivey ή ο Dan Negreanu. Λανθασμένος. Ένα όμορφο πράγμα για ένα bot GTO είναι ότι δεν έχει σημασία ποιος είναι ο αντίπαλος. Στην καλύτερη περίπτωση, κάποιος θα μπορούσε να παίξει ακόμη και με το bot. Ένας δακτύλιος με ρομπότ GTO θα ήταν σαν νεροχύτης, με τα χρήματα να ρέουν δεξιόστροφα κυνηγώντας το κουμπί και να στραγγίζουν έξω το κέντρο του τραπεζιού λόγω της τσουγκράνας. Ένα πρακτικό πρόβλημα που οι επαγγελματίες του πραγματικού κόσμου ήταν να αποφασίσουν πότε η ικανότητά τους ήταν αρκετή για να ανεβεί στα επόμενα υψηλότερα διαθέσιμα στοιχήματα, όπου οι παίκτες ήταν πιθανώς ισχυρότεροι. Αλλά τώρα, ένας παίκτης που μιμείται τη στρατηγική του GTO μπορεί να καθίσει σε οποιοδήποτε τραπέζι στον κόσμο, με οποιοδήποτε στοίχημα, και να μην χρειάζεται να ανησυχείτε για το ότι είναι το ψάρι. Στην καλύτερη περίπτωση, το παιχνίδι θα ήταν ομοιόμορφο (έξω από την τσουγκράνα), και στην πράξη, μια στρατηγική GTO προσδίδει ένα σημαντικό πλεονέκτημα σε όποιον θα συναντήσετε στην άγρια ​​φύση. Fallacy # 9: Ο Dan Negreanu είναι ένας μακροχρόνιος επαγγελματίας πόκερ με βραχιόλια N, οπότε θα συντρίψει υπολογιστές όπως ο Doug Polk που δεν καταλαβαίνουν τις αποχρώσεις του πραγματικού πόκερ. Εάν ένας άντρας όπως ο Polk απομνημονεύει μόνο τα «διαγράμματα» και μιμείται τη στρατηγική του GTO, δεν χρειάζεται να καταλάβει ένα καταραμένο πράγμα. Δεν χρειάζεται να ξέρει τι σημαίνει η λέξη «απόχρωση». Η εμπειρία των επαγγελματιών του πόκερ όπως ο Νεγκρεάνου είναι αυτό που τους επέτρεψε να καταλάβουν το καλύτερο παιχνίδι σε σενάρια που ήταν περίπλοκα. Αυτή η εμπειρία είναι ξεπερασμένη τώρα που οι υπολογιστές μόλις υπολόγισαν τι είναι τα σωστά παιχνίδια. Ίσως το 1950, η εμπειρία ενός παίκτη του επέτρεψε να καθορίσει ότι το χτύπημα 14 v T ήταν καλύτερο από το να στέκεται. Μόλις οι Four Horsemen υπολόγισαν το BS chart, αυτή η εμπειρία blackjack έγινε άσχετη. Το βιβλίο καθιστά την εμπειρία περιττή. Τώρα ο Doug Polk δεν είναι bot GTO. Είναι κορυφαίος επαγγελματίας που χρησιμοποιεί στρατηγικές GTO. Έτσι, το μόνο σουτ του Negreanu για να νικήσεις τον Polk είναι αν η προσομοίωση GTO του Polk δεν είναι ακριβής και αν οι τρύπες είναι αρκετά μεγάλες για να βρει και να εκμεταλλευτεί ο Negreanu. Αμφιβάλλω. Ένα άλλο longshot θα ήταν αν έπαιζαν ζωντανά, και αν ο Polk έχει φυσικά λέει ότι δίνει πληροφορίες για τις κάρτες του hole και αν ο Negreanu μπορεί να τον διαβάσει με αυτόν τον τρόπο. Ή εάν ο Polk έχει προβλήματα κλίσης και αρχίζει να απομακρύνεται από το GTO εάν έχει κακή σειρά χαρτιών. Δεν είναι πιθανό. Ή, ίσως το παιχνίδι είναι αρκετά σύντομο ώστε ο Negreanu να είναι τυχερός σε ένα μικρό δείγμα. Αφού έπαιξε εναντίον του AlphaGo, ο Lee Sedol ανέβασε το παιχνίδι του και άρχισε να συνθλίβει όλους (όχι ότι δεν το είχε ήδη), αλλά μετά αποχώρησε από το παιχνίδι! Παραδέχθηκε ότι είχε βραβευτεί (τι ιδέα!) Και ότι κανένας άνθρωπος δεν θα αμφισβητούσε ξανά τον καλύτερο παίκτη στη γη, το AlphaGo. Θα δούμε αν ο Νεγκρεάνου θα έχει την ίδια επιφάνεια. Ένα πρόσφατο tweet με κάνει να αναρωτιέμαι, γιατί ο Negreanu φάνηκε να αμφισβητεί ένα παιχνίδι bot, και να υποδηλώνει ότι υπάρχει μια λεπτή γραμμή μεταξύ ιδιοφυΐας και αδυναμίας. Νομίζω ότι εξακολουθεί να ελπίζει ότι υπάρχει κάποιο ελάττωμα στη στρατηγική GTO. Δεν υπάρχει. Τελευταία άκουσα, ο Negreanu έφτασε στο διαγωνισμό και υπάρχει κάποια ένδειξη ότι ένας λόγος είναι ότι, προς όφελός του, ο Negreanu ασκείται με το PokerSnowie και προσαρμόζεται! Εάν ο Negreanu μπορεί να μάθει γρήγορα τη στρατηγική του GTO, τότε θα μπορούσε να ισοπεδώσει τον ανταγωνισμό, κάτι που θα ήταν τεράστιο επίτευγμα. Ο μόνος τρόπος για να επιβιώσει ένας δεινόσαυρος είναι να εξελιχθεί. Θα δούμε το 2021.

[Next time, I’ll discuss some of the limitations and weaknesses of the poker bots, unless we thrash them out in the Comments below.]

คาสิโน มือถือ
คาสิโน ฝากถอนไม่มีขั้นต่ำ
ไลน์ คาสิโน
คาสิโน sagame350
คาสิโน ออนไลน์ ได้เงินจริงฟรีเครดิต