OpenAI dokonał ostatniego wielkiego przełomu w dziedzinie sztucznej inteligencji, zwiększając rozmiary swoich modeli do zawrotnych rozmiarów, wprowadzając w zeszłym roku GPT-4. Firma ogłosiła dziś nowe osiągnięcie, które sygnalizuje zmianę podejścia — model, który potrafi logicznie „rozsądzać” wiele trudnych problemów i jest znacznie inteligentniejszy niż istniejąca sztuczna inteligencja bez większego zwiększania skali.
Nowy model, nazwany OpenAI-o1, może rozwiązać problemy, które utrudniają istniejące modele sztucznej inteligencji, w tym najpotężniejszy istniejący model OpenAI, GPT-4o. Zamiast przywoływać odpowiedź w jednym kroku, jak to zwykle ma miejsce w przypadku dużych modeli językowych, analizuje problem, skutecznie myśląc na głos, jak to zwykle bywa, zanim uzyska właściwy wynik.
„To właśnie uważamy za nowy paradygmat w tych modelach” – mówi WIRED Mira Murati, dyrektor ds. technologii OpenAI. „Znacznie lepiej radzi sobie z bardzo złożonymi zadaniami związanymi z rozumowaniem”.
Nowy model w ramach OpenAI otrzymał nazwę kodową Strawberry i nie jest następcą GPT-4o, ale raczej jego uzupełnieniem – twierdzi firma.
Murati twierdzi, że OpenAI pracuje obecnie nad swoim kolejnym głównym modelem, GPT-5, który będzie znacznie większy od swojego poprzednika. Chociaż firma nadal wierzy, że skala pomoże wydobyć nowe możliwości ze sztucznej inteligencji, GPT-5 prawdopodobnie obejmie również wprowadzoną dzisiaj technologię wnioskowania. „Istnieją dwa paradygmaty” – mówi Murati. „Paradygmat skalowania i ten nowy paradygmat. Mamy nadzieję, że ich połączymy.”
LLM zazwyczaj uzyskują odpowiedzi z ogromnych sieci neuronowych zasilanych ogromnymi ilościami danych szkoleniowych. Mogą wykazywać niezwykłe zdolności językowe i logiczne, ale tradycyjnie zmagają się z zaskakująco prostymi problemami, takimi jak podstawowe pytania matematyczne wymagające rozumowania.
Murati twierdzi, że OpenAI-o1 wykorzystuje uczenie się przez wzmacnianie, które polega na przekazywaniu modelowi pozytywnych informacji zwrotnych, gdy uzyska prawidłowe odpowiedzi, i negatywnych, jeśli nie, w celu usprawnienia procesu rozumowania. „Model wyostrza swoje myślenie i dostraja strategie, których używa, aby znaleźć odpowiedź” – mówi. Uczenie się przez wzmacnianie umożliwiło komputerom granie w gry z nadludzkimi umiejętnościami i wykonywanie przydatnych zadań, takich jak projektowanie chipów komputerowych. Technika ta jest również kluczowym elementem umożliwiającym przekształcenie LLM w przydatnego i dobrze zachowującego się chatbota.
Mark Chen, wiceprezes ds. badań w OpenAI, zademonstrował nowy model firmie WIRED, wykorzystując go do rozwiązania kilku problemów, których nie rozwiązuje jego poprzedni model, GPT-4o. Obejmowały one zaawansowane pytanie z chemii i następującą zapierającą dech w piersiach łamigłówkę matematyczną: „Księżniczka ma tyle lat, ile będzie mieć książę, gdy księżniczka będzie dwa razy starsza od księcia, gdy wiek księżniczki był o połowę mniejszy od ich obecnego wieku. W jakim wieku jest książę i księżniczka? (Prawidłowa odpowiedź brzmi: książę ma 30 lat, a księżniczka 40).
„ [new] model uczy się myśleć samodzielnie, zamiast próbować naśladować sposób myślenia ludzi” – jak robi to konwencjonalny LLM, mówi Chen.
OpenAI twierdzi, że jego nowy model radzi sobie znacznie lepiej z wieloma zestawami problemów, w tym z problemami związanymi z kodowaniem, matematyką, fizyką, biologią i chemią. Według firmy, podczas American Invitational Mathematics Examination (AIME), testu dla studentów matematyki, GPT-4o rozwiązało średnio 12 procent problemów, podczas gdy o1 rozwiązało poprawnie 83 procent.