OpenAIs nya O3-modell – AI nyheter

Några viktiga funktioner och prestationer hos o3:

Modellen kan lösa matematiska ekvationer som skulle ta en doktorsstudent i matematik timmar eller till och med dagar att lösa.
Den nådde rekordsiffror på ARC-AGI-benchmarken, en visuell resonanstest som inte hade slagits sedan dess skapelse 2019. o3 fick 75,7% i lågförbrukningsläge och 87,5% i högförbrukningsläge, jämfört med människors 85%.
Modellen fick 96,7% på 2024 års American Invitational Mathematics Exam och löste 87,7% av frågorna på GPQA Diamond som innehåller avancerade biologi-, fysik- och kemifrågor.
o3 löste 25,2% av problemen på EpochAI:s Frontier Math-benchmark, medan inget annat modell har klarat mer än 2%.

OpenAI har avslutat sin 12-dagars ”Shipmas”-evenemang med en stor nyhet – lanseringen av deras nya o3-modell. Detta är uppföljaren till företagets tidigare o1-”resonemodell” som släpptes tidigare i år. o3 är egentligen en modellfamilj, precis som o1 var, och inkluderar både o3 och den mindre o3-mini-versionen.

penAI har tillkännagett lanseringen av sin nästa generations AI-modell, kallad o3, som enligt företaget representerar ett betydande framsteg inom artificiell intelligens. Modellen, som för närvarande genomgår säkerhetstester, förväntas erbjuda förbättrad prestanda jämfört med sin föregångare och kommer att göras tillgänglig för forskare innan en bredare lansering planeras i början av nästa år.

O3-modellens adaptiva tänkande

O3-modellen utmärker sig genom sin förmåga till adaptivt tänkande, vilket liknar mänsklig problemlösning. Modellen använder en ”privat tankekedja” där den simulerar en intern överläggningsprocess innan den ger ett svar. Detta möjliggör mer tillförlitliga resultat inom områden som kräver noggrann analys, såsom matematik och vetenskap. En unik funktion är den justerbara ”resonemangstiden”, där användare kan välja mellan låg, medium eller hög resonemangstid beroende på uppgiftens komplexitet

Skillnader mellan O3 och O3-mini

O3 och O3-mini är två varianter av OpenAI:s nya AI-modeller med olika kapaciteter och användningsområden. O3 är den mer avancerade modellen med högre prestanda och större förmåga till komplext resonemang. Den uppnår en imponerande noggrannhet på 71,7% på SuiteBench Verified kodningsbenchmarks och visar toppresultat inom matematik och vetenskap.

O3-mini är en mer kostnadseffektiv version som erbjuder anpassningsbar resonemangskraft med alternativ för låg, medium och hög resonemansinsats.

Detta gör O3-mini lämplig för enklare uppgifter eller situationer där snabbare svarstider prioriteras, medan O3 är bättre lämpad för mer krävande tillämpningar inom kodning, matematik och vetenskaplig analys.

OpenAI o3 genombrott höga poäng på ARC-AGI-Pub

ARC-AGI-testet, eller ”Artificial Reasoning Capabilities for AGI” testet, är en metod för att utvärdera och mäta förmågor hos artificiell intelligens (AI) i att utföra uppgifter som kräver generell intelligens. Testet fokuserar på att bedöma AI-systemens kapacitet att resonera, förstå och lösa problem på en nivå som kan liknas vid mänsklig intelligens.

OpenAIs nya o3-system – utbildat på ARC-AGI-1 Public Training set – har fått ett genombrott på 75,7 % på det Semi-Private Evaluation set vid vår angivna offentliga rangordning med en beräkningsgräns på 10 000 dollar. En högberäknad (172x) o3-konfiguration fick 87,5 %.

Tillgänglighet och planer

OpenAI kommer inte att släppa dessa modeller för allmänheten ännu. Istället kommer de att göras tillgängliga för säkerhetstestare och forskare från och med idag. Planen är att lansera o3-mini mot slutet av januari, följt av o3 kort därefter.

Source link