Início ESPECIAIS A LMArena levantou US$ 150 milhões em uma avaliação de US$ 1,7...

A LMArena levantou US$ 150 milhões em uma avaliação de US$ 1,7 bilhão para repensar a avaliação da IA.

33
0

A indústria de IA tornou-se adepta da autoavaliação. Os benchmarks estão melhorando, as pontuações dos modelos estão aumentando e cada nova versão vem com uma lista de métricas para que você saiba como está progredindo. Mas em algum lugar entre o laboratório e a vida real, algo continua escapando.

Que modelo é realmente? sentir Qual é melhor usar?
Em quais respostas os humanos confiam?
Quais sistemas você se sentiria confortável em colocar e apoiar seus clientes, funcionários ou cidadãos?

Essa lacuna é onde a LMArena construiu silenciosamente o seu negócio e é por isso que os investidores simplesmente investiram. Com uma avaliação de US$ 1,7 bilhão, está US$ 150 milhões atrasado.na rodada da Série A. Grandes investidores Felicis e Investimento UCParticiparam empresas líderes de risco (Andreessen Horowitz, Kleiner Perkins, Lightspeed, The House Fund, Laude Ventures).

Não apenas mais uma referência

Durante anos, os benchmarks foram a moeda da confiabilidade da IA: pontuações de precisão, testes de inferência e conjuntos de dados padronizados. Eles trabalharam até que não o fizeram. À medida que os modelos se tornam maiores e mais semelhantes, as melhorias nos benchmarks tornam-se mínimas. O pior é que o modelo começa a ser otimizado para o teste em si, e não para o caso de uso real. As avaliações estáticas têm lutado para refletir como a IA se comporta em interações humanas abertas e confusas.

Ao mesmo tempo, os sistemas de IA passaram do laboratório para os fluxos de trabalho diários, incluindo a elaboração de e-mails, a escrita de códigos, o aprimoramento do suporte ao cliente, a assistência em pesquisas e o fornecimento de consultoria especializada. A pergunta mudou de “O modelo pode fazer isso?” “Então devemos acreditar?”

Esse é um tipo diferente de problema de medição.

A resposta da LMArena foi simples e radical. Não avalie o modelo isoladamente. Na plataforma, os usuários enviam e recebem solicitações. 2 respostas anônimas. Sem marca. Não há nome de modelo. Apenas responda. O usuário então escolhe o que é melhor ou nenhum.

Um voto. Uma comparação. Já foi repetido milhões de vezes.

Os resultados não são definitivamente “os melhores”. Sinais de vida preferidos pelos humanos Como as pessoas respondem ao tom, clareza, verbosidade e utilidade prática. Se as instruções não forem claras ou previsíveis, esses sinais mudam. E capta o que os benchmarks muitas vezes não percebem.

Preferência verdadeira, não apenas precisão

LMArena não trata se o modelo realmente produz a resposta correta. É sobre se os humanos preferem ou não. Essa distinção é sutil, mas significativa na prática. Desenvolvedores e laboratórios agora referenciam suas classificações na tabela de classificação da Arena antes do lançamento e das decisões sobre produtos. Os principais modelos da OpenAI, Google e Anthropic são avaliados regularmente.

Sem o marketing tradicional, a LMArena tornou-se um espelho do relógio da indústria.

Por que os investidores estão prestando atenção agora

A rodada de US$ 150 milhões não é um voto de confiança no produto da LMArena. Ele envia o seguinte sinal: A própria avaliação da IA ​​torna-se infraestrutura. À medida que o número de modelos explode, os compradores empresariais enfrentam uma nova questão: não como obter IA, mas em qual IA confiar. As afirmações dos fornecedores e os benchmarks tradicionais nem sempre se traduzem em confiabilidade real. Os testes internos são caros e lentos.

A sinalização neutra de terceiros entre criadores de modelos e usuários está emergindo como uma camada importante. É aqui que mora a LMArena. Lançado em setembro de 2025. Avaliação de IAé um serviço comercial que transforma um mecanismo de comparação de crowdsourcing em um produto ao qual empresas e laboratórios de pesquisa podem pagar pelo acesso. LMArena diz que o serviço atingiu uma taxa de execução anual de aproximadamente US$ 30 milhões poucos meses após o lançamento.

Estes tipos de sinais humanos também são importantes para reguladores e decisores políticos. Os quadros de supervisão exigem provas que reflitam a utilização real e não cenários idealizados.

crítica e competição

Não há nada de controverso na abordagem da LMArena. As plataformas que dependem de sinais de votação pública e crowdsourcing podem refletir as preferências dos utilizadores ativos, mas podem não corresponder às necessidades de especialidades específicas. Em resposta, os concorrentes incluem: Dimensione o confronto SEAL da IA Surgiu com o objetivo de fornecer classificações de modelos mais granulares e representativas em idiomas, regiões e contextos profissionais.

Além disso, a investigação académica demonstrou que as tabelas de classificação baseadas na votação podem ser vulneráveis ​​à manipulação se não existirem salvaguardas e que, se os controlos de qualidade não forem rigorosos, estes sistemas podem favorecer respostas superficialmente atraentes em detrimento de respostas tecnicamente correctas.

Este debate destaca o seguinte: Nenhum método de avaliação pode capturar todos os aspectos do comportamento do modelo. Mas também destaca a necessidade de sinais mais ricos e baseados em humanos que vão além dos parâmetros de referência existentes.

A confiança não se expande por si só.

Existe uma suposição silenciosa na IA de que a confiança surgirá naturalmente à medida que os modelos melhoram. A lógica dita que um melhor raciocínio levará a melhores resultados. O enquadramento trata o alinhamento como um problema técnico com uma solução técnica.

LMArena desafia essa ideia. Na vida real, a confiança é social e situacional. É construído através da experiência, não do argumento. É formado por um ciclo de feedback que não entra em colapso em escala. Ao permitir que os utilizadores, e não as empresas, decidam o que funciona, a LMArena introduz fricção onde a indústria muitas vezes prefere impulso. Isso nos retarda o suficiente para perguntar: “Isso é realmente melhor ou é mais recente?”

Esta é uma questão desconfortável em mercados impulsionados por ciclos contínuos de lançamentos. É também por isso que a ascensão da LMArena parece inevitável.

A força silenciosa que mantém a pontuação

LMArena não promete segurança. Não declaramos que o modelo é bom ou ruim. Não substitui a regulamentação ou a responsabilização. O que ele faz é mais simples e poderoso. Isso significa manter a pontuação publicamente. À medida que os sistemas de IA são incorporados nas decisões diárias, o acompanhamento do desempenho ao longo do tempo torna-se menos opcional. Alguém precisa perceber regressões, mudanças contextuais e padrões de usabilidade.

Nos esportes, árbitros e estatísticos desempenham esse papel. No mercado, os auditores e as agências de classificação fazem isso. No espaço da IA, ainda estamos desenvolvendo essa infraestrutura.

A ronda de financiamento da LMArena sugere que os investidores acreditam que este papel não permanecerá marginal por muito tempo. Porque quando a IA está em toda parte, a questão mais difícil não é o que ela é. ~pode fazer fazer. eles Quando fazemos isso, quem confiamos e como sabemos que estamos certos.

Source link