O serviço de poder de computação tornou-se um novo modelo de negócio, como deve haver uma transição após a onda de "refinamento" de grandes modelos?
Recentemente, usando dados meteorológicos globais de 40 anos e utilizando 200 placas de GPU durante cerca de 2 meses de pré-treinamento, um grande modelo meteorológico com uma quantidade de parâmetros na casa das centenas de milhões foi criado. Esta é a experiência de um jovem que se formou na Universidade Tsinghua há 3 anos ao treinar um grande modelo.
Do ponto de vista de custos, considerando um custo de 7,8 yuan/hora por GPU, o custo de treinamento deste grande modelo meteorológico pode ultrapassar 2 milhões de yuan. E se o modelo treinado for um grande modelo genérico, o custo pode aumentar cem vezes.
Os dados mostram que a China já possui mais de 100 grandes modelos com escalas de 10 bilhões de parâmetros. No entanto, a "fabricação" de grandes modelos, que está em alta na indústria, enfrenta a dificuldade da escassez de GPUs de alto desempenho. O custo do poder de computação permanece elevado, e a falta de poder de computação e financiamento tornou-se o problema mais evidente que a indústria enfrenta.
Escassez de GPU de alta gama
"De fato, está muito escasso, mas nós também