AI大規模モデルにタグ付けを行う小さな町の若者たち

BlockBeatNews

2026-04-07 04:35:35

文 | Sleepy.md

山西大同。この街はかつて石炭によって国の半分を支えたこともあったが、いま煤まみれの身を払い落とし、鋭いつるはしを手に取り、もう一つの姿の見えない鉱山へ向けて重く打ち下ろす。

平城区の金貿国際センターにあるオフィスビルには、もう昇降井戸がない。もはや運煤車もない。代わりに、数千ものコンピュータ作業席がきっちりと並べられている。上海潤迅雲中声谷データ・スマートサービス基地が何フロア分にもわたって占拠し、数千人のヘッドセットをつけた若い社員たちが、画面を見つめ、クリックし、ドラッグし、枠を選択している。

公式データによると、2025年11月時点で、大同市は稼働中のサーバーを74.5万台投入し、69社のコールセンター・ラベリング（問い合わせ対応・注釈）データ企業を導入した。その結果、3万人超の人が近隣で就職し、産出額は7.5億元となった。この数字の鉱山の中では、94%の従事者が地元の戸籍を持つ人々だ。

大同だけではない。国家データ局が定めた最初のデータ・ラベリング基地のうち、山西省永和県、貴州省畢節、雲南省蒙自などの中西部の地方都市もはっきりと名を連ねている。永和県のデータ・ラベリング基地では、従業員の80%が女性だ。彼女たちは多くが農村の「子育て中の母親」か、適した仕事を見つけられず故郷に戻ってきた若者である。

100年前、英国のマンチェスターの繊維工場には、土地を失った農民がぎっしり詰め込まれていた。そして今日、こうした遠い地方の町のコンピュータ画面の前には、実体経済の中で居場所を見つけられない若者が座っている。

彼らは、極めて未来的でありながら、同時に極めて原始的な出来高（ピースレート）作業に従事し、遠く北京、深圳、シリコンバレーのAI巨大企業のために、大規模モデルの構築に必要なデータ飼料を生産している。

誰も、それに何の問題もないとは思っていない。

黄土高原の新しい流れ作業ライン

データ・ラベリングの本質は、機械に「世界の認識の仕方」を教えることだ。

自動運転は信号機や歩行者を認識する必要があり、大規模モデルは猫と犬の区別をつける必要がある。機械そのものには常識がない。人間がまず画像上に枠を描き、「これは歩行者です」と伝えなければならない。そうして初めて、何千万枚もの画像を飲み込んだのちに、機械は自分で見分けられるようになる。

この仕事に高学歴は不要だ。必要なのは忍耐と、止められないクリックを続ける片手の人差し指だけ。

2017年の黄金時代には、単純な2Dの枠ひとつが一毛（0.1元）あまりの値段で取引されることもあり、さらに5毛（0.5元）という高値を提示する会社まであった。手が速いラベラーは、一日十数時間働いて、500〜600元を稼げた。町では、間違いなく高給で立派な仕事に数えられる。

しかし、大規模モデルが進化するにつれ、この流れ作業ラインの残酷な面が姿を現し始めた。

2023年になると、単純な画像ラベリングの単価はすでに3〜4分（0.03〜0.04元）まで叩き落とされ、下落率は90%超となった。難度のより高い3D点群図であっても、密集した点で構成され、無数倍に拡大しないと輪郭が見えない画像では、ラベラーは3次元空間で、長さ・幅・高さ・偏向角度を含む立体の枠を引いて、車両や歩行者を隙間なく包み込まなければならない。それでも、その複雑な3D枠の報酬はわずか5分しかない。

単価が暴落した直接の結果は、労働強度の激増だ。毎月2〜3千元の最低賃金に必死にしがみつくため、ラベラーたちは絶えず、止めることなく自分の手の速さを上げ続けなければならない。

これは到底、気楽なホワイトカラーの仕事ではない。多くのラベリング基地では、管理は息が詰まるほど厳しい。勤務中は電話の応対が禁止され、携帯電話はロッカーで施錠して保管しなければならない。システムは各従業員のマウスの軌跡と滞在時間を正確に記録し、3分を超えて止まると、バックグラウンドの警告が鞭のように飛んでくる。

さらに絶望的なのは許容誤差（トレランス）だ。業界の合格ラインは通常95%以上で、ある会社では98%〜99%を要求するところもある。つまり、枠を100個引いて2個間違えただけで、図全体が差し戻され、修正のやり直しになる。

動画は連続フレームで、車線変更の車両は遮られる。ラベラーは連想でそれらを一つずつ見つけ出さねばならない。3D点群図では、10点を超える物体があれば枠を描く必要がある。複雑な駐車スペースの案件で、線を引き続けて長くなったり、ラベリングの漏れが出たりしても、品質検査のときには必ず欠点をあら探しされる。1枚の図が4〜5回返されるのは日常茶飯事だ。最後に計算すると、1時間かけて受け取れるのは数毛（数分の数元）にしかならない。

湖南のラベラーがソーシャルプラットフォームで自分の精算明細を公開した。1日働き終えると、彼女は700個以上の枠を引き、単価は4分で、合計収入は30.2元だった。

これは極端に分断された光景だ。

一方には、発表会で光り輝くテックの大物がいて、AGIがどのように人類を解放するかを語っている。もう一方には、黄土高原や南西部の大山にある地方都市の町で、若者たちが毎日、画面を8〜10時間にわたって死んだ目で見つめ、機械的に枠を引く。数千個、数万個、そして夜には夢の中でも、指が空中で車線を描いている。

かつて誰かが、人工知能の見た目は通り過ぎる豪華な高級車だが、ドアを開けると中には100人が自転車に乗って必死にペダルを踏んでいる、と言った。

誰も、それに何の問題もないとは思っていない。

機械に「どうやって愛するか」を教える出来高の仕事

画像認識のボトルネックが突破されたあと、大規模モデルはさらに深い進化を遂げ、より人間のように考え、対話し、さらには「共感性」を示すことさえ学ぶ必要が出てきた。

これを生むのが、大規模モデルのトレーニングで最も中核であり、しかも最も高価な工程――RLHF（人間のフィードバックに基づく強化学習）だ。

簡単に言えば、実際の人間がAIが生成した回答に点数をつけ、「どの回答のほうがより良く、より人間の価値観や感情の好みに合っているか」を教えることだ。

ChatGPT が「人のように」見えるのは、背後で無数の RLHF のラベラーがそれに授業をしているからだ。

クラウドソーシングのプラットフォームでは、この種のラベリング業務は往々にして明確な値段で提示される。単品の費用は3〜7元。ラベラーはAIの回答に対して極めて主観的な感情の採点を行い、その回答が「温かい」のか、「共感がある」のか、「ユーザーの気持ちに配慮できている」のかを判断する。

月給が2〜3千元で、現実の泥沼の中で疲れ果てて生き延びており、さらには自分の感情すら顧みる余裕がない下層の労働者が、しかもシステムの中ではAIの感情のメンターであり価値観の裁判官を務めなければならない。

彼らは、温かさや共感といった、非常に複雑で繊細な人間の感情を強引に細かく砕き、1〜5という冷たい点数に量化する必要がある。彼らの採点がシステムの設定した標準解答と一致しなければ、正答率が基準に達していないと判定され、もともと薄い出来高賃金が差し引かれる。

これは認知の空洞化だ。人間の複雑で微妙な感情、道徳、そして思いやり（悲哀へのまなざし）が、強制的にアルゴリズムの漏斗に引きずり込まれている。冷たい量化と標準化の目盛りの中で、それらは最後の温もりまで搾り取られる。画面の中のサイバースの怪物が、詩を書き、曲を編み、気遣いまでできるようになったと驚くとき；画面の外では、もともと生き生きしていた人間たちが、日々の機械的な判断の中で、感情のない採点マシンへと退化していく。

これは産業チェーン全体でもっとも隠された側面であり、いかなる資金調達ニュースや技術ホワイトペーパーにも出てこない。

誰も、それに何の問題もないとは思っていない。

985の修士とタウンボーイ

下層の枠引き作業はAIのクローラーに押しつぶされている。このサイバーメの流れ作業ラインは上へと延び、より高度な頭脳労働を飲み込み始めている。

大規模モデルの食欲が変わった。もはや、ただ単純な常識を細切れにするだけでは満足できず、人間の専門知識や高度なロジックを丸ごと飲み込む必要がある。

各種の求人プラットフォームで、特殊なアルバイトが頻繁にちらつき始めている。例えば「大規模モデルの論理推論ラベリング」「AI人文トレーナー」などだ。このアルバイトのハードルは非常に高く、往々にして「985/211の修士以上の学歴」を要求し、法律、医学、哲学、文学などの専門分野に関わる。

多くの名門大学の大学院生が惹きつけられ、大手企業の外注グループに流れ込んだ。だが彼らはすぐに、それが決して楽な頭脳体操ではなく、精神の拷問だと気づく。

正式に受注する前に、彼らは何十ページにも及ぶ採点のディメンションと評価基準の文書を読み、2〜3ラウンドの試験的ラベリングを行わなければならない。合格したあと、正式なラベリングにおいて正答率が平均を下回れば資格を失い、グループから追い出される。

最も息が詰まるのは、これらの基準がそもそも固定されていないことだ。似たような問題や回答に直面したとき、同じ思考のやり方で採点しても、結果がまったく逆になることがある。これは、永遠に終わらず、しかも根本的に標準解答が存在しない試験を解いているようなものだ。自分の努力や学習で正答率を上げることはできず、ただその場で延々と回り続け、頭脳と体力をすり減らすしかない。

これが大規模モデル時代の新型搾取――階層の折り畳みだ。

知識という、これまで壁を打ち破り、上へ登っていくための黄金のはしごと見なされてきたものが、いまはアルゴリズムに奉納するための、より複雑で噛み砕きにくいデジタルの牧草になり下がっている。アルゴリズムとシステムの絶対的な権力の前で、象牙の塔にいる985の修士たちと、黄土高原の地方の若者たちは、最も奇妙な運命の一致（全く別の道を歩きながら結局同じところへ落ちる）を迎える。

彼らはともに、この底が見えないサイバーミネラルの鉱坑へ落ち込み、栄光を奪われ、差異がならされ、すべてがクローラーの上の安価で、いつでも交換可能な歯車に統一されてしまう。

海外でも同じだ。2024年、Appleはサンティアゴの121人のAI音声ラベリングチームを直接切り捨てた。これらの従業員は Siri の多言語処理能力を改善する仕事をしており、彼らは自分たちが大手企業の中核事業の周辺に立っているだけだと思っていたが、瞬く間に失業という奈落へ突き落とされた。

テックの巨大企業の目には、町の枠引きのおばちゃんであっても、名門校を卒業した論理トレーナーであっても、本質的にはいつでも差し替え可能な「消耗品」だ。

誰も、それに何の問題もないとは思っていない。

1兆バベルの塔、数銭に満ちた血と汗

中国信通院が発表したデータによると、2023年の中国のデータ・ラベリング市場規模は60.8億元で、2025年は200〜300億元になる見込みだ。予測では、2030年までに世界のデータ・ラベリングおよびサービス市場の売上高は1171億元へと爆発的に伸びる。

これらの数字の背後には、OpenAI、Microsoft、ByteDanceなどのテック巨大企業が、数千億や数万億ドル単位の時価総額をめぐる狂宴を繰り広げている。

だが、これらの「降り注ぐほどの」富は、AIを本当に「養っている」人たちには流れていない。

中国のデータ・ラベリング業界は、典型的な逆ピラミッド型の外注構造を示している。最上層は、コアとなるアルゴリズムをがっちり握りしめるテック巨大企業。次の層は、大手のデータサービス提供業者。第三層は、各地に広がるデータ・ラベリング基地と中小の外注会社。最下層になって、初めて出来高賃金の「根性なし（現場労働）」のようなラベラーたちがいる。

各層の外注があるたびに、油（利益の上乗せ）をどんどん削り取る。大手が出す単価が5毛のとき、層を重ねて搾り取られたあとに、町のラベラーの手元に残るのは、5分にも満たない可能性すらある。

ギリシャ前財務大臣ヤニス・バルファキスは著書『テクノロジー封建主義』の中で、非常に刺さる観点を提示した。いまのテック巨大企業は、従来の意味での資本家ではなく、「クラウド領主（Cloudalists）」なのだと。

彼らが持っているのは工場や機械ではなく、アルゴリズム、プラットフォーム、計算能力（算力）だ。これらはサイバー時代のデジタル領土である。この新しい封建制度の中では、ユーザーは消費者ではなくデジタル小作人であり、私たちがソーシャルメディアで行うすべての「いいね」「コメント」「閲覧」が、無料でクラウド領主へデータを献上している。

そして、地方の沈み込み市場に分布しているデータ・ラベラーたちは、この体系の最底辺のデジタル農奴だ。彼らはデータを生産するだけでなく、大量の元データを洗浄し、分類し、点数をつけ、それを大規模モデルが消化できる高品質な飼料へと変換しなければならない。

これは、隠れた認知の囲い込み（レジの奪取）の運動だ。19世紀の英国で囲い込み運動が農民を繊維工場へ追い立てたのと同じように、今日のAIの波が、実体経済では居場所を見つけられなかった若者たちをスクリーンの前へ追い立てている。

AIは階層の溝を埋めていない。むしろ、中国の中西部の地方都市から、北上広深のテック巨大企業の本社へ直結する「データと血汗のベルトコンベヤ」を築いている。技術革命の物語は常に壮大で華やかだが、その地色は、いつでも「安い労働力」の大量消費だ。

誰も、それに何の問題もないとは思っていない。

人間の明日がもう不要に

最も残酷な結末が、もうすぐ来る。しかもますます早く。

大規模モデルの能力が跳ね上がるにつれて、かつて人間が昼も夜もかけてやり遂げる必要があったラベリング作業が、AI自身に引き継がれつつある。

2023年4月、理想汽車の創業者・李想がフォーラムでデータを明かした。以前は、理想は1年で自動運転の画像の人手によるラベリング（自動運転画像の手作業の人工ラベリング）をだいたい1000万フレーム行っており、外注コストはほぼ80億元に近かった。しかし、大規模モデルで自動化ラベリングを使うようになってからは、過去に1年かかっていたことが、基本的に3時間で終わるようになった。

効率は人間の1000倍で、しかも2023年の時点ですでにそうだった。直近の3月に、理想は新世代のMindVLA-o1自動ラベリングエンジンを発表している。

業界では「知能の量だけ人手の量がある」と揶揄（じほう）する言い回しがあるが、今や、大手企業がデータ・ラベリング外注に投じる投入は、すでに40%〜50%という断崖のような急落が見えてきている。

コンピュータの前で無数の日夜を枯らし、目を真っ赤にして働いたタウンの若者たちは、みずから手で巨大な獣を育ててきた。そしていま、その獣が振り向き、彼らの飯の仕事（食いぶち）を砕きに来ている。

夜が降りると、大同・平城区のオフィスビルは相変わらず昼のように白く冷たい。交代勤務の若者たちが、エレベーターホールの中で沈黙しながら、疲れ切った肉体を互いに静かに受け渡ししている。この、多角形の枠によってきっちり閉じ込められた折り畳み空間の中では、誰も、海の向こうのTransformerアーキテクチャがどんな史詩級の飛躍をまた遂げたのかに関心を示さず、また、億単位のパラメータの背後で轟く算力のうなりも誰も聞き取れない。

彼らの視線は、バックエンドに固定されている「合格ライン」を示す赤と青の進捗バーにだけ溶接されており、月末にその数々の分・数々の毛（わずかな出来高）が集まって立派な生活を作れるかを計算している。

一方では、NASDAQの鐘の音とテックメディアが垂れ流す無数の記事の中で、巨大企業たちがAGIの到来を祝う杯を掲げている。だが他方では、肉体の一口ずつを使ってAIを大きく育ててきたデジタル農奴たちは、酸いも甘いもない眠りの中でしかなく、ただ自分で手ずから飼い慣らしたその巨大獣が、ある一見ふつうの朝に、何気なく彼らの飯の仕事を蹴飛ばすのを、恐れおののきながら待つしかない。

誰も、それに何の問題もないとは思っていない。

クリックして律動BlockBeatsの求人を確認

律動 BlockBeats 公式コミュニティへの参加を歓迎します：

Telegram購読グループ：https://t.me/theblockbeats

Telegram交流グループ：https://t.me/BlockBeats_App

Twitter公式アカウント：https://twitter.com/BlockBeatsAsia

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし