AI大規模モデルにタグ付けを行う小さな町の若者たち

著者:Sleepy.md

山西省・大同――かつて石炭で国の半分を支えたこの都市は、いまや全身の煤ぼこりを振り落とし、鋭いつるはしに持ち替えて、別の見えない鉱山へ向けて重々しく打ち下ろしている。

平城区の「金貿国際センター」のオフィスビルには、もはや昇降坑もなく、運搬トラックもない。その代わりにあるのは、上千ものコンピューター作業席が、きっちりと隙間なく整列した光景だ。上海潤迅雲中声谷データ・インテリジェント・サービス拠点が、整にいくつものフロアを占め、数千人のヘッドホンを付けた若い従業員が画面を見つめ、クリックし、ドラッグし、枠を囲み込んでいる。

公式データによると、2025年11月時点で、大同市では稼働中のサーバーが74.5万台、コール・ラベリング(呼び出しと注釈)データ企業として69社を導入しており、3万人超が近隣で就業できるようになり、産出額は7.5億元だ。この「数値の鉱坑」の中で、従事者の94%は地元戸籍だ。

大同だけではない。国家データ局が確定した最初のデータ注釈基地のうち、山西省・永和県、貴州省・畢節、雲南省・蒙自など、中西部の県の都市が名指しでずらりと並んでいる。永和県のデータ注釈基地では、80%が女性従業員だ。彼女たちは多くが農村の“宝媽”(子育て中の母親)であり、または適した仕事が見つからず故郷に戻った若者だ。

100年前、英国のマンチェスターの繊維工場には、土地を失った農民が押し寄せていた。だが今日では、こうした遠く離れた県の町のコンピューター画面の前に、実体経済の中で居場所が見つからない若者が座り込んでいる。

彼らは、非常に未来感のある――しかし極めて原始的な出来高(個数)作業に従事し、遠く北京、深圳、そしてシリコンバレーの人工知能(AI)巨大企業に、基盤モデルの構築に必要なデータ飼料を生産している。

誰も、これに問題があるとは思っていない。

黄土高原の新しい流れ作業ライン

データ注釈の本質は、機械に「世界を認識させる」ことだ。

自動運転は信号機や歩行者を認識する必要があり、大規模モデル(基盤モデル)は「猫」と「犬」の区別が必要になる。機械そのものには常識がないため、人間が先に画像上に枠を描き、「これは歩行者だ」と教えなければならない。そうして初めて、数千万枚もの画像を飲み込んだ後に、機械が自分で見分けられるようになる。

この仕事には高い学歴は要らない。必要なのは忍耐と、止まらずクリックし続けられる一本の指だけだ。

2017年の黄金期には、単純な2Dの枠でも価格が一毛あまりの水準に達し、さらには5毛の高値をつける会社さえあった。手の速い注釈担当者は、1日十数時間働いて五、六百元を稼げた。県の町では、それは間違いなく高給で“まとも”な仕事だった。

だが、大規模モデルが進化するにつれて、この流れ作業ラインの残酷な一面が姿を現し始めた。

2023年になると、単純な画像注釈の単価はすでに3〜4分(0.03〜0.04元)まで叩き落とされ、下落率は90%以上だ。難度がさらに高い3D点群図であっても、密集した点でできていて、無数倍に拡大しないと輪郭が見えない画像なら、注釈担当者は3次元空間で、長さ・幅・高さと偏転角度を含む立体の枠を引いて、車両や歩行者をぴったり隙間なく包み込まなければならない。それでも、こうした複雑な3D枠の報酬はわずか5分にすぎない。

単価暴落の直接的な結果は、労働強度の増大だ。毎月2〜3千元の下支えとなる最低賃金に必死に食らいつくため、注釈担当者たちは、絶えず、止まることなく自分の手の速さを高め続けなければならない。

これは決して、楽なホワイトカラーの仕事ではない。多くの注釈基地では、管理が窒息するほど厳しい。出勤中は電話に出てはいけず、携帯は保管用のロッカーに鍵をかけて閉じ込めなければならない。システムは各従業員のマウスの軌跡や滞在時間を正確に記録し、3分以上止まれば、裏方からの警告が鞭のように飛んでくる。

さらに最も耐えがたいのは、許容誤差率だ。業界の合格基準は通常95%以上で、ある会社では98%〜99%を求めることさえある。つまり、枠を100個引いて2個間違えたら、画像全体が差し戻されて修正になる。

動画は連続フレームで、車線変更する車両は遮蔽される。注釈担当者は、連想でそれらを一つずつ見つけ出さなければならない。3D点群図では、10個を超える点の物体があれば枠を描く必要がある。複雑な駐車スペース案件では、線を引くのが長引けば、漏れが出る。品質検査では、いつでも不備が見つかる。1枚の画像を4〜5回の差し戻しで返すのは日常茶飯事だ。最後に計算すると、1時間かけても手元に残るのは数毛だけだ。

湖南省のある注釈担当者がソーシャルプラットフォーム上で自分の精算明細を公開した。1日働き終えて、彼女は700個以上の枠を引き、単価は4分で、合計収入は30.2元だった。

これは、極度に分断された光景だ。

一方には、発表会でまばゆいほど光るテックの大物たちがいて、AGIが人類をどう解放するかを語っている。もう一方では、黄土高原や西南の山あいの県の町で、若者が毎日8〜10時間、画面に釘付けになり、機械的に枠を引く――何千個、何万個、さらに夜に夢を見るときでさえ、指先が空中で車線の線を描いている。

かつて「人工知能の見た目は、轟音を立てながら通り過ぎる豪華な高級車だ。でもドアを開けると、中には100人がいて、自転車に乗って歯を食いしばり、必死にペダルを踏んでいる」と言う人がいた。

誰も、これに問題があるとは思っていない。

機械に「愛し方」を教える出来高の仕事

画像認識のボトルネックが突破された後、大規模モデルはさらに深い進化を遂げる。今度は人間のように考え、対話し、さらには「共感(エンパシー)」すら示せるようになる必要がある。

そのために生み出されるのが、大規模モデルの学習における最核心であり、同時に最も高コストな工程――RLHF(人間のフィードバックに基づく強化学習)だ。

簡単に言うと、AIが生成した回答を実際の人間が採点し、どの回答がより良いか、どれが人間の価値観や感情の好みにより合っているかを教えることだ。

ChatGPTが「人のように」見えるのは、その背後で無数のRLHFの注釈担当者が教え込んでいるからだ。

クラウドソーシングのプラットフォームでは、こうした注釈タスクは往々にして明確に値段がついている。1件あたり3〜7元。注釈担当者は、AIの回答に対して極めて主観的な感情スコアを付け、その回答が「温かい」か、「共感がある」か、「ユーザーの感情に配慮している」かを判定する。

月給2〜3千元を手にし、現実の泥沼で疲れ切って走り回り、さらに自分の感情にさえ目を向ける余裕がない下層の労働者が、システムの中ではAIの“感情メンター”であり、価値観の裁判官を務めることになる。

彼らは、温かさや共感といった、非常に複雑で繊細な人間の感情を無理やり細かく砕いて、1〜5の冷たい点数に量化しなければならない。彼らの採点がシステムの設定した模範解答と一致しなければ、正答率が基準に達していないと判断され、もともと微々たる出来高賃金から減額される。

これは認知の空洞化だ。人間の複雑で幽玄な感情、道徳、そして哀れみが、無理やりアルゴリズムの漏斗へ引きずり込まれている。冷たい量化と標準化の目盛りの中で、それらは最後の温かみを絞り出されてしまう。画面の中のサイバーモンスターが、詩を書き、曲を作り、いたわる言葉を投げかけ、さらには多愁善感の“皮”をかぶっていることに驚くとき――画面の外では、本来は生き生きしていた人間たちが、日々の機械的な判断によって、感情のない採点マシンへと劣化していく。

これは産業チェーン全体の最も秘匿された側面で、資金調達のニュースや技術のホワイトペーパーのどこにも出てこない。

誰も、これに問題があるとは思っていない。

985学位と町の若者

下層での枠引き作業がAIの履帯に踏みつぶされつつある。このサイバーの流れ作業ラインは上へと延び、より高度な頭脳労働を呑み込み始めている。

大規模モデルの胃袋が変わった。もはや単純な常識を噛み砕くだけでは満足できず、人間の専門知識や高度なロジックを丸ごと飲み込む必要がある。

各種の採用プラットフォームで、特殊なアルバイトが頻繁にちらつき始めた。たとえば「大規模モデルの論理推論注釈」「AI人文トレーニング師」。このアルバイトのハードルは非常に高く、しばしば「985/211の修士学位以上」が求められ、法律、医学、哲学、文学などの専門領域が関係してくる。

多くの名門校の大学院生が惹きつけられ、これら大手企業の外注グループに雪崩れ込む。しかし彼らはすぐに気づく。これは決して楽な頭脳トレーニングではなく、精神的な拷問だということに。

正式に発注を受ける前に、彼らは数十ページにわたる採点の評価軸と判定基準の文書を読み、2〜3ラウンドの試験注釈を行わなければならない。基準を満たした後、正式な注釈で正答率が平均を下回れば資格を失い、グループから追い出される。

最も息が詰まるのは、これらの基準がそもそも固定されていないことだ。同じような問題や回答に対して、同じ考え方で採点しても、結果はまったく逆になることすらある。これは、永遠に終わらず、そもそも正解が存在しない試験問題を解いているのと同じだ。自分の努力や学習で正答率を上げることはできず、ただその場でぐるぐる回り続け、脳力と体力を消耗し続けるしかない。

これが、大規模モデル時代の新型搾取――階層の折り畳みだ。

知識は、かつては壁を破って上へ登るための黄金のはしごと見なされていた。だが今やそれは、アルゴリズムに奉納され、さらに複雑に噛み砕かれるデジタルな“草飼料”へと堕ちている。アルゴリズムとシステムの絶対的な権力の前では、象牙の塔の985の修士と黄土高原の町の若者が、最も奇妙な形で同じ結末を迎える。

彼らはともに、この底知れぬサイバーミネラルの坑へ転げ落ち、カリスマ性を奪われ、差異は平らげられ、すべて履帯の上の安価で、いつでも入れ替え可能な歯車へと統一されてしまう。

海外でも同じだ。2024年、Appleはサンティアゴの121人規模のAI音声注釈チームを直接解散させた。これらの従業員はSiriの多言語処理能力を改善する役割を担っており、彼らは自分たちが大手企業の中核事業の“端”にいるのだと思っていたが、瞬く間に失業の奈落へ落とされた。

テックの巨大企業の目からすれば、県の町の枠引きをするおばさんであれ、名門校を卒業した論理トレーニング師であれ、本質的にはいつでも差し替え可能な「消耗品」だ。

誰も、これに問題があるとは思っていない。

兆円バベルの塔――数銭分の血と汗を積み上げる

中国の信通院が公表したデータによると、2023年の中国のデータ注釈市場規模は60.8億元で、2025年には200〜300億元が見込まれ、予測では2030年までに世界のデータ注釈およびサービス市場の売上高が1171億元へと急増する。

これらの数字の裏には、OpenAI、マイクロソフト、字節跳動などのテック巨大企業が、桁違いの規模――数千億元、数万億ドルの評価額を掲げる“狂喜”がある。

しかし、これらの莫大な富は、本当にAIを「養っている」人々のもとへ流れてはこない。

中国のデータ注釈業界には、典型的な逆ピラミッド型の外注構造が見られる。最上層は、コアとなるアルゴリズムを固く握るテック巨大企業。第二層は、大型のデータサービス提供業者。第三層は、各地に広がるデータ注釈基地と中小規模の外注会社。そして最下層こそ、出来高賃金で働く“泥の側”の注釈担当者だ。

各層の外注は、油水を一層ずつ容赦なく削り取る。大手企業が投げた単価が5毛だったとしても、幾重もの搾取を経て、県の注釈担当者の手に届くのは、5分にも満たないかもしれない。

ギリシャの元財務大臣ヤニス・バルファキスは著書『技術封建主義』で、非常に刺さる見解を投げかけた。今日のテック巨大企業は、もはや従来の意味での資本家ではなく「クラウド領主」(Cloudalists)なのだ、と。

彼らの手にあるのは工場や機械ではない。アルゴリズム、プラットフォーム、計算能力――それらこそが、サイバー時代のデジタル領土だ。この新しい封建体制では、ユーザーは消費者ではなくデジタル小作人であり、私たちがソーシャルメディアで行うたびの「いいね」、コメント、閲覧が、無料でクラウド領主にデータを差し出している。

そして、下層市場に分布するデータ注釈担当者は、この体系の最下層のデジタル農奴だ。彼らはデータを生産するだけでなく、大量の生データをクリーニングし、分類し、採点し、それを大規模モデルが消化できる高品質な飼料へと変換しなければならない。

それは、隠密な認知領土の“囲い込み”運動だ。19世紀の英国が囲い込みで農民を繊維工場へ追い立てたのと同じように、今日のAIの波は、実体経済の中で居場所がない若者たちを画面の前へ追い立てている。

AIは階層の溝を平らにしていない。むしろ、中国の中西部の県の町から、北上広深のテック巨大企業の本社へ直結する「データと血汗のベルトコンベア」を作り上げたのだ。技術革命の物語はいつも雄大で華麗だが、その地色は永遠に、安価な労働力の大量消費だ。

誰も、これに問題があるとは思っていない。

人間の明日はもう不要

最も残酷な結末が、もうすぐ来る。しかもますます速く。

大規模モデルの能力が跳ね上がるにつれて、かつて人間が昼夜働いてようやく完成させていた注釈作業が、AI自身に引き継がれつつある。

2023年4月、理想汽車の創業者・李想がフォーラムでデータを明かした。過去には、理想は1年でおよそ1000万フレームの自動運転画像の人工注釈を行う必要があり、外注コストは1億元に近かった。だが、彼らが大規模モデルによる自動化注釈を使うようになると、過去に1年かかっていたことは基本的に3時間で終えられるようになった。

効率は人の1000倍、しかも2023年より前からだ。つい先日の3月に、理想は新世代のMindVLA-o1自動注釈エンジンも発表している。

業界では、あまりにも本当すぎる自嘲句として「知能がどれだけあるか、人工もどれだけある」という言葉が流行っている。だがいま、大手企業がデータ注釈の外注に投じる投入は、すでに40%〜50%の“崖”のような下落を見せている。

コンピューターの前で幾千もの夜と昼を過ごし、目を真っ赤にしながら枠を引いてきた町の若者たちが、自ら手で巨大な獣を育てた。だが今、その獣が振り向いて、彼らの飯の種を壊しにかかっている。

夜の帳が降りても、大同平城区のオフィスビルは依然として昼のように白々としている。交代勤務の若者たちが、エレベーターの中で、疲れ切った身体を互いに無言で“受け渡し”している。この、数え切れない多角形の枠でがっちり拘束された折り畳み空間の中では、誰も大洋の向こうのTransformerアーキテクチャがどんな史詩級の躍進をまた迎えたのか気にもしないし、誰も億単位のパラメータの背後で鳴り響く計算能力の轟音を聞き取れない。

彼らの視線は、裏方で固まっている「合格ライン」を示す赤と緑の進捗バーにだけ溶接されていて、月末に、その数点や数毛の出来高の数字が、まともな生活を組み立てられるかどうかを計算している。

一方では、ナスダックの鐘の音とテクノロジーメディアの連日の記事にあわせて、巨頭たちがAGIの到来を祝杯し合っている。だがもう一方で、肉体でAIを一口ずつ育ててきたデジタル農奴たちは、酸いも甘いも知る痛みに沈むしびれた睡夢の中で、震えながら待つしかない。自分たちが手ずから飼いならしたあの巨大な獣が、ある一見ごく普通の朝に、何の気なしに彼らの飯の種を蹴り飛ばす、その時を。

誰も、これに問題があるとは思っていない。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン