Orang dalam GPT-4 bocor, 1,8 triliun parameter besar, 13 triliun token pelatihan, menghabiskan 63 juta dolar AS

Sumber: "Xinzhiyuan" (ID: AI_era)

Baru saja, GPT-4 OpenAI kembali "dibuka" oleh orang dalam industri!

Ini termasuk parameter dan informasi yang sangat spesifik seperti arsitektur GPT-4, infrastruktur pelatihan dan inferensi, volume parameter, kumpulan data pelatihan, nomor token, biaya, dan Mixture of Experts (MoE).

Secara khusus, di balik berbagai proyek, bagaimana bobot OpenAI. Dan cara mengatasi hambatan terbesar dalam inferensi model besar.

Dari siapa datangnya wahyu yang begitu berat?

Penulis artikel adalah dua kontributor SemiAnalysis bernama Dylan Patel dan Gerald Wong.

Perlu disebutkan bahwa Dylan Patel juga merupakan salah satu penulis kebocoran dokumen internal Google ("Kami tidak memiliki parit, begitu pula OpenAI"), yang sebelumnya menyebabkan kegemparan di industri.

CEO DeepMind Hassabis baru-baru ini mengkonfirmasi keaslian dokumen yang bocor dari para insinyur Google dalam sebuah wawancara dengan media asing The Verge.

Terlihat bahwa Dylan Patel memang memiliki beberapa saluran khusus, yang membuat wahyu hari ini sedikit lebih otentik.

Li Zhifei, CEO Going out to ask, juga memberikan pidato

Banyak perusahaan dapat membuat GPT-4

Menurut penulis artikel berita terkini, alasan mengapa OpenAI tidak terbuka bukan untuk memastikan manusia tidak dihancurkan oleh AI, tetapi karena hal-hal yang mereka bangun dapat direproduksi.

Dia bahkan memprediksi bahwa di masa depan, semua perusahaan Internet besar atau start-up AI di China dan Amerika Serikat akan dapat membangun model yang sama dengan GPT-4 atau bahkan melampaui GPT-4.

Namun dia juga mengakui bahwa GPT-4 adalah mahakarya OpenAI yang hebat. Ini memadatkan desain cerdik insinyur, struktur kompleks, dan berbagai pertukaran teknik yang cerdik.

Parit OpenAI yang paling tahan lama adalah mereka mendapat umpan balik dari pengguna nyata, talenta teknik terbaik di industri, dan posisi terdepan terus-menerus yang dibawa oleh keunggulan penggerak pertama.

Model kerangka kerja

Pertama-tama, penulis yang menyampaikan berita percaya bahwa GPT-4 berisi total 1,8 triliun parameter dalam 120 lapisan, sedangkan GPT-3 hanya memiliki sekitar 175 miliar parameter.

Dengan kata lain, skala GPT-4 lebih dari 10 kali skala GPT-3.

Sebelumnya di Internet disebutkan bahwa parameter GPT-4 adalah 1 triliun, yang sepertinya diremehkan dari keadaan sebenarnya.

Agar biaya tetap masuk akal, OpenAI mengadopsi model MoE untuk konstruksi.

Secara khusus, GPT-4 memiliki 16 model pakar dengan sekitar 111 miliar parameter per pakar MLP. Diantaranya, dua model ahli digunakan untuk propagasi maju.

Meskipun ada banyak diskusi dalam literatur tentang algoritme lanjutan untuk memilih ahli mana yang ditunjuk oleh setiap token, dikatakan bahwa algoritme yang digunakan oleh OpenAI untuk GPT-4 sebenarnya sangat sederhana.

Selain itu, ada sekitar 55 miliar parameter dalam model yang digunakan untuk berbagi mekanisme perhatian.

Dalam setiap penalaran propagasi maju (menghasilkan token), GPT-4 hanya perlu menggunakan sekitar 280 miliar parameter dan 560TFLOP.

Ini sangat kontras dengan banyak model padat murni yang membutuhkan sekitar 1,8 triliun parameter dan 3700 TFLOP per lintasan maju.

Komposisi kumpulan data

OpenAI melatih GPT-4 dengan 13 triliun token.

Kumpulan data ini tidak hanya berisi 13 triliun token, tetapi karena tidak ada token berkualitas tinggi, kumpulan data ini juga berisi banyak zaman.

Di dalam Scale AI dan dataset, jutaan baris data fine-tuning instruksi juga disertakan.

Namun, penulis wahyu mengatakan bahwa mereka tidak menemukan banyak informasi tentang data RLHF tersebut.

Panjang konteks pada tahap pra-pelatihan mencapai 8K (seqlen), dan versi 32k disesuaikan berdasarkan versi 8K pra-pelatihan.

Ukuran batch secara bertahap meningkat selama beberapa hari di cluster, dan ukuran batch akhir yang digunakan oleh OpenAI adalah 60 juta.

Tentu saja, ini "hanya" ukuran model pakar masing-masing 7,5 juta token, karena tidak semua model pakar akan melihat semua token.

Strategi paralel

Strategi paralel sangat penting untuk A100GPU.

OpenAI menggunakan paralelisme tensor 8 arah, karena NVLink hanya mendukung begitu banyak.

Namun selain itu, penulis berita terkini mendengar bahwa OpenAI menggunakan 15 saluran pipa paralel.

Secara teori, 15 jalur pipa sedikit banyak mengingat komunikasi data dan waktu komputasi.

Namun karena keterbatasan kapasitas memori, banyak sekali pipeline yang berarti.

Saat murni disalurkan dan tensor-paralel, parameter FP16 adalah sekitar 30 GB per GPU.

Tetapi begitu cache KV dan biaya ditambahkan, jika sebagian besar GPU yang digunakan oleh OpenAI adalah 40GB A100, maka arsitektur seperti itu masuk akal secara teori.

Ada kemungkinan bahwa OpenAI menggunakan ZeRo Stage 1, dan mungkin menggunakan FSDP tingkat blok atau paralelisme data bersama hibrid.

Mengapa mereka tidak menggunakan model lengkap FSDP? Mungkin karena biaya komunikasi yang tinggi.

Meskipun OpenAI memiliki jaringan berkecepatan tinggi di antara sebagian besar node, OpenAI tidak mencakup semua node.

Di antara mereka, setidaknya beberapa cluster akan memiliki bandwidth koneksi yang jauh lebih rendah daripada yang lain.

Namun, penulis mengatakan bahwa dia tidak begitu mengerti bagaimana OpenAI menghindari timbulnya "gelembung besar" di setiap batch di bawah paralelisme pipa yang begitu tinggi.Kemungkinan besar OpenAI telah menolak biaya ini.

##Biaya pelatihan

OpenAI melatih GPT-4 dengan sekitar 2,15e25 FLOPS, melatih sekitar 25.000 A100 selama 90 hingga 100 hari, dan tingkat pemanfaatannya antara 32% dan 36%.

Pemanfaatan yang sangat rendah ini sebagian disebabkan oleh tingginya jumlah kegagalan, yang memerlukan pelatihan ulang dari pos pemeriksaan sebelumnya. Seperti biaya gelembung yang disebutkan di atas.

Biaya pelatihan yang terbuang dalam hal ini sangat tinggi.

Alasan lainnya adalah all-reduce di antara begitu banyak GPU sangat mahal.

Diagram ini mengasumsikan bahwa ketidakmampuan untuk memadukan setiap operasi, bandwidth memori yang diperlukan oleh mekanisme perhatian, dan overhead perangkat keras yang setara dengan pembacaan parameter menyebabkan inefisiensi. Faktanya, bahkan dengan perpustakaan yang dioptimalkan seperti perpustakaan FasterTransformer Nvidia, total overhead bisa lebih besar

Penulis whistleblower menduga bahwa jika cluster ini sebenarnya adalah sekelompok cluster yang lebih kecil dengan koneksi jaringan yang lebih lemah, maka kecepatan koneksi non-blocking (non-block) antara berbagai bagian cluster adalah 800G/1.6T, tetapi bagian ini kecepatan koneksi di antara keduanya hanya 200G/400G.

Jika biaya komputasi awan OpenAI adalah sekitar $1/A100 jam, maka dalam kondisi seperti itu, biaya pelatihan adalah sekitar $63 juta.

Ini tidak termasuk semua eksperimen, pelatihan yang gagal, dan biaya lainnya, seperti pengumpulan data, RLHF, biaya manusia, dll.

Jika Anda mempertimbangkan faktor-faktor yang baru saja disebutkan, biaya sebenarnya jauh lebih tinggi.

Selain itu, hal ini harus dengan alasan bahwa orang lain dapat membeli chip/jaringan/pusat data, mengeluarkan biaya modal untuk membangun sistem ini, dan menyewakannya ke OpenAI.

Namun saat ini, dengan $2/H100 jam, pra-pelatihan dapat dilakukan pada sekitar 8.192 H100 hanya dalam 55 hari dengan biaya $21,5 juta.

Gambar di atas menunjukkan jumlah parameter dan token untuk beberapa model lanjutan yang tersedia untuk umum. Garis pada gambar adalah pengamatan skala Chinchilla Google DeepMind (bilah kesalahan yang lebih besar dihaluskan), setiap titik pada garis menunjukkan FLOPS teoretis yang diperlukan untuk melatih model dengan parameter dan jumlah token tersebut

Namun, penulis laporan tersebut mengatakan bahwa pada akhir tahun ini, setidaknya sembilan perusahaan akan memiliki klaster H100 melebihi ukuran yang disebutkan di atas.

Meskipun tidak semua perusahaan ini akan menggunakan semuanya untuk pelatihan model individual, jika ada, mereka akan memiliki model yang lebih besar daripada GPT-4.

Misalnya, Meta akan memiliki lebih dari 100.000 H100 pada akhir tahun ini, tetapi sebagian besar darinya akan didistribusikan di pusat datanya sendiri untuk inferensi.

Tapi cluster tunggal terbesarnya masih akan melebihi 25.000 H100.

Singkatnya, pada akhir tahun ini, banyak perusahaan akan memiliki sumber daya komputasi yang cukup untuk melatih model berukuran GPT-4.

Tabel ini adalah biaya pelatihan model yang optimal secara teoretis pada Nvidia A100, tanpa mempertimbangkan tenaga kerja yang diperlukan, alat ML Ops, pengumpulan/pemrosesan data, pemulihan kegagalan, contoh pembelajaran satu tembakan/beberapa tembakan, inferensi, dll., banyak bagian Biaya

Pengorbanan dalam Model Pakar Campuran

MoE (Mixed Model of Experts) adalah cara yang bagus untuk mengurangi jumlah parameter selama inferensi, sekaligus meningkatkannya pada saat yang bersamaan.

Tetapi ini diperlukan untuk setiap token pelatihan untuk menyandikan lebih banyak informasi, karena sangat sulit untuk mendapatkan token berkualitas tinggi yang cukup.

Jika OpenAI benar-benar ingin mengejar kinerja terbaik, mereka perlu melatih token dua kali lebih banyak untuk mencapainya.

Meski begitu, OpenAI membuat beberapa trade-off.

Misalnya, berurusan dengan MoE selama inferensi sangat sulit karena setiap bagian dari model tidak digunakan pada setiap pembuatan token.

Ini berarti bahwa beberapa bagian mungkin tidak aktif sementara bagian lain bekerja.

Situasi ini dapat secara signifikan mengurangi pemanfaatan saat melayani pengguna.

Para peneliti telah menunjukkan bahwa menggunakan model ahli 64-128 menghasilkan profil kerugian yang lebih baik daripada menggunakan model ahli 16, tetapi ini hanya penelitian.

Ada banyak alasan untuk menggunakan model pakar yang relatif sedikit.Salah satu alasan mengapa OpenAI memilih 16 pakar adalah karena model pakar yang lebih banyak sulit digeneralisasikan pada banyak tugas.

Juga lebih sulit untuk mencapai konvergensi dengan model yang lebih ahli.

Dalam proses pelatihan yang begitu besar, OpenAI memilih untuk lebih konservatif dalam jumlah model ahli.

Selain itu, menggunakan lebih sedikit model pakar juga membantu infrastruktur inferensi mereka. Ada berbagai trade-off dan trade-off yang sulit ketika beralih ke arsitektur inferensi model ahli hybrid.

Penulis berita sela dimulai dengan diskusi tentang pertukaran dasar penalaran LLM, lalu membahas masalah yang dihadapi OpenAI dan pilihan yang mereka buat.

Tukar-menukar penalaran

Omong-omong, sebelum memperkenalkan pengorbanan inferensi, setelah berbicara dengan semua perusahaan LLM, pelapor menemukan bahwa pustaka inferensi FasterTransformer NVIDIA sangat buruk, dan bahkan TensorRT.

Artinya, jika Nvidia tidak memodifikasi, orang perlu membuat solusi sendiri dari awal.

Ada tiga pertukaran utama dalam penalaran tentang model bahasa besar, dimensi ukuran batch (jumlah pengguna yang diproses secara bersamaan), dan jumlah chip yang digunakan, sebagai berikut:

1. Penundaan

Model harus merespons dalam latensi yang wajar. Tidak ada yang mau menunggu beberapa detik di aplikasi obrolan sebelum mereka mulai menerima keluaran. Waktu pemrosesan untuk pra-pengisian (token input) dan decoding (token output) bervariasi.

2. Hasil

Model harus menampilkan sejumlah token per detik. Manusia membutuhkan sekitar 30 token per detik. Untuk berbagai kasus penggunaan lainnya, throughput yang lebih rendah dan lebih tinggi dapat diterima.

3. Tingkat utilisasi

Perangkat keras yang menjalankan model harus mencapai tingkat utilisasi yang tinggi, atau biayanya akan mahal. Sementara latensi yang lebih tinggi dan throughput yang lebih rendah dapat digunakan untuk menggabungkan lebih banyak permintaan pengguna untuk mencapai penggunaan yang lebih tinggi, ini juga meningkatkan kesulitan.

Kunci penalaran LLM adalah menyeimbangkan dua titik bandwidth memori dan perhitungan.

Persyaratan bandwidth teoretis LLM: Dapat diasumsikan bahwa ukuran model maksimum yang dapat dijalankan pada iPhone 14 adalah ~1 miliar parameter FP16, atau ~4 miliar parameter int4. Ini adalah batas dasar LLM berdasarkan smartphone. Lebih besar lagi model tidak akan diadopsi

Sederhananya, setiap parameter harus dibaca dan ada 2 FLOP yang terkait dengannya.

Oleh karena itu, rasio sebagian besar chip (H100 SXM hanya memiliki bandwidth memori 3TB/dtk, tetapi FP8 memiliki 2.000 TFLOP/dtk) sama sekali tidak seimbang dalam inferensi dengan ukuran batch 1.

Jika hanya ada satu pengguna (ukuran batch 1), bandwidth memori yang diperlukan untuk membaca setiap parameter setiap kali token dihasilkan akan mendominasi waktu inferensi, sedangkan waktu komputasi hampir dapat diabaikan.

Untuk menskalakan model bahasa besar secara efisien ke banyak pengguna, ukuran kumpulan harus melebihi 1. Beberapa pengguna berbagi biaya membaca parameter. Misalnya, dengan ukuran batch 256/512, Anda bisa mendapatkan 512 FLOP/s atau 1024 FLOP/s per byte memori yang dibaca.

Rasio ini mendekati keseimbangan H100 antara bandwidth memori dan FLOPS. Ini membantu mencapai pemanfaatan yang lebih tinggi, tetapi dengan biaya latensi yang lebih tinggi.

Banyak yang menganggap kapasitas memori sebagai hambatan utama untuk inferensi LLM, karena model besar memerlukan banyak chip untuk inferensi, dan kapasitas memori yang lebih tinggi berarti mereka dapat memuat lebih sedikit chip.

Namun, sebenarnya lebih baik menggunakan lebih banyak chip agar latensi lebih rendah, throughput meningkat, dan ukuran batch yang lebih besar dapat digunakan untuk penggunaan yang lebih tinggi.

Pengorbanan dan Infrastruktur Inferensi GPT-4

Seperti disebutkan di atas, sangat sulit untuk penalaran GPT-4. Tetapi menjadi mod MoE sekali lagi memperkenalkan serangkaian kesulitan baru.

Setiap umpan maju yang menghasilkan token dapat dialihkan ke pakar yang berbeda. Ini menimbulkan masalah dengan trade-off antara throughput, latensi, dan pemanfaatan pada ukuran batch yang lebih besar.

GPT-4 OpenAI memiliki 16 ahli, dan masing-masing meneruskan rute ke 2 di antaranya.

Ini berarti bahwa jika ukuran batch adalah 8, pembacaan parameter setiap pakar mungkin hanya memiliki ukuran batch 1.

Lebih buruk lagi, ini bisa berarti bahwa satu pakar memiliki ukuran batch 8 sementara pakar lainnya memiliki ukuran batch 4, 1, atau 0.

Untuk setiap token yang dihasilkan, algoritme perutean mengirimkan umpan maju ke arah yang berbeda, menyebabkan penundaan antara token dan ukuran kumpulan ahli sangat bervariasi.

Infrastruktur inferensi adalah salah satu alasan utama mengapa OpenAI memilih sejumlah kecil pakar. Jika mereka memilih lebih banyak ahli, bandwidth memori menjadi penghambat inferensi.

Cluster inferensi OpenAI biasanya dapat mencapai ukuran batch 4k+, yang berarti bahkan dengan keseimbangan beban terbaik antara pakar, ukuran batch pakar hanya sekitar 500 atau lebih. Ini membutuhkan jumlah penggunaan yang sangat besar untuk mencapainya.

Menurut pelapor, kami mengetahui bahwa OpenAI melakukan inferensi pada sekelompok 128 GPU. Mereka memiliki banyak cluster ini di beberapa pusat data dan lokasi geografis.

Inferensi menggunakan paralelisme tensor 8 arah dan paralelisme pipa 16 arah. Setiap node yang terdiri dari 8 GPU hanya memiliki sekitar 130B parameter, atau kurang dari 30GB per GPU di bawah FP16, dan kurang dari 15GB di bawah FP8/int8.

Ini memungkinkan menjalankan inferensi pada 40GB A100 selama ukuran cache KV untuk semua batch tidak terlalu besar.

Lapisan yang berisi ahli yang berbeda pada node yang berbeda tidak dipisahkan karena akan menyebabkan lalu lintas jaringan menjadi terlalu tidak teratur dan menghitung ulang cache KV di antara setiap pembuatan token akan menjadi terlalu mahal.

Untuk ekstensi model MoE mendatang dan perutean bersyarat, kesulitan terbesar adalah bagaimana menangani perutean cache KV.

Model ini memiliki 120 lapisan, sehingga dapat dengan mudah didistribusikan ke 15 node yang berbeda, tetapi karena node pertama perlu memuat dan menyematkan data, masuk akal untuk menempatkan lebih sedikit lapisan pada node master dari cluster inferensi.

Juga, ada beberapa rumor tentang "decoding spekulatif" (berikut), yang juga menjelaskan mengapa masternode perlu mengandung lebih sedikit lapisan.

Biaya inferensi

Dibandingkan dengan model Davinchi dengan 175 miliar parameter, GPT-4 berharga 3 kali lipat, meskipun parameter umpan maju hanya meningkat 1,6 kali lipat.

Ini terutama karena GPT-4 membutuhkan cluster yang lebih besar dan mencapai pemanfaatan yang lebih rendah.

Penulis percaya bahwa biaya menyimpulkan panjang urutan 8k GPT-4 pada 128 A100s adalah $0,0049 per 1.000 token, sedangkan biaya menyimpulkan panjang urutan 8k GPT-4 pada 128 H100s adalah $0,0021 per 1.000 token.

Perhatikan bahwa ini mengasumsikan pemanfaatan yang cukup tinggi dan menjaga ukuran batch tetap tinggi.

Namun jelas bahwa OpenAI terkadang sangat kurang dimanfaatkan.

Dalam hal ini, penulis berhipotesis bahwa OpenAI akan mematikan cluster selama jam sibuk, mengkonfigurasi ulang node, melanjutkan pelatihan model uji yang lebih kecil, dan mencoba berbagai teknologi baru untuk mengurangi biaya inferensi.

Seandainya OpenAI tidak melakukannya, pemanfaatannya akan lebih rendah dan biayanya akan lebih dari dua kali lipat.

Perhatian multi-permintaan

Selain itu, OpenAI juga menggunakan Multi-Query Attention (MQA).

Alamat kertas:

Singkatnya, hanya diperlukan satu kepala perhatian, dan jejak memori cache KV dapat dikurangi secara signifikan.

Meski begitu, GPT-4 dengan panjang 32k dipastikan tidak bisa berjalan di A100 40GB, dan ada batas atas ukuran batch maksimal 8k.

Pemrosesan batch berkelanjutan

OpenAI mengimplementasikan ukuran batch variabel dan pemrosesan batch berkelanjutan.

Melakukan hal itu memungkinkan beberapa tingkat latensi maksimum dan mengoptimalkan biaya inferensi.

Penguraian Kode Spekulatif

Terungkap bahwa OpenAI menggunakan "decoding spekulatif" dalam proses penalaran GPT-4, yang masih memiliki 100% ketidakpastian.

Variasi dalam latensi dari token ke token, dan perbedaan saat melakukan tugas pengambilan sederhana versus tugas yang lebih kompleks, sepertinya menyarankan hal ini mungkin, meski masih ada terlalu banyak variabel untuk dipastikan.

Di sini, pelapor membuat modifikasi yang sesuai/menambahkan beberapa detail untuk menjelaskan teks dalam studi "Accelerating LLM Inference with Staged Speculative Decoding" oleh DeepMind.

Biasanya ada dua fase untuk menggunakan LLM.

Yang pertama adalah pra-pengisian, di mana teks petunjuk dimasukkan ke dalam model untuk menghasilkan cache KV dan peluang log (distribusi probabilitas dari keluaran token yang mungkin) dari keluaran pertama. Proses ini biasanya cepat karena seluruh prompt teks dapat diproses secara paralel.

Tahap kedua adalah decoding. Pilih token dari log odd keluaran dan masukkan ke dalam model, yang akan menghasilkan log odds token berikutnya. Ulangi proses ini hingga jumlah token yang diinginkan dihasilkan.

Karena decoding harus terjadi secara berurutan, setiap kali bobot harus dialirkan melalui unit komputasi untuk menghasilkan satu token. Jadi tahap kedua ini sangat intensif secara komputasi (yaitu menghitung FLOP/byte bandwidth memori) saat dijalankan dalam batch mini. Oleh karena itu, decoding biasanya merupakan bagian termahal dari generasi autoregressive.

Inilah mengapa token input jauh lebih murah daripada token output dalam panggilan API OpenAI.

Ide dasar "decoding spekulatif" adalah menggunakan model draf yang lebih kecil dan lebih cepat untuk mendekode beberapa token sebelumnya, lalu memasukkannya ke dalam model prediktif sebagai batch.

Jika prediksi model draf benar, yaitu model yang lebih besar setuju dengan prediksi tersebut, beberapa token dapat didekodekan menggunakan satu kumpulan, yang menghemat banyak bandwidth memori dan waktu.

Namun, jika model yang lebih besar menolak token yang diprediksi oleh model draf, batch yang tersisa akan dibuang dan algoritme secara alami akan kembali ke decoding token-by-token standar.

"Dekode spekulatif" juga dapat disertai dengan skema pengambilan sampel penolakan untuk mengambil sampel dari distribusi asli. Perlu dicatat bahwa ini hanya berguna dalam pengaturan batch kecil di mana bandwidth menjadi penghambat.

Decoding spekulatif, yang memperdagangkan komputasi untuk bandwidth, merupakan target rekayasa kinerja yang menarik karena dua alasan utama:

Pertama, tidak mengurangi kualitas model. Kedua, peningkatan kinerja yang ditawarkannya seringkali ortogonal dengan pendekatan lain, karena kinerjanya berasal dari konversi "eksekusi berurutan" menjadi "eksekusi paralel".

Metode inferensi saat ini adalah urutan terpisah dari prediksi batch. Namun, pendekatan ini tidak menskalakan dengan baik untuk batch besar, atau penyelarasan model rancangan rendah.

Secara intuitif, kemungkinan dua model menyetujui urutan token yang berdekatan secara eksponensial rendah, menyiratkan bahwa keuntungan dari decoding spekulatif berkurang dengan cepat ketika kepadatan aritmatika meningkat.

Whistleblower percaya bahwa jika OpenAI menggunakan "decoding spekulatif", mereka hanya dapat menggunakannya dalam urutan sekitar 4 token.

Selain itu, seluruh konspirasi tentang pengebirian OpenAI, yang menghasilkan kualitas GPT-4 yang lebih rendah, mungkin hanya karena model prediktif mereka tunduk pada urutan probabilitas rendah dari model "decoding spekulatif".

Ada juga spekulasi bahwa Bard juga menggunakan "decoding spekulatif" karena Google menunggu seluruh urutan dibuat sepenuhnya sebelum mengirimkannya ke pengguna, tetapi menurut pendapat pelapor, tebakan ini sepenuhnya salah.

Multimodal Visual

Kemampuan multimodal visual adalah bagian yang paling tidak mengesankan dari GPT-4, setidaknya dibandingkan dengan penelitian terkemuka.

Tentu saja, belum ada yang mengkomersialkan hasil penelitian LLM multimodal.

Whistleblower mengatakan bahwa itu adalah encoder visual yang independen dari encoder teks, serta perhatian silang, arsitekturnya mirip dengan Flamingo, dan lebih banyak parameter telah ditambahkan ke GPT-4 1.8T.

Kemampuan multimodal GPT-4 disesuaikan dengan sekitar 2 triliun token setelah pra-pelatihan teks.

Dikatakan bahwa pada model visual, OpenAI awalnya berharap untuk berlatih dari awal, tetapi karena belum cukup matang, tidak ada pilihan selain menyempurnakan dari model pelatihan teks.

Dan model GPT-5 generasi berikutnya, yang pelatihannya harus melatih model visi dari awal, dan mampu menghasilkan gambar, bahkan menghasilkan audio.

Salah satu tujuan utama dari kemampuan visual ini adalah untuk memungkinkan agen otonom membaca halaman web dan menyalin gambar, video.

Perlu disebutkan bahwa data yang digunakan oleh OpenAI untuk melatih model multimodal meliputi: "data bersama" (LaTeX/teks), tangkapan layar halaman web, video YouTube (bingkai pengambilan sampel, dan menjalankan Whisper untuk mendapatkan subtitel).

Fakta menarik tentang optimalisasi LLM yang berlebihan adalah bahwa model visual memiliki biaya IO yang berbeda dari model tekstual. Dalam model visual, pemuatan data IO sekitar 150 kali dari model teks.

Biaya IO model visual rendah

Setiap token dalam model visual adalah 600 byte, dan teksnya adalah 4 byte/token.

Jadi ini membutuhkan banyak pekerjaan dalam hal kompresi gambar. Ini sangat penting bagi vendor perangkat keras karena mereka mengoptimalkan perangkat keras 2-3 tahun di sekitar kasus dan rasio penggunaan LLM.

Mereka mungkin berada di dunia di mana setiap model memiliki kemampuan visual dan audio yang kuat.

Mereka mungkin menemukan diri mereka kurang cocok dengan arsitektur.

Secara umum, arsitektur pasti akan melampaui model padat sederhana berbasis teks dan model MoE yang kita lihat sekarang.

Referensi

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)