GPT-5.1 vs Claude Sonnet 4.5: Uji Mendalam dalam Penulisan, Pemrograman, dan Otomatisasi – Pemenang yang Mengejutkan Terungkap

2025-11-14
06:17
Claude McKenzie
Diperbarui terakhir pada 14 November 2025

Pagi-pagi sekali kemarin, OpenAI dirilis GPT-5.1. Saya menghabiskan sepanjang hari untuk mengujinya secara mendalam dan praktis — dan hasilnya mungkin tidak seperti yang Anda harapkan.

Jika Anda ingin mencoba GPT-5.1 sekarang juga, GlobalGPT sudah Mengintegrasikan model paling canggih ini.

Coba GPT-5.2 Sekarang >

Intinya

Ya, GPT-5.1 menunjukkan kemajuan yang nyata dibandingkan dengan GPT-5. Dari tiga bulan yang lalu. Namun, jika Anda berharap akan ada lompatan besar yang revolusioner, Anda mungkin akan kecewa. Dengan kata lain: dalam banyak tugas dunia nyata, sistem ini masih tertinggal. Claude Soneta 4.5.

Ini bukan untuk menjelek-jelekkan — ini adalah hasil tes. Saya melakukan evaluasi berdampingan di berbagai skenario: penulisan panjang, komposisi sastra, pengembangan front-end, dan lainnya. Beberapa hasilnya benar-benar mengejutkan.

Apa yang Berubah di GPT-5.1

OpenAI mengambil pragmatis Pendekatan dengan pembaruan ini. Ketika GPT-5 diluncurkan tiga bulan lalu, terjadi masalah — pengguna melaporkan kinerja yang lebih buruk dibandingkan versi sebelumnya, mulai dari kesalahan matematika hingga kode yang tidak stabil. OpenAI menyalahkan masalah “sistem rute”, di mana AI tidak memilih model internal yang tepat untuk respons.

Dalam GPT-5.1, perubahan berfokus pada tiga area utama:

Mode Ganda.
Mode Instan untuk kecepatan dalam obrolan santai; Mode Berpikir Untuk masalah yang kompleks, menyesuaikan waktu pemrosesan secara dinamis. Kedengarannya menjanjikan — dan dalam pengujian saya, memang lebih fleksibel daripada GPT-5.
Lebih Sedikit Halusinasi.
Data resmi menunjukkan bahwa tingkat halusinasi turun dari 4,8% menjadi 2,1%. Dalam praktiknya, orang lebih cenderung mengakui “Saya tidak tahu” daripada membuat-buat jawaban.
Gaya Pribadi.
Delapan gaya percakapan yang dapat dipilih, mulai dari formal hingga santai. Ini benar-benar berguna — Anda dapat menyesuaikan gaya dengan situasi yang ada.

Hasil Ujian: Penulisan Teks Panjang — Kegagalan yang Jelas

Tujuan awal saya adalah agar kedua model menghasilkan laporan studi berisikan 10.000 kata, dengan menggunakan repositori proyek sumber terbuka yang sama sebagai bahan sumber.

Hasil:

GPT-5.1: ~31.000 karakter
Claude Sonnet 4.5: ~51.000 karakter

Claude menulis hampir dua kali lipat. Ini bukan kejadian tunggal — dalam beberapa percobaan, GPT-5.1 cenderung... lebih terkendali. Jika Anda membutuhkan laporan yang panjang dan rinci, Claude lebih unggul.

Dalam tes kedua, saya meminta artikel berpanjang sekitar 1.000 kata yang memperkenalkan proyek tersebut.

GPT-5.1: Lebih dari 1.600 kata, detail teknis yang mendalam, tetapi lebih cocok untuk pengembang.
Claude: Lebih dari 1.400 kata, mendekati panjang yang diminta, mudah dipahami oleh pemula.

Gemini 2.5 Pro menilai GPT-5.1 sebagai dokumen teknis dan Claude sebagai sains populer. Keduanya memiliki kelebihan, tetapi Claude berhasil dalam hal jumlah kata dan penargetan audiens.

Komposisi Sastra: Kesenjangan yang Mencolok

Ujian ini benar-benar mengejutkan saya. Saya meminta mereka untuk menulis puisi “ci” dari Dinasti Song dalam format... Wanghaichao Format, bertema “Musim gugur berganti musim dingin; sebuah keluhan atas berlalunya waktu,” yang secara ketat mengikuti aturan tonal.

Claude Soneta 4.5: Selesai dalam 50 detik, gambar klasik (salju, angsa liar, kolam teratai), emosi yang tepat, aturan tonal sebagian besar benar, hanya satu kesalahan tematik minor.
GPT-5.1: Memakan waktu lebih lama, mengikuti aturan nada, tetapi menggunakan gambar yang berulang, salah menggunakan “tunas bambu baru” (gambar musim semi), dan terasa kaku.

Dalam puisi klasik — di mana imaji dan keanggunan sangat penting — GPT-5.1 tertinggal di belakang Claude.

Pengembangan Front-End: Hasil Campuran

Tugas yang diuji:

Animasi SVG: Kucing dan anjing berjalan di atas rumput, awan dan burung di langit.
- Binatang-binatang dalam GPT-5.1 terlalu abstrak untuk dibedakan;
- Burung-burung Claude yang memiliki ciri khas kucing/anjing, lebih baik.
Desain Antarmuka Pengguna: Dashboard pengelolaan sarang lebah.
- Claude’s dirancang dengan warna, tata letak, dan tipografi yang elegan;
- GPT-5.1 menggunakan nada hitam yang gelap, kurang menarik.
Pembuatan Halaman dari Screenshot:
- Keduanya akurat;
- Warna Claude lebih cocok, sedangkan warna latar belakang GPT-5.1 sedikit tidak sesuai.
Pengembangan 3D (Permainan Rubik’s Cube menggunakan Three.js):
- Keduanya gagal. Claude menampilkan sebuah kubus, tetapi tombol “shuffle” tidak berfungsi; GPT-5.1 sama sekali tidak menampilkan kubus tersebut.

Aplikasi 3D yang kompleks masih di luar jangkauan keduanya.

Animasi Python: Seri

Tugas seru: visualisasikan algoritma bubble sort dengan 12 anak bebek berukuran berbeda dan seekor induk bebek yang menyortirnya dari yang terkecil hingga terbesar.

Claude: Angsa terlalu besar/padat, sehingga detailnya tidak terlihat jelas, tetapi logikanya benar.
GPT-5.1: Itik yang lebih sederhana, perbedaan ukuran yang lebih sedikit, logika juga benar.

Kebaruannya Pengetahuan: Claude Memimpin

Tanggal batas waktu pengetahuan:

GPT-5.1: Juni 2024
Claude Sonnet 4.5: Januari 2025

Perbedaan tujuh bulan — hal ini relevan untuk teknologi terdepan dan peristiwa terkini.

Otomatisasi Browser: Peningkatan GPT-5.1

Diuji di browser Atlas OpenAI: kunjungi sebuah blog, ambil artikel pertama, tulis ulang, dan siapkan untuk diposting di X.

GPT-5.1 selesai dalam 1 menit 05 detik — lebih cepat daripada GPT-5 — dan menangani alurnya dengan lancar, hanya berhenti sebentar sebelum dipublikasikan (perlu tinjauan manusia). Salah satu keunggulan utamanya dibandingkan pendahulunya.

Kesimpulan Akhir: Ada Kemajuan, Tapi Jangan Harap Terlalu Banyak

Kelebihan:

Peningkatan nyata dibandingkan GPT-5, terutama dalam pengurangan halusinasi dan otomatisasi browser.
Fitur personalisasi yang praktis.
Kemungkinan memiliki kemampuan matematika/pemrograman yang lebih kuat (menurut klaim resmi).

Kelemahan:

Penulisan panjang masih tertinggal di belakang Claude.
Karya sastra (puisi, prosa) kurang elegan.
Estetika desain antarmuka pengguna (UI) kurang baik.
Tidak dapat menangani aplikasi 3D yang kompleks.
Pengetahuan tertinggal di belakang Claude.

Rekomendasi:

Laporan panjang → Claude
Menulis dengan gaya/gambaran → Claude
Desain antarmuka pengguna → Claude pertama
Matematika, pemrograman, logika → Coba GPT-5.1
Otomatisasi browser → GPT-5.1 bagus
Obrolan santai/pencarian cepat → Salah satu dari keduanya.

OpenAI bermain aman — memperbaiki bug, memperhalus pengalaman — tetapi tidak berhasil unggul dari pesaingnya. Di beberapa bidang, OpenAI masih tertinggal.

Persaingan di bidang kecerdasan buatan (AI) kini sangat sengit; setiap model memiliki kelebihan dan kelemahan. Langkah cerdas adalah memilih model sesuai dengan tugas yang dihadapi, bukan hanya terpaku pada satu model saja.

Saran saya: Jika Anda memiliki Plus, berlanggananlah ke ChatGPT dan Claude. Ganti sesuai kebutuhan. Bagi para profesional, coba keduanya untuk menemukan yang paling sesuai dengan alur kerja Anda.

Tiga bulan setelah kegagalan GPT-5, versi 5.1 stabil — tetapi tidak mengesankan.

Sudahkah Anda mencoba GPT-5.1? Bagikan pengalaman Anda di kolom komentar.

Lingkungan Uji:

Tanggal: 14 November 2025
GPT-5.1: Mode Berpikir
Claude Sonnet 4.5: Mode Berpikir
Tugas: penulisan artikel panjang, penulisan sastra, pengembangan front-end, animasi Python, otomatisasi browser

Bagikan Postingan:

Postingan Terkait

Harga Langganan ChatGPT Plus di Brasil (Panduan 2026)

ChatGPT Plus dibanderol sekitar BRL 100 per bulan di Brasil pada tahun 2026, yang setara dengan tarif standar OpenAI sebesar $20 per bulan.

Baca Lebih Lanjut

Harga Langganan ChatGPT Plus di India (Panduan 2026)

ChatGPT Plus dibanderol sekitar ₹2000 per bulan di India pada tahun 2026, mencerminkan harga dasar global OpenAI setelah dikonversi ke mata uang India.