Model AI telah mampu melihat gambar dan memberi tahu Anda apa yang dapat mereka lihat di dalam gambar selama bertahun-tahun, namun dengan pembaruan musim semi, OpenAI telah membawa segalanya ke tingkat yang baru.
Dengan diperkenalkannya GPT-4o di ChatGPT – bahkan tanpa fungsi audio dan video – OpenAI telah meluncurkan salah satu model visi AI terbaik yang dirilis hingga saat ini.
Keberhasilannya sebagian disebabkan oleh multimedia, yang memiliki pemahaman lebih dalam tentang gambar, video, audio, dan teks. Ini dapat memberikan alasan pada gambar, ucapan, video, dan teks di mana bentuk lain pertama kali diubah menjadi teks.
Untuk menguji kemampuannya, saya memberinya serangkaian gambar dan memintanya menjelaskan apa yang dapat dilihatnya. Semakin akurat modelnya. Seringkali, model visi AI – termasuk GPT-4 – melewatkan satu atau dua objek atau mendapatkan deskripsi yang salah.
Tes penglihatan GPT-4o
Di setiap pengujian, ChatGPT-4o diberikan gambar dan prompt “Apa ini?” Tanpa konteks atau informasi tambahan apa pun. Hal ini lebih mirip dengan bagaimana orang cenderung menggunakan kemampuan ini di dunia nyata dan bagaimana saya baru-baru ini menggunakannya di sebuah acara di Paris.
Tujuannya adalah untuk melihat seberapa baik gambar tersebut dianalisis. Saya menindaklanjuti setiap kesempatan untuk menanyakan apakah ia dapat mendeteksi apakah suatu gambar dihasilkan oleh AI atau tidak. Semuanya dibuat menggunakan Ideogram dari deskripsi yang dibuat oleh Claude 3 – sepenuhnya AI.
Setelah beberapa foto pertama dalam percakapan tersebut, dia secara spontan mulai memberi tahu saya apakah menurutnya foto itu dibuat oleh AI atau tidak tanpa saya harus bertanya.
Saya memulai dengan aplikasi ChatGPT Desktop tetapi aplikasi tersebut mulai gagal merespons, jadi saya pindah ke web dan berfungsi dengan baik.
1. Mengenali benda
Untuk gambar pertama ini, saya membuat gambar mug keramik berwarna merah berisi kopi panas. Itu diletakkan di atas piring di atas meja kayu di kafe, tapi kafe itu tidak jelas. Idenya adalah untuk melihat bagaimana GPT-4o menafsirkan latar belakang dan skenario.
GPT-4o menulis: “Gambar ini menunjukkan secangkir kopi mengepul dalam cangkir dan piring merah yang diletakkan di atas meja kayu pedesaan. Latar belakangnya kabur, menggambarkan suasana dalam ruangan yang nyaman dengan orang-orang duduk dan berbicara di tempat yang tampak seperti gua- seperti kafe atau interior unik dengan dinding batu.” Fokusnya ada pada secangkir kopi, menyoroti uap yang mengepul dari minuman panas.
Ini seakurat dan sedeskriptif mungkin. Bahkan menggambar pemandangan itu melampaui deskripsi sederhana. Sebagai lelucon, saya bertanya kepadanya: “Jelaskan pemikiran orang yang duduk di meja dengan kopi siap minum ini.”
Dia menjawab dengan gambaran yang cukup deskriptif tetapi kalimat ini menonjol: “Kopi ini lebih dari sekedar minuman; Ini adalah sebuah ritual, momen kesendirian dan kontemplasi yang disayangi di tengah hiruk pikuk kehidupan sehari-hari.
2. Pengenalan Karakter Optik (OCR)
Pengenalan karakter optik (OCR) adalah teknologi yang setua komputasi, sehingga hal ini seharusnya menjadi hal yang sepele untuk model penglihatan apa pun, bahkan ponsel cerdas pun dapat melakukannya di perangkat tersebut. Saya memberinya foto sederhana yang memperlihatkan papan kayu tua dari dekat bertuliskan “Selamat Datang di Oakville” dengan gaya tulisan tangan vintage. Saya ingin lebih dari sekedar teks dari AI.
GPT-4o dikirimkan; Tulisan: “Foto ini menunjukkan papan tanda berpenampilan vintage yang bertuliskan ‘Selamat Datang di Oakville’. Tanda tersebut tampak lapuk, dengan sentuhan akhir pedesaan tua, yang menunjukkan bahwa papan tersebut telah terkena cuaca selama beberapa waktu. Teksnya dalam huruf putih tebal dengan latar belakang merah, dengan beberapa tanda keausan, menambah pesona nostalgia. Tanda tersebut sebagian dikelilingi oleh tanaman hijau, menunjukkan bahwa tanda tersebut mungkin ditempatkan di luar, mungkin di pintu masuk kota atau komunitas bernama Oakville.
Teksnya tidak hanya terbaca dengan benar, tetapi juga menyarankan lebih banyak detail tentang lokasinya, mengidentifikasi kemungkinan kota atau pemukiman, dan mengeluarkan detail dari tanda itu sendiri.
3. Pengenalan wajah
Ini adalah penggunaan teknologi AI yang kontroversial dan agak dilarang di Uni Eropa. Namun seberapa baik GPT-4o mendeskripsikan wajah? Gambar tersebut merupakan gambaran seorang wanita berusia 40-an yang dihasilkan AI dengan rambut hitam dan mata coklat hangat. Dia tersenyum ramah.
GPT-4o mendeskripsikannya sebagai berikut: “Gambar ini adalah gambar close-up dari seorang wanita yang sedang tersenyum dengan rambut gelap dan keriting. Fokusnya ada pada wajahnya, yang cukup terang, memperlihatkan detail tekstur dan fitur kulitnya ekspresi ramah, dan matanya menatap langsung ke kamera. Latar belakangnya kabur, fokus pada topik.
Saya ingin lebih, termasuk pada usia tertentu. Saya bertanya padanya, “Berapa umur orang ini dan bagaimana keadaan emosinya?” Dia menjawab dengan fakta bahwa dia berusia akhir 30-an hingga awal 40-an dan dalam keadaan pikiran positif, menjelaskan: “Kesan umum adalah bahwa dia berada dalam kondisi yang baik secara emosional, dan mungkin merasa baik dan nyaman.”
4. Mengungkapkan perasaan
Selanjutnya, saya ingin melihat seberapa baik kinerja GPT-4o dengan gambar seorang lelaki tua dengan ekspresi sedih. Apakah dia akan mengabadikannya atau sekadar mendeskripsikan pemandangannya? Ingat satu-satunya entri yang dimilikinya hanyalah “apa ini” dan gambarnya.
GPT-4o berkinerja baik. Foto tersebut berbunyi: “Foto ini adalah foto seorang pria lanjut usia yang sedang duduk di bangku di luar ruangan, kemungkinan besar di taman. Pencahayaannya menunjukkan bahwa foto tersebut diambil pada saat golden hour, dengan sinar matahari yang lembut menyinari wajahnya bijaksana, dengan sedikit kesan Suram atau kontemplatif. Dia mengenakan kemeja dan jaket berkerah, dan latar belakangnya kabur, memusatkan perhatian pada pria tersebut sambil memberikan suasana yang menyenangkan dan alami.
Model AI melakukan persis seperti yang saya harapkan: mendeskripsikan adegan dan memberikan saran tentang apa yang mungkin dirasakan pria tersebut pada saat itu.
5. Pahami adegannya
Seberapa baik GPT-4o mampu mendeskripsikan pemandangan dari suatu gambar dan mengidentifikasi elemen di dalam pemandangan tersebut? Ini adalah keterampilan yang berguna karena model AI semakin banyak digunakan untuk membantu menggambarkan dunia nyata. Ini adalah salah satu fitur utama mode audio baru ChatGPT.
“Foto ini menunjukkan pasar petani luar ruangan yang ramai di hari yang cerah,” GPT-4o mengumumkan. “Berbagai stan telah didirikan di bawah tenda, memajang produk segar yang berlimpah termasuk buah-buahan, sayuran, dan barang-barang lainnya. menjelajah, berbelanja, dan berinteraksi dengan pedagang.” Pasar tampaknya terletak di area dengan deretan pepohonan yang indah, dengan latar belakang dedaunan hijau. Suasananya terasa hidup dan berorientasi pada komunitas, dengan penekanan pada produk lokal dan segar.
Tidak banyak bicara. Dia akurat dalam mendeskripsikan gambar dan situasinya. Anda memberikan lebih banyak detail dari yang saya harapkan dan menyoroti beberapa produk yang dijual.
6. Evaluasi kualitas gambar
Saya meminta Ideogram untuk membuat empat gambar yang hampir identik dalam satu kotak namun memberikan masing-masing gambar resolusi atau tingkat komposisi yang berbeda. Saya ingin melihat bagaimana GPT-4o menjelaskan hal ini. Itu dapat menangani gambar dasar, tetapi bagaimana dengan empat gambar, masing-masing sedikit berbeda?
“Gambar tersebut merupakan kumpulan empat foto lanskap yang disusun dalam grid, masing-masing menampilkan pemandangan menakjubkan perbukitan yang ditutupi rumput hijau dan bunga liar di bawah langit yang dipenuhi awan,” tulis GPT-4o. Sejauh ini bagus.
Lanjutannya: “Foto kiri atas menunjukkan langit gradasi merah muda dan biru lembut, menunjukkan fajar atau senja, dengan perbukitan bermandikan cahaya keemasan yang hangat, menyempurnakan rumput hijau cerah serta bunga kuning dan putih. Foto kanan atas menunjukkan pemandangan serupa tetapi dengan nada lembut, memberi kesan… Dini hari atau sore hari. Gambar kiri bawah memiliki warna yang lebih sejuk dan langit biru cerah, menunjukkan tengah hari dengan pencahayaan lebih lembut. Gambar kanan bawah lebih hangat dan jenuh, dengan rona merah muda di langit , menunjukkan cahaya matahari terbenam Hangat Perbedaan dalam pencahayaan dan corak warna ini menggambarkan bagaimana waktu dan teknik fotografi yang berbeda dapat memengaruhi suasana hati dan penampilan pemandangan alam yang sama.
Meskipun dia tidak memahami tujuan dari kisi-kisi empat gambar – untuk membandingkan komposisi – dia mampu mendeskripsikan masing-masing gambar satu per satu dan sangat mengesankan. Dia sebenarnya melakukan perbandingan fotonya sendiri.
7. Deteksi beberapa objek
Terakhir, ada pengujian penting apakah suatu model akan berguna sebagai alat aksesibilitas – seberapa baik model tersebut mendeteksi objek dalam pemandangan yang ramai. Klaim yang sama dengan yang lain. Foto tersebut menunjukkan meja yang berantakan dan saya berharap meja itu dapat mengeluarkan setidaknya satu benda kecil.
GPT-4o menulis: “Foto tersebut menunjukkan ruang kerja kantor yang modern dan tertata dengan pemandangan kota yang terlihat melalui jendela besar di latar belakang. Meja tertata rapi dengan banyak barang yang biasanya ditemukan di lingkungan kerja produktif, termasuk laptop di Central, lampu meja logam dan cangkir kopi menunjukkan suasana santai namun fokus. Buku catatan dan kertas yang berserakan menunjukkan kerja aktif dan pencatatan, sementara tanaman dalam pot kecil menambahkan sentuhan tanaman hijau berfungsi sebagai sumber motivasi. Ruang kerja dipenuhi dengan perlengkapan kantor seperti pena, pensil, dan organiser, memastikan fungsionalitas. Latar belakang perkotaan dari cakrawala kota dengan gedung-gedung tinggi yang modern menciptakan lingkungan yang dinamis dan inspiratif.
Itu berhasil. Saya memutuskan untuk menindaklanjuti dan memintanya memberi tahu saya warna pot tanaman dan langsung berhasil. Jadi saya memintanya untuk menemukan kacamata saya di foto, dan dia dengan tepat berkata: “Kacamata Anda ada di meja di sebelah kanan laptop, di atas buku catatan.”
ringkasan
Setiap model visi yang pernah saya gunakan di masa lalu telah membuat setidaknya satu kesalahan, biasanya kesalahan besar seperti salah mengidentifikasi suatu objek atau tidak memilih warna atau merek.
GPT-4o mendapatkan semua poin ini. Peralihan ke multimodalitas sejati telah membawa perubahan besar bagi OpenAI.
Hal ini juga menunjukkan potensi nilai kacamata pintar sebagai masa depan interaksi data yang sebenarnya. Lupakan smartphone, mari gunakan visi untuk menggabungkan dunia nyata dan digital.
Lebih banyak dari panduan Tom
“Web nerd. General bacon practitioner. Social media ninja. Award-winning coffee specialist. Food advocate.”
More Stories
PlayStation 5 Pro rencananya akan diumumkan dalam beberapa minggu
Kuo: Peningkatan RAM ke 12GB tahun depan akan terbatas pada iPhone 17 Pro Max
Perusahaan kecerdasan buatan Midjourney sedang menggoda produk perangkat keras dalam bentuk baru