Data Science @ Twitter

Saturday, December 08, 2018

Semalam saya menghadiri meetup yang diselenggarakan oleh Twitter. Temanya tentang Data Science yang dilakukan di dalam perusahaan tersebut. Ini bukan murni meetup, karena sebenarnya tujuan utama dari acara ini adalah promosi Twitter untuk menarik minat talent yang ingin bergabung dengan tim mereka. Cukup menarik juga, karena menurut keterangan stafnya, di seluruh dunia hanya ada sekitar 300an orang karyawan Twitter (semoga tidak salah dengar), dengan tim Data Science yang terbagi dua: di US dan Singapura. Di Singapura sendiri tim tersebut hanya terdiri dari 5 orang.

Bahasan serius pertama adalah overview praktek Data Science di Twitter. Mulai dari garis besar gol yang ingin dicapai, contoh project yang dikerjakan (termasuk analisis berita bohong), dll, lifecycle, dll. Saya kurang ingat detailnya karena tidak terlalu tertarik dengan topik ini.

Lifecycle produk Data Science di Twitter
Selanjutnya adalah bahasan mengenai perjalanan Twitter mengambil keputusan untuk menambah jumlah karakter tiap tweet. Dari awal, Twitter menggunakan batasan 140 karakter per tweet, meniru batasan di SMS. Di tahun 2017, seorang IOS engineer mereka dari Jepang (lupa namanya) melakukan riset kecil-kecilan. Dia membandingkan statistik panjang tweet berbahasa Jepang dengan yang berbahasa Inggris. Karena tulisan Jepang mengandung lebih banyak informasi per karakter (kanji), tentu tweet dalam bahasa Jepang mayoritas singkat-singkat. Batasan 140 karakter amat jarang tercapai. Kalau diplotkan, bentuknya mirip distribusi log normal dengan puncaknya di kisaran 13-15 karakter (semoga tidak salah ingat). Berbeda dengan tweet berbahasa Inggris. Hampir 9% tweet tersebut mencapai batas maksimum karakter yang diperbolehkan, dengan rata-rata panjang tweet di kisaran 34 an karakter. Ini yang kemudian menjadi dasar bagi Twitter untuk memperbesar jumlah karakter dalam satu tweet hingga 280. Apa dampaknya? Tweet (dalam bahasa Inggris) menjadi lebih mudah dipahami karena singkatan yang digunakan lebih sedikit. Setidaknya ini berguna untuk keperluan analytics Twitter. Tapi yang mengejutkan, ternyata rata-rata panjang tweet alih-alih naik, ternyata malah turun menjadi 33 karakter.

280 karakter setelah satu tahun
Topik terakhir adalah tentang data pipeline di Twitter. Secara garis besar begini: mereka mengoperasikan sendiri infrastruktur data mereka, yang berbasis pada cluster Hadoop dengan 10.000+ node dengan data sekitar 100an PB. Untuk tooling, mereka lebih banyak menggantungkan pada tooling hasil development internal. Misalnya penggunaan Scalding untuk pembuatan aplikasi MapReduce dan Ambrose untuk visualisasi job di cluster. Bahasa yang digunakan secara umum adalah Scala. Meskipun sejauh ini mereka menggunakan infrastruktur mereka sendiri, namun mereka saat ini sedang mengevaluasi penggunaan BigQuery untuk keperluan analytics.

Arsitektur data di Twitter
Karena inti utama dari meetup ini adalah untuk merekrut talent baru untuk tim data mereka, tentu kemudian dijelaskan kriteria ideal yang mereka harapkan. Dari yang saya tangkap, tidak ada pemisahan yang jelas antara Data Scientist dan Data Engineer. Dalam artian, Data Scientist juga diharapkan mampu membuat data pipeline mereka sendiri. Secara garis besar, ada tiga kategori stack: system (skill di Hadoop dan distributed system),  programming (Scala, Scalding, SQL), dan matematika (aljabar linear, statistik). Programming jadi skill wajib untuk Data Scientist dan Data Engineer, dengan titik berat system untuk Data Engineer dan matematika untuk Data Scientist.

You Might Also Like

0 comments