بیشترین زبانها در Subscene
Subscene یه سایت خوب برای دانلود زیرنویس هست. به هر زبانی میشه توش زیرنویس پیدا کرد و من معمولا زیرنویسهام رو از اونجا دانلود میکنم، چه انگلیسی چه فارسی. ولی امروز سوالی برام پیش اومد. چقدر زیرنویس فارسی بین این زیرنویسها هست؟ برای گرفتن جواب اول باید یه مقدار اطلاعات از این سایت بگیریم. چطور؟ خوب، قسمت browse سایت Subscene میتونه کمک کنه. پس با کمک یه حلقه for صد صفحه از این قسمت دانلود میکنیم (حداکثر مقدار):
for ((i=1;i<101;i++)); do usewithtor axel "https://subscene.com/browse/latest/all/${i}" -o ${i}.html; done
به خاطر این که دانشمندهای کشور فهمیدن که این سایت برای ما خوب نیست، فیلترش کردن. برای همین مجبوریم از تور (یا ویپیان یا هر روش دیگهای برای رد کردن فیلتر) استفاده کنیم. برای همین usewithtor رو میذارم که axel با تور اجرا بشه. خوب حالا صد صفحه HTML داریم. چطور ازشون استفاده بکنیم؟ به سادگی:
cat ../*.html | grep '<span>' -A1 | egrep -v "<|--" | tr -d "\t" > result
حالا زبانها رو توی فایل result داریم. چطور رتبهبندیشون بکنیم؟ با این یک خط کد:
cat result | sort | uniq -c | tr -s " " | sed "s/ //" | sort -V > result2
حالا تعداد زبانهای استفاده شده رو هم داریم. به صورت مرتب شده. نتیجه من توی فایل result2 اینه (ممکنه اگه الان شما این کار رو بکنین، نتیجه شما با مال من فرق بکن. چون تا الان مطمئنا زیرنویسهایی به Subscene اضافه شدن):
1 Bulgarian 1 Chinese BG code 1 Croatian 1 Czech 1 Estonian 1 Turkish 2 Hungarian 3 Bengali 5 Finnish 5 Korean 5 Lithuanian 5 Russian 5 Thai 7 Serbian 8 Japanese 8 Sinhala 8 Spanish 10 Portuguese 12 Greek 13 Norwegian 16 Romanian 17 Dutch 21 Italian 27 German 35 Malay 35 Swedish 39 Hebrew 46 French 51 Danish 91 Vietnamese 196 Arabic 200 Farsi/Persian 235 Indonesian 537 English
تعجب کردین؟ فارسی رتبه سوم رو داره! البته میدونم که آمار کل زیرنویسهای سابسین با جدیدترینهاش خیلی فرق داره. ولی به هر حال، آمار جالبی به نظر میاد!