بیشترین زبان‌ها در Subscene

Subscene یه سایت خوب برای دانلود زیرنویس هست. به هر زبانی میشه توش زیرنویس پیدا کرد و من معمولا زیرنویس‌هام رو از اونجا دانلود میکنم، چه انگلیسی چه فارسی. ولی امروز سوالی برام پیش اومد. چقدر زیرنویس فارسی بین این زیرنویس‌ها هست؟ برای گرفتن جواب اول باید یه مقدار اطلاعات از این سایت بگیریم.  چطور؟ خوب، قسمت browse سایت Subscene میتونه کمک کنه. پس با کمک یه حلقه for صد صفحه از این قسمت دانلود میکنیم (حداکثر مقدار):

for ((i=1;i<101;i++)); do usewithtor axel "https://subscene.com/browse/latest/all/${i}" -o ${i}.html; done

به خاطر این که دانشمندهای کشور فهمیدن که این سایت برای ما خوب نیست، فیلترش کردن. برای همین مجبوریم از تور (یا وی‌پی‌ان یا هر روش دیگه‌ای برای رد کردن فیلتر) استفاده کنیم. برای همین usewithtor رو میذارم که axel با تور اجرا بشه. خوب حالا صد صفحه HTML داریم. چطور ازشون استفاده بکنیم؟ به سادگی:

cat ../*.html | grep '<span>' -A1 | egrep -v "<|--" | tr -d "\t" > result

حالا زبان‌ها رو توی فایل result داریم. چطور رتبه‌بندیشون بکنیم؟ با این یک خط کد:

cat result | sort | uniq -c | tr -s " " | sed "s/ //" | sort -V > result2

حالا تعداد زبان‌های استفاده شده رو هم داریم. به صورت مرتب شده. نتیجه من توی فایل result2 اینه (ممکنه اگه الان شما این کار رو بکنین، نتیجه شما با مال من فرق بکن. چون تا الان مطمئنا زیرنویس‌هایی به Subscene اضافه شدن):

1 Bulgarian 1 Chinese BG code 1 Croatian 1 Czech 1 Estonian 1 Turkish 2 Hungarian 3 Bengali 5 Finnish 5 Korean 5 Lithuanian 5 Russian 5 Thai 7 Serbian 8 Japanese 8 Sinhala 8 Spanish 10 Portuguese 12 Greek 13 Norwegian 16 Romanian 17 Dutch 21 Italian 27 German 35 Malay 35 Swedish 39 Hebrew 46 French 51 Danish 91 Vietnamese 196 Arabic 200 Farsi/Persian 235 Indonesian 537 English

تعجب کردین؟ فارسی رتبه سوم رو داره! البته میدونم که آمار کل زیرنویس‌های سابسین با جدیدترین‌هاش خیلی فرق داره. ولی به هر حال، آمار جالبی به نظر میاد!


blog comments powered by Disqus