خبر فارسی چگونه کار می کند ؟

خبر فارسی چگونه کار می کند ؟ چرا سایت من تحت پوشش خبر فارسی قرار نمی گیرد ؟ خبر را سایت من منتشر کرده است ولی خبر فارسی سایت دیگری که مطلب من را کپی کرده است نمایش می دهد ؟ چرا فلان خبر که اصلا ورزشی نیست در بخش ورزشی قرار دارد ؟ چرا سایتی که مشابه شما عمل می کند محدودیت های شما را ندارد؟  و دهها سوال دیگر که بخاطر آن، این مطلب را  می نویسم. قصد دارم تا در این مطلب برای عموم، بدون اینکه بصورت فنی به مسائل نگاه کنم،  پاسخی برای سوال هایی که مرتب از من می پرسند بدهم. در مطالب بعدی سعی خواهم کرد که از جنبه های تخصصی به این موضوع  بپردازم.

بخش هایی از این مطلب که خبر فارسی  با موتورهای جستجوی دیگر مقایسه می شود، بر اساس اطلاعات فعلی نویسنده می باشد.

ایده و هدف خبر فارسی
کاربران اینترنت روزانه به دنبال اطلاعات مفید و بروز در بین سایت های فارسی می گردند. با صدها سایت مواجه می شوند که هر کدام از آنها بخشی از نیازهای آنها را پاسخ می دهد. خبر فارسی با ایده جمع آوری اطلاعات و اخبار فارسی در یک سایت و راهنمایی کاربران به مطالب مفید و مورد علاقه آنها ایجاد شده است. بدلیل حجم اطلاعات تولید شده در فضای وب، امکان اینکه با استفاده از نیروی انسانی این اطلاعات طبقه بندی شده و در اختیار کاربران قرار گیرد عملا وجود ندارد. پس باید خبر فارسی بصورت هوشمند عمل کرده و پس از دریافت اطلاعات جدید، آنها را به کاربران نمایش دهد.  سایت خبر فارسی سومین نسل از موتور جستجوی هوشمند خبری است که در ۳ سال گذشته توسط شرکت پرتو تِک تولید شده است.

پیچیدگی هایی که سایت هوشمند خبر فارسی با آنها روبرو است.

تصویری که همه از یک موتور جستجوگر هوشمند موفق دارند این است که کاربران آن بتوانند براحتی به اطلاعات مورد دلخواه خود دست پیدا کنند و این سامانه هیچ اشتباهی نداشته باشد. این در حالی است که موتورهای جستجوگر بسیار پیشرفته تر و پیچیده تر از خبر فارسی مانند Google News هم اشتباهات زیادی دارند که نمونه ای از آن را به شما نشان خواهم داد.

طراحی و پیاده سازی یک جستجوگر هوشمند کار بسیار پیچیده ای است که نیاز به  دانش، تجربه، سرمایه گذاری و زمان زیادی دارد.

بخش کوچکی از این پیچیدگی ها در پایین توضیح داده شده است:

- حجم اطلاعاتی که در این سیستم وجود دارد بسیار زیاد است، بنابراین طراحی و پیاده سازی چنین سیستمی می تواند بسیار پیچیده باشد. سایت های مشابه خبر فارسی در ایران امکان جستجو در متن کامل مطالب را به کاربران نمی دهند و یا کاربران نمی توانند در تمامی اطلاعات گذشته جستجو کنند. (تعداد مطالب جدید به اندازه تمامی مطالب تولید شده در تمامی سایت های تحت پوشش است. در حال حاضر روزانه بین ۱۰ تا ۲۰ هزار مطلب جدید توسط جستجوگر خبر فارسی فهرست نویسی می شود.)

- اطلاعات باید بصورت هوشمند طبقه بندی شوند. در هر صورت این کار توسط الگوریتم های هوش مصنوعی صورت می گیرد. فرض کنید که این الگوریتم ها تنها ۱٪ خطا داشته باشند. پس در صورتی که در یک روز ۱۵ هزار مطلب جدید طبقه بندی شود، ۱۵۰ مطلب به اشتباه طبقه بندی خواهد شد. در روندهای هوش مصنوعی ابتدا سیستم طبقه بندی توسط نیروی انسانی آموزش داده می شود. یعنی برای سیستم، نمونه هایی از خبرهای هر یک از طبقه بندی ها تعریف می شود. سپس سیستم می تواند بر اساس اطلاعات قبلی، طبقه بندی اطلاعات جدید را حدس بزند. این در حالی است که در بسیاری از مواقع تعریف طبقه بندی یک مطلب برای یک انسان نیز دشوار است. مثال: در جریان یک رویداد ورزشی که یک شخصیت سیاسی در آن حضور دارد یک حادثه اتفاق می افتد. وقتی که این مطلب را در سایت های خبری دنبال کنید، بر حسب نوع سایت و فرد تصمیم گیرنده در آن سایت، این خبر ممکن است در طبقه بندی ورزشی، سیاسی و یا حوادث طبقه بندی شده باشد.

- یکی از مشکلات پیچیده ای که خبر فارسی با آن روبرو است، تشخیص متن، عکس و سایر فایل های چند رسانه ای است که به همراه یک مطالب وجود دارد. سایر سایت های مشابه خبر فارسی در ایران بدلیل استفاده از تکنولوژی هایی مانند RSS، با چنین مشکلاتی مواجه نیستند  و عملا این اطلاعات را در اختیار  ندارند.

- یکی از اتفاقاتی که در همه جای دنیا در اینترنت رخ می دهد این است که پس از انتشار یک مطلب در یک سایت، سایت های دیگری آن مطلب را کپی کرده و یا پس از تغییر در سایت خود قرار می دهند. یعنی همان مطلب ممکن است  در دهها سایت مختلف وجود داشته باشد. بسیاری از اطلاعاتی که هر روز دریافت می شوند یا تکراری هستند و یا درباره یک موضوع صحبت می کنند.  یکی از ویژگی ها و کارهای پیچیده ای که  یک جستجوگر هوشمند انجام می دهد این است که  مطالب تکراری و مرتبط با یک موضوع را شناسایی کند. تصوری که بسیاری از افراد از این فرآیند دارند این است که، ابتدا یک یا چند کلیدواژه از داخل متن انتخاب شده سپس خبرهایی که آن کلیدواژه ها را دارند به عنوان مطالب مرتبط با یک موضوع شناسایی می شوند. در سایت های خبری مطالب مرتبطی که به کاربران نمایش داده می شود، بر اساس برچسب هایی است که در زمان ایجاد خبر، توسط یک انسان بر روی آن مطالب قرار گرفته است. خبرهای مرتبط نمایش داده شده با این روش دقت کافی ندارد. همچنین در یک جستجوگر که حجم و گوناگونی مطالب بسیار بیشتر است، نمی تواند نیازهای کاربران را برآورده کند. با ذکر یک مثال توضیح می دهم. مثلا در صورتی که کلمه سوریه را در خبرهای ۲۴ گذشته جستجو کنیم، مشخص می شود که در بیش از ۳۰۰ خبر از کلمه سوریه استفاده شده است. ۵ خبر از بین این خبرها را انتخاب کردم (تصاویری که در پایین آمده است). لطفا به موضوع خبر، زمان خبر و مطالب مرتبطی که توسط جستجوگر برای هر خبر انتخاب شده است توجه کنید. همانطور که می بینید، خبرهای انتخاب شده در فاصله زمانی ۳ ساعت دریافت شده اند. در نگاه اول به بنظر می رسد که همه خبرها در رابطه با سوریه است. این در حالی است که بدلیل موضوع هر خبر،  خبرهای مرتبط با آن  کاملا متفاوت است.

 

 

 

 

 

 

 

همانطور که در تصاویر بالا می بینید می توانید تصور کنید که این فرآیند تا چه حد می تواند پیچیده باشد. این در حالی است که مثال بالا در روز جمعه صورت گرفته است که حجم مطالب تولیدی در این روز، چندین برابرنسبت به روزهای غیرتعطیل کمتر است.

 

اگر شما کاربر سیستم های بسیار بسیار پیشرفته تر و پیچیده تری مانند Google News هم باشید، می توانید اشتباهاتی را در سیستم های آنها مشاهده کنید. این در حالی است که از نظر مالی، منابع انسانی، زیر ساخت های دانش و .... یک شرکت نرم افزاری ایرانی  با شرکت های خارجی اصلا قابل مقایسه نیست.

به عنوان مثال: تصاویری از یکی از خبرهای Google News که درباره درگذشت یکی از بازیگران برنده جایزه اسکار است، در پایین آمده است.
 به خبرهایی که با پیکان سبز رنگ مشخص شده اند توجه کنید. همانطور که می بینید هیچ یک از این خبرها درباره موضوع مورد نظر نیست و به اشتباه طبقه بندی شده اند.

2 1

 

- یکی دیگر از پیچیدگی هایی که با آنها روبرو هستیم کیفیت پایین نرم افزارهای برخی از سایت های خبری است. در صورتی که Google News نسخه فارسی راه اندازی کند، اکثر سایت های خبری داخلی بدلیل اینکه استانداردهای لازم را ندارند، نمی توانند تحت پوشش آن قرار گیرند. این در حالی است که خبر فارسی این گونه سایت ها را تحت پوشش خود دارد. در عین حال ما با برخی از شرکت هایی که تولید کننده سامانه های خبری هستند ارتباط خوبی داریم  و توانسته ایم برخی از این مشکلات را به مرور زمان برطرف کنیم.


- تحریم ها کارها را بسیار دشوار تر کرده است. خرید نرم افزارها، تکنولوژی، دانش و مانند این ها بسیار سخت است و برخی از خدماتی که ما به آنها نیازمندیم غیر ممکن است. یکی از مشکلات بزرگی که با آن روبرو هستیم، Datacenter های ایرانی است.  هزینه های خدمات Datacenter های داخلی و پهنای باند در ایران بسیار بالا است (تا بیش از ۱۰ برابر) و کیفیت خدمات آنها در مقایسه با خدمات شرکت های خارجی اصلا قابل مقایسه نیست. بدلیل وجود تحریم ها، باید میزبانی سرویس ها حداقل بر روی ۲ کشور قرار داشته باشد، تا در صورت عدم سرویس دهی یک کشور، امکان انتقال سریع به میزبانی سایر کشورها فراهم باشد. تاکنون به دلیل تحریم ها چندین بار مجبور به جابجایی Datacenter های میزبان خود شده ایم. شاید بتوان بدلیل تحریم ها هزینه های گزاف را قبول کرد ویا خدمات ضعیف را تحمل کرد، ولی در برخی از موارد با مشکلات جدی مواجه می شویم.
به عنوان نمونه: اکثر سایت هایی که تعداد زیادی ایمیل ارسال می کنند از سرویس های Google Groups و Yahoo! Groups استفاده می کنند و یک ایمیل را برای تعداد زیادی کاربر ارسال می کنند. ولی خبر فارسی بدلیل اینکه هر ایمیل را بصورت سفارشی تنها برای یک کاربر ارسال می کند،  و ماهانه چندین میلیون ایمیل ارسال می شود، از این روش نمی توان استفاده کرد. مثلا برای ارسال این حجم از ایمیل باید شرکت ارسال کننده، توسط Yahoo تایید شود.  تصویر زیر جواب شرکت Yahoo جهت ثبت شرکت ما به عنوان ارسال کننده انبوه ایمیل را می توانید ببینید.

همچنین در حال حاضر بدلیل هزینه های پایین خدمات پردازش ابری بسیاری از سایت های دنیا از خدمات سرویس دهندگانی مانند Google Apps و Amazon AWS استفاده می کنند. این سرویس دهندگان از دسترسی کاربران ایرانی جلوگیری می کنند. افرادی که از این خدمات استفاده می کنند هیچ خصومتی با ایران ندارند و حتی ممکن است از این موضوع که کاربران ایرانی نمی توانند از سایت آنها استفاده کنند اصلا خبر نداشته باشند.
این در حالی است که بسیاری از اوقات هنگامی که به دنبال سایت های جایگزین هستیم، این سایت ها از داخل ایران فیلتر هستند!!
این درحالی است که مهاجرت اکثر سایت های دنیا برای استفاده از سرویس های پردازش ابری  بدلیل هزینه های بسیار پایین آن اجتناب ناپذیر است.


- انتخاب خبرهای داغ و مفید کار پیچیده ای است. در یک ۲۴ ساعت ممکن است ۲۰ هزار خبر از سایت های مختلف دریافت شود. در یک صفحه حد اکثر می توان ۱۰۰ خبر را به کاربر نمایش داد. این در حالی است که کاربران در هر بازدید از سایت بطور متوسط کمتر از ۶ صفحه را مشاهده می کنند. هر کاربر علایق خاصی دارد. بسیاری از مطالب جدید توسط روزنامه ها تولید می شوند، که اکثرا در نیمه شب سایت های آنها بروز می شود. بسیاری از مواقع سایت های خبری، خبرهای قدیمی را روی سایت خود قرار می دهند. خبرها با موضوعات مختلف زمان انقضای متفاوتی دارند. یک خبر پزشکی برای کسی که آن را نخوانده است شاید هیچ وقت قدیمی نباشد ولی خبرمربوط به آمار تلفات یک زلزله ممکن است پس از ۱۰ دقیقه قدیمی شده باشد و قابل استفاده نباشد.

این در حالی است که تمامی فرآیند های جستجوگر خبر فارسی که در بالا ذکر شد به همراه دهها سرویس دیگر با استفاده از ۲ رایانه معمولی، که در حال حاضر هر شخصی می تواند در منزل خود داشته باشد صورت می گیرد.

سیاست خبر فارسی در انتخاب سایت های خبری

هنگام راه اندازی خبر فارسی، تعدادی از سایت های خبری بر اساس رتبه و محتوای آنها انتخاب شدند. پس از آن به ندرت سایت های جدید به این مجموعه اضافه شدند.
جستجوگر خبر فارسی به هیچ حزب و گروه سیاسی وابسته نیست. تنها معیاری که برای سایت های تحت پوشش در نظر گرفته می شود این است که مغایر با قوانین جمهوری اسلامی عمل نکنند و فیلتر نشده باشند.
خبر فارسی به هیچ عنوان با هیچ سایتی، تعاملی برای اینکه خبرهای آن سایت برجسته تر ویا بیشتر از سایر سایت ها نمایش داده شود، ندارد. تنها  سایت ها با خرید جایگاه های تبلیغاتی می توانند خبرهای سایت خود را بصورت جداگانه در سایت نمایش دهند و این امر امتیازی برای آن سایت نخواهد داشت و تاثیری بر نمایش خبرهای آن سایت در سایر بخش های خبر فارسی ندارد.
در حال حاضر بدلیل اینکه نرم افزار خبر فارسی قابلیت توزیع بر روی چندین سرور را ندارد، امکان توسعه سایت های تحت پوشش، تا زمان راه اندازی نسخه بعدی وجود ندارد.

 

سایر مشکلاتی که با آنها روبرو هستیم

اقتصاد وب ایران بسیار ضعیف است و سایت هایی که مانند خبر فارسی هزینه های بسیار زیادی دارند، علی رغم اینکه ممکن است خیلی خوب فعالیت کنند، درآمدزایی خوبی ندارند.
به نظر اینجانب از نظر نیروهای فناوری اطلاعات، در حال حاضر ایران یکی از فقیرترین کشورها است. بسیاری از نیروهای متخصص مهاجرت کرده اند. به عنوان مثال در صورتی که مقاله دکترا افراد مختلف در زمینه های هوش مصنوعی و زبان شناسی زبان فارسی را مطالعه کنید، و بخواهید با آنها ارتباط برقرار کنید، خواهید دید که تقریبا همه این افراد از ایران مهاجرت کرده اند. این در حالی است که دربسیاری از کشورهای دنیا دانشگاه ها  در این زمینه ها  فعالیت های گسترده ای دارند و نتایج تحقیقات آنها و بسیاری از اطلاعات در این زمینه ها بصورت رایگان در اختیار همگان قرار داده می شود. در صورتی که ما می خواستیم یک موتور جستجوگر هوشمند انگلیسی ایجاد کنیم، کار بسیار آسان تری داشتیم.

 


نسخه چهارم خبر فارسی

نسخه چهارم خبر فارسی در مرحله برنامه ریزی است که بزودی در مطلب جدیدی درباره آن توضیح خواهم داد.

 

 سرویس ها و خدمات خبر فارسی

بسیاری از شرکتها و سازمان ها به ما مراجعه می کنند و می خواهند بستری مشابه خبر فارسی داشته باشند. نه فقط برای خبر. یعنی می خواهند یک موتور جستجو داشته باشند و بتوانند اطلاعات برخی از سایت ها را دریافت کرده و بصورت هوشمند طبقه بندی کنند.
نرم افزارهای جدیدی در این زمینه در مرحله برنامه ریزی است که بزودی بصورت سرویس و یا سخت افزار در اختیار سازمان ها و شرکت قرار خواهد گرفت.

برچسب ها: 

نظرات

نوشته شده توسط just another we... ( ناشناس)

سیستم خبر فارسی مفید و ارزشمنده و توانایی ها و پتانسیل های بالایی برای بهره برداری مالی در حوزه بازرگانی و فناوری اطلاعات داره. شخص شما هم به لحاظ دانش فنی احتمالا در سطح بالایی قرار دارید. بهرحال صرفا خواستم راجع به خبر فارسی بهتون تبریک بگم و توصیه بکنم که صرفا بعنوان یه محصول تولیدی گیکی بهش نگاه نکنید (هر چند اینگونه بنظر نمیرسه و احتمالا آینده روشنی براش تدارک دیدید.)

13.08.2012 01:39
نوشته شده توسط ghayoumi

ممنون از راهنمایی شما.

برنامه ریزی هایی که برای آینده خبر فارسی انجام شده است این است که بیشتر بصورت یک بستر عمل کند تا اینکه تنها مانند یک سایت خبری باشد

15.08.2012 00:55
نوشته شده توسط ناشناس ( ناشناس)

همانگونه که جستجوگر خبری ..... کار میکند!

06.09.2012 02:28
نوشته شده توسط ghayoumi

من از نحوه کارکرد دقیق سایت های دیگر اطلاعی ندارم.

معتقدم هر چه جستجوگر های خبری  در یک فضای رقابتی قرار بگیرند، شاهد پیشرفت های بیشتری در این زمینه خواهیم بود.

08.09.2012 19:37
نوشته شده توسط محسن ( ناشناس)

متن رو به صورت کامل خوندم واقعاً عالی و انگیزه بخش بود.
شاید یک سالی هست که بعنوان یک وبمستر خبرفارسی رو میشناسم اما اصلاً فکرشم نمیکردم به این پیچیدگی و گستردگی باشه (واقعاً شگفت زده شدم)
با امید موفقیت رو افزون شما و سایت خوبتون + آینده ای بهتر برای وب ایران

07.09.2012 22:09
نوشته شده توسط رضا شیرازی ( ناشناس)

سلام، من رضا شیرازی هستم مدیر webdesign24.ir و یکی از قدیمیترین افرادی که در زمینه سئو در ایران فعالیت میکنه. بهتون به خاطر سایت بسیار جالبی که دارید تبریک میگم. قطعا هیچ موفقیتی بدون تلاش، پشتکار و دانش بدست نمی آید.

19.09.2012 14:14
نوشته شده توسط ali ( ناشناس)

با سلام سایت خبر فارسی پتانسیل های بسیار مناسبی رو برای پیشرفت داره . شما که همه چیز رو توضیح دادید اینو هم میشه بهمون بگید که چرا سایت خبر فارسی با اینکه مطالب رو از دیگر سایتهای خبری کپی میکنه البته بخشی از خبر رو پس چرا به عنوان یک سایت زرد یا همان کپی کار شناخته نمیشود و اکثر نتایج جستجو را به خود اختصاص داده ؟

البته طرز کار سایت خبر فارسی برام خیلی خیلی جالبه و این سوال رو به توجه به تاکیدهای گوگل بر الگوریتمش پرسیدم چون خیلی کنجکاوم بدانم .

با تشکر و آروزی پیشرفت سایت خبر فارسی و تیم طراح

27.11.2012 00:59
نوشته شده توسط ghayoumi

برخی کارشناسان تعداد پارامترهایی را که موتور جستجوی گوگل برای تعیین رتبه یک سایت و یک صفحه در نظر می گیرد، بیش از ۱ میلیون عنوان می کنند.
اینکه به هر شکل ممکن ترافیک از موتورهای جستجو توسط خبر فارسی دریافت شود هیچ وقت هدف ما نبوده است.
به نظر من هیچ سایتی در بلند مدت با سرمایه گذاری زیاد در موتورهای جستجو نتیجه نخواهد گرفت و من سایتی را ندیدم که با این روش توانسته باشد مدت زمان طولانی عملکرد خوبی داشته باشد.
آیا  خود شما در صورتی که یک سایت را چند مرتبه در نتایج جستجو ببینید ولی از آن سایت به هر دلیلی خوششتان نیاید روی آن کلیک می کنید ؟ حتی اگر همیشه اولین نتیجه در جستجو باشد ؟
بنظر می رسد که گوگل به مرور زمان بر روی روش هایی کار کرده است تا بتواند از طریق آنها مطلوب بودن یک صفحه در نتایج جستجو را برای کاربر بیشتر در نظر بگیرد.
ما فکر می کنیم که برخی از این روشها را حدس زده ایم و با کار بر روی آنها توانسته ایم به نظر کاربران و موتور جستجو مطلوب تر باشیم.

03.12.2012 20:07
نوشته شده توسط طراحی وب سایت ( ناشناس)

می خواستم بدونم طراحی سایت شما با چه تکنولوژیه ایه و سی ام اس ایه.
با تشکر

15.02.2013 20:28
نوشته شده توسط علی ( ناشناس)

سلام. این سایت با دروپال هست. این سیستم از نظر محبوبیت نسبت به سایر سیستم ها مثل جوملا، وردپرس و ... در جایگاه پایینتری قرار دارد و از نظر من شاید دلیلش عدم انعطاف پذیر بودن باشه. البته این نظر شخصی من است چون هر وقت خواستم با دروپال کار کنم کاملاً گمراه بودم. ولی شاید بهترین برتری این مدیریت محتوا رو کار همین خبر فارسی دانست. سایر سیستم های مدیریت محتوا افزونه ها و ماژول های مشابهی دارند. من هم در تلاشم که سایتی مشابه خبر فارسی راه اندازی کنم، میشه گفت یکی از آرزوهام شده. راه اندازی این سایت به ظاهر ساده است و میشه به سادگی یک خبرخوان راه اندازی کرد اما هوشمند بودن و دانشی که خبر فارسی در پشت دروپال قرار داده بسیار پیچیده و میشه گفت غیرقابل باور است. طبقه بندی که کمتر سیستمی میتونه اون رو به این مهارت پیاده سازی کنه. واقعاً تبریک میگم و امیدوارم که من هم روزی بتونم جستجوگر هوشمند خبری همچون خبر فارسی راه اندازی کنم.

05.06.2013 21:04
نوشته شده توسط ghayoumi

خبر فارسی از لایه های مختلفی تشکیل شده است.
در لایه Application Server، از دروپال برای تعامل کاربران ب