
Geçen günlerin birinde Hurriyet.com.tr'de değerli bulduğum bir yazıyı bilgisayara aktarayım dedim fakat, kopyala-yapıştır yapınca okuduğum metinle hiçbir benzerliği bulunmayan bir harf dizisi çıktı karşıma. Explorer veya Firefoxta ayrı ayrı denedim yine aynı sonuç. Görüntülenen karakter setlerini değiştirdim fakat sonuç değişmedi. Neyse daha fazla uğraşmayayım dedim orada öylece bıraktım. Yine bir yazı dikkatimi çekti ve bunu da saklamak amacıyla kopyala-yapıştır yapayım deyince o eski durum tekrar karşıma çıktı. İyice bir inceleyince; hurriyet.com.tr de yayımlanan köşe yazılarının şifrelendiğini (kriptolandığını) farkettim. Kopyala-yapıştır yapılan metinler farklı karakter dizisiyle ekranda görüntüleniyor ve bu durum sadece köşe yazılarında geçerli, haberlerde yok. Kaynak kodunda da şifreli metin görünüyor, sadece internet sitesinden okurken ekranda asıl metin görüntüleniyor. Sadece başlık ve alt başlık şifresiz kalan metin şifreli.
Örnekleyecek olursak:Diğer gazetelerin de metinlerini, köşe yazılarını tetkik ettim ve böyle bir korumaya rastlamadım.
Ekranda görünen cümle:
Okuduğum bilimsel araştırmaları her zaman iki sınıfa ayırmışımdır:
Kopyala-yapıştırla alınan cümle:
Okuydjaivduğlnb862um p5djf6bilo0du9vimsgb04yuel 44n0c5arajumd4sştıfpbitfrmazgtbhilarg9sojgı h3a2p3wer an4a8zzamsz9enran mzy62aikisza6a4 sıjl1y93nıfnwrs4ea akmiskjyırog8znkmışp02yfpımdmlj6w6ır:y3u8bi
Bir yandan hurriyet.com.tr yi bu çalışmasından dolayı tebrik ediyor, diğer yandan da sitem ediyorum.
Babamın evde, gırtlağa kadar gelmiş fotoğraf arşivlerinden kurtulmaya çalışırken bir yandan da kendime basılı bir arşiv oluşturmak yer açısından sıkıntı doğuruyor; bilgisayar bu konuda oldukça yardımcı oluyor. Fakat işte hurriyet.com.tr ye sitemim bu noktada, basılı bir arşivim olmadığı için gazetelerinde yer alan değerli haber veya köşe yazılarını arşivlememe bu koruma engel oluyor. Kopyala-yapıştır haber sitelerine, bloglara karşı bir önlem olarak düşünülmüş olsa gerek! Yazarların emeğini korumak güzel, takdire değen bir çalışma fakat işte benim gibi birilerine de sıkıntı oluyor.
Hiçbir teknik aşılamaz değildir :).
YanıtlaSilhttps://addons.mozilla.org/en-US/firefox/addon/134
Opera ile aynı işlemi zahmetsiz bir şekilde yapabilirsiniz.
YanıtlaSilHürriyet uğraşmış ama her nedense bu engel bana işlemedi, herhangi bir eklenti vs. kullanmadan ff,ie ve opera'da sorun şekilde kopyala yapıştır yapabildim.
YanıtlaSilBaris Unver dedi ki...
YanıtlaSilHiçbir teknik aşılamaz değildir :).
Barış, bu eklentiyi kurdum, seçeneklerini de denedim fakat yine aynı birşey değişmedi. Bir püf noktası mı var acaba??
Diğer teknikleri bilemem ama en basiti bu konuda yazdırma sayfasını kullanmakmış.
YanıtlaSilInternet birbirinin kopyası emeksiz haber sitesi dolunca herkes herşeyi kopyaliyor.
YanıtlaSilHürriyetin ya da benzer orjinal içerik üreten sitenin yaptığını doğru bulmama rağmen bu sadece bazı kişiler için engelleyici olabilir.
1-) Günlük yazı ise alttak Printe basarak o sayfayı normalize olarak görebilirsiniz.
2-) Bir gün sonra yazı arşive düşünce normal gösteriliyor
3-) Eğer sayfayı bot ile okuyorsanız, sayfanın adres sonuna 11111.asp yerine 11111_p.asp yazdirinca otomatik print sayasini alirsiniz. (rakam_p.asp)
4-) VE ASIL BOT ÇÖZÜMÜ
Google güncel sayfayı sizin-bizim browserdan grdüğmüz gibi görmez. Onun user-agentine normal sayfa gösterilir.
Yani kendi YazarScraping programimda ben o sayafyı otomatik olarak temiz text olarak alip, db ye attiriyorum.
Bot-crawler-scrap-htmlparse işlemlerine aşinaliğiniz varsa bu tür yolların -çoğunlukla- rahatlıkla geçileceğini bilirsiniz.
Ama olan gerçek okuyucuya oluyor, bunda da haklısınız.
Alp Scrapper
mesahor@gmail.com