Egyik leggyakrabban előforduló probléma és az a fajta jelenség ami legtöbb weboldal esetén nem is kerül felismerésre. Nem kevés forgalomtól eshet el a weboldal duplikált tartalommal (na és még környezetszennyező is).
Keresők részéről világosak az okai a duplikált tartalom ellen eszközölt kemény algoritmikus “intézkedéseknek”: elsősorban komoly veszély a találati listák minőségére, több találatra azonos vagy nagyban hasonló tartalmak listázása, másrészt pedig nem kevés terhelést jelenthetnek a kereső robotok számára a scriptekkel generált, reprodukált tartalmak.
(A SEO eszközök szekcióban találhatóak duplikált tartalmakat kereső eszközök)
Cikkemben leírom a tipikus duplikált tartalmat okozó hibákat, amelyekre érdemes figyelni, ha nem szeretnénk hátrasorolásokat a kulcsszavas helyezéseinkben vagy rosszabb esetben indexen kívülre kerülni, súlyosabb hibák által.
Duplikált tartalom – büntetés és a backlinkek
A keresők nagyon rosszul kezelik a duplikált tartalmakat néhány esetben, pl. amikor nem a tartalmat lopó oldal szenvedi a duplikált tartalom kárát, hanem az “eredeti” kerül 30 hellyel hátrébb a fő kulcsszavaira a keresőben.
Duplikált tartalom esetén a jó minőségű backlinkek legjobb eszközök a büntetés ellensúlyozására, kiegészítő találatokból való kikerülésre (tartalomlopás esetén – újrapublikáltak tartalmakat az oldalunkról és nincs más eszközünk a probléma megszüntetése ellen).
Jól mutatja, hogy többnyire backlinkek alapján mérlegel a Google kérdéses esetekben, az is, hogy az ún. article site-ok, remek találati helyen szerepelnek többszörösen publikált hosszú cikkekkel is. Tehát magas Pagerankel és nagyobb bizalommal rendelkező weblapok esetén könnyebben veszi a Google a duplikált tartalmat is…
Duplikált tartalom szintjei és büntetések
- Teljes azonosság két weboldal között: mind az url struktúra, mind a tartalom azonos a két domainen, egyetlen apró különbséget csupán a domain neve adja.
- Struktúrális azonosság és tartalmi hasonlóság a két weboldal között: lopott tartalomból scriptekkel generált a második oldal tartalma, néhány kisebb módosításoktól eltekintve megegyezik azzal az oldalról ahonnan a lopott tartalom származik.
- Tartalmi hasonlóság néhány oldalon: két – vagy esetleg több webes forráson is publikált tartalom – , lehetnek azonos szöveges blokkok vagy teljes tartalmi átfedés is.
- Teljesen azonos oldal struktúra, részlegesen hasonló tartalom.
Első és második esetnél egyértelmű az esély a teljes kizárásra, hogy a klón oldal teljes tartalma eltűnjön az indexből, harmadik esetben az előző bekezdésben tárgyaltakat kell számításba venni, különböző fajtái vannak a büntetésnek, egyik az amikor elsőoldalas találatot pontosan 30 hellyel sorolja hátra a Google.
Negyedik eset ritkább történet, gondoljunk olyan esetre amikor egy már működő link-katalógus url és kategória struktúráját másolják le új link-katalógus készítésekor, egy kis munkát megspórolva, ilyen esetekben is érzékelhet a kereső duplikációt, nem kell csodálkozni, ha az elején nehezen indul el forgalom a klónozott szerkezettel bíró instant directory website…
Utóbbin túl ezernyi módja lehet még a duplikációk azonosításának, úgy mint gyanú esetén többféle lenyomatok összehasonlítása, oldalak méretének összehasonlítása, talán majd ír valaki róla egy könyvet egyszer, térjünk rá gyakorlati példákra.
Duplikált tartalom – példák
- Multiplikált URL-ek, ugyanazon oldalra hivatkozva:
https://www.domain.hu – https://www.domain.hu/index.htm
https://domain.hu – https://domain.hu/index.htm
Példák URL-ekre amelyek ugyanazon egy oldalra hivatkozhatnak és szerencsétlen esetben kereső a rossz linkelési technikának köszönhetően be is indexel többet vagy mindet, mert nem ismeri fel az url-ek duplikációját.
Ezekután az oldal multiplikált url-jein “folyik szét” a Pagerank, oszlik meg a relevancia. - Multiplikált URL-ek, hasonló tartalommal: paramétereket tartalmazó url-ek, amelyeknél az oldal kimenete számtalan rendezési formában más, de tartalomban ugyanaz.
Url-ben a felhasználóknak Session ID-t kölcsönző weboldalaknál hasonló a probléma. - “Nyomtatóbarát változat”: oldal nyomtatásra optimalizált verziója, amely tartalmában ugyanaz, csak formátumában különbözik. Ne felejtsük el ilyen oldalak esetén használni használni META tag-ek között a noindex parancsot (esetleg robots.txt)
- Saját oldalon már megjelent cikk újrapublikálása más oldal(ak)on (pl. Wikipedia):a cikk elején már említett article site-okon való újrapublikálása egy bejegyzésünknek nem ajánlott, ha a keresők felől forgalmat várunk az adott cik révén.
- Oldal típusának állandó sajátosságaiból adódó duplikációk: pl. webáruházak, ahol rengeteg újrapublikált termékinformáció kerül felsorolásra, halmozott hátrányt jelenthet, ha egy olyan elterjedt script alatt kerültek megvalósításra amiben SEO szempontból kritikus elemeknél nincs meg a változtatás lehetősége (Title, Description, …). Fokozottan kell ügyelni az ilyen jellegű oldalaknál a duplikációk kerülésére.
- RSS aggregátor scriptekkel tartalmat építő oldalak: gyakori jelenség az RSS aggregátor megoldásokat alkalmazó több forrásból épülő tartalom, más oldalak (többnyire blogok) tartalmait újrapublikálása “hírgyűjtő” oldalakon. Bizonyos fokig talán ártalmatlan és felkészült a kereső az RSS elterjedése óta az ismétlődő snippetekre, de érdemes minél rövidebb tartalmat átadni a cikkből RSS-ben.
- Lopott tartalom publikálásával duplikáció keletkezése: szó volt erről is már a cikkben, legkellemetlenebb probléma.
A https://copyscape.com oldalon található egy online alkalmazás ami segít duplikált tartalmak felkutatásában.
Ami esetleg kimaradt arról meg majd a kommentekben.
21 hozzászólás
Ez a téma több helyen előkerült, de még mindig nem tiszta: mi a helyzet az egy weboldal – több domain esetében?
Példák:
– ékezet nélküli és ékezetes változat,
– elgépelésből adódó hiba kiköszöbölésére nagyon hasonló domain
Ha végiggondolom a dolgot, akkor ha felveszem aldomainnek, tehát a “másik” domainen is elérhető a tartalom, az duplikált. Ha átirányítom a fő domainre, az nem duplikált tartalom, hiszen a második domainen gyakorlatilag nincs tartalom.
Jól gondolom? Mi az átirányítás seo szempontból legjobb technikája a fenti esetekben?
szep osszefoglalo, grat hozza :)
HSLaszlo: Jol gondolod, 301es atiranyitassal biztonsagban leszel es nem kell a duplikalt tartalom miatt aggodni.
Gratula,
tökéletes összefoglaló!
Talán ami hiányzik belőle, hogy milyen büntetésket von maga után, illetve milyen gyorsan lehet belőle kilábalni, ha megszüntetted a duplikált tartalmat ;)
Érdemes lenne arról is írni egy cikket, hogy egy csomó írott, vagy íratlan szabály, amiről szó van itt is és más SEO -val foglalkozó blogokban, egyáltalán nem biztos, hogy kicsinyke országunk hungarian web -én is igaz.
Duplikált tartalom? Van egy oldalam amit valaki kéretlenül lemásolt és feltöltött az atw-re. 1:1 másolatot. Az én oldalam az első a találati listán a legfontosabb kulcsszóra, a másolat meg a harmadik.
Megkerestem ezzel az atw-t, és bár elismerték az egyezést, az oldalt nem távolítják el bírói határozat nélkül. Most komolyan… rég elavul a tartalom mire egy bírói határozat születik ebben az országban…
Így aztán a véleményem: másoljatok nyugodtan le bármit, töltsétek fel az atw szerverére és semmi gond nem lesz.
ManiAc: az alapvető az, hogy magyarországon – szerintem – még nincs “kézi” spam szűrés, nemzetközi szinten, főleg a globális google.com -ot illetően, a legkompetetívebb, legkiemelkedőbb kifejezésekre, kézzel gyomlálnak régóta.
A Te esetedet illetően, ilyen példákat én is ismerek sajnos, van olyan oldal amelynek végzem az optimalizálását és teljes tükörtartalma van egy másik domainen, néhány esetben egymás közelében vannak a taláélati oldalon egy kifejezésre, mert nem ismerte fel a Google a duplikációt, ez addig megy amíg teljes ban nem lesz idővel.
Rosszul kezeli a Google a dolgot, nem egyszerű feladat az biztos.
Lényegében egyetértünk.
Én úgy látom, hogy nálunk a linkfarmokért se tiltás jár, ahogy azt sok helyen írják, hanem előresorolás.
Sok tükk van még, amit nálunk nyugodtan lehet csinálni, mindig várom mikor fognak tiltani ezekért, aztán nem nagyon változik semmi. Lehet, hogy egyszerűen kicsi ez a nyelvterület.
Long, jó a cikked!
Szerintem egy hatékony és egyszerű megoldás lehetne a Google kezében: IP címek, IP címtartományok blokkolása EGYSZER ÉS MINDENKORRA azaz bannolás Drákói szigorral.
A Google mi a sz@rért nem blokkolja pl. a proxy IP-k indexelését?!! A proxykon keresztül újraindexeli az egész internetet!!! A saját index adatbázisát duplázza, triplázza, sokszorozza. Újabb szerverparkokba invesztál, ahelyett hogy ésszel szűrné a proxy-duplikált lapokat.
Szóval mégegyszer: a Drákói szigor hiányzik, bannolás ÖRÖKRE.
Ne félj ManiAc, ha a Google keresné meg az atw-t, hogy bannolni fogja az IP-t, ha az atw saját hatáskörben nem intézi el (tünteti el) a duplikációkat – az atw nem sz@rakodna, hanem már délutánra letörölné a webszemetet, mint a sicc, nem kellene hozzá bírói döntés…
Én webhoszting szolgáltató is vagyok. Ha megtudnám, hogy valamelyik partnerem duplikál, úgy dobnám ki örökre, hogy a lába nem érné a földet…
Akkor egy konstruktív javaslat: miért ne lehetne a webtárhely Szolgáltatási Szerződés része, hogy “nem helyezhető el a tárhelyen törvénybe ütköző, vagy duplikált tartalom, illetve rosszindulatú kód, stb…” Én biztosan a sajátom részévé teszem.
A kereségi tapasztalataimra hagyatkozva, nem úgy tűnik, hogy ezek az összehasonlító algoritmusok olyan jól működnének. Mostanában is gyakran megesik, főleg a php tartalm? oldalaknál.
Tetszett a cikked, duplikált tartalommal foglalkoztam egy ideig blackhat témakörben. Egy biztos, akik ipari méretekben csinálják, nem aggódnak érte. :D
es mivan a sajtoanyagokkal? MTI hirei(meg kb mindenfele sajtokozlemenyek) 820 peldanyban jarnak korbe szo szerint, egy betu valtoztatas nelkul.
duplikalt tartalom valahol, lustak az ujsagirok is persze,de szerintem ez nem a szandekos rosszindulatu duplikalas esete.
ilyenkor is szamitani lehet a buntire?
Itt is az érvényesül, hogy a magasabb bizalommal rendelkező portál simán lehet akár első is egy újrapublikált cikk tartalmával – a kiemelt kulcsszavaira, míg egy “gyengébb” portál a Google első oldalának a közelébe se fog érni.
Ilyen feelingben volt élményem vica és versa is. :)
Amikor Patai Laci elkért tőlem egy adsense-el kapcsolatos cikket a joomla blogjára, akkor a magasabb PR értéke miatt az általa újrapublikált cikk volt sokáig a top10-ben, az én blogomban lévő eredeti meg nagyjából seholse.
Viszont volt olyan nem egyszer, hogy – valószínűleg azért, mert tematikusan relevánsabb az oldalam -, index.hu-ról kölcsönvett cikkajánlóm (egy indexes cikk első pár mondata) előrébb volt a SERPen. Mondjuk az én pár soros cikkajánlóm az jobban is optimalizált szöveg volt (heading, kiemelés, egyéb onsite technikák).
gabesas: a sajtóanyagokkal nincs gáz. Van egy bizonyos tűrésküszöbe a Googlenek is, ami a duplikált tartalmat illeti. Az a gáz, ha egy site 100%-ban duplicated contentből áll, bár ez sem egy teljesen igaz állítás. (Gondoljunk a különféle kimondottan hírajánló siteokra, vagy ahogy valaki már említette, az article directoryk sem feltétlen az egyedi anyagaikról híresek, mégis ott vannak a találati listákban.)
És mit lehet tenni a következő esetben:
vettem egy témát, és csináltam róla egy honlapot az extra tárhelyére, tehát ingyenes szolgáltatóra. A téma tudtam, hogy új és hamarosan nagyon ismert lesz. Annyira új, hogy a tema.hu domainje is szabad volt, csak a hibát ott vétettem, hogy nem vettem meg a domaint. Jött valaki, aki megvette tema.hu-t és egy az egyben lemásolta az oldalam. A google természetesen engem büntet már kb 2 hónapja, pedig megnéztem neki ninsc egy visszlinkje se, én pedig azért csináltam párat, hogy ne büntessen már a google. Azt nem látja a google, hogy a webmasters toolsba nekem előbb volt regisztrálva a honlapom, mint ahogy az ő tema.hu oldala? Pedig ennyivel el lehetne dönteni az összes ilyen duplikált tartalmat, akit büntetnek. Melyik oldal volt előbb, és kész, máris kiderül, ki lopta, ki nem. Egyébnként engem annyira büntet, ha beirom a keresőbe https://oldalam.extra.hu a találatok legvégére tesz. Ilyenkor szerintetek mi a teendő? Ja próbáltam felvenni a kapcsolatot a “lopó” oldallal, kúltúrált hangon e-mailen keresztül, de persze le se szart…
Üdv.
[…] duplikált tartalom az egyik leggyakrabban előforduló jelenség, ami hátrányos hatással van a weboldalak […]
Kedves Longhand!
Rendszeresen olvasom a blogot, nagyon jók a bejegyzések. Az lenne a kérdésem, hogy bizonyos kulcsszavakra tudjuk-e úgy erősíteni a találati helyezésünket, ha létrehozunk egy saját wiki-t (wiki.domainnev.hu), ahova feltöltünk bizonyos tartalmakat, rendszeres hivatkozásokat biztosítva a portálunkra. Ez duplikált tartalomnak minősül és büntet érte a Google?
Előre is köszönöm!
[…] alkalmazásának a támogatását is. Február elején jelent meg új opcióként a site-on belüli duplikációk okozta hátrányok kiküszöbölésére a parancs. Immár két különböző domain alatti URL-eken […]
több oldalam is van, és szeretném őket megvizsgálni, hogy duplikációk vannak-e rajtuk (elsősorban a www és nem www-s eset érdekel.)
Hol tudom ezt lekérdezni?
üdv:T:
Örülök, hogy rátaláltam erre a cikkre, nagyon hasznos volt.
Ettől függetlenül miért kell már ide is like gomb? Mennyit profitálhat ennek elhelyezéséből egy ehhez hasonló oldal? Szerintem nem sokat, az FB viszont annál többet.
Nagyon hasznos volt számomra a bejegyzés. Nem is gondoltam, hogy a duplikáció ilyen problémákat okozhat.
Üdv!
Mi van abban az esetben ha én publikáltam már tartalmakat egy nagyobb oldalra és csak később csináltam meg a saját oldalamat, ahova az eddigi tartalmaimat feltöltöttem?
Szabi
Sziasztok
Elolvastam a cikket és most jövök rá, hogy az én oldalamon is elég sok diplikáció van. A segitségeteket szeretném kérni hogyan alakithatnám ki az oldalam stukturáját legelönyösebben hogy elkeülhessem a dublikációkat. Egy használtautókat hirdető oldalt csinalgatok ahol pl. egy Békés megyei opel astrát a következő oldalakon érhetek el:
1. http://www.domain.com/ itt az összes személyautó, teherautó, potkocsi, motorkerékpár megjelenik
2. http://www.domain.com/autok/ itt csak a személyautók jelennek meg
3.www.domain.com/autok/opel/ itt csak az opel személyautók jelennek meg
4.www.domain.com/autok/opel/astra/ itt csak az opel astra személyautók jelennek meg
5.www.domain.com/autok/bekes/ itt a Békés megyei személyautók jelennek meg
6.www.domain.com/autok/bekes/opel/ itt a Békés megyei opel személyautók jelennek meg
7.www.domain.com/autok/bekes/opel/astra/ itt a Békés megyei opel astra személyautók jelennek meg
Ezek szerint itt rengeteg a diblikáció.
A google webmaster tools ban csak azok az azonos meta leirások jelennek meg amik különböző rendezési paraméterek miatt adodtak. Volt ahol a rendezéseket megszüntettem volt ahol a Link rel=”canonical”, használtam.
Bármilyen tanacsot szivesen látok
Tisztelettel:
Csongi