Soláthraíonn Semalt Leideanna maidir le Conas Déileáil le Róbónna, Damháin alla agus Crawlers

Seachas URLanna a thacaíonn le hinneall cuardaigh a chruthú, ligeann an comhad .htaccess do stiúrthóirí gréasáin bots ar leith a bhacadh ó rochtain a fháil ar a suíomh Gréasáin. Bealach amháin chun na robots seo a bhacadh ná tríd an gcomhad robots.txt. Deir Ross Barber, Bainisteoir Rath Custaiméirí Semalt , áfach, go bhfaca sé roinnt crawlers ag déanamh neamhaird den iarraidh seo. Ceann de na bealaí is fearr is ea an comhad .htaccess a úsáid chun iad a chosc ó d’ábhar a innéacsú.

Cad iad na róbónna seo?

Is cineál bogearraí iad a úsáideann innill chuardaigh chun ábhar nua a scriosadh ón idirlíon chun críocha innéacsaithe.

Déanann siad na tascanna seo a leanas:

  • Tabhair cuairt ar leathanaigh ghréasáin a bhfuil nasc agat leo
  • Seiceáil do chód HTML le haghaidh earráidí
  • Sábhálann siad na leathanaigh ghréasáin a bhfuil tú ag nascadh leo agus feiceann siad na leathanaigh ghréasáin a nascann le d’ábhar
  • Déanann siad innéacsú ar do chuid ábhair

Mar sin féin, tá roinnt bots mailíseach agus cuardaigh do shuíomh le haghaidh seoltaí ríomhphoist agus foirmeacha a úsáidtear de ghnáth chun teachtaireachtaí nó turscar nach dteastaíonn a sheoladh chugat. Bíonn daoine eile fiú ag lorg bealaí éalaithe slándála i do chód.

Cad atá ag teastáil chun crawlers gréasáin a bhac?

Sula n-úsáidtear an comhad .htaccess, ní mór duit na rudaí seo a leanas a sheiceáil:

1. Caithfidh do shuíomh a bheith ag rith ar fhreastalaí Apache. Sa lá atá inniu ann, tugann fiú na cuideachtaí óstála gréasáin sin leath réasúnta ina bpost, rochtain duit ar an gcomhad riachtanach.

2. Ba cheart go mbeadh rochtain agat ar logaí freastalaí amh do shuíomh Gréasáin ionas gur féidir leat na bots a bhí ag tabhairt cuairte ar do leathanaigh ghréasáin a aimsiú.

Tabhair faoi deara nach bhfuil aon bhealach ann go mbeidh tú in ann gach róbó díobhálach a bhac mura gcuireann tú bac orthu go léir, fiú iad siúd a mheasann tú a bheith cabhrach. Tagann bots nua suas gach lá, agus athraítear na cinn níos sine. Is é an bealach is éifeachtaí ná do chód a dhaingniú agus é a dhéanamh deacair do bots spam a chur ort.

Róbónna a aithint

Is féidir bots a aithint leis an seoladh IP nó óna "Teaghrán Gníomhaire Úsáideora," a sheolann siad na ceanntásca HTTP. Mar shampla, úsáideann Google "Googlebot."

B’fhéidir go mbeidh 302 bots ag teastáil uait ar an liosta seo má tá ainm an bot agat cheana féin ar mhaith leat a choinneáil ar shiúl ag baint úsáide as .htaccess

Bealach eile is ea na comhaid logála go léir a íoslódáil ón bhfreastalaí agus iad a oscailt trí eagarthóir téacs a úsáid. D’fhéadfadh go n-athróidh a suíomh ar an bhfreastalaí ag brath ar chumraíocht do fhreastalaí. Mura féidir leat iad a fháil, iarr cúnamh ó d’óstach gréasáin.

Má tá a fhios agat cén leathanach ar tugadh cuairt air, nó am na cuairte, is fusa teacht le bot nach dteastaíonn. D’fhéadfá an comhad logála a chuardach leis na paraiméadair seo.

Uair amháin, thug tú faoi deara na róbónna a chaithfidh tú a bhac; is féidir leat iad a áireamh ansin sa chomhad .htaccess. Tabhair faoi deara le do thoil nach leor an bot a stopadh chun é a stopadh. Féadfaidh sé teacht ar ais le IP nó ainm nua.

Conas iad a bhac

Íoslódáil cóip den chomhad .htaccess. Déan cúltacaí más gá.

Modh 1: blocáil le IP

Déanann an snippet cód seo an bot a bhlocáil ag úsáid an seoladh IP 197.0.0.1

Ordú Deny, Ceadaigh

Shéan ó 197.0.0.1

Ciallaíonn an chéad líne go gcuirfidh an freastalaí bac ar gach iarratas a mheaitseálann na patrúin atá sonraithe agat agus a cheadóidh do gach iarratas eile.

Deir an dara líne leis an bhfreastalaí leathanach 403: toirmiscthe a eisiúint

Modh 2: Blocáil ag gníomhairí Úsáideora

Is é an bealach is éasca inneall athscríobh Apache a úsáid

AthscríobhEngine Ar

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

AthscríobhRule. - [F, L]

Cinntíonn an chéad líne go gcumasaítear an modúl athscríobh. Is í líne a dó an coinníoll lena mbaineann an riail. Deir an "F" i líne 4 leis an bhfreastalaí 403: Toirmiscthe a chur ar ais agus ciallaíonn an "L" gurb é seo an riail dheireanach.

Déanfaidh tú an comhad .htaccess a uaslódáil ansin chuig do fhreastalaí agus an ceann atá ann a fhorscríobh. Le himeacht ama, beidh ort IP an bot a nuashonrú. I gcás go ndéanann tú botún, ní gá ach an cúltaca a rinne tú a uaslódáil.

mass gmail