Hola, em dic Iván, tinc 16 anys i actualment estic cursant el meu primer any de cicle formatiu en informàtica. En aquest espai aniré compartint el que aprenc: des de conceptes bàsics de maquinari i programari, fins a programació, xarxes i projectes personals. El meu objectiu és anar creixent pas a pas en aquest món de la tecnologia i, al hora, deixar aquí un registre del meu progrés. Espero que trobis interessant el contingut i que aquest racó sigui útil tant per a mi com per a qualsevol que també estigui començant al camí de la informàtica.
Ivan Rodriguez Jimenez
Programació del WebScraping

Programació del WebScraping

Recollida de dades: Utilitzem unes eines que entren a les pàgines web, busquen la informació que ens interessa i la deixen neta i preparada.

Centre de control (Servidor): Una aplicació que fa de pont: rep els dubtes dels usuaris i s’encarrega d’enviar-los la resposta.

Intel·ligència Artificial: Fem servir la tecnologia de Google (Gemini) perquè el sistema pugui redactar les respostes de forma intel·ligent

Com funciona la cerca d’informació

  • Punt de partida: El sistema comença a llegir la pàgina principal i d’allà es mou per tot el web.
  • Límit i selecció: Visita un màxim de 200 pàgines i ignora fitxers pesats (com fotos o PDF) per anar més de pressa i no perdre el temps amb coses inútils.
  • Neteja de dades: Hem configurat el sistema perquè ignori els menús i els peus de pàgina que es repeteixen sempre. Així, la intel·ligència artificial només llegeix el text important de cada apartat.

Li hem donat un pormpt al xatbot per a que sapigui que respondre.

Connexió entre el web i el sistema

  • El pont de connexió: Com que no tenim un servidor professional comprat, fem servir una eina que crea un túnel segur des d’internet fins al meu ordinador.
  • Com s’activa: Aquesta eina ens dóna una adreça web especial. Només hem d’enganxar aquesta adreça dins de WordPress per «avisar» el xat que ja pot començar a enviar-nos les preguntes dels usuaris.