Aquí va una pequeña función para eliminar las etiquetas html de una cadena de texto, pudiendo indicar en un array cuales sí queremos permitir:
class Html
def Html.strip_tags(text, tags)
text = text.dup
text.gsub!(/(<(\w+)(\s+[^>]+)?>)(.*?)(<\/\2>)/) {
if (tags.include?($2.downcase))
$1 + $4 + $5
else
$4
end
}
text.gsub!(/(<(\w+)(\s+[^>]+)?>)/) {
if (tags.include?($2.downcase))
$1
end
}
text
end
end
Html.strip_tags("<h3>título</h3> <strong>texto de prueba</strong>",
["strong", "em"])
=> título <strong>texto de prueba</strong>
):
si permitiese que colasen cualquier tipo de código html dentro de los comentarios, alguien con ‘mala follá’ podría insertar código javascript ‘porculero’ o insertar imágenes de 3000 pixels y descojonar todo el blog.
Nos explicas a los mortales analfabetos que es un poco mas generalmente esta funcion??
Para limpiar un Source html y quedarnos solo con el texto???
Es Java??Java Script??Otros??