Spesso si ha l’esigenza di dover estrarre del testo da una stringa html.
Girando per stackoverflow ho raccolto qualche idea e condensata in una singola riga di codice da usare in una funzione di libreria di InDe:
new IDVariant(System.Web.HttpUtility.HtmlDecode(new System.Text.RegularExpressions.Regex("<[^>]+>|\\s{2}", System.Text.RegularExpressions.RegexOptions.IgnoreCase).Replace($1.stringValue(), "")))
L’ho testata con una paginetta semplice (una email di outlook) e pare funzionare, ovviamente si perdono tutti i ritorni a capo (aggirabile) e non so se potrebbe bloccarsi e dare errore in certi casi, specialmente per l’utilizzo della Regex.