[分享]发一个可以去除html标签的函数

cgk100 · #1

搞了半天终于写了出来了，还希望大家给做测试呀，这是一个可以去除html标签的函数，就是可以把包括尖括号以及尖括号内去除的函数。

代码：全选

public class Replace {

	public String rep(String html) {

		String str = html;
		try {
			

			while (html.indexOf("<") > -1 && html.indexOf(">")>-1) {
				int begin = 0, right = 0;
				begin = html.indexOf("<"); // 起点
				html=html.substring(begin);
				right = html.indexOf(">");// 终点
				String area = html.substring(0, right + 1); // 获得尖括号及之间的内容
				html = html.substring(right + 1); // 右尖括号之后的内容
				str = str.replace(area, "");
				
			}

		} catch (Exception e) {
			System.out.println(e.toString());
		}

		return str;
	}

	public static void main(String[] args) {

		Replace rep = new Replace();
		System.out.println(rep.rep("home</a> > <a href=\"http://www.foot.com/shopping/index.php?osCsid=5108o0ib4hgq9r45rj1eeipl91\" class=\"headerNavigation\">shopping</a> >>"));

	}

}

ine181x · #2

如果是要把html转换成普通文本，还应该能够把转义字符也变了才好，我以前用的时候也写过这样的函数的

cgk100 · #3

二楼的兄弟说的是，那些转义字符用replace就可以了的，谢谢提醒。

patrickhe · #4

有几个问题：
1. HTML 正文文本里面也是可能有左右尖括号的。
2. 用这种简单的字符串查找的效率是很低的，比较合宜的是利用 regex 处理。

如果只是要从一个 HTML 页面中去除 HTML 标签，使用 HtmlParser 就可以轻松完成这个任务。

jomper · #5

HTML 正文文本里面的左右尖括号一般是转义的&gt 什么的.

cgk100 · #6

四楼的兄弟说的那个还没有做过，回头看看

AutumnHealth · #7

去除文本中的html标签，用一个正则表达式就可以了
javascript中的实现：

代码：全选

String.prototype.stripHTML = function() {
    var reTag = /<(?:.|\s)*?>/g;
    return this.replace(reTag, "");
};