微博内容正则表达式匹配链接, 话题标签与@用户

简介: 需要找出微博正文中的链接(主要为http链接),话题标签(#内容#),@用户,用正则表达式解决之,暂时找到的方案如下1.

需要找出微博正文中的链接(主要为http链接),话题标签(#内容#),@用户,用正则表达式解决之,暂时找到的方案如下

1. 链接

正则表达式

(?:^|[\\W])((ht|f)tp(s?):\\/\\/|www\\.)(([\\w\\-]+\\.){1,}?([\\w\\-.~]+\\/?)*[\\p{Alnum}.,%_=?&#\\-+()\\[\\]\\*$~@!:/{};']*)
Java程序示例

 /**
       * URL正则表达式
       */
 private static final Pattern urlPattern = Pattern.compile(
            "(?:^|[\\W])((ht|f)tp(s?):\\/\\/|www\\.)"
            + "(([\\w\\-]+\\.){1,}?([\\w\\-.~]+\\/?)*"
            + "[\\p{Alnum}.,%_=?&#\\-+()\\[\\]\\*$~@!:/{};']*)",
            Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);
 /**
  * 去掉文本中URLs
  * @param text
  * @return
  */
  public static String removeURLs(String text){
      Matcher matcher;
      String newTweet = text.trim();
      String cleanedText="";
      while(!newTweet.equals(cleanedText)){
          cleanedText=newTweet;
          matcher = urlPattern.matcher(cleanedText);
          newTweet = matcher.replaceAll("");
          newTweet =newTweet.trim();
      }
      return cleanedText;
 }
	
 /**
  * 获得文本中URL列表
  * @param originalString
  * @return
  */
 public static List<String> getURLs(String originalString){
     List<String> urlsSet=new ArrayList<String>();
     Matcher matcher = urlPattern.matcher(originalString);
     while (matcher.find()) {
         int matchStart = matcher.start(1);
         int matchEnd = matcher.end();
         String tmpUrl=originalString.substring(matchStart,matchEnd);
         urlsSet.add(tmpUrl);
         // now you have the offsets of a URL match
         originalString=originalString.replace(tmpUrl,"");
         matcher = urlPattern.matcher(originalString);
     }
     return urlsSet;
 }


2. 话题标签

正则表达式

#[^#]+#
Java程序示例

/**
  * Hashtag正则表达式
  */
// private static final Pattern hashtagPattern = 
//    Pattern.compile("(?:^|\\s|[\\p{Punct}&&[^/]])(#[\\p{L}0-9-_]+)");
   private static final Pattern hashtagPattern = 
       Pattern.compile("#[^#]+#");
private static String removeHashtags(String text){
        Matcher matcher;
        String newTweet = text.trim();
        String cleanedText="";
        while(!newTweet.equals(cleanedText)){
                cleanedText=newTweet;
                matcher = hashtagPattern.matcher(cleanedText);
                newTweet = matcher.replaceAll("");
                newTweet =newTweet.trim();
        }
        return cleanedText;
    }
	
	public static List<String> getHashtags(String originalString){
        List<String> hashtagSet=new ArrayList<String>();
        Matcher matcher = hashtagPattern.matcher(originalString);
        while (matcher.find()) {
//            int matchStart = matcher.start(1);
        	int matchStart = matcher.start();
        	int matchEnd = matcher.end();
            String tmpHashtag=originalString.substring(matchStart,matchEnd);
            hashtagSet.add(tmpHashtag);
            originalString=originalString.replace(tmpHashtag,"");
            matcher = hashtagPattern.matcher(originalString);
        }
        return hashtagSet;
    }


 
 

3. @用户

正则表达式

@[\u4e00-\u9fa5a-zA-Z0-9_-]{2,30}
Java程序示例

/**
 * 用户@正则表达式
 * 新浪微博中的用户名格式为是“4-30个字符,支持英文、数字、"_"或减号”, 
 * 也就是说,支持中文、字母、数字、下划线及减号,并且是4到30个字符(这里暂且认为汉字为一个字符)
 * 那么在写匹配的表达式的时候就可以这么来写:    @[\u4e00-\u9fa5a-zA-Z0-9_-]{4,30} 
 */
 // private static final Pattern usermentionPattern = 
//      Pattern.compile("(?:^|\\s|[\\p{Punct}&&[^/]])(@[\\p{L}0-9-_]+)");    
    private static final Pattern usermentionPattern = 
        Pattern.compile("@[\u4e00-\u9fa5a-zA-Z0-9_-]{2,30}");
public static String removeUserMentions(String text){
        Matcher matcher;
        String newTweet = text.trim();
        String cleanedText="";
        while(!newTweet.equals(cleanedText)){
                cleanedText=newTweet;
                matcher = usermentionPattern.matcher(cleanedText);
                newTweet = matcher.replaceAll("");
                newTweet =newTweet.trim();
        }
        return cleanedText;
    }
	
	public static List<String> getUsermentions(String originalString){
        List<String> usermentionsSet=new ArrayList<String>();
        Matcher matcher = usermentionPattern.matcher(originalString);
        while (matcher.find()) {
//            int matchStart = matcher.start(1);
        	int matchStart = matcher.start();
            int matchEnd = matcher.end();
            String tmpUsermention=originalString.substring(matchStart,matchEnd);
            usermentionsSet.add(tmpUsermention);
            originalString=originalString.replace(tmpUsermention,"");
            matcher = usermentionPattern.matcher(originalString);
        }
        return usermentionsSet;
    }


 
 


目录
相关文章
|
5月前
|
Python
"揭秘!Python如何运用神秘的正则表达式,轻松穿梭于网页迷宫,一键抓取隐藏链接?"
【8月更文挑战第21天】Python凭借其强大的编程能力,在数据抓取和网页解析领域表现出高效与灵活。通过结合requests库进行网页请求及正则表达式进行复杂文本模式匹配,可轻松提取网页信息。本示例展示如何使用Python和正则表达式解析网页链接。首先确保已安装requests库,可通过`pip install requests`安装。接着,利用requests获取网页内容,并使用正则表达式提取所有`&lt;a&gt;`标签的`href`属性。
62 0
|
2月前
|
存储 Kotlin
正则表达式在Kotlin中的应用:提取图片链接
正则表达式在Kotlin中的应用:提取图片链接
|
5月前
|
SQL 分布式计算 算法
【python】python指南(三):使用正则表达式re提取文本中的http链接
【python】python指南(三):使用正则表达式re提取文本中的http链接
55 0
|
数据采集
正则表达式匹配html标签,获取标签内容
正则表达式匹配html标签,获取标签内容
|
PHP
php正则表达式函数preg_replace替换span标签
php正则表达式函数preg_replace替换span标签
86 0
|
人工智能 小程序 算法
微信小程序正则表达式提取链接
问题 通过复制视频软件的链接会得到类似如下的内容(可见并不是纯文字的),已经打码解决办法 通过正则表达式: 1、新建方法get_url 2、调用即可 效果: 完整处理后: 好了,就到这里了
248 0
微信小程序正则表达式提取链接
|
JavaScript
关于在input标签中输入数字的问题(正则表达式)
在项目开发中遇到文本框限制输入内容的问题,自己在网上找了找,又加了点自己的,简略写出了几个,在这写一下,希望对其他人有所帮助。 可在input标签中根据情况加入属性: 情况1:需要只能输入数字: onkeyup='this.value=this.value.replace(/\D/gi,"")' 情况2:需要只能输入小数(牵扯到金额等): onkeyup="this.va
1841 0