当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 2 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 如何提取网页中的特定字符串?
帖子发表于 : 2009-06-27 19:48 

注册: 2008-09-06 10:04
帖子: 509
送出感谢: 0 次
接收感谢: 0 次
比如这个 http://www.informatik.uni-trier.de/~ley ... g=Han.html

我要将某一论文的题目析取出来,并将作者逐个析取出来怎么做?

就是说,我有这样一个类,并得到了上面页面的html源码。如何初始化下面这个类。
class Paper {
private String tilte;
private String[] author;
……
}

对于这个页面,应该初始化两个 Paper类。

注:作者是从每个单元格开头到第一个冒号结束,并以逗号格开。题目则是紧接着刚才那个冒号知道第一个英文句号。
每个单元格对应一篇论文。


附件:
result.png
result.png [ 164.43 KiB | 被浏览 267 次 ]

页首
 用户资料  
 
2 楼 
 文章标题 : Re: 如何提取网页中的特定字符串?
帖子发表于 : 2009-06-27 19:56 
头像

注册: 2007-05-08 16:26
帖子: 2058
地址: 火星内核某分子内某原子核内
系统: arch
送出感谢: 20
接收感谢: 6
我有个取网页内容的机器人: http://github.com/sevk/kk-irc-bot/
用 ruby 写的.


_________________
笔记本 :
F208S : gentoo
A460P i3G D6 : UBUNTU + WIN7
UN43D1 : UBUNTU + WIN7
1000人超级QQ群 LINUX + WIN : 31465544 或 18210387


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 2 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译