不是为了去造更好的轮子,只是为了能够更好的理解和使用,所以对于string内部的成员函数如何实现是非常值得学习的。
String的模拟实现
- 1. 实现简单的string
- 2. 深浅拷贝
- 3. 实现一个完整的string
1. 实现简单的string
对于一个简单的string来说,就是实现他的默认成员函数,且成员变量值给一个char* _str
,这里还是用了一个命名空间,是因为害怕自己所写的和库里面自带的分不清楚,所以在调用的时候,也要把命名空间带上例如 wzy::string s("hello");
。
#include<iostream>
using namespace std;
namespace wzy
{
class string
{
public:
//这个是调用无参的对象
//string(const char* str)
// :_str(new char[1])
//{
// _str[0] = '\0';
//}
//①建议写一个全缺省的构造函数
//②对于任意的一个字符串即使是空字符串""里面也有一个默认的‘\0’
string(const char* str = "")
:_str(new char[strlen(str)+1])
{
strcpy(_str, str);
}
~string()
{
delete[] _str;
_str = nullptr;
}
//s3(s1)
//拷贝构造
string(const string& s)
//对于拷贝构造函数来说,如果只是实现简单的浅拷贝,那么就会在析构的时候出错,所以需要深拷贝
//什么是深拷贝呢:自己重新开辟一个空间,然后在指向他
:_str(new char[strlen(s._str) + 1])
{
strcpy(_str, s._str);
}
//在写这个的时候要想清楚,你的operator[]到底想要什么
char& operator[](size_t i)
{
return _str[i];
}
//如果只是简单的浅拷贝,也会出现程序崩的情况
//赋值运算符(这两个对象都已经被创建出来了) s3 = s1
//此时你的s3对象需要和你的s1对象一样大,但是我哪知道他们两个哪个大,所以我直接把s3的空间释放掉,然后和s1对象开一样大就好了
//但是此时还需要考虑是否你自己会给自己赋值呢?
//那么为什么会考虑这种情况呢:是因为你如果自己给自己赋值的话,代码一上来就已经把你的这段空间给释放了
string& operator=(const string& s)
{
if (this != &s)
{
delete[] _str;
_str = new char[strlen(s._str) + 1];
strcpy(_str, s._str);
}
return *this;
}
//返回C格式字符串
const char* c_str()
{
return _str;//再次说明,对于成员变量来说,成员函数可以随意的调用
}
private:
char* _str;
};
};
2. 深浅拷贝
对于上述的拷贝构造函数和赋值运算符来说,如果只是使用简单的浅拷贝(默认生成的成员函数),那么在使用的时候就会报错。
拿s1去拷贝构造s3,但是如果只是使用浅拷贝也叫值拷贝,那么s3会得到s1的数据和地址,然后他们两个的char*指针都会指向同一块空间,此时修改s1的数据,s3的数据也会跟着修改,他们两个对象之间的独立性出现了问题。最致命的问题出现在析构函数的时候,先定义出来的后析构,此时你会去先析构s3,那么s3指向的空间将会被释放掉,然后你再去析构s1的时候,s1指向的空间已经没有了,然后就随机的释放了一块空间,然后就会报错。所以这里引入了深拷贝,也就是我重新的给你的s3开一个和我s1一样大的空间,然后再把我s1上有的数据拷贝给你,此时他们两个之间就具有独立性了,提示:这里的空间都是在堆上所开辟的,然而对空间的地址都是自下向上逐渐变大的(但也不一定)
3. 实现一个完整的string
对于完整的string来说,就是要尽可能的模拟出string类里面常用到的成员函数
#include<iostream>
using namespace std;
namespace wzy
{
class string
{
public:
typedef char* iterator;
typedef const char* const_iterator;
string(const char* str = "");
~string();
string(const string& s);
string& operator=(const string &s);
//
// iterator
iterator begin();
iterator end();
const_iterator begin()const;
const_iterator end()const;
/
// modify
void push_back(char c);
string& operator+=(char c);
void append(const char* str);
string& operator+=(const char* str);
void clear();
void swap(string& s);
const char* c_str()const;
/
// capacity
size_t size()const;
size_t capacity()const;
bool empty()const;
void resize(size_t n, char ch = '\0');
void reserve(size_t n);
/
// access
char& operator[](size_t i);
const char& operator[](size_t i)const;
/
// 返回c在string中第一次出现的位置
size_t find(char ch, size_t pos = 0);
// 返回子串s在string中第一次出现的位置
size_t find(const char* sub, size_t pos = 0);
// 在pos位置上插入字符c/字符串str,并返回该字符的位置
string& insert(size_t pos, char c);
string& insert(size_t pos, const char* str);
// 删除pos位置上的元素,并返回该元素的下一个位置
void earse(size_t pos, size_t len = npos);
private:
char* _str;
size_t _size;
size_t _capacity;
static const size_t npos;
}
const size_t string::npos = -1;
bool operator<(const string& s1, const string& s2);
bool operator<=(const string& s1, const string& s2);
bool operator>(const string& s1, const string& s2);
bool operator>=(const string& s1, const string& s2);
bool operator==(const string& s1, const string& s2);
bool operator!=(const string& s1, const string& s2);
ostream& operator<<(ostream& out, const string& s);
istream& operator>>(istream& in, string& s);
};
①构造函数
你会发现,如果你使用初始化列表,那么就要多次的写strlen(str)
,对于内置类型其实写在内部更好,这里的成员变量_capacity表示“能存多少个效字符” ,其中’\0’是标识符,不能算在里面
提示:初始化列表的顺序并不是真的顺序,声明的顺序才是初始化列表的真实顺序
string(const char* str)
{
_size = strlen(str);
_capacity = _size;//这里的容量代表“能存多少个效字符” ‘\0’是标识符
_str = new char[strlen(str) + 1];
strcpy(_str, str);
}
②析构函数
~string()
{
delete[] _str;
_str = nullptr;
}
③拷贝构造
这里将会提出传统写法和现代写法的不同,当本质是不变的,就是使代码更加的简洁了,在一定的程度上其实可读性变差了。
传统写法
开和s一样大的空间,然后再把s中的数据拷贝过去
string(const string& s)
:_str(new char[strlen(s._str) + 1])
{
strcpy(_str, s._str);
}
现代写法
现代写法就像是一个资本家一样,活都不是它来干的,而是别人干完之后,他直接把别人的劳动成果拿过来的感觉。
wzy::string s3(s1)
此时我创建了一个tmp的对象,然后让他去调s1的构造函数,帮tmp进行开一样大的数组空间,然后在把数据拷贝过去,此时这个tmp就是我s3想要的,那么就直接交换就好了(但是交换完以后,_str就是指向的tmp所开辟空间的位置,那么tmp就指向了原先_str的位置,所以这里必须要对开始的_str进行初始化,不然交换完以后tmp就指向了一个随机值,然后tmp出了作用域就会调用自身的析构函数,对随机值进行释放就会报错)
string(const string& s)
:_str(nullptr)
, _size(0)
, _capacity(0)
{
string tmp(s._str);
std::swap(_str, tmp._str);
std::swap(_size, tmp._size);
std::swap(_capacity, tmp._capacity);
}
④operator=
赋值运算符和拷贝构造一样,如果只是使用简单的浅拷贝,也会出现报错的问题
对于传统写法来说是要考虑:
- 禁止自己给自己赋值
- 释放自己的原来的空间在和s开一样大的空间,再把空间的内容拷贝过来
传统写法
string& operator=(const string& s)
{
if (this != &s)
{
delete[] _str;
_str = new char[strlen(s._str) + 1];
strcpy(_str, s._str);
}
return *this;
}
现代写法s3 = s1
这里厉害在是一个传值,不再是引用,对于对象s来说,本身就是调用了s1的拷贝构造函数,那么你的s就是我这里s3想要的,直接交换就好。并且出了作用域s自己会调用析构函数,进行释放(这里其实更加的狠,我不但咬你所创造出来的东西,并且我还把我不想要的东西甩给你)
string& operator=(string s)
{
std::swap(_str, s._str);
std::swap(_size, s._size);
std::swap(_capacity, s._capacity);
return *this;
}
⑤operator[]
对于operator来说是有一个断言的,一旦越过了数组,就直接崩掉
char& operator[](size_t i)
{
assert(i < _size);//越界会直接崩掉
return _str[i];
}
const char& operator[](size_t i)const
{
assert(i < _size);//越界会直接崩掉
return _str[i];
}
⑥size()
size_t size()const
{
return _size;
}
⑦reserve()
这里的n表示预留的有效字符的个数,但是一定要想要应该给’\0’留一个位置
void reserve(size_t n)
{
if (n > _capacity)
{
//char* tmp = realloc(_str, n);
char* tmp = new char[n+1];//这里最好写为new,第一是匹配前面的new,第二就是对于new来说是不需要检查的,开辟失败,会抛异常
strcpy(tmp, _str);
delete[] _str;
_str = tmp;
_capacity = n;
}
}
⑧resize()
既然有了reserve()那么就要实现一下resize(),但是这个接口是不常使用的
void resize(size_t n,char ch = '\0')
{
//为了避免不停的因为预留空间缩小放大而申请释放空间,发生的抖动问题
if (n < _capacity)
{
_str[n] = '\0';
_size = n;
}
else
{
if (n > _capacity)
{
reserve(n);
}
for (size_t i = _size; i < n; ++i)
{
_str[i] = ch;
}
_str[n] = '\0';
_size = n;
}
}
在这里插入代码片
⑨push_back()
不管在任何时候都得记住,只要添加数据,就要考虑增容的问题.
void push_back(char ch)
{
if (_size == _capacity)
{
//这里不要直接的扩二倍,要考虑长远一些,应为还需要实现一个reserve()接口
reserve(2 * _capacity);
}
_str[_size] = ch;
++_size;
_str[_size] = '\0'; //如果不加这一句,那么你放入的字符就会覆盖掉\0,那么他就不知道字符串何时结束,就会崩了
}
⑩append()
相当于C语言的strcat,区别就是不用在考虑空间是否足够,因为他会自己增扩容
void append(const char* str)
{
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
strcpy(_str + _size, str);
_size += len;
}
⑪operator+=
但是一般情况下是不建议使用push_back()和append()的,建议直接使用‘+=’
string& operator+=(char ch)
{
push_back(ch);
return *this;
}
string& operator+=(const char* str)
{
append(str);
return *this;
}
string& operator+=(const string& s)
{
append(s._str);
return *this;
}
⑫swap()成员函数
就会很奇怪,为什么已经有一个全局的swap()函数了,还需要自己在定义一个成员函数呢? swap(s1,s2);
s1.swap(s2);
这两个哪一个更好一些?其实是作为成员函数来说更好,因为在调用成员函数的时候,只是把指向s1._str和s2._str的指针进行了一个交换,就完成了。但是对于你的swap(s1,s2)来说是一个函数模板,template < class T>
void swap(T& a, T& b)
,对于这个模板会实例化出来具体的函数,需要使用到拷贝构造和赋值运算符,刚好这两个都是深拷贝,所以其实代价还是很大的
void swap(string& s)
{
// ::swap(_str,s._str); 前面没有给的时候,表示去全局域找,当然这里给一个std更加清楚
std::swap(_str,s._str);
std::swap(_size, s._size);
std::swap(_capacity, s._capacity);
}
所以有了这个内部的成员函数swap(),其实还可以对拷贝构造operator=的现代写法进行一个简化,直接调用这个接口。
⑬迭代器—iterator
迭代器是像指针一样的类型,但不一定是指针,但是他们的“用法”大多都一样,我们所认为的迭代器非常的高大上,其实不然,就是一种很好的封装,上层隐藏了具体信息
namespace wzy //对于同一个命名空间,里面的类是会合并的
{
class string
{
public:
//迭代器是像指针一样的类型,但不一定是指针,但是他们的“用法”大多都一样
//我们所认为的迭代器非常的高大上,其实不然,就是一种很好的封装,上层隐藏了具体信息
typedef char* iterator;//目前在string里面就可以简单的认为迭代器就是char*的指针
typedef const char* const_iterator;
iterator begin()
{
return _str;
}
iterator end() //可以理解为你的end就是指向的‘\0’的位置
{
return _str + _size;
}
const_iterator begin()const
{
return _str;
}
const_iterator end()const //可以理解为你的end就是指向的‘\0’的位置
{
return _str + _size;
}
private:
//你会发现在windows下这里的成员变量还有一个char buff[16],其实这里就是使用了一种空间换时间的方式,如果你的字符串比较短
//就会直接的存储在buff里面,而不用在进行下面的开空间步骤了,但是如果字符串比较长,那么你的这个buff空间就直接浪费掉
char* _str;
int _size;
int _capacity;
};
};
这里可以理解为你的begin()就是指向数组的起始位置,而你的end()指向_size的位置,也就是字符串的’\0’的位置
int main(0
{
wzy::string::iterator it = s.begin();
//auto it = s.begin(); 可以使用auto去推类型,但是你不知道他返回的具体类型,其实并不是很好
while (it != s.end())
{
cout << *it << " ";
++it;
}
cout << endl;
}
⑭范围for
对于范围for的底层其实就是使用迭代器去帮他遍历整个字符串
⑮insert()
实现了insert就可以对push_back进行改造了 intsert(_size,ch);
void insert(size_t pos, char ch)
{
assert(pos <= _size);
if (_size == _capacity)
{
reserve(2 * _capacity);
}
size_t end = _size + 1;
while (end > pos)
{
_str[end] = _str[end - 1];
--end;
}
_str[pos] = ch;
_size++;
}
void insert(size_t pos, const char* str)
{
assert(pos <= size); //=pos的时候相当于尾插
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
//此时空间已经够了
size_t end = _size + len;
while (end >= pos + len)
{
_str[end] = _str[end - len];
--end;
}
strncpy(_str + pos, str, len);
_size += len;
}
⑯earse()
如果这里不单独判断这个len可能就会发生溢出的问题,因为如果你的npos是-1,那么它转换为无符号的整形就已经是最大值了,然后你在加len,就有可能会溢出。
void earse(size_t pos, size_t len = npos)
{
assert(pos < _size);
if (len == npos || pos + len >= _size) //如果这里不单独判断这个len可能就会发生溢出的问题
{
_str[pos] = '\0';
_size = pos;
}
else
{
strcpy(_str + pos, _str + pos + len);
_size -= len;
}
}
⑰c_str()—以C格式返回字符串
给一个const,那么都可以调用这个const函数
const char* c_str()const
{
return _str;
}
⑱find
找到了就返回索引,没找到就返回-1
size_t find(char ch,size_t pos = 0) //因为只能从右往左缺省
{
for (size_t i = pos; i < _size; ++i)
{
if (_str[i] == ch)
{
return i;
}
}
return npos;
}
size_t find(const char* sub, size_t pos = 0)
{
const char* ret = strstr(_str + pos, sub);
if (ret == nullptr)
{
return npos;
}
else
{
return ret - _str;
}
}
⑲operator>和operator==
对于其他的都可以使用这两个接口来复用
bool operator>(const string& s1, const string& s2)
{
//这里需要按照ASCII值去比较
size_t i1 = 0, i2 = 0;
while (i1 < s1.size() && i2 < s2.size())
{
if (s1[i1]> s2[i2])
{
return true;
}
else if (s1[i1] < s2[i2])
{
return false;
}
else
{
++i1;
++i2;
}
}
if (i1 < s1.size())
{
return true;
}
else if (i2 < s2.size())
{
return false;
}
else
{
//此时是相等的情况
return false;
}
}
bool operator==(const string& s1, const string& s2)
{
//这里需要按照ASCII值去比较
size_t i1 = 0, i2 = 0;
while (i1 < s1.size() && i2 < s2.size())
{
if (s1[i1]> s2[i2])
{
return false;
}
else if (s1[i1] < s2[i2])
{
return false;
}
else
{
++i1;
++i2;
}
}
if (i1 == s1.size() && i2 == s2.size())
{
return true;
}
else
{
return false;
}
}
⑳operator<< 和operator>>
ostream& operator<<(ostream& out, const string& s)
{
for (size_t i = 0; i < s.size(); ++i)
{
out << s[i];
}
return out;
}
istream& operator>>(istream& in, string& s) //对于cin来说遇见换行和空格都会停止
{
s.resize(0);
char ch;
while (1)
{
in.get(ch);
if (ch == ' ' || ch == '\n')
{
break;
}
else
{
s += ch;
}
}
return in;
}
operator>和operator==
只需实现这两个,剩下的几个都可以采用复用的方式
bool operator>(const string& s1, const string& s2)
{
//这里需要按照ASCII值去比较
size_t i1 = 0, i2 = 0;
while (i1 < s1.size() && i2 < s2.size())
{
if (s1[i1]> s2[i2])
{
return true;
}
else if (s1[i1] < s2[i2])
{
return false;
}
else
{
++i1;
++i2;
}
}
if (i1 < s1.size())
{
return true;
}
else if (i2 < s2.size())
{
return false;
}
else
{
//此时是相等的情况
return false;
}
}
bool operator==(const string& s1, const string& s2)
{
//这里需要按照ASCII值去比较
size_t i1 = 0, i2 = 0;
while (i1 < s1.size() && i2 < s2.size())
{
if (s1[i1]> s2[i2])
{
return false;
}
else if (s1[i1] < s2[i2])
{
return false;
}
else
{
++i1;
++i2;
}
}
if (i1 == s1.size() && i2 == s2.size())
{
return true;
}
else
{
return false;
}
}